Identification des protéines avec un domaine DCX
Les protéomes humains et de souris ont été recherchés pour des séquences similaires à celle du domaine DCX humain donnant un total de 22 protéines contenant une ou deux répétitions DCX (tableau 1, les séquences complètes utilisées dans la présente étude se trouvent dans la figure supplémentaire. 1).
Des domaines de protéine kinase sérine/thréonine ont été trouvés dans trois protéines homme/souris (DCLK, DCLK2 et DCLK3), et un domaine ricin prédit pour lier les hydrates de carbone a été trouvé dans une protéine homme/souris appelée FLJ46154. La structure des protéines FLJ46154 et DCDC2B humaines différait de celle des autres protéines à répétitions en tandem ; elles contenaient une répétition plus semblable à la répétition C-terminale de DCX, qui apparaissait dans la partie N-terminale de cette protéine, et une seconde répétition plus semblable à la répétition N-terminale de DCX. Chez les orthologues murins de ces deux protéines, un seul domaine DCX était présent. Tous les gènes de la souris résident dans des régions chromosomiques (Fig. 1b), qui sont synthétiques aux orthologues humains (Fig. 2 supplémentaire). Ceci inclut également l’emplacement de DCDC1 et BAC26042, cependant ils ne sont pas de vrais orthologues puisque la similarité de séquence est très faible (52%, parmi 46 sur 86 acides aminés) seulement dans le domaine DCX, et l’analyse phylogénétique et évolutive, décrite ci-dessous, indique qu’ils sont différents. BAC26042 est également unique par sa proximité physique avec FLJ46154, la distance entre ces deux gènes n’étant que de 2 kb, ce qui suggère qu’ils pourraient partager des éléments régulateurs communs.
Cette étude se concentre sur les domaines DCX, et ne porte pas sur les protéines pleine longueur. Une analyse phylogénétique a été menée pour les domaines DCX individuels, en séparant les parties N- et C-terminales (figure 2). Plusieurs caractéristiques intéressantes sont ressorties de l’analyse phylogénétique des domaines DCX humains et murins. La majorité des gènes humains avaient un orthologue de la souris. Deux gènes n’obéissent pas à cette règle car ils n’ont pas d’orthologues non ambigus (DCDC1 humain et BAC26042 de souris). De plus, dans la plupart des cas, les domaines DCX situés à l’extrémité N-terminale étaient plus similaires à d’autres domaines N-terminaux qu’aux domaines C-terminaux de la même protéine. Les deux exceptions ont déjà été mentionnées : DCDC2B humaine et FLJ46154. L’analyse de séquence combinant la BLAT et l’analyse phylogénétique a identifié les relations orthologues listées dans le tableau 1.
Puis, nous avons étendu l’analyse des séquences en incluant plusieurs génomes non mammaliens supplémentaires. Initialement, l’analyse englobait les protéines trouvées dans la base de données des domaines conservés CDD . Par la suite, ces recherches ont été élargies par des recherches BLAST, TBLASTN et BLAT. En utilisant la recherche BLAT, des séquences d’opossum, de rat et de singe rhésus ont été ajoutées. Les séquences de Ciona ont été ajoutées en utilisant l’analyse TBLATN par rapport aux données génomiques, et seules les séquences correspondant aux EST ont été incluses. Par conséquent, la présente analyse phylogénétique a inclus les protéines contenant le motif DCX de l’homme, du chimpanzé, de la souris, de la vache, du chien, du poulet, du poisson, des vers, des insectes, des grenouilles, des champignons et des ascidies (les alignements multiples sont fournis dans la figure 3 supplémentaire). L’analyse des protéines à domaine DCX en tandem (67 protéines) a donné lieu à un arbre non enraciné avec des valeurs de bootstrap présentées dans la figure 3.
Quatre groupes de protéines sont facilement catégorisés dans l’arbre du domaine DCX tandem, qui contient 67 protéines. De haut en bas, le groupe de RP1 et RP1L1 comprend des orthologues de la grenouille Xenopus laevis, du poisson (poisson zèbre Danio rerio, et poisson-globe Tetraodon nigrovidis), du poulet, de la vache, du chien, de la souris, du rat, du chimpanzé et de l’homme. Le deuxième groupe comprend des protéines similaires à DCDC2A (précédemment connue sous le nom de DCDC2, nom approuvé par le Comité de nomenclature des gènes HUGO) provenant de mammifères, y compris l’opossum (un marsupial), ainsi que le poulet, le poisson, la grenouille et des organismes plus simples tels que l’ascidie Halocynthia roretzi et l’ascidie Ciona intestinalis. Le troisième groupe de protéines ne contient pas de protéines de mammifères, mais des protéines de l’amibe sociale Dictyostelium discoideum et une protéine de Ciona intestinalis. Des protéines similaires ont été identifiées chez la drosophile, Drosophila melanogaster, le moustique de la malaria, Anopheles gambiae, et l’abeille domestique, Apis mellifera. En outre, deux protéines similaires des vers Caenorhabditis elegans (ZYG-8) et Caenorhabditis briggsae sont détectées dans ce groupe. Le quatrième groupe de protéines comprend les protéines les plus similaires à DCX, DCLK et DCLK2. Ce groupe comprend des protéines de mammifères, de poulets, de poissons, et une protéine de Ciona intestinalis. Cette analyse des protéines à deux domaines a été suivie d’une analyse des protéines à domaines N- et C- terminaux (figures supplémentaires 4-5). Cent sept protéines ont été analysées dans le groupe N, et cent une protéines dans le groupe C, ce qui suggère qu’il y a légèrement plus de protéines similaires à la partie N-terminale de DCX. La subdivision générale en quatre groupes a été préservée. L’inspection des protéines composant l’arbre phylogénétique N-terminal a permis de détecter que des protéines supplémentaires ont été ajoutées principalement au troisième groupe contenant la protéine Dictyostelium discoideum (comprenant 8 membres). Des protéines de mouches et de vers ont également été ajoutées à ce groupe. Le génome de la mouche à fruits contient cinq protéines DCX, dont quatre sont des répétitions uniques. En outre, plusieurs protéines de mammifères ont également été ajoutées à ce groupe. Ce groupe a été augmenté pour contenir 26 membres dans le groupe N et 19 membres dans le groupe C. Ce groupe comprenait une protéine de l’organisme unicellulaire Plasmodium falciparum, le parasite de la malaria.
L’inspection des protéines composant l’arbre phylogénétique C-terminal a détecté un groupe contenant toutes les protéines DCLK3. Il faut noter que ce groupe dans son ensemble est bien distinct de DCX, DCLK, et DCLK2. Les protéines de ce groupe contiennent un seul domaine DCX provenant de mammifères (homme, chimpanzé, vache, rat et opossum), mais aussi de mouches à fruits, d’abeilles domestiques et de moustiques atteints de malaria. Une exception est la protéine de ciona qui marque ce groupe (Sca_10), qui a une répétition en tandem. Un des groupes contient à la fois des protéines DCDC2A et DCDC2B, et encore un autre groupe contient plusieurs protéines DCDC2B, ce qui suggère des séquences probablement moins conservées au cours de l’évolution dans les domaines C-terminaux de ce sous-ensemble de protéines.
Lors de l’analyse des protéines du domaine DCX, la présence de domaines DCX en tandem ou simples a été notée dans les orthologues correspondants. La façon la plus simple d’expliquer ces différences peut être par la perte de séquences intergéniques. L’analyse des limites exon-intron a inclus toutes les espèces de mammifères et le poulet, puisqu’il s’agit d’un vertébré non-mammifère, suffisamment proche du mammifère pour rendre la comparaison possible (tableau 2). En général, l’emplacement des limites intron-exon est très conservé. Dans certains cas, la présence d’un exon supplémentaire ne modifie pas la longueur des acides aminés qui font partie des domaines DCX. C’est le cas de DCDC2C ; la plupart des espèces contiennent un seul exon, alors que l’orthologue de la vache la séquence d’acides aminés correspondante est divisée en deux exons. Cependant, dans la plupart des cas, l’absence d’un exon implique une réduction de l’information sur les acides aminés. Par exemple, FLJ46154 contient chez la plupart des espèces trois exons, alors qu’il n’y en a que deux chez la souris et dans la séquence correspondante chez le rat. Par conséquent, chez la souris et le rat, un seul domaine DCX a été identifié dans la région correspondant aux domaines DCX humains de FLJ46154. Cette analyse permet également d’identifier les moments clés de l’évolution des protéines à domaine DCX. L’ancêtre vertébré commun des mammifères et des oiseaux remonterait à 310 millions d’années, les marsupiaux se sont séparés du groupe principal (placentaire) il y a environ 180 millions d’années, et les humains et les rongeurs se sont séparés de leur arbre généalogique évolutif il y a environ 87 millions d’années. L’analyse ci-dessus a révélé qu’il est probable que BAC26042 ait été perdu au cours de l’évolution (chez la souris, il existe deux exons, alors que le rat et le singe rhésus n’en possèdent qu’un seul). Cette analyse a été compliquée par une séquence prédite chez le rat (XM_230359) qui est une séquence fusionnée contenant à la fois FLJ46154 et BAC26042. Cependant, nous avons des preuves expérimentales qui ne soutiennent pas l’existence de cette séquence fusionnée. Les anticorps que nous avons générés contre la protéine FLJ46154 de souris reconnaissent une protéine de la taille prédite pour FLJ46154 dans un extrait de cerveau de souris (figure supplémentaire 6). Ainsi, nous avons mené notre analyse en nous basant sur les données humaines, qui sont dérivées des données ARNm et EST, et sur les données de la souris qui sont basées sur les données EST, soutenues par nos données expérimentales. DCLK3 a été généré après la séparation des mammifères et des oiseaux. BAC26042, FLJ46154 et DCDC2C ont été générés après la séparation des marsupiaux du groupe principal des placentaires. DCDC1 a été généré après la séparation des humains et des rongeurs. Selon cette analyse, les gènes les plus conservés dans cette superfamille sont DCX, DCLK et DCDC2A.
Après l’analyse des deux groupes comprenant les domaines N- et C- terminaux, une analyse pour toutes les protéines DCX a été réalisée (données non présentées). Comme observé précédemment pour les protéines humaines et de souris (Fig. 2), les domaines N- et C- terminaux étaient plus similaires entre eux qu’avec la répétition correspondante au sein de la même protéine. Ce résultat suggère que les duplications du domaine DCX étaient anciennes, et que ces deux répétitions ont probablement différé dans leurs fonctions. La sous-spécialisation des motifs DCX N-terminaux et C-terminaux peut être visualisée au niveau des séquences logos. Auparavant, quatre blocs conservés (A-D) dans le motif DCX ont été identifiés, ces blocs conservés sont montrés dans le bas de la figure 4. Lorsque la région N-terminale a été analysée séparément de la région C-terminale, il était évident que le A et des portions des sous-domaines B et C spécifient le N-terminal, tandis qu’une portion du sous-domaine C spécifie le C-terminal (Fig. 4). Ce résultat a été obtenu en utilisant l’algorithme de recherche de motifs de l’échantillonneur de Lawrence Gibbs. Des résultats similaires ont été obtenus avec l’algorithme de recherche de motifs MOTIF de Smith (données non présentées). Cette analyse indique que bien que les domaines en tandem partagent une courte séquence d’acides aminés similaires, le domaine N-terminal possède un bloc unique très conservé d’acides aminés.
Analyse d’expression par hybridation in situ
En tenant compte des similitudes entre les différents paralogues du domaine DCX, et de leurs fonctions communes en relation avec la transduction du signal et la régulation des microtubules , il est important d’établir quand et où ces gènes sont exprimés. Cela aidera à délimiter leur fonction potentielle. Par exemple, la distinction entre l’expression d’un gène spécifique dans les cellules en prolifération, en migration ou en différenciation est essentielle lorsqu’on essaie de comprendre la fonction du gène. De plus, la coexpression dans un tissu particulier peut indiquer que les paralogues pourraient coopérer ou être redondants.
Notre analyse a été réalisée par hybridation in situ à E14,5, un stade auquel de nombreux types de cellules différenciées caractéristiques d’un organisme adulte se sont formés mais en même temps de tels tissus embryonnaires de mi-gestation contiennent encore des cellules progénitrices. Cette analyse a été réalisée dans le but de générer un « instantané » du profil d’expression. À l’exception de Dcdc2B, qui est exprimé de manière ubiquitaire (Fig. 5D), les profils d’expression des gènes codant pour les protéines contenant des répétitions de DCX sont plus ou moins régionaux. Dcx, Dclk et Dclk2 sont exprimées dans le système nerveux central et périphérique, y compris le cerveau, la moelle épinière, les ganglions de la racine crânienne et dorsale et dans les ganglions parasympathiques (Fig. 5A-C). Une vue à haute puissance (Fig. 5E-H) montre que dans le néocortex en développement, les transcrits Dcx et Dclk sont beaucoup plus abondants dans la préplaque, mais des cellules individuelles exprimant les gènes Dcx et Dclk peuvent être détectées dans la zone ventriculaire. Dclk2 et Dcdc2B sont tous deux exprimés dans le néocortex en développement, de manière largement uniforme et à des niveaux faibles, mais plus prononcés dans la zone ventriculaire que Dcx et Dclk. En dehors du système nerveux, les sites proéminents d’expression de Dcx et Dclk sont les muscles squelettiques, les muscles de la langue et les cellules individuelles de l’épithélium olfactif (Fig. 5A,B). Ce dernier tissu exprime également Dclk2 (Fig. 5C).
BAC26042, FLJ46154 et Dcdc2A présentent des profils d’expression hautement régionaux, qui dans le cerveau semblent être similaires pour BAC26042 et FLJ46154 (Fig. 5I-K). Les figures 5I et 5J montrent des coupes sagittales du cerveau antérieur où les transcrits BAC26042 et FLJ46154 sont présents dans le septum, dans divers groupes de cellules du thalamus ventral et dans l’hypothalamus postérieur. D’autres sites d’expression sont un groupe de neurones à la base du bulbe olfactif (Fig. 5I,J), la zone prétectale, le noyau facial, et des neurones épars dans les parties ventrale et dorsale de la moelle épinière (données non présentées). L’expression de Dcdc2A dans le SNC est limitée à un groupe de neurones épars dans la partie la plus latérale du cervelet en développement (Fig. 5K). BAC26042 et Dcdc2A sont exprimés dans les plexi choroïdes (Fig. 5I,K).
La majorité des gènes codant pour les répétitions DCX sont exprimés dans la rétine en développement. Trois types de motifs émergent : Les transcrits Dcx, Dclk, Dclk2 sont fortement exprimés dans la couche neuroblastique interne postmitotique (Fig. 5L-N), tandis que BAC26042 et FLJ46154 sont également exprimés dans cette couche, mais de façon plus restreinte près de sa surface et à sa surface (Fig. 5P,Q). Enfin, les transcrits de Rp1l1 se trouvent dans la couche neuroblastique externe qui contient des cellules en prolifération (Fig. 5O). Des cellules exprimant Dcx, Dclk ou Dclk2 disposées radialement sont détectées dans la couche neuroblastique externe, ce qui rappelle la situation observée dans la zone ventriculaire du néocortex (Fig. 5E-G).
En outre, le poumon et le rein expriment Dcx, Dclk et Dcdc2A. Des transcrits de Dclk2 sont également trouvés dans l’ovaire en développement et une faible expression est également observée dans tout le rein (données non présentées).
Notre analyse a inclus la plupart des 11 gènes énumérés dans le tableau 1, les exceptions étant Dclk3, et Dcdc2C pour lesquels nous n’avons pas encore pu identifier de modèles appropriés. Rp1 a également été examiné mais il n’est pas exprimé à E14.5, sauf une expression notée dans certaines cellules de la ligne médiane de la moelle épinière (données non présentées). Pour résumer nos études, nous avons constaté que les tissus destinés à répondre aux stimuli électriques – systèmes nerveux central et périphérique et muscles squelettiques – représentent les sites d’expression les plus frappants des gènes codant pour les répétitions DCX. En dehors de ces tissus, l’expression est le plus souvent faible et généralement non régionale, les exceptions étant le rein et le poumon.
Analyse d’expression chez l’homme et la souris
La pertinence des approches de génomique fonctionnelle utilisant des modèles murins pour étudier les maladies humaines dépend évidemment de la similitude de l’expression des gènes dans les deux espèces. Ainsi, nous avons comparé l’expression des membres humains de la superfamille des gènes DCX étudiés dans cette étude avec leurs orthologues de souris. À cette fin, nous avons utilisé la base de données Unigene du site web des données d’expression. Les profils d’expression dépendant du tissu pour les protéines humaines et murines contenant des répétitions DCX ont été générés à partir du nombre d’EST fourni par UNIGENE . La comparaison entre la souris et l’homme étant un élément clé, l’analyse a été limitée aux tissus présentant un nombre total élevé d’EST communs aux deux organismes. Nous avons analysé les données de dix gènes humains différents et de huit gènes de souris. Pour deux gènes humains, il n’y avait pas de données d’expression correspondantes chez la souris : DCDC2B, qui a un orthologue de souris qui n’est pas répertorié dans UNIGENE, et DCDC1, qui n’a pas d’orthologue de souris. Les données d’expression regroupées résultant de cette analyse sont présentées Fig. 6A et une corrélation gène-gène basée sur ces informations est présentée Fig. 6B.
Nous avons testé la signification de la corrélation par une analyse de permutation aléatoire. Les corrélations ont été recalculées 1000 fois après rescamblage pour chaque gène indépendamment de tous les tissus au hasard. Nous avons constaté que toutes les corrélations élevées (>0,5) étaient significatives (p < 0,01). Deux groupes révélant une corrélation très élevée ont été observés. Le groupe le plus important comprenait RP1 et RP1L1 humains, ainsi que leurs orthologues murins. En outre, DCDC1, qui jusqu’à présent avait été signalé comme étant principalement exprimé dans les testicules et le cerveau embryonnaire, a été inclus dans ce groupe. Ce groupe est caractérisé par des niveaux élevés d’expression dans l’œil, ce qui est commun à la plupart des protéines DCX, et a été noté dans notre analyse in situ. En plus de l’expression dans l’œil, ces gènes sont exprimés à des niveaux plus faibles seulement dans quelques autres tissus. Dans ce groupe, il n’y a pas de distinction claire dans la corrélation gène-gène de l’expression chez la souris et l’homme. La corrélation entre les différents membres de ce groupe est >0,9 dans tous les cas. La protéine FLJ46154 de l’homme et de la souris est liée à ce groupe, mais la corrélation entre la FLJ46154 de l’homme et de la souris est faible (0,3). Les protéines-produits de ces deux gènes ont également divergé, avec une perte d’un domaine DCX dans la protéine de la souris. Ainsi, il est possible qu’il y ait eu moins de conservation dans les régions régulatrices de ces gènes également.
Le deuxième groupe présentant des corrélations gène-gène élevées comprend les gènes murins Dcx, Dclk, et Dclk2, et leurs orthologues humains. Le DCLK2 humain présente des corrélations un peu plus faibles avec son orthologue murin (0,4) que les autres gènes de ce groupe. Cela peut être dû à ses niveaux d’expression généralement plus faibles (Fig. 6A). Nos données in situ indiquent également une grande similarité dans la co-expression de Dcx, Dclk et Dclk2. En outre, notre analyse fonctionnelle a indiqué que ce groupe partage davantage de propriétés et qu’ils sont les seuls à interagir avec la protéine d’échafaudage neurabine 2. Un troisième groupe de gènes présentant des niveaux de corrélation plus faibles comprend DCDC2A, DCLK3, Dcdc2A et Dclk3. Dans ce groupe, la corrélation entre les orthologues correspondants ne dépasse pas 0,5. Il convient de noter qu’il existe quelques corrélations élevées supplémentaires entre différents gènes, par exemple : DCLK3 et Flj46154, ou FLJ46154 avec DCX, DCLK et Dcx.