Identifizierung von Proteinen mit einer DCX-Domäne
Die Proteome von Mensch und Maus wurden nach Sequenzen durchsucht, die denen der menschlichen DCX-Domäne ähneln. Dabei wurden insgesamt 22 Proteine gefunden, die ein oder zwei DCX-Wiederholungen enthalten (Tabelle 1, die vollständigen Sequenzen, die in der vorliegenden Studie verwendet wurden, sind in der ergänzenden Abb. 1 zu finden. 1).
Serin/Threonin-Proteinkinase-Domänen wurden in drei Mensch/Maus-Proteinen (DCLK, DCLK2 und DCLK3) gefunden, und eine Ricin-Domäne, die Kohlenhydrate binden soll, wurde in einem Mensch/Maus-Protein mit der Bezeichnung FLJ46154 gefunden. Die Struktur der menschlichen FLJ46154- und DCDC2B-Proteine unterscheidet sich von anderen Proteinen mit Tandem-Wiederholungen; sie enthalten eine Wiederholung, die der C-terminalen Wiederholung von DCX ähnlicher ist, die im N-terminalen Teil dieses Proteins auftritt, und eine zweite Wiederholung, die der N-terminalen Wiederholung von DCX ähnlicher ist. In den Maus-Orthologen dieser beiden Proteine war nur eine DCX-Domäne vorhanden. Alle Mausgene befinden sich in chromosomalen Regionen (Abb. 1b), die mit den menschlichen Orthologen übereinstimmen (ergänzende Abb. 2). Dies gilt auch für DCDC1 und BAC26042, die jedoch keine echten Orthologe sind, da die Sequenzähnlichkeit nur in der DCX-Domäne sehr gering ist (52 %, bei 46 von 86 Aminosäuren) und die unten beschriebene phylogenetische und evolutionäre Analyse darauf hinweist, dass sie unterschiedlich sind. BAC26042 ist auch einzigartig in seiner engen physischen Nähe zu FLJ46154, der Abstand zwischen diesen beiden Genen beträgt nur 2 kb, was darauf hindeutet, dass sie gemeinsame regulatorische Elemente teilen.
Diese Studie konzentriert sich auf die DCX-Domänen und umfasst nicht die Proteine in voller Länge. Die phylogenetische Analyse wurde für die einzelnen DCX-Domänen durchgeführt, wobei die N- und C-terminalen Teile getrennt wurden (Abb. 2). Aus der phylogenetischen Analyse der DCX-Domänen von Mensch und Maus ergaben sich mehrere interessante Merkmale. Die Mehrzahl der menschlichen Gene hat ein Maus-Ortholog. Bei zwei Genen gilt diese Regel nicht, da sie keine eindeutigen Orthologe haben (menschliches DCDC1 und Maus-BAC26042). Darüber hinaus waren die N-terminal gelegenen DCX-Domänen in den meisten Fällen anderen N-terminalen Domänen ähnlicher als den C-terminalen Domänen desselben Proteins. Die beiden Ausnahmen wurden bereits erwähnt: menschliches DCDC2B und FLJ46154. Die Sequenzanalyse, die BLAT und phylogenetische Analyse kombiniert, ergab die in Tabelle 1 aufgeführten orthologen Beziehungen.
Als nächstes haben wir die Sequenzanalyse erweitert, indem wir mehrere zusätzliche Nicht-Säugetier-Genome einbezogen haben. Zunächst umfasste die Analyse Proteine, die in der Datenbank CDD (Conserved Domain Database) gefunden wurden. Anschließend wurde die Suche durch umfangreiche BLAST-, TBLASTN- und BLAT-Suchen erweitert. Mit der BLAT-Suche wurden Sequenzen von Opossum, Ratte und Rhesusaffe hinzugefügt. Ciona-Sequenzen wurden mit Hilfe der TBLATN-Analyse gegen die genomischen Daten hinzugefügt, und nur die Sequenzen, die ESTs entsprechen, wurden einbezogen. Somit umfasste die vorliegende phylogenetische Analyse DCX-Motiv-enthaltende Proteine von Mensch, Schimpanse, Maus, Kuh, Hund, Huhn, Fisch, Wurm, Insekt, Frosch, Pilz und Seescheide (multiple Alignments sind in ergänzender Abb. 3 dargestellt). Die Analyse der Tandem-DCX-Domänenproteine (67 Proteine) ergab einen unbewurzelten Baum mit Bootstrap-Werten, die in Abb. 3 dargestellt sind.
Vier Gruppen von Proteinen lassen sich in dem Baum der Tandem-DCX-Domäne, der 67 Proteine enthält, leicht kategorisieren. Von oben nach unten umfasst die Gruppe von RP1 und RP1L1 Orthologe aus Frosch Xenopus laevis, Fisch (Zebrafisch Danio rerio und Kugelfisch Tetraodon nigrovidis), Huhn, Rind, Hund, Maus, Ratte, Schimpanse und Mensch. Die zweite Gruppe umfasst Proteine, die DCDC2A (früher bekannt als DCDC2, Name vom HUGO-Gen-Nomenklaturausschuss genehmigt) von Säugetieren, einschließlich Opossum (Beuteltier), sowie von Huhn, Fisch, Frosch und einfacheren Organismen wie dem Aszidian Halocynthia roretzi und dem Seescheidenfisch Ciona intestinalis ähneln. Die dritte Gruppe von Proteinen enthält keine Säugetierproteine, dafür aber Proteine aus der sozialen Amöbe Dictyostelium discoideum und ein Protein aus Ciona intestinalis. Ähnliche Proteine wurden in der Fruchtfliege Drosophila melanogaster, in der Malariamücke Anopheles gambiae und in der Honigbiene Apis mellifera gefunden. Außerdem wurden zwei ähnliche Proteine aus den Würmern Caenorhabditis elegans (ZYG-8) und Caenorhabditis briggsae in dieser Gruppe entdeckt. Die vierte Gruppe von Proteinen umfasst diejenigen, die DCX, DCLK und DCLK2 am ähnlichsten sind. Zu dieser Gruppe gehören Säugetier-, Hühner- und Fischproteine sowie ein Protein aus Ciona intestinalis. Auf diese Analyse der Proteine mit zwei Domänen folgte eine Analyse der Proteine mit N- und C-terminaler Domäne (ergänzende Abbildungen 4-5). In der N-Gruppe wurden 107 Proteine und in der C-Gruppe 101 Proteine analysiert, was darauf hindeutet, dass es etwas mehr Proteine gibt, die dem N-terminalen Teil von DCX ähneln. Die allgemeine Unterteilung in die vier Gruppen wurde beibehalten. Bei der Überprüfung der Proteine, aus denen sich der N-terminale phylogenetische Baum zusammensetzt, wurde festgestellt, dass zusätzliche Proteine vor allem der dritten Gruppe hinzugefügt wurden, die das Dictyostelium discoideum-Protein enthält (mit 8 Mitgliedern). Auch Proteine von Fliegen und Würmern wurden in diese Gruppe aufgenommen. Das Genom der Fruchtfliege enthält fünf DCX-Proteine, von denen vier einfache Wiederholungen sind. Darüber hinaus wurden auch mehrere Säugetierproteine in diese Gruppe aufgenommen. Diese Gruppe wurde auf 26 Mitglieder in der N-Gruppe und 19 Mitglieder in der C-Gruppe erweitert. Zu dieser Gruppe gehörte auch ein Protein aus dem Einzeller Plasmodium falciparum, dem Malariaparasiten.
Bei der Untersuchung der Proteine, aus denen sich der C-terminale phylogenetische Baum zusammensetzt, wurde eine Gruppe entdeckt, die alle DCLK3-Proteine enthält. Diese Gruppe unterscheidet sich in ihrer Gesamtheit deutlich von DCX, DCLK und DCLK2. Die Proteine in dieser Gruppe enthalten eine einzelne DCX-Domäne, die von Säugetieren (Mensch, Schimpanse, Kuh, Ratte und Opossum), aber auch von Fruchtfliegen, Honigbienen und Malariamücken stammt. Eine Ausnahme bildet das Ciona-Protein, das diese Gruppe kennzeichnet (Sca_10), das eine Tandemwiederholung aufweist. Eine der Gruppen enthält sowohl DCDC2A- als auch DCDC2B-Proteine, und eine weitere Gruppe enthält mehrere DCDC2B-Proteine, was darauf hindeutet, dass in den C-terminalen Domänen dieser Untergruppe von Proteinen wahrscheinlich weniger evolutionär konservierte Sequenzen vorhanden sind.
Bei der Analyse der DCX-Domänen-Proteine wurde das Vorhandensein von Tandem- oder einzelnen DCX-Domänen in den entsprechenden Orthologen festgestellt. Der einfachste Weg, diese Unterschiede zu erklären, könnte der Verlust von intergenen Sequenzen sein. Die Analyse der Exon-Intron-Grenzen umfasste alle Säugetierarten und das Huhn, da es als Nicht-Säugetier-Wirbeltier dem Säugetier nahe genug ist, um einen Vergleich zu ermöglichen (Tabelle 2). Im Allgemeinen ist die Lage der Intron-Exon-Grenzen sehr konserviert. In einigen Fällen ändert das Vorhandensein eines zusätzlichen Exons die Länge der Aminosäuren, die Teil der DCX-Domänen sind, nicht. Dies ist bei DCDC2C der Fall; die meisten Arten enthalten ein Exon, während die entsprechende Aminosäuresequenz des Rinderorthologs in zwei Exons aufgeteilt ist. In den meisten Fällen bedeutet das Fehlen eines Exons jedoch eine Verringerung der Aminosäureinformationen. So enthält FLJ46154 bei den meisten Arten drei Exons, während es bei der Maus und der entsprechenden Sequenz bei der Ratte nur zwei sind. Folglich wurde bei Maus und Ratte nur eine einzige DCX-Domäne in der Region identifiziert, die den DCX-Domänen des menschlichen FLJ46154 entspricht. Diese Analyse ermöglicht auch die Identifizierung von Schlüsselzeitpunkten in der Evolution der DCX-Domänen-Proteine. Der gemeinsame Wirbeltiervorfahr von Säugetieren und Vögeln wird heute auf 310 Millionen Jahre zurückgeführt, Beuteltiere spalteten sich vor etwa 180 Millionen Jahren von der Hauptgruppe (Plazenta) ab, und Menschen und Nagetiere trennten sich vor etwa 87 Millionen Jahren von ihrem evolutionären Stammbaum. Die obige Analyse ergab, dass BAC26042 wahrscheinlich im Laufe der Evolution verloren ging (in der Maus existieren zwei Exons, während Ratte und Rhesusaffe nur ein Exon besitzen). Diese Analyse wurde durch eine vorhergesagte Sequenz in der Ratte (XM_230359) erschwert, die eine fusionierte Sequenz ist und sowohl FLJ46154 als auch BAC26042 enthält. Wir haben jedoch experimentelle Beweise, die die Existenz dieser fusionierten Sequenz nicht unterstützen. Antikörper, die wir gegen das FLJ46154-Protein der Maus hergestellt haben, erkennen ein Protein in der für FLJ46154 vorhergesagten Größe in Mäusegehirnextrakt (ergänzende Abbildung 6). Daher haben wir unsere Analyse auf der Grundlage der menschlichen Daten, die von mRNA- und EST-Daten abgeleitet sind, und der Mausdaten, die auf EST-Daten beruhen, durchgeführt, die durch unsere experimentellen Daten unterstützt werden. DCLK3 wurde nach der Trennung von Säugetieren und Vögeln erzeugt. BAC26042, FLJ46154 und DCDC2C wurden nach der Abspaltung der Beuteltiere von der Hauptplazentagruppe generiert. DCDC1 wurde nach der Abspaltung von Menschen und Nagetieren erzeugt. Nach dieser Analyse sind die am meisten konservierten Gene in dieser Superfamilie DCX, DCLK und DCDC2A.
Nach der Analyse der beiden Gruppen einschließlich der N- und C-terminalen Domänen wurde eine Analyse für alle DCX-Proteine durchgeführt (Daten nicht gezeigt). Wie bereits bei den Human- und Mausproteinen beobachtet (Abb. 2), waren die N- und C-terminalen Domänen einander ähnlicher als die entsprechende Wiederholung innerhalb desselben Proteins. Dieses Ergebnis deutet darauf hin, dass die DCX-Domänen-Duplikationen alt sind und sich die beiden Wiederholungen wahrscheinlich in ihren Funktionen unterschieden haben. Die Subspezialisierung der N-terminalen und C-terminalen DCX-Motive kann auf der Ebene der Logosequenzen sichtbar gemacht werden. Zuvor wurden vier konservierte Blöcke (A-D) innerhalb des DCX-Motivs identifiziert; diese konservierten Blöcke sind im unteren Teil von Abb. 4 dargestellt. Als die N-terminale Region getrennt von der C-terminalen Region analysiert wurde, zeigte sich, dass die A- und Teile der B- und C-Subdomänen den N-Terminus spezifizieren, während ein Teil der C-Subdomäne den C-Terminus spezifiziert (Abb. 4). Dieses Ergebnis wurde mit dem Lawrence-Gibbs-Sampler-Algorithmus zur Motivfindung erzielt. Ähnliche Ergebnisse wurden mit dem MOTIF-Motivfindungsalgorithmus von Smith erzielt (Daten nicht gezeigt). Diese Analyse deutet darauf hin, dass die Tandemdomänen zwar eine kurze Sequenz ähnlicher Aminosäuren teilen, die N-terminale Domäne jedoch einen einzigartigen, sehr konservierten Block von Aminosäuren aufweist.
Expressionsanalyse durch In-situ-Hybridisierung
In Anbetracht der Ähnlichkeiten zwischen den verschiedenen DCX-Domänen-Paralogen und ihrer gemeinsamen Funktionen in Bezug auf Signaltransduktion und Mikrotubuli-Regulation ist es wichtig festzustellen, wann und wo diese Gene exprimiert werden. Dies wird dazu beitragen, ihre potenzielle Funktion abzugrenzen. So ist beispielsweise die Unterscheidung, ob ein bestimmtes Gen in proliferierenden, migrierenden oder differenzierenden Zellen exprimiert wird, von entscheidender Bedeutung, wenn es darum geht, die Funktion des Gens zu bestimmen. Darüber hinaus kann die Koexpression in einem bestimmten Gewebe darauf hinweisen, dass Paraloge zusammenarbeiten oder redundant sein könnten.
Unsere Analyse wurde mittels In-situ-Hybridisierung bei E14,5 durchgeführt, einem Stadium, in dem sich viele differenzierte Zelltypen, die für einen erwachsenen Organismus charakteristisch sind, gebildet haben, während gleichzeitig solche embryonalen Gewebe in der Mitte der Schwangerschaft noch Vorläuferzellen enthalten. Diese Analyse wurde mit dem Ziel durchgeführt, eine „Momentaufnahme“ des Expressionsprofils zu erstellen. Mit Ausnahme des ubiquitär exprimierten Dcdc2B (Abb. 5D) sind die Expressionsmuster der Gene, die für DCX-repeat-haltige Proteine kodieren, mehr oder weniger stark regional begrenzt. Dcx, Dclk und Dclk2 werden im zentralen und peripheren Nervensystem einschließlich des Gehirns, des Rückenmarks, der kranialen und dorsalen Wurzelganglien und in den parasympathischen Ganglien exprimiert (Abb. 5A-C). Eine High-Power-Ansicht (Abb. 5E-H) zeigt, dass im sich entwickelnden Neokortex die Dcx- und Dclk-Transkripte in der Präplatte viel häufiger vorkommen, aber einzelne Zellen, die die Dcx- und Dclk-Gene exprimieren, können in der Ventrikelzone nachgewiesen werden. Sowohl Dclk2 als auch Dcdc2B werden im sich entwickelnden Neokortex weitgehend einheitlich und in geringen Mengen exprimiert, jedoch in der ventrikulären Zone ausgeprägter als Dcx und Dclk. Außerhalb des Nervensystems werden Dcx und Dclk vor allem in der Skelettmuskulatur, der Zungenmuskulatur und in einzelnen Zellen des Riechepithels exprimiert (Abb. 5A,B). Das letztgenannte Gewebe exprimiert auch Dclk2 (Abb. 5C).
BAC26042, FLJ46154 und Dcdc2A zeigen sehr regionale Expressionsmuster, die im Gehirn für BAC26042 und FLJ46154 ähnlich zu sein scheinen (Abb. 5I-K). Abb. 5I und 5J zeigen Sagittalschnitte durch das Vorderhirn mit BAC26042- und FLJ46154-Transkripten im Septum, in verschiedenen Zellgruppen des ventralen Thalamus und im posterioren Hypothalamus. Weitere Orte der Expression sind eine Gruppe von Neuronen an der Basis des Riechkolbens (Abb. 5I,J), der prätektale Bereich, der Facialis-Kern und verstreute Neuronen in den ventralen und dorsalen Teilen des Rückenmarks (Daten nicht gezeigt). Die Expression von Dcdc2A im ZNS beschränkt sich auf eine Gruppe von verstreuten Neuronen im lateralsten Teil des sich entwickelnden Kleinhirns (Abb. 5K). BAC26042 und Dcdc2A werden in der Aderhaut exprimiert (Abb. 5I,K).
Die Mehrheit der DCX-Wiederholungsgene wird in der sich entwickelnden Netzhaut exprimiert. Es lassen sich drei Arten von Mustern erkennen: Dcx-, Dclk- und Dclk2-Transkripte werden in der postmitotischen inneren neuroblastischen Schicht stark exprimiert (Abb. 5L-N), während BAC26042 und FLJ46154 ebenfalls in dieser Schicht exprimiert werden, allerdings in eingeschränkter Form in der Nähe und an der Oberfläche (Abb. 5P,Q). Schließlich finden sich Rp1l1-Transkripte in der äußeren neuroblastischen Schicht, die proliferierende Zellen enthält (Abb. 5O). Radial angeordnete Dcx, Dclk oder Dclk2 exprimierende Zellen werden in der äußeren neuroblastischen Schicht nachgewiesen, was an die Situation in der ventrikulären Zone des Neokortex erinnert (Abb. 5E-G).
Außerdem exprimieren Lunge und Niere Dcx, Dclk und Dcdc2A. Dclk2-Transkripte werden auch im sich entwickelnden Eierstock gefunden, und eine schwache Expression ist auch in der Niere zu beobachten (Daten nicht gezeigt).
Unsere Analyse umfasste die meisten der 11 in Tabelle 1 aufgeführten Gene, mit Ausnahme von Dclk3 und Dcdc2C, für die wir noch keine geeigneten Vorlagen finden konnten. Rp1 wurde ebenfalls untersucht, aber es wird bei E14,5 nicht exprimiert, mit Ausnahme der Expression, die in einigen Mittellinienzellen des Rückenmarks festgestellt wurde (Daten nicht gezeigt). Zusammenfassend lässt sich sagen, dass die Gewebe, die auf elektrische Reize reagieren sollen – das zentrale und periphere Nervensystem und die Skelettmuskulatur – die auffälligsten Orte für die Expression von DCX-Wiederholungsgenen sind. Außerhalb dieser Gewebe ist die Expression meist gering und in der Regel nicht regional, Ausnahmen sind Niere und Lunge.
Expressionsanalyse bei Mensch und Maus
Die Relevanz funktioneller Genomikansätze unter Verwendung von Mausmodellen für die Untersuchung menschlicher Krankheiten hängt natürlich von der Ähnlichkeit der Genexpression in den beiden Spezies ab. Daher haben wir die Expression der menschlichen Mitglieder der DCX-Gensuperfamilie, die in dieser Studie untersucht wurden, mit ihren Mausorthologen verglichen. Zu diesem Zweck nutzten wir die Unigene-Datenbank der Expressionsdaten-Website. Aus der von UNIGENE zur Verfügung gestellten EST-Zählung wurden gewebeabhängige Expressionsprofile sowohl für menschliche als auch für murine DCX-Repeat-haltige Proteine erstellt. Da der Vergleich zwischen Maus und Mensch ein zentrales Merkmal war, beschränkte sich die Analyse auf Gewebe mit einer hohen Gesamtzahl von ESTs, die beiden Organismen gemeinsam waren. Wir analysierten Daten für zehn verschiedene menschliche Gene und acht Mausgene. Für zwei menschliche Gene gab es keine entsprechenden Expressionsdaten in der Maus: DCDC2B, das ein Maus-Ortholog hat, das nicht in UNIGENE aufgeführt ist, und DCDC1, das kein Maus-Ortholog hat. Die aus dieser Analyse resultierenden geclusterten Expressionsdaten sind in Abb. 6A dargestellt, und eine auf diesen Informationen basierende Gen-Gen-Korrelation ist in Abb. 6B gezeigt.
Wir testeten die Signifikanz der Korrelation durch eine zufällige Permutationsanalyse. Die Korrelationen wurden 1000-mal neu berechnet, nachdem für jedes Gen unabhängig alle Gewebe nach dem Zufallsprinzip neu gemischt wurden. Wir stellten fest, dass alle hohen Korrelationen (>0,5) signifikant waren (p < 0,01). Es wurden zwei Cluster beobachtet, die eine sehr hohe Korrelation aufwiesen. Die größte Gruppe umfasste die menschlichen RP1 und RP1L1 sowie ihre murinen Orthologe. Außerdem gehörte DCDC1, von dem bisher berichtet wurde, dass es hauptsächlich in den Hoden und im embryonalen Gehirn vorkommt, zu dieser Gruppe. Diese Gruppe zeichnet sich durch eine hohe Expression im Auge aus, was für die meisten DCX-Proteine typisch ist und auch in unserer In-situ-Analyse festgestellt wurde. Neben der Expression im Auge werden diese Gene nur in einigen wenigen anderen Geweben in geringerem Umfang exprimiert. In dieser Gruppe gibt es keinen klaren Unterschied in der Gen-Gen-Korrelation bei der Expression in Maus und Mensch. Die Korrelation zwischen den verschiedenen Mitgliedern dieser Gruppe beträgt in allen Fällen >0,9. Sowohl das menschliche als auch das Maus-FLJ46154 sind mit dieser Gruppe verwandt, allerdings ist die Korrelation zwischen dem menschlichen und dem Maus-FLJ46154 gering (0,3). Die Proteinprodukte dieser beiden Gene haben sich ebenfalls auseinanderentwickelt, wobei dem Mausprotein eine DCX-Domäne fehlt. Daher ist es möglich, dass auch die regulatorischen Regionen dieser Gene weniger konserviert sind.
Die zweite Gruppe, die hohe Gen-Gen-Korrelationen aufweist, umfasst die murinen Gene Dcx, Dclk und Dclk2 und ihre menschlichen Orthologe. Das menschliche DCLK2 wies eine etwas geringere Korrelation mit seinem Maus-Ortholog (0,4) auf als die anderen Gene dieser Gruppe. Dies könnte auf seine insgesamt geringere Expression zurückzuführen sein (Abb. 6A). Unsere In-situ-Daten zeigten auch eine hohe Ähnlichkeit in der Koexpression von Dcx, Dclk und Dclk2. Darüber hinaus zeigte unsere funktionelle Analyse, dass diese Gruppe mehr Eigenschaften gemeinsam hat und nur sie mit dem Gerüstprotein Neurabin 2 interagieren. Eine dritte Gruppe von Genen mit niedrigeren Korrelationswerten sind DCDC2A, DCLK3, Dcdc2A und Dclk3. In dieser Gruppe liegt die Korrelation zwischen den entsprechenden Orthologen nicht über 0,5. Es sei darauf hingewiesen, dass es einige weitere hohe Korrelationen zwischen verschiedenen Genen gibt, z. B. DCLK3 und Flj46154 oder FLJ46154 mit DCX, DCLK und Dcx.