Identifikation af proteiner med et DCX-domæne
Menneske- og museproteomer blev gennemsøgt for sekvenser, der ligner det menneskelige DCX-domæne, hvilket gav i alt 22 proteiner, der indeholder en eller to DCX-repeats (Tabel 1, de komplette sekvenser, der er anvendt i denne undersøgelse, findes i supplerende figur 1). 1).
Serin/threoninproteinkinase-domæner blev fundet i tre menneske/mus-proteiner (DCLK, DCLK2 og DCLK3), og et ricin-domæne, der forudsiges at binde kulhydrater, blev fundet i et menneske/mus-protein benævnt FLJ46154 . Strukturen af de humane FLJ46154- og DCDC2B-proteiner adskilte sig fra andre proteiner med tandemrepeats; de indeholdt en gentagelse, der mere lignede DCX C-terminale gentagelse, som optrådte i den N-terminale del af dette protein, og en anden gentagelse, der mere lignede DCX N-terminale gentagelse. I musens ortologer af disse to proteiner var der kun ét DCX-domæne til stede. Alle musegener ligger i kromosomale regioner (fig. 1b), som er syntetiske med de menneskelige ortologer (supplerende fig. 2). Dette omfatter også placeringen af DCDC1 og BAC26042, men de er ikke ægte ortologer, da sekvensligheden kun er meget lav (52 %, blandt 46 ud af 86 aminosyrer) kun i DCX-domænet, og den fylogenetiske og evolutionære analyse, der beskrives nedenfor, viser, at de er forskellige. BAC26042 er også unik i sin tætte fysiske nærhed med FLJ46154, idet afstanden mellem disse to gener kun er 2 kb, hvilket tyder på, at de kan dele fælles reguleringselementer.
Denne undersøgelse er fokuseret på DCX-domænerne og dækker ikke proteinerne i fuld længde. Der blev foretaget en fylogenetisk analyse for de enkelte DCX-domæner ved at adskille de N- og C-terminale dele (fig. 2). Flere interessante træk fremgik af den fylogenetiske analyse af DCX-domænet hos mennesker og mus. Størstedelen af de menneskelige gener havde en mus-ortolog. To gener adlyder ikke denne regel, da de ikke har entydige ortologer (human DCDC1 og mus BAC26042). Desuden lignede de N-terminalt placerede DCX-domæner i de fleste tilfælde mere andre N-terminale domæner end de C-terminale domæner af det samme protein. De to undtagelser blev allerede nævnt; human DCDC2B og FLJ46154. Sekvensanalyse, der kombinerer BLAT og fylogenetisk analyse, identificerede de ortologe relationer, der er anført i tabel 1.
Næst udvidede vi sekvensanalysen ved at inkludere flere yderligere genomer fra andre dyr end pattedyr. I første omgang omfattede analysen proteiner, der findes i databasen over bevarede domæner CDD . Efterfølgende blev disse søgninger udvidet med omfattende BLAST-, TBLASTN- og BLAT-søgninger. Ved hjælp af BLAT-søgning blev der tilføjet sekvenser fra opossum, rotte og rhesusabe. Ciona-sekvenser blev tilføjet ved hjælp af TBLATN-analyse i forhold til genomdataene, og kun de sekvenser, der svarede til EST’er, blev medtaget. Den nuværende fylogenetiske analyse omfattede således DCX-motiv-holdige proteiner fra mennesker, chimpanser, mus, ko, hund, kylling, fisk, orme, insekter, frøer, svampe og havsvampe (multiple alignments findes i supplerende fig. 3). Analysen af tandem DCX-domæneproteinerne (67 proteiner) resulterede i et urodet træ med bootstrap-værdier vist i fig. 3.
Fire grupper af proteiner kan let kategoriseres inden for tandem DCX-domænetræet, som indeholder 67 proteiner. Fra top til bund omfatter gruppen af RP1 og RP1L1 ortologer fra frøen Xenopus laevis, fisk (zebrafisk Danio rerio og kuglefisk Tetraodon nigrovidis), kylling, ko, hund, hund, mus, rotte, rotte, chimpanse og menneske. Den anden gruppe omfatter proteiner, der ligner DCDC2A (tidligere kendt som DCDC2, navn godkendt af HUGO Gene Nomenclature Committee) fra pattedyr, herunder opossum (et pungdyr), samt kylling, fisk, frø og enklere organismer som f.eks. ascidien Halocynthia roretzi og havsneglen Ciona intestinalis. Den tredje gruppe af proteiner er uden pattedyrproteiner, men indeholder proteiner fra den sociale amøbe Dictyostelium discoideum og et protein fra Ciona intestinalis. Lignende proteiner blev identificeret i frugtfluen Drosophila melanogaster, malariamyggen Anopheles gambiae og honningbien Apis mellifera. Desuden er to lignende proteiner fra ormene Caenorhabditis elegans (ZYG-8) og Caenorhabditis briggsae påvist i denne gruppe. Den fjerde gruppe af proteiner omfatter de proteiner, der ligner DCX, DCLK og DCLK2 mest. Denne gruppe omfattede pattedyr-, kyllinge- og fiskeproteiner samt et protein fra og Ciona intestinalis. Denne analyse af proteiner med to domæner blev efterfulgt af en analyse for proteiner med N- og C-terminale domæner (supplerende figurer 4-5). Der blev analyseret 127 proteiner i N-gruppen og 112 proteiner i C-gruppen, hvilket tyder på, at der er lidt flere proteiner, der ligner den N-terminale del af DCX. Den generelle underopdeling i de fire grupper blev bevaret. Ved inspektion af de proteiner, der udgør det N-terminale fylogenetiske træ, blev det konstateret, at yderligere proteiner hovedsagelig blev tilføjet til den tredje gruppe, der indeholder Dictyostelium discoideum-proteinet (herunder 8 medlemmer). Proteiner fra fluer og orme blev også tilføjet til denne gruppe. Frugtflue-genomet indeholder fem DCX-proteiner, hvoraf fire er enkelt gentagelser. Desuden blev der også tilføjet flere pattedyrproteiner til denne gruppe. Denne gruppe blev forøget til at indeholde 26 medlemmer i N-gruppen og 19 medlemmer i C-gruppen. Denne gruppe omfattede et protein fra den encellede organisme Plasmodium falciparum, malariaparasitten.
Inspektion af de proteiner, der udgør det C-terminale fylogenetiske træ, påviste en gruppe, der indeholdt alle DCLK3-proteinerne. Det skal bemærkes, at denne gruppe som helhed er helt forskellig fra DCX, DCLK og DCLK2. Proteinerne i denne gruppe indeholder et enkelt DCX-domæne fra pattedyr (menneske, chimpanse, ko, rotte og opossum), men også fra frugtfluer, honningbier og malariamyg. En undtagelse er det ciona-protein, der markerer denne gruppe (Sca_10), som har en tandemrepeat. En af grupperne indeholder både DCDC2A- og DCDC2B-proteiner, og endnu en gruppe indeholder flere DCDC2B-proteiner, hvilket tyder på sandsynligvis mindre evolutionært bevarede sekvenser i de C-terminale domæner i denne delmængde af proteiner.
Ved analysen af DCX-domæneproteinerne blev tilstedeværelsen af tandem- eller enkelt DCX-domæner konstateret i tilsvarende ortologer. Den enkleste måde at forklare disse forskelle på kan være gennem tab af intergeniske sekvenser. Analysen af exon-intron-grænserne omfattede alle pattedyrarter og kylling, da det er et hvirveldyr uden for pattedyr, der ligger tæt nok på pattedyr til at gøre sammenligning mulig (tabel 2). Generelt er placeringen af intron-ekson-grænserne meget bevaret. I nogle tilfælde ændrer tilstedeværelsen af et ekstra exon ikke længden af de aminosyrer, der indgår i DCX-domænerne. Dette er tilfældet med DCDC2C; de fleste arter indeholder ét exon, mens den tilsvarende aminosyresekvens i koens ortolog er opdelt i to exoner. I de fleste tilfælde indebærer manglen på en exon imidlertid en reduktion i aminosyreinformationen. F.eks. indeholder FLJ46154 hos de fleste arter tre exoner, mens der hos mus og i den tilsvarende sekvens hos rotte kun findes to exoner. Derfor blev der i mus og rotte kun identificeret et enkelt DCX-domæne i den region, der svarer til de menneskelige FLJ46154 DCX-domæner i FLJ46154. Denne analyse gør det også muligt at identificere nøgletidspunkter i udviklingen af DCX-domæneproteinerne. Man mener nu, at pattedyrs og fugles fælles forfader til hvirveldyrene går 310 mio. år tilbage i tiden, at pungdyrene splittede sig fra hovedgruppen (placentaer) for ca. 180 mio. år siden, og at mennesker og gnavere splittede sig fra deres evolutionære stamtræ for ca. 87 mio. år siden. Ovenstående analyse viste, at det er sandsynligt, at BAC26042 er gået tabt i løbet af evolutionen (hos musen findes der to exoner, mens rotte og rhesusabe kun har én exon). Denne analyse er blevet kompliceret på grund af en forudsagt sekvens i rotte (XM_230359), som er en fusionssekvens, der indeholder både FLJ46154 og BAC26042. Vi har imidlertid eksperimentelle beviser, som ikke støtter eksistensen af denne fusionerede sekvens. Antistoffer, som vi genererede mod musens FLJ46154-protein, genkender et protein af den forudsagte størrelse for FLJ46154 i hjerneekstrakt fra mus (supplerende figur 6). Vi har således foretaget vores analyse på grundlag af de humane data, som er afledt af mRNA- og EST-data, og musedataene, som er baseret på EST-data, der understøttes af vores eksperimentelle data. DCLK3 blev genereret efter opdelingen af pattedyr og fugle. BAC26042, FLJ46154 og DCDC2C blev genereret, efter at pungdyrene havde delt sig fra den primære placentagruppe. DCDC1 blev genereret efter opdelingen mellem mennesker og gnavere. Ifølge denne analyse er de mest bevarede gener i denne superfamilie DCX, DCLK og DCDC2A.
Efter analysen af de to grupper, herunder N- og C-terminale domæner, blev der foretaget en analyse for alle DCX-proteinerne (data ikke vist). Som tidligere observeret for menneske- og museproteinerne (fig. 2) lignede de N- og C-terminale domæner mere hinanden end den tilsvarende gentagelse inden for samme protein. Dette resultat tydede på, at DCX-domæneduplikationerne var gamle, og sandsynligvis har disse to gentagelser adskilt sig i deres funktioner. Subspecialisering af de N-terminale og C-terminale DCX-motiver kan visualiseres på niveauet af logosekvenser. Tidligere blev der identificeret fire bevarede blokke (A-D) inden for DCX-motivet , disse bevarede blokke er vist nederst i fig. 4. Da den N-terminale region blev analyseret separat fra den C-terminale region, var det tydeligt, at A og dele af B- og C-subdomænerne specificerer N-terminen, mens en del af C-subdomænet specificerer C-terminen (fig. 4). Dette resultat blev opnået ved hjælp af Lawrence Gibbs sampler motivfindingsalgoritmen. Lignende resultater blev opnået med Smiths MOTIF-algoritme (data ikke vist). Denne analyse viser, at selv om tandemdomænerne deler en kort sekvens af lignende aminosyrer, har det N-terminale domæne en unik meget konserveret blok af aminosyrer.
Ekspressionsanalyse ved in situ hybridisering
I betragtning af lighederne mellem de forskellige DCX-domæne paraloger og deres fælles funktioner i forhold til signaltransduktion og mikrotubulusregulering , er det vigtigt at fastslå, hvornår og hvor disse gener udtrykkes. Dette vil bidrage til at afgrænse deres potentielle funktion. Det er f.eks. afgørende at skelne mellem, om et specifikt gen udtrykkes i prolifererende, migrerende eller differentierende celler, når man forsøger at finde ud af genets funktion. Desuden kan samekspression i et bestemt væv indikere, at paraloger kan samarbejde eller være redundante.
Vores analyser blev udført ved in situ-hybridisering ved E14,5, et stadium, hvor mange differentierede celletyper, der er karakteristiske for en voksen organisme, er dannet, men samtidig indeholder sådanne embryonale væv midt i fosterstadiet stadig progenitorceller. Denne analyse blev udført med det formål at generere et “øjebliksbillede” af ekspressionsprofilen. Med undtagelse af det ubiquitært udtrykte Dcdc2B (Fig. 5D) er ekspressionsmønstrene for gener, der koder for DCX-repeat-holdige proteiner, i større eller mindre grad regionale. Dcx, Dclk og Dclk2 udtrykkes i det centrale og perifere nervesystem, herunder i hjernen, rygmarven, kranie- og dorsalrodsganglier og i de parasympatiske ganglier (Fig. 5A-C). Et højstyrkebillede (Fig. 5E-H) viser, at i neocortex under udvikling er Dcx- og Dclk-transkriptioner langt hyppigere i præpladen, men enkelte celler, der udtrykker Dcx- og Dclk-generne, kan påvises i den ventrikulære zone. Både Dclk2 og Dcdc2B udtrykkes i neocortex under udvikling, stort set ensartet og på lave niveauer, men mere udtalt i den ventrikulære zone end Dcx og Dclk. Uden for nervesystemet er de fremtrædende steder for Dcx- og Dclk-ekspression skeletmuskler, tungemuskler og enkelte celler i lugteepitelet (Fig. 5A,B). Sidstnævnte væv udtrykker også Dclk2 (Fig. 5C).
BAC26042, FLJ46154 og Dcdc2A udviser meget regionale ekspressionsmønstre, som i hjernen synes at være ens for BAC26042 og FLJ46154 (Fig. 5I-K). Fig. 5I og 5J viser sagittale snit gennem forhjernen med BAC26042- og FLJ46154-transkripter til stede i septum, forskellige cellegrupper i den ventrale thalamus og i den bageste hypothalamus. Andre ekspressionssteder er en gruppe neuroner ved basen af lugtekolben (Fig. 5I,J), det pretektale område, ansigtskernen og spredte neuroner i den ventrale og dorsale del af rygmarven (data ikke vist). Dcdc2A-ekspression i CNS er begrænset til en gruppe spredte neuroner i den laterale del af den mest udviklede lillehjerne (Fig. 5K). BAC26042 og Dcdc2A udtrykkes i choroid plexi (Fig. 5I,K).
De fleste DCX-repeat-kodende gener udtrykkes i nethinden under udvikling. Der fremkommer tre typer af mønstre: Dcx-, Dclk- og Dclk2-transskriptioner er stærkt udtrykt i det postmitotiske indre neuroblastiske lag (fig. 5L-N), mens BAC26042 og FLJ46154 også udtrykkes i dette lag, men på en mere begrænset måde nær og ved overfladen (fig. 5P,Q). Endelig findes Rp1l1-transskriptioner i det ydre neuroblastiske lag, der indeholder prolifererende celler (Fig. 5O). Der påvises radialt arrangerede Dcx-, Dclk- eller Dclk2-udtrykkende celler i det ydre neuroblastiske lag, hvilket minder om den situation, der ses i den ventrikulære zone i neocortex (Fig. 5E-G).
Dertil kommer, at lunge og nyre udtrykker Dcx, Dclk og Dcdc2A. Dclk2-transkripter findes også i æggestokkene under udvikling, og der ses også et svagt udtryk i hele nyren (data ikke vist).
Vores analyser omfattede de fleste af de 11 gener, der er anført i tabel 1, med undtagelse af Dclk3 og Dcdc2C, som vi endnu ikke kunne identificere egnede skabeloner for. Rp1 blev også undersøgt, men det udtrykkes ikke ved E14,5, bortset fra udtryk, der er konstateret i nogle celler i rygmarvens midterlinje (data ikke vist). For at opsummere vores undersøgelser fandt vi, at væv, der er bestemt til at reagere på elektriske stimuli – det centrale og perifere nervesystem og skeletmuskulaturen – udgør de mest markante ekspressionssteder for DCX-repeat-kodende gener. Uden for disse væv er ekspressionen for det meste lav og normalt ikke regional, med nyrerne og lungerne som undtagelser.
Ekspressionsanalyse hos mennesker og mus
Relevansen af funktionelle genomiktilgange ved hjælp af musemodeller til undersøgelse af sygdomme hos mennesker afhænger naturligvis af ligheden i genekspressionen hos de to arter. Derfor sammenlignede vi ekspressionen af de menneskelige medlemmer af DCX-gen-superfamilien, der er undersøgt i denne undersøgelse, med deres ortologer i musen. Til dette formål brugte vi Unigene-databasen med ekspressionsdata på webstedet. Vævsafhængige ekspressionsprofiler for både humane og murine DCX-repeterende proteiner blev genereret ud fra EST-tællingen leveret af UNIGENE . Da sammenligningen mellem mus og menneske var et nøgleelement, blev analysen begrænset til væv med et højt samlet antal EST-tællinger, som var fælles for begge organismer. Vi analyserede data for ti forskellige menneskelige gener og otte musegener. For to humane gener fandtes der ingen tilsvarende ekspressionsdata i mus: DCDC2B, som har en mus-ortolog, der ikke er opført i UNIGENE, og DCDC1, som ikke har en mus-ortolog. De clusterede ekspressionsdata, der er resultatet af denne analyse, er vist i fig. 6A, og en gen-genkorrelation baseret på disse oplysninger er vist i fig. 6B.
Vi testede korrelationens signifikans ved hjælp af tilfældig permuationsanalyse. Korrelationerne blev genberegnet 1000 gange efter rescambling for hvert gen uafhængigt alle væv på tilfældig vis. Vi fandt, at alle høje korrelationer (>0,5) var signifikante (p < 0,01). Der blev observeret to klynger, der afslørede meget høj korrelation. Den største gruppe omfattede human RP1 og RP1L1 og deres murine ortologer. Desuden blev DCDC1, som hidtil var blevet rapporteret som værende hovedsageligt udtrykt i testikler og embryonale hjerner , inkluderet i denne gruppe. Denne gruppe er kendetegnet ved et højt ekspressionsniveau i øjet, hvilket er almindeligt blandt de fleste DCX-proteiner, og er blevet bemærket i vores in situ-analyse. Ud over ekspression i øjet udtrykkes disse gener kun på lavere niveauer i nogle få andre væv. I denne gruppe er der ikke nogen klar forskel i gen-gen korrelationen i ekspressionen i mus og menneske. Korrelationen mellem de forskellige medlemmer af denne gruppe er >0,9 i alle tilfælde. Både FLJ46154 fra menneske og mus er relateret til denne gruppe, men korrelationen mellem FLJ46154 fra menneske og mus er lav (0,3). Proteinprodukterne fra disse to gener er også divergeret med et tab af et DCX-domæne i musens protein. Det kan således være muligt, at der også har været mindre bevarelse i de regulatoriske regioner af disse gener.
Den anden gruppe, der udviser høje gen-genkorrelationer, omfatter murgenerne Dcx, Dclk og Dclk2 og deres menneskelige ortologer. Humant DCLK2 udviste noget lavere korrelationer med sin mus-ortolog (0,4) end de andre gener i denne gruppe. Dette kan skyldes dets generelt lavere generelle generelle ekspressionsniveauer (Fig. 6A). Vores in situ-data viste også en stor lighed i samekspressionen af Dcx, Dclk og Dclk2. Desuden indikerede vores funktionelle analyse, at denne gruppe deler flere egenskaber, og kun de interagerer med stilladsproteinet neurabin 2. En tredje gruppe af gener med lavere korrelationsniveauer omfatter DCDC2A, DCLK3, Dcdc2A og Dclk3. I denne gruppe overstiger korrelationen mellem de tilsvarende ortologer ikke 0,5. Det skal bemærkes, at der er yderligere nogle høje korrelationer mellem forskellige gener, f.eks.; DCLK3 og Flj46154, eller FLJ46154 med DCX, DCLK og Dcx.