The evolving doublecortin (DCX) superfamily

Identification of proteins with a DCX domain

V proteomech člověka a myši byly hledány sekvence podobné lidské DCX doméně, čímž bylo získáno celkem 22 proteinů obsahujících jednu nebo dvě DCX repetice (tab. 1, kompletní sekvence použité v této studii jsou na doplňkovém obr. 1). 1).

Tabulka 1 Sekvenční vztahy mezi lidskými a myšími proteiny obsahujícími jednu nebo dvě DCX domény.
Obrázek 1

A. Schematické znázornění lidských a myších proteinů obsahujících DCX domény. Domény DCX více podobné N-terminální repetici DCX byly označeny zeleně, zatímco domény více podobné C-terminální repetici byly označeny fialově. Proteinkinázové domény jsou označeny žlutě. Rikinová doména je označena hnědou barvou. Lidské proteiny jsou umístěny nahoře, myší proteiny jsou zobrazeny dole. B. Schematické znázornění chromozomálního umístění lidských a myších genů pro doménu DCX pomocí místa UCSC .

Serinové/treoninové proteinkinázové domény byly nalezeny ve třech lidských/myších proteinech (DCLK, DCLK2 a DCLK3) a ricinová doména, u které se předpokládá vazba sacharidů, byla nalezena v lidském/myším proteinu označovaném jako FLJ46154 . Struktura lidských proteinů FLJ46154 a DCDC2B se lišila od ostatních proteinů s tandemovými opakováními; obsahovaly opakování podobnější C-koncovému opakování DCX, které se objevilo v N-koncové části tohoto proteinu, a druhé opakování podobnější N-koncovému opakování DCX. U myších ortologů těchto dvou proteinů byla přítomna pouze jedna doména DCX. Všechny myší geny se nacházejí v chromozomálních oblastech (obr. 1b), které jsou synthenické s lidskými ortology (doplňkový obr. 2). To zahrnuje i umístění DCDC1 a BAC26042, které však nejsou skutečnými ortology, protože sekvenční podobnost je velmi nízká (52 %, mezi 46 z 86 aminokyselin) pouze v doméně DCX a fylogenetická a evoluční analýza, popsaná níže, naznačuje, že jsou odlišné. BAC26042 je také jedinečný svou těsnou fyzickou blízkostí s FLJ46154, vzdálenost mezi těmito dvěma geny je pouze 2 kb, což naznačuje, že mohou mít společné regulační prvky.

Tato studie je zaměřena na domény DCX a nezahrnuje proteiny plné délky. Fylogenetická analýza byla provedena pro jednotlivé domény DCX s oddělením N- a C-koncové části (obr. 2). Z fylogenetické analýzy lidských a myších domén DCX vyplynulo několik zajímavých rysů. Většina lidských genů měla myší ortolog. Dva geny se tímto pravidlem neřídí, protože nemají jednoznačné ortology (lidský DCDC1 a myší BAC26042). Kromě toho byly ve většině případů N-terminálně umístěné domény DCX podobnější jiným N-terminálním doménám než C-terminálním doménám téhož proteinu. Dvě výjimky již byly zmíněny: lidský DCDC2B a FLJ46154. Sekvenční analýza kombinující BLAT a fylogenetickou analýzu identifikovala ortologický vztah uvedený v tabulce 1.

Obrázek 2

Maximum Likelihood (ML) fylogenetický strom zahrnující proteiny s doménou DCX od člověka a myši, hodnoty bootstrapu jsou uvedeny.

Dále jsme sekvenční analýzu rozšířili o několik dalších neptačích genomů. Zpočátku analýza zahrnovala proteiny nalezené v databázi konzervovaných domén CDD . Následně byla tato vyhledávání rozšířena o rozsáhlá vyhledávání BLAST, TBLASTN a BLAT. Pomocí vyhledávání BLAT byly přidány sekvence z vačice, potkana a opice rhesus. Pomocí analýzy TBLATN proti genomickým datům byly přidány sekvence Ciona a byly zahrnuty pouze sekvence odpovídající EST. Do této fylogenetické analýzy byly tedy zahrnuty proteiny obsahující DCX-motif od člověka, šimpanze, myši, krávy, psa, kuřete, ryby, červa, hmyzu, žáby, houby a mořské perutýnky (vícenásobná zarovnání jsou uvedena na doplňkovém obr. 3). Výsledkem analýzy proteinů s tandemovou doménou DCX (67 proteinů) byl nezakořeněný strom s hodnotami bootstrapu uvedenými na obr. 3.

Obrázek 3

ML strom proteinů s tandemovou doménou DCX z různých druhů. Uvedeny jsou hodnoty Bootstrapu.

Ve stromu tandemových domén DCX lze snadno zařadit čtyři skupiny proteinů, které obsahují 67 proteinů. Shora dolů patří do skupiny RP1 a RP1L1 ortologové žáby Xenopus laevis, ryb (zebřička Danio rerio a pufferfish Tetraodon nigrovidis), kuřete, krávy, psa, myši, potkana, šimpanze a člověka. Druhá skupina zahrnuje proteiny podobné DCDC2A (dříve známý jako DCDC2, název schválen Výborem pro nomenklaturu genů HUGO) ze savců, včetně vačice (vačnatec), a také kuřat, ryb, žab a jednodušších organismů, jako je ascidie Halocynthia roretzi a mořská vířník Ciona intestinalis. Třetí skupina proteinů neobsahuje savčí proteiny, ale obsahuje proteiny ze společenské améby Dictyostelium discoideum a jeden protein z Ciona intestinalis. Podobné proteiny byly identifikovány u ovocné mušky Drosophila melanogaster, komára malarického Anopheles gambiae a včely medonosné Apis mellifera. Dále byly v této skupině zjištěny dva podobné proteiny z červů Caenorhabditis elegans (ZYG-8) a Caenorhabditis briggsae. Čtvrtá skupina proteinů zahrnuje proteiny nejvíce podobné DCX, DCLK a DCLK2. Tato skupina zahrnovala proteiny savců, kuřat, ryb a jeden protein z a Ciona intestinalis. Po této analýze proteinů se dvěma doménami následovala analýza pro proteiny s N- a C-koncovou doménou (doplňkové obr. 4-5). Ve skupině N bylo analyzováno sto sedm proteinů a ve skupině C sto jeden protein, což naznačuje, že proteinů podobných N-koncové části DCX je o něco více. Obecné rozdělení do čtyř skupin zůstalo zachováno. Kontrolou proteinů tvořících N-terminální fylogenetický strom bylo zjištěno, že další proteiny přibyly především do třetí skupiny obsahující protein Dictyostelium discoideum (zahrnuje 8 členů). Do této skupiny byly přidány také proteiny z mušek a červů. Genom ovocné mušky obsahuje pět proteinů DCX, z nichž čtyři jsou jednoduché repetice. Dále bylo do této skupiny přidáno také několik proteinů savců. Tato skupina byla rozšířena na 26 členů ve skupině N a 19 členů ve skupině C. Do této skupiny byl zařazen protein z jednobuněčného organismu Plasmodium falciparum, parazita malárie.

Pohledem na proteiny tvořící fylogenetický strom C byla zjištěna skupina obsahující všechny proteiny DCLK3. Je třeba poznamenat, že tato skupina jako celek je zcela odlišná od DCX, DCLK a DCLK2. Proteiny v této skupině obsahují jedinou doménu DCX ze savců (člověk, šimpanz, kráva, potkan a vačice), ale také z ovocných mušek, včel a malarických komárů. Výjimkou je protein ciona vymezující tuto skupinu (Sca_10), který má tandemovou repetici. Jedna ze skupin obsahuje jak proteiny DCDC2A, tak DCDC2B, a ještě další skupina obsahuje několik dalších proteinů DCDC2B, což naznačuje pravděpodobně méně evolučně konzervované sekvence v C-terminálních doménách této podskupiny proteinů.

Při analýze proteinů s doménou DCX byla u odpovídajících ortologů zaznamenána přítomnost tandemových nebo jednoduchých DCX-domén. Nejjednodušším způsobem, jak tyto rozdíly vysvětlit, může být ztráta intergenových sekvencí. Analýza exon-intronových hranic zahrnovala všechny savčí druhy a kuře, protože se jedná o nesavčí obratlovce, dostatečně blízké savcům, aby bylo možné srovnání (tabulka 2). Obecně je umístění hranic intronů a exonů velmi konzervativní. V některých případech přítomnost dalšího exonu, nemění délku aminokyselin, které jsou součástí DCX domén. Tak je tomu v případě DCDC2C; většina druhů obsahuje jeden exon, zatímco u kravského ortologa je odpovídající aminokyselinová sekvence rozdělena do dvou exonů. Ve většině případů však absence exonu znamená zkrácení informace o aminokyselinách. Například FLJ46154 obsahuje u většiny druhů tři exony, zatímco u myši a v odpovídající sekvenci u potkana pouze dva. V důsledku toho byla u myši a potkana identifikována pouze jedna DCX doména v oblasti odpovídající lidským DCX doménám FLJ46154. Tato analýza rovněž umožňuje identifikovat klíčové časové body v evoluci proteinů s DCX doménou. Předpokládá se, že společný předek obratlovců savců a ptáků nyní sahá 310 milionů let zpět, vačnatci se oddělili od hlavní (placentální) skupiny asi před 180 miliony let a člověk a hlodavci se oddělili od svého evolučního rodokmenu asi před 87 miliony let. Výše uvedená analýza ukázala, že je pravděpodobné, že BAC26042 byl během evoluce ztracen (u myši existují dva exony, zatímco krysa a opice rhesus ukrývají pouze jeden exon). Tato analýza byla komplikována kvůli předpokládané sekvenci u potkana (XM_230359), která je fúzovanou sekvencí obsahující jak FLJ46154, tak BAC26042. Máme však experimentální důkazy, které existenci této fúzované sekvence nepodporují. Protilátky, které jsme vytvořili proti myšímu proteinu FLJ46154, rozpoznávají protein o předpokládané velikosti pro FLJ46154 v extraktu myšího mozku (doplňkový obrázek 6). Naši analýzu jsme tedy provedli na základě lidských údajů, které jsou odvozeny z údajů o mRNA a EST, a myších údajů, které jsou založeny na údajích EST, podpořených našimi experimentálními údaji. DCLK3 vznikl po rozdělení savců a ptáků. BAC26042, FLJ46154 a DCDC2C byly vytvořeny po odštěpení vačnatců od hlavní skupiny placentálů. DCDC1 byl vytvořen po rozdělení lidí a hlodavců. Podle této analýzy jsou nejkonzervativnějšími geny v této nadrodině DCX, DCLK a DCDC2A.

Po analýze obou skupin zahrnující N- a C-koncové domény byla provedena analýza pro všechny proteiny DCX (údaje nejsou uvedeny). Jak již bylo dříve pozorováno u lidských a myších proteinů (obr. 2), N- a C- terminální domény si byly podobnější než odpovídající opakování v rámci téhož proteinu. Tento výsledek naznačuje, že duplikace DCX-domén byly staré a pravděpodobně se tyto dvě repetice lišily ve svých funkcích. Subspecializaci N- a C-koncových motivů DCX lze vizualizovat na úrovni logosekvencí. Dříve byly identifikovány čtyři konzervované bloky (A-D) v rámci motivu DCX , tyto konzervované bloky jsou zobrazeny ve spodní části obr. 4. Když byla N-koncová oblast analyzována odděleně od C-koncové oblasti, bylo zřejmé, že A a části B- a C- subdomén specifikují N-konec, zatímco část C- subdomény specifikuje C-konec (obr. 4). Tento výsledek byl získán pomocí algoritmu pro hledání motivů Lawrence Gibbs sampler. Podobné výsledky byly získány pomocí Smithova algoritmu pro hledání motivů MOTIF (údaje nejsou uvedeny). Tato analýza naznačuje, že ačkoli tandemové domény sdílejí krátkou sekvenci podobných aminokyselin, N-terminální doména má jedinečný velmi konzervovaný blok aminokyselin.

Obrázek 4

Sekvenční logy N-terminálního a C-terminálního motivu DCX. Vícenásobná zarovnání motivů z motivů DCX jsou zobrazena jako sekvenční loga. Výška každé aminokyseliny představuje bity informace a je úměrná jejímu zachování na dané pozici (osa y) po zvážení sekvencí a úpravě frekvencí podle očekávané frekvence aminokyselin. Pod logy je uvedeno číslování aminokyselin v rámci vnitřních subdomén A-D. Tento SeqLogo představuje Lawrencův Gibbsův vzorkovací algoritmus pro hledání motivů.

Analýza exprese pomocí hybridizace in situ

Vzhledem k podobnostem mezi různými paralogy DCX domény a jejich společným funkcím ve vztahu k přenosu signálu a regulaci mikrotubulů , je důležité stanovit, kdy a kde jsou tyto geny exprimovány. To pomůže při vymezení jejich potenciální funkce. Například rozlišení, zda je konkrétní gen exprimován v proliferujících, migrujících nebo diferencujících buňkách, je při snaze zjistit funkci genu zásadní. Navíc koexprese v určité tkáni může naznačovat, že paralogy mohou spolupracovat nebo být nadbytečné.

Naše analýza byla provedena pomocí in situ hybridizace ve stadiu E14,5, tedy ve stadiu, kdy se již vytvořilo mnoho diferencovaných buněčných typů charakteristických pro dospělý organismus, ale zároveň takové embryonální tkáně uprostřed gestace stále obsahují progenitorové buňky. Tato analýza byla provedena s cílem vytvořit „snímek“ expresního profilu. S výjimkou všudypřítomně exprimovaného Dcdc2B (obr. 5D) jsou expresní vzorce genů kódujících proteiny obsahující DCX-repeat ve větší či menší míře regionální. Dcx, Dclk a Dclk2 jsou exprimovány v centrálním a periferním nervovém systému včetně mozku, míchy, kraniálních a dorzálních kořenových ganglií a v parasympatických gangliích (obr. 5A-C). Pohled ve velkém rozlišení (obr. 5E-H) ukazuje, že ve vyvíjejícím se neokortexu jsou transkripty Dcx a Dclk mnohem hojnější v preplátu, ale jednotlivé buňky exprimující geny Dcx a Dclk lze detekovat v komorové zóně. Dclk2 i Dcdc2B jsou ve vyvíjejícím se neokortexu exprimovány převážně rovnoměrně a v nízkých hladinách, ale výrazněji v komorové zóně než Dcx a Dclk. Mimo nervový systém jsou významnými místy exprese Dcx a Dclk kosterní svaly, svaly jazyka a jednotlivé buňky čichového epitelu (obr. 5A,B). Posledně jmenovaná tkáň exprimuje také Dclk2 (obr. 5C).

BAC26042, FLJ46154 a Dcdc2A vykazují vysoce regionální vzorce exprese, které se v mozku zdají být podobné pro BAC26042 a FLJ46154 (obr. 5I-K). Obr. 5I a 5J ukazují sagitální řezy předním mozkem s transkripty BAC26042 a FLJ46154 přítomnými v septu, různých buněčných skupinách ventrálního thalamu a v zadním hypotalamu. Dalšími místy exprese jsou skupina neuronů na bázi čichového bulbu (obr. 5I,J), pretektální oblast, obličejové jádro a roztroušené neurony ve ventrální a dorzální části míchy (údaje nejsou uvedeny). Exprese Dcdc2A v CNS je omezena na skupinu roztroušených neuronů v laterální části vyvíjejícího se mozečku (obr. 5K). BAC26042 a Dcdc2A jsou exprimovány v pletivech cévnatky (obr. 5I,K).

Většina genů kódujících DCX-repeat je exprimována ve vyvíjející se sítnici. Objevují se tři typy vzorů: Transkripty Dcx, Dclk, Dclk2 jsou silně exprimovány v postmitotické vnitřní neuroblastické vrstvě (obr. 5L-N), zatímco BAC26042 a FLJ46154 jsou v této vrstvě také exprimovány, ale omezeněji v blízkosti a na jejím povrchu (obr. 5P,Q). Konečně transkripty Rp1l1 se nacházejí ve vnější neuroblastické vrstvě, která obsahuje proliferující buňky (obr. 5O). Ve vnější neuroblastické vrstvě jsou detekovány radiálně uspořádané buňky exprimující Dcx, Dclk nebo Dclk2, což připomíná situaci pozorovanou ve ventrikulární zóně neokortexu (obr. 5E-G).

V plicích a ledvinách jsou navíc exprimovány Dcx, Dclk a Dcdc2A. Transkripty Dclk2 se nacházejí také ve vyvíjejícím se vaječníku a slabá exprese je patrná také v celé ledvině (údaje nejsou uvedeny).

Naše analýza zahrnovala většinu z 11 genů uvedených v tabulce 1, výjimku tvoří Dclk3 a Dcdc2C, pro které se nám zatím nepodařilo identifikovat vhodné šablony. Zkoumán byl také gen Rp1, který však není v E14,5 exprimován, s výjimkou exprese zaznamenané v některých buňkách střední linie míchy (údaje nejsou uvedeny). Shrneme-li naše studie, zjistili jsme, že tkáně určené k reakci na elektrické podněty – centrální a periferní nervový systém a kosterní svaly – představují nejvýraznější místa exprese genů kódujících DCX-repeaty. Mimo tyto tkáně je exprese většinou nízká a obvykle není regionální, výjimku tvoří ledviny a plíce.

Analýza exprese u člověka a myši

Význam funkčních genomických přístupů využívajících myší modely pro studium lidských onemocnění samozřejmě závisí na podobnosti genové exprese u obou druhů. Proto jsme porovnali expresi lidských členů nadrodiny genů DCX zkoumaných v této studii s jejich myšími ortology. K tomuto účelu jsme použili webovou databázi expresních dat Unigene. Tkáňově závislé expresní profily pro lidské i myší proteiny obsahující opakování DCX byly vytvořeny z počtu EST, které poskytla databáze UNIGENE . Vzhledem k tomu, že klíčovým prvkem bylo srovnání myší a lidí, byla analýza omezena na tkáně s vysokým celkovým počtem EST, které byly společné pro oba organismy. Analyzovali jsme údaje pro deset různých lidských genů a osm myších genů. Pro dva lidské geny nebyly k dispozici odpovídající údaje o expresi u myší: DCDC2B, jehož myší ortolog není uveden v databázi UNIGENE, a DCDC1, který nemá myší ortolog. Shlukovaná data o expresi, která jsou výsledkem této analýzy, jsou uvedena na obr. 6A a korelace mezi geny na základě těchto informací je uvedena na obr. 6B.

Obrázek 6

A) Shlukovaná data o expresi genů v systému Unigene. B) Korelace gen-tkáň na základě dat o expresi Unigene.

Testovali jsme významnost korelace pomocí analýzy náhodných permutací. Korelace byly 1000krát přepočítány po náhodném přeskupení pro každý gen nezávisle všechny tkáně. Zjistili jsme, že všechny vysoké korelace (>0,5) byly významné (p < 0,01). Byly pozorovány dva shluky odhalující velmi vysokou korelaci. Největší skupina zahrnovala lidské RP1 a RP1L1 a jejich myší ortology. Kromě toho byl do této skupiny zařazen DCDC1, o němž se dosud uvádělo, že je exprimován hlavně ve varlatech a v embryonálním mozku . Tato skupina se vyznačuje vysokou úrovní exprese v oku, což je společné pro většinu proteinů DCX a bylo zaznamenáno v naší analýze in situ. Kromě exprese v oku jsou tyto geny exprimovány na nižších úrovních pouze v několika dalších tkáních. V této skupině není jasný rozdíl v korelaci gen-gen v expresi u myši a u člověka. Korelace mezi jednotlivými členy této skupiny je >0,9 ve všech případech. Lidský i myší FLJ46154 patří do této skupiny, avšak korelace mezi lidským a myším FLJ46154 je nízká (0,3). Proteinové produkty těchto dvou genů se také rozcházejí, přičemž u myšího proteinu došlo ke ztrátě domény DCX. Je tedy možné, že došlo k menšímu zachování i v regulačních oblastech těchto genů.

Druhou skupinu vykazující vysokou korelaci genů tvoří myší geny Dcx, Dclk a Dclk2 a jejich lidské ortology. Lidský DCLK2 vykazoval poněkud nižší korelace se svým myším ortologem (0,4) než ostatní geny v této skupině. To může vyplývat z jeho celkově nižší úrovně exprese (obr. 6A). Naše data in situ také ukázala vysokou podobnost v koexpresi Dcx, Dclk a Dclk2. Naše funkční analýza navíc naznačila, že tato skupina sdílí více vlastností a pouze ony interagují se skeletovým proteinem neurabinem 2. Třetí skupina genů s nižší úrovní korelace zahrnuje DCDC2A, DCLK3, Dcdc2A a Dclk3. V této skupině korelace mezi odpovídajícími ortology nepřesahuje hodnotu 0,5. Je třeba poznamenat, že existují některé další vysoké korelace mezi různými geny, například: DCLK3 a Flj46154 nebo FLJ46154 s DCX, DCLK a Dcx.

.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.