Identificazione delle proteine con un dominio DCX
I proteomi umani e murini sono stati ricercati per sequenze simili a quella del dominio DCX umano, ottenendo un totale di 22 proteine contenenti una o due ripetizioni DCX (Tabella 1, le sequenze complete utilizzate nel presente studio si trovano nella Fig. 1).
Domini di serina/treonina della proteina chinasi sono stati trovati in tre proteine umane/mouse (DCLK, DCLK2 e DCLK3), e un dominio della ricina previsto per legare i carboidrati è stato trovato in una proteina umana/mouse indicata come FLJ46154 . La struttura delle proteine umane FLJ46154 e DCDC2B differiva da altre proteine con ripetizioni in tandem; esse contenevano una ripetizione più simile alla ripetizione C-terminale di DCX, che appariva nella parte N-terminale di questa proteina, e una seconda ripetizione più simile alla ripetizione N-terminale di DCX. Negli ortologhi murini di queste due proteine, era presente solo un dominio DCX. Tutti i geni del topo risiedono in regioni cromosomiche (Fig. 1b), che sono sinteniche agli ortologhi umani (Fig. 2 supplementare). Questo include anche la posizione di DCDC1 e BAC26042, tuttavia non sono veri ortologhi poiché la somiglianza di sequenza è molto bassa (52%, tra 46 su 86 aminoacidi) solo nel dominio DCX, e l’analisi filogenetica ed evolutiva, descritta di seguito, indica che sono diversi. BAC26042 è anche unico nella sua stretta vicinanza fisica con FLJ46154, la distanza tra questi due geni essendo solo 2 kb, suggerendo che possono condividere elementi regolatori comuni.
Questo studio è focalizzato sui domini DCX, e non copre le proteine a lunghezza intera. L’analisi filogenetica è stata condotta per i singoli domini DCX, separando le parti N e C-terminali (Fig. 2). Diverse caratteristiche interessanti sono emerse dall’analisi filogenetica del dominio DCX umano e murino. La maggior parte dei geni umani aveva un ortologo del topo. Due geni non obbediscono a questa regola in quanto non hanno ortologhi univoci (DCDC1 umano e BAC26042 del topo). Inoltre, nella maggior parte dei casi i domini DCX situati all’N-terminale erano più simili ad altri domini N-terminali che ai domini C-terminali della stessa proteina. Le due eccezioni sono state già menzionate: DCDC2B umano e FLJ46154. L’analisi delle sequenze che combina BLAT e l’analisi filogenetica ha identificato le relazioni ortologhe elencate nella tabella 1.
In seguito, abbiamo esteso l’analisi delle sequenze includendo diversi altri genomi non mammiferi. Inizialmente, l’analisi comprendeva le proteine trovate nel database dei domini conservati CDD. Successivamente, queste ricerche sono state ampliate con ampie ricerche BLAST, TBLASTN e BLAT. Utilizzando la ricerca BLAT sono state aggiunte sequenze di opossum, ratto e scimmia rhesus. Le sequenze di Ciona sono state aggiunte usando l’analisi TBLATN contro i dati genomici, e sono state incluse solo quelle sequenze corrispondenti agli EST. Quindi, la presente analisi filogenetica ha incluso le proteine contenenti il motivo DCX provenienti da esseri umani, scimpanzé, topo, mucca, cane, pollo, pesce, vermi, insetti, rane, funghi e sea squirts (gli allineamenti multipli sono forniti nella Fig. 3 supplementare). L’analisi delle proteine del dominio DCX in tandem (67 proteine) ha prodotto un albero senza radici con valori di bootstrap mostrati in Fig. 3.
Quattro gruppi di proteine sono facilmente classificati all’interno dell’albero del dominio DCX in tandem, che contiene 67 proteine. Dall’alto verso il basso, il gruppo di RP1 e RP1L1 include gli ortologhi della rana Xenopus laevis, del pesce (Danio rerio, zebrafish e Tetraodon nigrovidis), del pollo, della mucca, del cane, del topo, del ratto, dello scimpanzé e dell’uomo. Il secondo gruppo comprende proteine simili a DCDC2A (precedentemente noto come DCDC2, nome approvato dal Comitato HUGO Gene Nomenclature) dai mammiferi, tra cui opossum (un marsupiale), così come pollo, pesce, rana, e organismi più semplici come l’ascidia Halocynthia roretzi, e il sea squirt Ciona intestinalis. Il terzo gruppo di proteine è privo di proteine di mammiferi, ma contiene proteine dell’ameba sociale Dictyostelium discoideum e una proteina di Ciona intestinalis. Proteine simili sono state identificate nel moscerino della frutta, Drosophila melanogaster, la zanzara della malaria, Anopheles gambiae, e l’ape del miele, Apis mellifera. Inoltre, due proteine simili dai vermi Caenorhabditis elegans (ZYG-8), e Caenorhabditis briggsae sono rilevate in questo gruppo. Il quarto gruppo di proteine comprende quelle più simili a DCX, DCLK e DCLK2. Questo gruppo comprendeva proteine di mammiferi, pollo, pesce e una proteina di Ciona intestinalis. Questa analisi delle proteine con due domini, è stata seguita da un’analisi per le proteine con dominio N e C terminale (figg. 4-5 supplementari). Centosette proteine sono state analizzate nel gruppo N, e centouno proteine nel gruppo C, suggerendo che ci sono leggermente più proteine simili alla parte N-terminale di DCX. La suddivisione generale nei quattro gruppi è stata conservata. L’ispezione delle proteine che compongono l’albero filogenetico N-terminale ha rilevato che ulteriori proteine sono state aggiunte principalmente al terzo gruppo contenente la proteina Dictyostelium discoideum (inclusi 8 membri). A questo gruppo sono state aggiunte anche proteine di mosche e vermi. Il genoma del moscerino della frutta contiene cinque proteine DCX, quattro delle quali sono singole ripetizioni. Inoltre, anche diverse proteine di mammiferi sono state aggiunte a questo gruppo. Questo gruppo è stato aumentato fino a contenere 26 membri nel gruppo N e 19 membri nel gruppo C. Questo gruppo includeva una proteina dell’organismo unicellulare Plasmodium falciparum, il parassita della malaria.
L’ispezione delle proteine che compongono l’albero filogenetico C-terminale ha rilevato un gruppo contenente tutte le proteine DCLK3. Va notato che questo gruppo nel suo insieme è ben distinto da DCX, DCLK e DCLK2. Le proteine di questo gruppo contengono un singolo dominio DCX dai mammiferi (uomo, scimpanzé, mucca, ratto e opossum), ma anche da moscerini della frutta, api e zanzare della malaria. Un’eccezione è la proteina di Ciona che contraddistingue questo gruppo (Sca_10), che ha una ripetizione tandem. Uno dei gruppi contiene sia proteine DCDC2A che DCDC2B, e ancora un ulteriore gruppo contiene diverse proteine DCDC2B, suggerendo probabilmente meno sequenze conservate evolutivamente nei domini C-terminali di questo sottogruppo di proteine.
Durante l’analisi delle proteine del dominio DCX, la presenza di domini DCX tandem o singoli è stata notata nei corrispondenti ortologhi. Il modo più semplice per spiegare queste differenze potrebbe essere la perdita di sequenze intergeniche. L’analisi dei confini esone-introne ha incluso tutte le specie di mammiferi e il pollo, essendo un vertebrato non mammifero, abbastanza vicino al mammifero da rendere possibile il confronto (Tabella 2). In generale, la posizione dei confini introne-esone è altamente conservata. In alcuni casi la presenza di un esone aggiuntivo, non cambia la lunghezza degli aminoacidi che fanno parte dei domini DCX. Questo è il caso di DCDC2C; la maggior parte delle specie contiene un esone, mentre l’ortologo della mucca la corrispondente sequenza di aminoacidi è divisa in due esoni. Tuttavia, nella maggior parte dei casi, la mancanza di un esone implica una riduzione delle informazioni aminoacidiche. Per esempio, FLJ46154 contiene nella maggior parte delle specie tre esoni, mentre nel topo e nella sequenza corrispondente nel ratto solo due. Di conseguenza, nel topo e nel ratto è stato identificato solo un singolo dominio DCX nella regione corrispondente ai domini DCX dell’umano FLJ46154. Questa analisi permette anche di identificare i punti chiave nell’evoluzione delle proteine con dominio DCX. L’antenato vertebrato comune di mammiferi e uccelli è ora ritenuto risalire a 310 milioni di anni fa, i marsupiali si sono separati dal gruppo principale (placentare) circa 180 milioni di anni fa, e gli esseri umani e i roditori si sono separati dal loro albero genealogico evolutivo circa 87 milioni di anni fa. L’analisi di cui sopra ha rivelato che è probabile che BAC26042 sia stato perso durante l’evoluzione (nel topo esistono due esoni, mentre il ratto e la scimmia rhesus ospitano solo un esone). Questa analisi è stata complicata a causa di una sequenza prevista nel ratto (XM_230359) che è una sequenza fusa contenente sia FLJ46154 che BAC26042. Tuttavia, abbiamo prove sperimentali che non supportano l’esistenza di questa sequenza fusa. Gli anticorpi che abbiamo generato contro la proteina FLJ46154 del topo riconoscono una proteina della dimensione prevista per FLJ46154 nell’estratto del cervello del topo (figura supplementare 6). Così, abbiamo condotto la nostra analisi sulla base dei dati umani, che è derivato da mRNA e dati EST, e i dati del mouse che si basa su dati EST, supportato dai nostri dati sperimentali. DCLK3 è stato generato dopo la scissione dei mammiferi e degli uccelli. BAC26042, FLJ46154 e DCDC2C sono stati generati dopo che i marsupiali si sono separati dal gruppo placentare principale. DCDC1 è stato generato dopo la scissione degli umani e dei roditori. Secondo questa analisi i geni più conservati in questa superfamiglia sono DCX, DCLK, e DCDC2A.
Dopo l’analisi dei due gruppi che includono i domini terminali N e C, è stata condotta un’analisi per tutte le proteine DCX (dati non mostrati). Come precedentemente osservato per le proteine umane e del topo (Fig. 2), i domini terminali N e C erano più simili l’uno all’altro che alla ripetizione corrispondente all’interno della stessa proteina. Questo risultato ha suggerito che le duplicazioni del dominio DCX erano antiche, e probabilmente queste due ripetizioni hanno differito nelle loro funzioni. La sottospecializzazione dei motivi DCX N-terminali e C-terminali può essere visualizzata a livello delle sequenze del logo. In precedenza, sono stati identificati quattro blocchi conservati (A-D) all’interno del motivo DCX, questi blocchi conservati sono mostrati nella parte inferiore della Fig. 4. Quando la regione N-terminale è stata analizzata separatamente dalla regione C-terminale, era ovvio che la A e porzioni di B- e C- sottodomini specificano il N-terminale, mentre una porzione del C- sottodominio specifica il C-terminale (Fig. 4). Questo risultato è stato ottenuto usando l’algoritmo Lawrence Gibbs sampler motif-finding. Risultati simili sono stati ottenuti con l’algoritmo MOTIF di Smith (dati non mostrati). Questa analisi indica che anche se i domini tandem condividono una breve sequenza di aminoacidi simili, il dominio N-terminale ha un unico blocco di aminoacidi molto conservato.
Analisi dell’espressione tramite ibridazione in situ
Prendendo in considerazione le somiglianze tra i diversi paraloghi DCX-domain, e le loro funzioni comuni in relazione alla trasduzione del segnale e alla regolazione del microtubulo, è importante stabilire quando e dove questi geni sono espressi. Questo aiuterà a delineare la loro potenziale funzione. Per esempio, la distinzione se un gene specifico è espresso in cellule in proliferazione, migrazione o differenziazione è fondamentale quando si cerca di capire la funzione del gene. Inoltre, la coespressione in un particolare tessuto può indicare che i paraloghi potrebbero cooperare o essere ridondanti.
La nostra analisi è stata effettuata tramite ibridazione in situ a E14.5, uno stadio in cui si sono formati molti tipi di cellule differenziate caratteristiche di un organismo adulto, ma allo stesso tempo tali tessuti embrionali di metà gestazione contengono ancora cellule progenitrici. Questa analisi è stata eseguita con l’obiettivo di generare un profilo di espressione “istantanea”. Con l’eccezione del Dcdc2B espresso ubiquitariamente (Fig. 5D), i modelli di espressione dei geni che codificano le proteine contenenti DCX-repeat sono in misura più o meno regionale. Dcx, Dclk e Dclk2 sono espressi nel sistema nervoso centrale e periferico tra cui il cervello, il midollo spinale, i gangli della radice cranica e dorsale e nei gangli parasimpatici (Fig. 5A-C). Una vista ad alta potenza (Fig. 5E-H) mostra che nella neocorteccia in via di sviluppo i trascritti Dcx e Dclk sono molto più abbondanti nel preplacca, ma singole cellule che esprimono i geni Dcx e Dclk possono essere rilevate nella zona ventricolare. Sia Dclk2 che Dcdc2B sono espressi nella neocorteccia in via di sviluppo, in gran parte uniforme e a bassi livelli, ma più pronunciato nella zona ventricolare che Dcx e Dclk. Al di fuori del sistema nervoso, siti prominenti di espressione Dcx e Dclk sono i muscoli scheletrici, i muscoli della lingua e le singole cellule dell’epitelio olfattivo (Fig. 5A,B). Quest’ultimo tessuto esprime anche Dclk2 (Fig. 5C).
BAC26042, FLJ46154 e Dcdc2A mostrano modelli di espressione altamente regionali, che nel cervello sembrano essere simili per BAC26042 e FLJ46154 (Fig. 5I-K). Fig. 5I e 5J mostrano sezioni sagittali attraverso il proencefalo con BAC26042 e trascrizioni FLJ46154 presenti nel setto, vari gruppi di cellule del talamo ventrale, e nell’ipotalamo posteriore. Altri siti di espressione sono un gruppo di neuroni alla base del bulbo olfattivo (Fig. 5I,J), la zona pretectal, il nucleo facciale, e neuroni sparsi nelle parti ventrali e dorsali del midollo spinale (dati non mostrati). L’espressione di Dcdc2A nel SNC è limitata a un gruppo di neuroni sparsi nella parte più laterale del cervelletto in sviluppo (Fig. 5K). BAC26042 e Dcdc2A sono espressi nei plessi coroidei (Fig. 5I,K).
La maggior parte dei geni codificanti DCX-repeat sono espressi nella retina in sviluppo. Emergono tre tipi di modelli: I trascritti Dcx, Dclk, Dclk2 sono fortemente espressi nello strato neuroblastico interno postmitotico (Fig. 5L-N), mentre BAC26042 e FLJ46154 sono anche espressi in questo strato, ma in modo più limitato vicino e alla sua superficie (Fig. 5P,Q). Infine i trascritti Rp1l1 si trovano nello strato neuroblastico esterno che contiene cellule proliferanti (Fig. 5O). Le cellule che esprimono Dcx, Dclk o Dclk2 disposte radialmente sono rilevate nello strato neuroblastico esterno che ricorda la situazione vista nella zona ventricolare della neocorteccia (Fig. 5E-G).
Inoltre, il polmone e il rene esprimono Dcx, Dclk e Dcdc2A. I trascritti Dclk2 si trovano anche nell’ovaio in via di sviluppo e una debole espressione è anche visto in tutto il rene (dati non mostrati).
La nostra analisi ha incluso la maggior parte degli 11 geni elencati nella tabella 1, le eccezioni sono Dclk3, e Dcdc2C per i quali non abbiamo potuto ancora identificare modelli adatti. Rp1 è stato anche esaminato, ma non è espresso a E14.5, tranne l’espressione notata in alcune cellule della linea mediana del midollo spinale (dati non mostrati). Per riassumere i nostri studi, abbiamo trovato che i tessuti destinati a rispondere a stimoli elettrici – sistema nervoso centrale e periferico e muscoli scheletrici – rappresentano i siti più sorprendenti di espressione dei geni codificanti DCX-repeat. Al di fuori di questi tessuti, l’espressione è per lo più bassa e di solito non regionale, le eccezioni sono il rene e il polmone.
Analisi dell’espressione nell’uomo e nel topo
La rilevanza degli approcci di genomica funzionale utilizzando modelli murini per studiare le malattie umane dipende ovviamente dalla similarità dell’espressione genica nelle due specie. Così, abbiamo confrontato l’espressione dei membri umani della superfamiglia di geni DCX indagati in questo studio con i loro ortologhi del topo. A questo scopo, abbiamo usato il database Unigene del sito web dei dati di espressione. I profili di espressione dipendenti dal tessuto per entrambe le proteine umane e murine contenenti ripetizioni DCX sono stati generati dal conteggio EST fornito da UNIGENE . Poiché il confronto topo-umano era una caratteristica chiave, l’analisi è stata limitata ai tessuti con un alto numero totale di conteggi EST che erano comuni a entrambi gli organismi. Abbiamo analizzato i dati per dieci diversi geni umani e otto geni di topo. Per due geni umani non c’erano dati di espressione corrispondenti nel topo: DCDC2B, che ha un ortologo del topo che non è elencato in UNIGENE, e DCDC1, che non ha un ortologo del topo. I dati di espressione clusterizzati risultanti da questa analisi sono mostrati in Fig. 6A e una correlazione gene-gene basata su queste informazioni è mostrata in Fig. 6B.
Abbiamo testato la significatività della correlazione tramite analisi di permutazione casuale. Le correlazioni sono state ricalcolate 1000 volte dopo il rescambling per ogni gene indipendentemente da tutti i tessuti a caso. Abbiamo trovato che tutte le correlazioni elevate (>0,5) erano significative (p < 0,01). Sono stati osservati due cluster che rivelano una correlazione molto alta. Il gruppo più grande comprendeva RP1 e RP1L1 umani e i loro ortologhi murini. Inoltre, DCDC1, che finora era stato segnalato per essere espresso principalmente nei testicoli e nel cervello embrionale, è stato incluso in questo gruppo. Questo gruppo è caratterizzato da alti livelli di espressione nell’occhio, che è comune tra la maggior parte delle proteine DCX, ed è stato notato nella nostra analisi in situ. Oltre all’espressione nell’occhio, questi geni sono espressi a livelli inferiori solo in pochi altri tessuti. In questo gruppo non c’è una chiara distinzione nella correlazione gene-gene nell’espressione nel topo e nell’uomo. La correlazione tra i diversi membri di questo gruppo è >0,9 in tutti i casi. Sia l’umano che il topo FLJ46154 sono correlati a questo gruppo, tuttavia la correlazione tra l’umano e il topo FLJ46154 è bassa (0,3). I prodotti proteici di questi due geni sono anche divergenti, con una perdita di un dominio DCX nella proteina del topo. Quindi, è possibile che ci sia stata una minore conservazione nelle regioni di regolazione di questi geni.
Il secondo gruppo che mostra alte correlazioni gene-gene include i geni murini Dcx, Dclk e Dclk2 e i loro ortologhi umani. DCLK2 umano ha esibito correlazioni un po’ più basse con il suo ortologo murino (0,4) rispetto agli altri geni di questo gruppo. Questo può derivare dai suoi livelli generali di espressione più bassi (Fig. 6A). I nostri dati in situ hanno anche indicato un’alta somiglianza nella co-espressione di Dcx, Dclk e Dclk2. Inoltre, la nostra analisi funzionale ha indicato che questo gruppo condivide più proprietà e solo loro interagiscono con la proteina scaffold neurabin 2. Un terzo gruppo di geni con livelli inferiori di correlazione includono DCDC2A, DCLK3, Dcdc2A e Dclk3. In questo gruppo la correlazione tra gli ortologhi corrispondenti non supera lo 0,5. Va notato che ci sono alcune ulteriori correlazioni elevate tra diversi geni, per esempio; DCLK3 e Flj46154, o FLJ46154 con DCX, DCLK, e Dcx.