Identificarea proteinelor cu un domeniu DCX
Proteomul uman și cel al șoarecilor au fost căutate secvențe similare cu domeniul DCX uman, obținându-se un total de 22 de proteine care conțin una sau două repetări DCX (tabelul 1, secvențele complete utilizate în studiul de față se găsesc în figura suplimentară. 1).
Domeniile protein-kinazei serină/treonină au fost găsite în trei proteine umane/șoarece (DCLK, DCLK2 și DCLK3), iar un domeniu ricin prevăzut să lege carbohidrații a fost găsit într-o proteină umană/șoarece denumită FLJ46154 . Structura proteinelor umane FLJ46154 și DCDC2B diferă de alte proteine cu repetiții în tandem; acestea conțin o repetiție mai asemănătoare cu repetiția C-terminală a DCX, care apare în partea N-terminală a acestei proteine, și o a doua repetiție mai asemănătoare cu repetiția N-terminală a DCX. În ortologii de șoarece ai acestor două proteine, era prezent doar un singur domeniu DCX. Toate genele de șoarece rezidă în regiuni cromozomiale (Fig. 1b), care sunt sintetice față de ortologii umani (Fig. suplimentară 2). Aceasta include, de asemenea, localizarea DCDC1 și BAC26042, însă acestea nu sunt adevărați ortologi, deoarece similitudinea de secvență este foarte scăzută (52%, între 46 din 86 de aminoacizi) doar în domeniul DCX, iar analiza filogenetică și evolutivă, descrisă mai jos, indică faptul că acestea sunt diferite. BAC26042 este, de asemenea, unică prin apropierea fizică cu FLJ46154, distanța dintre aceste două gene fiind de numai 2 kb, ceea ce sugerează că ar putea avea elemente de reglementare comune.
Acest studiu se concentrează asupra domeniilor DCX și nu acoperă proteinele de lungime completă. Analiza filogenetică a fost efectuată pentru domeniile DCX individuale, separând părțile N- și C-terminale (Fig. 2). Mai multe caracteristici interesante au reieșit din analiza filogenetică a domeniului DCX la om și la șoarece. Majoritatea genelor umane au avut un ortolog de șoarece. Două gene nu se supun acestei reguli, deoarece nu au ortologi lipsiți de ambiguitate (DCDC1 umană și BAC26042 de șoarece). În plus, în majoritatea cazurilor, domeniile DCX situate N-terminal au fost mai asemănătoare cu alte domenii N-terminale decât cu domeniile C-terminale ale aceleiași proteine. Cele două excepții au fost deja menționate: DCDC2B uman și FLJ46154. Analiza secvențelor care combină BLAT și analiza filogenetică a identificat relațiile ortologice enumerate în tabelul 1.
În continuare, am extins analiza secvenței prin includerea mai multor genomuri nemamifere suplimentare. Inițial, analiza a cuprins proteinele găsite în baza de date cu domenii conservate CDD . Ulterior, aceste căutări au fost extinse cu căutări extinse BLAST, TBLASTN și BLAT. Cu ajutorul căutării BLAT au fost adăugate secvențe din oposum, șobolan și maimuță rhesus. Secvențele Ciona au fost adăugate utilizând analiza TBLATN în raport cu datele genomice și au fost incluse numai acele secvențe care corespund EST-urilor. Prin urmare, prezenta analiză filogenetică a inclus proteine care conțin motivul DCX de la om, cimpanzeu, șoarece, vacă, câine, pui, pește, viermi, insecte, broaște, ciuperci și veverițe de mare (alinierile multiple sunt furnizate în figura suplimentară 3). Analiza proteinelor din domeniul DCX în tandem (67 de proteine) a avut ca rezultat un arbore fără rădăcini cu valori bootstrap prezentate în Fig. 3.
Patru grupuri de proteine sunt ușor de clasificat în cadrul arborelui de domenii DCX în tandem, care conține 67 de proteine. De sus în jos, grupul de RP1 și RP1L1 include ortologii de la broasca Xenopus laevis, pește (peștele zebră Danio rerio și peștele-balon Tetraodon nigrovidis), pui, vacă, câine, șoarece, șobolan, șobolan, cimpanzeu și om. Al doilea grup include proteine similare cu DCDC2A (cunoscută anterior sub numele de DCDC2, denumire aprobată de Comitetul de nomenclatură a genelor HUGO) de la mamifere, inclusiv de la oposum (un marsupial), precum și de la pui, pești, broaște și organisme mai simple, cum ar fi ascidia Halocynthia roretzi și veverița de mare Ciona intestinalis. Cel de-al treilea grup de proteine este lipsit de proteine de mamifere, dar conține proteine de la amiba socială Dictyostelium discoideum și o proteină de la Ciona intestinalis. Proteine similare au fost identificate la musca fructelor, Drosophila melanogaster, la țânțarul malariei, Anopheles gambiae, și la albina de miere, Apis mellifera. În plus, în acest grup au fost detectate două proteine similare de la viermii Caenorhabditis elegans (ZYG-8) și Caenorhabditis briggsae. Cel de-al patrulea grup de proteine le include pe cele mai asemănătoare cu DCX, DCLK și DCLK2. Acest grup a inclus proteine de mamifere, de pui, de pește și o proteină din și Ciona intestinalis. Această analiză a proteinelor cu două domenii, a fost urmată de o analiză pentru proteinele cu domeniu N- și C- terminal (figurile suplimentare 4-5). Au fost analizate o sută șapte proteine din grupul N și o sută una din grupul C, sugerând că există ceva mai multe proteine similare cu partea N-terminală a DCX. Subdiviziunea generală în cele patru grupuri a fost păstrată. Inspecția proteinelor care compun arborele filogenetic al părții N-terminale a detectat faptul că s-au adăugat proteine suplimentare în principal în cel de-al treilea grup care conține proteina Dictyostelium discoideum (incluzând 8 membri). La acest grup au fost adăugate, de asemenea, proteine de la muște și viermi. Genomul muștelor de fructe conține cinci proteine DCX, dintre care patru sunt repetiții simple. În plus, mai multe proteine de mamifere au fost, de asemenea, adăugate la acest grup. Acest grup a fost mărit pentru a conține 26 de membri în grupul N și 19 membri în grupul C. Acest grup a inclus o proteină din organismul unicelular Plasmodium falciparum, parazitul malariei.
Inspectarea proteinelor care compun arborele filogenetic C-terminal a detectat un grup care conține toate proteinele DCLK3. Trebuie remarcat faptul că acest grup în ansamblul său este destul de distinct de DCX, DCLK și DCLK2. Proteinele din acest grup conțin un singur domeniu DCX de la mamifere (om, cimpanzeu, vacă, șobolan și oposum), dar și de la muștele de fructe, albinele și țânțarii de malarie. O excepție este proteina ciona care demarchează acest grup (Sca_10), care are o repetiție în tandem. Unul dintre grupuri conține atât proteine DCDC2A, cât și DCDC2B, și încă un grup suplimentar conține mai multe proteine DCDC2B, ceea ce sugerează secvențe probabil mai puțin conservate din punct de vedere evolutiv în domeniile C-terminale ale acestui subset de proteine.
În timpul analizei proteinelor cu domeniu DCX, s-a observat prezența unor domenii DCX în tandem sau simple în ortologii corespunzători. Cel mai simplu mod de a explica aceste diferențe poate fi prin pierderea de secvențe intergenice. Analiza limitelor exon-intron a inclus toate speciile de mamifere și puiul, deoarece este o vertebrată nemamiferă, suficient de apropiată de mamifere pentru a face posibilă comparația (tabelul 2). În general, localizarea limitelor intron-exon este foarte conservată. În unele cazuri, prezența unui exon suplimentar, nu modifică lungimea aminoacizilor care fac parte din domeniile DCX. Acesta este cazul DCDC2C; majoritatea speciilor conțin un exon, în timp ce la ortologul de vacă secvența de aminoacizi corespunzătoare este împărțită în doi exoni. Cu toate acestea, în majoritatea cazurilor, lipsa unui exon implică o reducere a informațiilor despre aminoacizi. De exemplu, FLJ46154 conține la majoritatea speciilor trei exoni, în timp ce la șoarece și în secvența corespunzătoare la șobolan doar doi. În consecință, la șoarece și la șobolan a fost identificat doar un singur domeniu DCX în regiunea corespunzătoare domeniilor DCX din FLJ46154 uman. Această analiză permite, de asemenea, identificarea punctelor temporale cheie în evoluția proteinelor cu domenii DCX. În prezent, se crede că strămoșul vertebrat comun al mamiferelor și al păsărilor datează de 310 milioane de ani, că marsupialele s-au desprins din grupul principal (placentar) în urmă cu aproximativ 180 de milioane de ani, iar oamenii și rozătoarele s-au desprins din arborele lor genealogic evolutiv în urmă cu aproximativ 87 de milioane de ani. Analiza de mai sus a arătat că este probabil ca BAC26042 să se fi pierdut în timpul evoluției (la șoarece există doi exoni, în timp ce șobolanul și maimuța rhesus adăpostesc doar un exon). Această analiză a fost complicată din cauza unei secvențe prezise la șobolan (XM_230359) care este o secvență fuzionată care conține atât FLJ46154, cât și BAC26042. Cu toate acestea, avem dovezi experimentale care nu susțin existența acestei secvențe fuzionate. Anticorpii pe care i-am generat împotriva proteinei FLJ46154 de șoarece recunosc o proteină de dimensiunea prezisă pentru FLJ46154 în extractul de creier de șoarece (figura suplimentară 6). Astfel, am efectuat analiza noastră pe baza datelor umane, care derivă din datele ARNm și EST, și a datelor de șoarece care se bazează pe datele EST, susținute de datele noastre experimentale. DCLK3 a fost generat după separarea mamiferelor și a păsărilor. BAC26042, FLJ46154 și DCDC2C au fost generate după ce marsupialele s-au despărțit de grupul principal de placente. DCDC1 a fost generat după separarea oamenilor și a rozătoarelor. Conform acestei analize, cele mai conservate gene din această superfamilie sunt DCX, DCLK și DCDC2A.
În urma analizei celor două grupuri, inclusiv a domeniilor terminale N- și C-, a fost efectuată o analiză pentru toate proteinele DCX (datele nu sunt prezentate). Așa cum s-a observat anterior pentru proteinele umane și de șoarece (Fig. 2), domeniile terminale N- și C- au fost mai asemănătoare între ele decât cu repetiția corespunzătoare din cadrul aceleiași proteine. Acest rezultat a sugerat că duplicările domeniului DCX au fost vechi și, probabil, aceste două repetări au fost diferite în funcțiile lor. Subspecializarea motivelor DCX N-terminal și C-terminal poate fi vizualizată la nivelul secvențelor logo. Anterior, au fost identificate patru blocuri conservate (A-D) în cadrul motivului DCX , aceste blocuri conservate sunt prezentate în partea de jos a Fig. 4. Atunci când regiunea N-terminală a fost analizată separat de regiunea C-terminală, a fost evident că A și porțiuni din subdomeniile B- și C- specifică N-terminalul, în timp ce o porțiune din subdomeniul C- specifică C-terminalul (Fig. 4). Acest rezultat a fost obținut cu ajutorul algoritmului de găsire a motivelor Lawrence Gibbs sampler. Rezultate similare au fost obținute cu algoritmul de găsire a motivelor MOTIF al lui Smith (datele nu sunt prezentate). Această analiză indică faptul că, deși domeniile în tandem au în comun o secvență scurtă de aminoacizi similari, domeniul N-terminal are un bloc unic de aminoacizi foarte conservat.
Analiză de expresie prin hibridizare in situ
Cu luarea în considerare a similitudinilor dintre diferiții paralogi ai domeniului DCX și a funcțiilor lor comune în legătură cu transducția semnalului și reglarea microtubulilor , este important să se stabilească când și unde sunt exprimate aceste gene. Acest lucru va ajuta la delimitarea funcției lor potențiale. De exemplu, distincția dacă o anumită genă este exprimată în celulele care proliferează, migrează sau se diferențiază este esențială atunci când se încearcă să se înțeleagă funcția genei. În plus, coexpresia într-un anumit țesut poate indica faptul că paralogii ar putea coopera sau ar putea fi redundanți.
Analiza noastră a fost efectuată prin hibridizare in situ la E14,5, un stadiu în care s-au format multe tipuri de celule diferențiate caracteristice unui organism adult, dar în același timp, astfel de țesuturi embrionare la jumătatea gestației conțin încă celule progenitoare. Această analiză a fost efectuată cu scopul de a genera un „instantaneu” al profilului de expresie. Cu excepția genei Dcdc2B, exprimată omniprezent (Fig. 5D), modelele de expresie ale genelor care codifică proteinele care conțin repetări DCX sunt, într-o măsură mai mare sau mai mică, regionale. Dcx, Dclk și Dclk2 sunt exprimate în sistemul nervos central și periferic, inclusiv în creier, măduva spinării, ganglionii cranieni și ganglionii rădăcinii dorsale și în ganglionii parasimpatici (Fig. 5A-C). O vedere de mare putere (Fig. 5E-H) arată că, în neocortexul în curs de dezvoltare, transcripțiile Dcx și Dclk sunt mult mai abundente în preplacă, dar celulele individuale care exprimă genele Dcx și Dclk pot fi detectate în zona ventriculară. Atât Dclk2, cât și Dcdc2B sunt exprimate în neocortexul în curs de dezvoltare, în mare parte uniform și la niveluri scăzute, dar mai pronunțat în zona ventriculară decât Dcx și Dclk. În afara sistemului nervos, locurile proeminente de exprimare a Dcx și Dclk sunt mușchii scheletici, mușchii limbii și celulele individuale ale epiteliului olfactiv (Fig. 5A,B). Acest din urmă țesut exprimă, de asemenea, Dclk2 (Fig. 5C).
BAC26042, FLJ46154 și Dcdc2A prezintă modele de expresie foarte regionale, care în creier par a fi similare pentru BAC26042 și FLJ46154 (Fig. 5I-K). Fig. 5I și 5J prezintă secțiuni sagitale prin creierul anterior cu transcripții BAC26042 și FLJ46154 prezente în septum, în diferite grupuri de celule ale talamusului ventral și în hipotalamusul posterior. Alte situsuri de expresie sunt un grup de neuroni de la baza bulbului olfactiv (Fig. 5I,J), zona pretectală, nucleul facial și neuronii împrăștiați în părțile ventrale și dorsale ale măduvei spinării (datele nu sunt prezentate). Expresia Dcdc2A în SNC este limitată la un grup de neuroni împrăștiați în partea cea mai laterală a cerebelului în curs de dezvoltare (Fig. 5K). BAC26042 și Dcdc2A sunt exprimate în plexurile coroidei (Fig. 5I,K).
Majoritatea genelor care codifică repetările DCX sunt exprimate în retina în curs de dezvoltare. Apar trei tipuri de modele: Transcriptele Dcx, Dclk, Dclk2 sunt puternic exprimate în stratul neuroblastic intern postmitotic (Fig. 5L-N), în timp ce BAC26042 și FLJ46154 sunt, de asemenea, exprimate în acest strat, dar într-un mod mai restrâns în apropierea și la suprafața acestuia (Fig. 5P,Q). În cele din urmă, transcripțiile Rp1l1 se găsesc în stratul neuroblastic extern care conține celule proliferante (Fig. 5O). În stratul neuroblastic extern sunt detectate celule care exprimă Dcx, Dclk sau Dclk2 dispuse radial, ceea ce amintește de situația observată în zona ventriculară a neocortexului (Fig. 5E-G).
În plus, plămânul și rinichiul exprimă Dcx, Dclk și Dcdc2A. Transcripții Dclk2 se găsesc, de asemenea, în ovarul în curs de dezvoltare și o expresie slabă este, de asemenea, observată în tot rinichiul (datele nu sunt prezentate).
Analiza noastră a inclus majoritatea celor 11 gene enumerate în tabelul 1, excepțiile fiind Dclk3 și Dcdc2C pentru care nu am putut identifica încă șabloane adecvate. Rp1 a fost, de asemenea, examinată, dar nu este exprimată la E14,5, cu excepția expresiei observate în unele celule ale liniei mediane a măduvei spinării (datele nu sunt prezentate). Pentru a rezuma studiile noastre, am constatat că țesuturile destinate să răspundă la stimuli electrici – sistemele nervos central și periferic și mușchii scheletici – reprezintă locurile cele mai izbitoare de exprimare a genelor care codifică repetările DCX. În afara acestor țesuturi, expresia este în cea mai mare parte scăzută și, de obicei, nu este regională, excepțiile fiind rinichiul și plămânul.
Analiză de expresie la om și la șoarece
Relevanța abordărilor de genomică funcțională care utilizează modele de șoarece pentru studierea bolilor umane depinde, în mod evident, de similitudinea expresiei genelor în cele două specii. Astfel, am comparat expresia membrilor umani ai superfamiliei de gene DCX investigate în acest studiu cu ortologii lor de șoarece. În acest scop, am utilizat baza de date Unigene a site-ului web de date de expresie. Profilurile de expresie dependente de țesut pentru proteinele umane și murine care conțin repetări DCX au fost generate din numărul EST furnizat de UNIGENE . Deoarece comparația om-șoarece a fost o caracteristică cheie, analiza a fost limitată la țesuturile cu un număr total ridicat de EST-uri comune pentru ambele organisme. Am analizat datele pentru zece gene umane diferite și opt gene de șoarece. Pentru două gene umane nu existau date de expresie corespunzătoare la șoarece: DCDC2B, care are un ortolog de șoarece care nu este listat în UNIGENE, și DCDC1, care nu are un ortolog de șoarece. Datele de expresie grupate rezultate în urma acestei analize sunt prezentate în Fig. 6A, iar o corelație genă-gena bazată pe aceste informații este prezentată în Fig. 6B.
Am testat semnificația corelației prin analiza permutării aleatorii. Corelațiile au fost recalculate de 1000 de ori după rescamblarea pentru fiecare genă în mod independent toate țesuturile la întâmplare. Am constatat că toate corelațiile ridicate (>0,5) au fost semnificative (p < 0,01). Au fost observate două clustere care au dezvăluit o corelație foarte mare. Cel mai mare grup a inclus RP1 și RP1L1 umane, precum și ortologii lor murini. În plus, DCDC1, care până acum fusese raportat ca fiind exprimat în principal în testicule și în creierul embrionar , a fost inclus în acest grup. Acest grup se caracterizează prin niveluri ridicate de expresie în ochi, ceea ce este comun la majoritatea proteinelor DCX și a fost observat în analiza noastră in situ. În plus față de expresia în ochi, aceste gene sunt exprimate la niveluri mai scăzute doar în alte câteva țesuturi. În acest grup nu există o distincție clară în corelația genă-gena în ceea ce privește expresia la șoarece și la om. Corelația dintre diferiții membri ai acestui grup este >0,9 în toate cazurile. Atât FLJ46154 de la om, cât și FLJ46154 de la șoarece sunt înrudite cu acest grup, însă corelația dintre FLJ46154 de la om și de la șoarece este scăzută (0,3). Proteinele-produse ale acestor două gene au prezentat, de asemenea, divergențe, cu o pierdere a unui domeniu DCX în proteina de șoarece. Astfel, este posibil ca și în regiunile reglatoare ale acestor gene să fi existat o conservare mai redusă.
Cel de-al doilea grup care prezintă corelații gena-gena ridicate include genele murine Dcx, Dclk și Dclk2, precum și ortologii lor umani. DCLK2 umană a prezentat corelații ceva mai mici cu ortologul său de șoarece (0,4) decât celelalte gene din acest grup. Acest lucru poate proveni din nivelurile sale generale de expresie mai scăzute (Fig. 6A). Datele noastre in situ au indicat, de asemenea, o similitudine ridicată în ceea ce privește co-exprimarea Dcx, Dclk și Dclk2. În plus, analiza noastră funcțională a indicat că acest grup împărtășește mai multe proprietăți și doar ele interacționează cu proteina schelet neurabin 2. Un al treilea grup de gene cu niveluri mai scăzute de corelație include DCDC2A, DCLK3, Dcdc2A și Dclk3. În acest grup, corelația dintre ortologii corespunzători nu depășește 0,5. Trebuie remarcat faptul că există unele corelații ridicate suplimentare între diferite gene, de exemplu; DCLK3 și Flj46154, sau FLJ46154 cu DCX, DCLK și Dcx.
.