Identificação de proteínas com domínio DCX
Proteínas humanas e de camundongos foram pesquisadas sequências semelhantes à do domínio DCX humano, produzindo um total de 22 proteínas contendo uma ou duas repetições DCX (Tabela 1, as sequências completas usadas neste estudo são encontradas em Fig. suplementar. 1).
>
Serina/teronina foram encontrados em três proteínas humanas/mouse (DCLK, DCLK2, e DCLK3), e um domínio de ricina previsto para ligar carboidratos foi encontrado em uma proteína humana/mouse referida como FLJ46154 . A estrutura das proteínas humanas FLJ46154 e DCDC2B diferem de outras proteínas com repetição tandem; elas continham uma repetição mais semelhante à repetição terminal DCX C, que apareceu na parte terminal N desta proteína, e uma segunda repetição mais semelhante à repetição terminal DCX N. Nos ortologs do rato destas duas proteínas, apenas um domínio DCX estava presente. Todos os genes do rato residem em regiões cromossômicas (Fig. 1b), que são sintetênicas aos ortologs humanos (complementar Fig. 2). Isto inclui também a localização do DCDC1 e do BAC26042, porém eles não são verdadeiros ortologistas, pois a semelhança de seqüência é muito baixa (52%, entre 46 dos 86 aminoácidos) apenas no domínio DCX, e a análise filogenética e evolutiva, descrita abaixo, indica que eles são diferentes. O BAC26042 também é único em sua proximidade física próxima ao FLJ46154, sendo a distância entre estes dois genes de apenas 2 kb, sugerindo que podem compartilhar elementos regulatórios comuns.
Este estudo é focado nos domínios DCX, e não cobre as proteínas de comprimento total. A análise filogenética foi conduzida para os domínios DCX individuais, separando as partes terminais N e C (Fig. 2). Várias características interessantes emergiram da análise filogenética do domínio DCX humano e do domínio DCX do rato. A maioria dos genes humanos tinha um ortograma de camundongo. Dois genes não obedecem a esta regra, uma vez que não têm ortologues inequívocos (DCDC1 humano e BAC26042 de rato). Além disso, na maioria dos casos, os domínios N-terminais DCX localizados em termos nominais eram mais semelhantes a outros domínios N-terminais do que aos domínios C-terminais da mesma proteína. As duas exceções já foram mencionadas; DCDC2B humano e FLJ46154. A análise sequencial combinando BLAT e análise filogenética identificou as relações ortológicas listadas na Tabela 1.
Próximo, estendemos a análise da sequência incluindo vários genomas adicionais não-mamíferos. Inicialmente, a análise abrangeu as proteínas encontradas na base de dados do domínio conservado CDD . Posteriormente, estas pesquisas foram ampliadas com extensas pesquisas BLAST, TBLASTN, e BLAT. Usando sequências de pesquisa BLAT de opossum, rato, e macaco rhesus foram adicionados. Sequências Ciona foram adicionadas usando a análise TBLATN contra os dados genómicos, e apenas as sequências correspondentes a ESTs foram incluídas. Assim, a presente análise filogenética incluiu proteínas DCX-motif-contidas de humanos, chimpanzés, ratos, vacas, cães, galinhas, peixes, vermes, insectos, rãs, fungos e esguichos do mar (múltiplos alinhamentos são fornecidos na Fig. 3 suplementar). A análise das proteínas do domínio tandem DCX (67 proteínas) resultou em uma árvore não enraizada com valores de bootstrap mostrados na Fig. 3.
Quatro grupos de proteínas são facilmente categorizados dentro da árvore de domínio tandem DCX, que contém 67 proteínas. De cima para baixo, o grupo de RP1 e RP1L1 inclui ortologs do sapo Xenopus laevis, peixes (zebrafish Danio rerio, e pufferfish Tetraodon nigrovidis), galinha, vaca, cão, rato, rato, chimpanzé, e humano. O segundo grupo inclui proteínas semelhantes ao DCDC2A (anteriormente conhecido como DCDC2, nome aprovado pelo Comitê de Nomenclatura Genética HUGO) de mamíferos, incluindo gambás (um marsupial), assim como galinha, peixe, sapo e organismos mais simples como o ascidiano Halocynthia roretzi, e o esguicho marinho Ciona intestinalis. O terceiro grupo de proteínas é desprovido de proteínas de mamíferos, mas contém proteínas da ameba social Dictyostelium discoideum, e uma proteína da Ciona intestinalis. Proteínas semelhantes foram identificadas na mosca da fruta, Drosophila melanogaster, o mosquito da malária, Anopheles gambiae, e a abelha melífera, Apis mellifera. Além disso, duas proteínas similares dos vermes Caenorhabditis elegans (ZYG-8), e Caenorhabditis briggsae são detectadas neste grupo. O quarto grupo de proteínas inclui as mais semelhantes ao DCX, DCLK, e DCLK2. Este grupo incluiu mamíferos, galinha, proteínas de peixe e uma proteína de e Ciona intestinalis. Esta análise de proteínas com dois domínios, foi seguida por uma análise para as proteínas do domínio terminal N e C (Figs. 4-5 suplementares). Foram analisadas cento e sete proteínas no grupo N e cento e uma proteínas no grupo C, sugerindo que há um pouco mais de proteínas similares à parte N-terminal do DCX. A subdivisão geral nos quatro grupos foi preservada. A inspeção das proteínas que compõem a árvore filogenética N-terminal detectou que proteínas adicionais foram adicionadas principalmente ao terceiro grupo contendo a proteína Dictyostelium discoideum (incluindo 8 membros). Também foram adicionadas proteínas de moscas e vermes a este grupo. O genoma da mosca da fruta contém cinco proteínas DCX, quatro das quais são de repetição única. Além disso, várias proteínas de mamíferos também foram adicionadas a este grupo. Este grupo foi aumentado para conter 26 membros no grupo N e 19 membros no grupo C. Este grupo incluiu uma proteína do organismo unicelular Plasmodium falciparum, o parasita da malária.
Inspecção das proteínas que compõem a árvore filogenética terminal C detectou um grupo contendo todas as proteínas DCLK3. Deve-se notar que este grupo como um todo é bastante distinto do DCX, DCLK, e DCLK2. As proteínas deste grupo contêm um único domínio DCX de mamíferos (humanos, chimpanzés, vacas, ratos e gambás), mas também de moscas da fruta, abelhas e mosquitos da malária. Uma exceção é a proteína ciona que demarca este grupo (Sca_10), que tem uma repetição em tandem. Um dos grupos contém ambas as proteínas DCDC2A e DCDC2B, e ainda um grupo adicional contém várias outras proteínas DCDC2B, sugerindo provavelmente menos seqüências evolutivas conservadas nos domínios terminais C deste subconjunto de proteínas.
Durante a análise das proteínas do domínio DCX, a presença de tandem ou de um único domínio DCX foi notada nos ortologs correspondentes. A forma mais simples de explicar estas diferenças pode ser através da perda de sequências intergénicas. A análise dos limites exon-intron incluiu todas as espécies de mamíferos e galinhas, uma vez que se trata de um vertebrado não-mamífero, próximo o suficiente dos mamíferos para tornar possível a comparação (Tabela 2). Em geral, a localização dos limites intron-exon é altamente conservada. Em alguns casos a presença de um exon adicional, não altera o comprimento dos aminoácidos que fazem parte dos domínios DCX. Tal é o caso do DCDC2C; a maioria das espécies contém um exão, enquanto que o ortolog da vaca a sequência de aminoácidos correspondente é dividida em dois exões. No entanto, na maioria dos casos, a falta de um exon implica uma redução na informação dos aminoácidos. Por exemplo, o FLJ46154 contém na maioria das espécies três exons, enquanto que no rato e na sequência correspondente na ratazana apenas dois. Consequentemente, em camundongos e ratos apenas um único domínio DCX foi identificado na região correspondente aos domínios FLJ46154 DCX humanos. Esta análise também permite identificar pontos-chave de tempo na evolução das proteínas do domínio DCX. Acredita-se agora que o ancestral vertebrado comum de mamíferos e aves recuou 310 milhões de anos, que os marsupiais se separaram do grupo principal (placentário) há cerca de 180 milhões de anos, e que os humanos e roedores se separaram da sua árvore genealógica evolutiva há cerca de 87 milhões de anos. A análise acima revelou que é provável que o BAC26042 se tenha perdido durante a evolução (no rato existem dois exons, enquanto que o rato e o macaco rhesus abrigam apenas um exon). Esta análise tem sido complicada devido a uma sequência prevista em rato (XM_230359) que é uma sequência fundida contendo ambos FLJ46154 e BAC26042. No entanto, temos evidências experimentais que não suportam a existência desta sequência fundida. Os anticorpos que geramos contra a proteína FLJ46154 do rato reconhecem uma proteína do tamanho previsto para o FLJ46154 em extracto de cérebro de rato (figura suplementar 6). Assim, realizamos nossa análise com base nos dados humanos, que são derivados de dados mRNA e EST, e os dados de camundongos que são baseados em dados EST, suportados pelos nossos dados experimentais. O DCLK3 foi gerado após a separação dos mamíferos e das aves. BAC26042, FLJ46154 e DCDC2C foram gerados após a separação dos marsupiais do grupo principal da placenta. O DCDC1 foi gerado após a separação dos humanos e roedores. De acordo com esta análise os genes mais conservados nesta superfamília são DCX, DCLK e DCDC2A.
Análise de seguimento dos dois grupos incluindo os domínios terminais N e C, a análise para todas as proteínas DCX foi conduzida (dados não mostrados). Como observado anteriormente para as proteínas humanas e do rato (Fig. 2), os domínios terminais N e C eram mais semelhantes entre si do que a repetição correspondente dentro da mesma proteína. Este resultado sugeriu que as duplicações do domínio DCX eram antigas, e provavelmente estas duas repetições diferiram em suas funções. A subespecialização dos motivos N-terminal e C-terminal DCX pode ser visualizada ao nível das sequências de logótipos. Anteriormente, quatro blocos conservados (A-D) dentro do motivo DCX foram identificados, estes blocos conservados são mostrados na parte inferior da Fig. 4. Quando a região N-terminal foi analisada separadamente da região C-terminal, era óbvio que o A e partes dos subdomínios B e C especificam o N-terminal, enquanto uma parte do subdomínio C especifica o C-terminal (Fig. 4). Este resultado foi obtido utilizando o algoritmo de busca de motivos de Lawrence Gibbs. Resultados similares foram obtidos com o algoritmo de localização de motivos MOTIF da Smith (dados não mostrados). Esta análise indica que, embora os domínios tandem compartilhem uma seqüência curta de aminoácidos similares, o domínio N-terminal possui um bloco único muito conservado de aminoácidos.
Análise de expressão por hibridação in situ
Leve em consideração as semelhanças entre os diferentes paraleógrafos de domínio DCX, e suas funções comuns em relação à transdução de sinal e regulação de microtubos , é importante estabelecer quando e onde esses genes são expressos. Isto ajudará a delinear a sua potencial função. Por exemplo, a distinção se um gene específico é expresso em células proliferantes, migratórias ou diferenciadoras é crítica quando se tenta descobrir a função do gene. Além disso, a coexpressão em um determinado tecido pode indicar que os parálogos podem cooperar ou ser redundantes.
Nossa análise foi realizada por hibridação in situ em E14.5, um estágio no qual muitos tipos de células diferenciadas características de um organismo adulto se formaram, mas ao mesmo tempo tais tecidos embrionários de gestação média ainda contêm células progenitoras. Esta análise foi realizada com o objetivo de gerar um perfil de expressão “snapshot”. Com exceção do Dcdc2B (Fig. 5D), os padrões de expressão dos genes que codificam as proteínas contendo DCX são, em maior ou menor grau, regionais. Dcx, Dclk e Dclk2 são expressos no sistema nervoso central e periférico incluindo o cérebro, medula espinhal, gânglios radiculares cranianos e dorsais e nos gânglios parassimpáticos (Fig. 5A-C). Uma visão de alta potência (Fig. 5E-H) mostra que no neocórtex em desenvolvimento as transcrições Dcx e Dclk são muito mais abundantes na pré-placa, mas células individuais expressando os genes Dcx e Dclk podem ser detectadas na zona ventricular. Ambos Dclk2 e Dcdc2B são expressos no neocórtex em desenvolvimento, largamente uniformes e em níveis baixos, mas mais pronunciados na zona ventricular do que Dcx e Dclk. Fora do sistema nervoso, os locais de expressão de Dcx e Dclk são os músculos esqueléticos, os músculos da língua e as células individuais do epitélio olfatório (Fig. 5A,B). Este último tecido também expressa Dclk2 (Fig. 5C).
BAC26042, FLJ46154 e Dcdc2A apresentam padrões de expressão altamente regionais, que no cérebro parecem ser semelhantes para BAC26042 e FLJ46154 (Fig. 5I-K). Fig. 5I e 5J mostram cortes sagitais através do antebraço com BAC26042 e FLJ46154 transcrições presentes no septo, vários grupos celulares do tálamo ventral, e no hipotálamo posterior. Outros locais de expressão são um grupo de neurônios na base do bulbo olfativo (Fig. 5I,J), a área pretectal, o núcleo facial e neurônios dispersos nas partes ventral e dorsal da medula espinhal (dados não mostrados). A expressão Dcdc2A no SNC é restrita a um grupo de neurônios dispersos na maior parte lateral do cerebelo em desenvolvimento (Fig. 5K). BAC26042 e Dcdc2A são expressos na plexi coróide (Fig. 5I,K).
A maioria dos genes codificadores de repetição do DCX são expressos na retina em desenvolvimento. Três tipos de padrões emergem: As transcrições Dcx, Dclk, Dclk2 são fortemente expressas na camada neuroblástica interna pós-mitótica (Fig. 5L-N), enquanto BAC26042 e FLJ46154 também são expressas nesta camada, mas de forma mais restrita perto e na sua superfície (Fig. 5P,Q). Finalmente as transcrições de Rp1l1 são encontradas na camada neuroblástica externa que contém células proliferantes (Fig. 5O). Células Dcx, Dclk ou Dclk2-expressoras dispostas radialmente são detectadas na camada neuroblástica externa que lembra a situação observada na zona ventricular do neocórtex (Fig. 5E-G).
Além disso, Dcx, Dclk e Dcdc2A expressos nos pulmões e rins. As transcrições de Dclk2 também são encontradas no ovário em desenvolvimento e a expressão fraca também é vista em todo o rim (dados não mostrados).
Nossa análise incluiu a maioria dos 11 genes listados na Tabela 1, sendo as exceções Dclk3, e Dcdc2C para os quais ainda não pudemos identificar modelos adequados. Rp1 também foi examinado, mas não é expresso em E14.5, exceto a expressão observada em algumas células da linha média da medula espinhal (dados não mostrados). Para resumir nossos estudos, descobrimos que tecidos destinados a responder a estímulos elétricos – sistemas nervosos central e periférico e músculos esqueléticos – representam os locais de expressão mais marcantes dos genes codificadores de repetição do DCX. Fora desses tecidos, a expressão é em sua maioria baixa e geralmente não regional, sendo as exceções rins e pulmões.
Análise de expressão em humanos e camundongos
A relevância das abordagens genômicas funcionais utilizando modelos de camundongos para o estudo de doenças humanas depende obviamente da similaridade da expressão gênica nas duas espécies. Assim, comparamos a expressão dos membros humanos da superfamília do gene DCX investigada neste estudo com os seus ortologs de camundongos. Para este fim, utilizamos a base de dados Unigene do site de dados de expressão. Os perfis de expressão dependentes de tecido, tanto para as proteínas DCX humanas como para as proteínas murinas contendo DCX foram gerados a partir da contagem EST fornecida pela UNIGENE . Como a comparação rato-humano foi uma característica chave, a análise foi limitada aos tecidos com um elevado número total de contagens de EST que eram comuns a ambos os organismos. Foram analisados dados para dez genes humanos diferentes e oito genes de camundongos. Para dois genes humanos não havia dados de expressão correspondentes em camundongos: DCDC2B, que tem um ortolog de rato que não está listado na UNIGENE, e DCDC1, que não tem um ortolog de rato. Os dados de expressão agrupados resultantes desta análise são mostrados na Fig. 6A e uma correlação gene-gene baseada nesta informação é mostrada na Fig. 6B.
Testamos a significância da correlação através de análise de permuta aleatória. As correlações foram recalculadas 1000 vezes depois de re-calculadas para cada gene independentemente de todos os tecidos de forma aleatória. Verificamos que todas as correlações altas (>0,5) foram significativas (p < 0,01). Dois clusters revelando uma correlação muito alta foram observados. O maior grupo incluiu RP1 e RP1L1 humanos, e seus ortologs murinos. Além disso, o DCDC1, que até agora tinha sido relatado para ser expresso principalmente em testículos, e cérebro embrionário, foi incluído neste grupo. Este grupo é caracterizado por altos níveis de expressão no olho, o que é comum entre a maioria das proteínas DCX, e tem sido observado em nossa análise in situ. Para além da expressão no olho, estes genes são expressos em níveis mais baixos apenas em alguns outros tecidos. Neste grupo não há distinção clara na correlação gene-gene na expressão em camundongos e humanos. A correlação entre os diferentes membros deste grupo é >0,9 em todos os casos. Tanto o humano quanto o rato FLJ46154 estão relacionados a este grupo, porém a correlação entre o humano e o rato FLJ46154 é baixa (0,3). Os produtos proteicos destes dois genes também divergiram, com a perda de um domínio DCX na proteína do rato. Assim, é possível que tenha havido menos conservação nas regiões reguladoras destes genes também.
O segundo grupo que exibe correlações genes altos inclui os genes murinos Dcx, Dclk, e Dclk2, e seus ortologs humanos. O DCLK2 humano exibiu correlações um pouco menores com seu ortolog do mouse (0,4) do que os outros genes deste grupo. Isto pode derivar dos seus níveis gerais de expressão mais baixos (Fig. 6A). Nossos dados in situ também indicaram uma alta semelhança na co-expressão de Dcx, Dclk, e Dclk2. Além disso, nossa análise funcional indicou que este grupo compartilha mais propriedades e apenas eles interagem com a neurabina da proteína scaffold 2. Um terceiro grupo de genes com níveis mais baixos de correlação inclui DCDC2A, DCLK3, Dcdc2A, e Dclk3. Neste grupo a correlação entre os ortologs correspondentes não excede 0,5. Deve-se notar que existem algumas correlações elevadas adicionais entre diferentes genes, por exemplo; DCLK3 e Flj46154, ou FLJ46154 com DCX, DCLK, e Dcx.