Identificación de proteínas con un dominio DCX
Se buscaron en los proteomas de humanos y ratones secuencias similares a la del dominio DCX humano, lo que produjo un total de 22 proteínas que contenían una o dos repeticiones DCX (Tabla 1, las secuencias completas utilizadas en el presente estudio se encuentran en la Fig. suplementaria 1. 1).
Se encontraron dominios de proteína quinasa de serina/treonina en tres proteínas humanas/ratón (DCLK, DCLK2 y DCLK3), y se encontró un dominio de ricina predicho para unir carbohidratos en una proteína humana/ratón denominada FLJ46154 . La estructura de las proteínas humanas FLJ46154 y DCDC2B difería de otras proteínas con repeticiones en tándem; contenían una repetición más parecida a la repetición C-terminal de DCX, que aparecía en la parte N-terminal de esta proteína, y una segunda repetición más parecida a la repetición N-terminal de DCX. En los ortólogos de ratón de estas dos proteínas, sólo estaba presente un dominio DCX. Todos los genes de ratón residen en regiones cromosómicas (Fig. 1b), que son sintéticas a los ortólogos humanos (Fig. 2 suplementaria). Esto incluye también la localización de DCDC1 y BAC26042, sin embargo no son verdaderos ortólogos ya que la similitud de secuencia es muy baja (52%, entre 46 de 86 aminoácidos) sólo en el dominio DCX, y el análisis filogenético y evolutivo, descrito a continuación, indica que son diferentes. BAC26042 también es único en su estrecha proximidad física con FLJ46154, la distancia entre estos dos genes es de sólo 2 kb, lo que sugiere que pueden compartir elementos reguladores comunes.
Este estudio se centra en los dominios DCX, y no cubre las proteínas de longitud completa. Se realizó un análisis filogenético para los dominios DCX individuales, separando las partes N- y C-terminal (Fig. 2). Del análisis filogenético de los dominios DCX de humanos y ratones surgieron varias características interesantes. La mayoría de los genes humanos tenían un ortólogo de ratón. Dos genes no obedecen esta regla ya que no tienen ortólogos inequívocos (DCDC1 humano y BAC26042 de ratón). Además, en la mayoría de los casos los dominios DCX situados en el extremo N-terminal eran más similares a otros dominios N-terminales que a los dominios C-terminales de la misma proteína. Las dos excepciones ya se han mencionado: la DCDC2B humana y la FLJ46154. El análisis de secuencias combinando BLAT y el análisis filogenético identificó las relaciones ortólogas enumeradas en la Tabla 1.
A continuación, ampliamos el análisis de la secuencia incluyendo varios genomas adicionales de no mamíferos. Inicialmente, el análisis abarcó las proteínas encontradas en la base de datos de dominios conservados CDD . Posteriormente, estas búsquedas se ampliaron con extensas búsquedas BLAST, TBLASTN y BLAT. Mediante la búsqueda BLAT se añadieron secuencias de zarigüeya, rata y mono rhesus. Las secuencias de Ciona se añadieron utilizando el análisis TBLATN contra los datos genómicos, y sólo se incluyeron las secuencias correspondientes a las EST. Por lo tanto, el presente análisis filogenético incluyó proteínas que contienen motivos DCX de humanos, chimpancés, ratones, vacas, perros, pollos, peces, gusanos, insectos, ranas, hongos y ascidias (los alineamientos múltiples se proporcionan en la Fig. 3 suplementaria). El análisis de las proteínas de dominio DCX en tándem (67 proteínas) dio lugar a un árbol no enraizado con valores bootstrap que se muestran en la Fig. 3.
Dentro del árbol de dominios DCX en tándem, que contiene 67 proteínas, se pueden clasificar fácilmente cuatro grupos de proteínas. De arriba a abajo, el grupo de RP1 y RP1L1 incluye ortólogos de la rana Xenopus laevis, peces (pez cebra Danio rerio, y pez globo Tetraodon nigrovidis), pollo, vaca, perro, ratón, rata, chimpancé y humano. El segundo grupo incluye proteínas similares a la DCDC2A (antes conocida como DCDC2, nombre aprobado por el Comité de Nomenclatura Genética de HUGO) de mamíferos, incluida la zarigüeya (un marsupial), así como de pollos, peces, ranas y organismos más sencillos como la ascidia Halocynthia roretzi y la ardilla de mar Ciona intestinalis. El tercer grupo de proteínas carece de proteínas de mamíferos, pero contiene proteínas de la ameba social Dictyostelium discoideum y una proteína de Ciona intestinalis. Se han identificado proteínas similares en la mosca de la fruta, Drosophila melanogaster, el mosquito de la malaria, Anopheles gambiae, y la abeja de la miel, Apis mellifera. Además, se detectan en este grupo dos proteínas similares de los gusanos Caenorhabditis elegans (ZYG-8), y Caenorhabditis briggsae. El cuarto grupo de proteínas incluye las más similares a DCX, DCLK y DCLK2. Este grupo incluye proteínas de mamíferos, pollos, peces y una proteína de Ciona intestinalis. Este análisis de las proteínas con dos dominios, fue seguido por un análisis para las proteínas con dominio N- y C- terminal (Figs. suplementarias 4-5). Se analizaron ciento siete proteínas en el grupo N, y ciento una proteínas en el grupo C, lo que sugiere que hay algo más de proteínas similares a la parte N-terminal de DCX. La subdivisión general en los cuatro grupos se mantuvo. La inspección de las proteínas que componen el árbol filogenético N-terminal detectó que se añadieron proteínas adicionales principalmente al tercer grupo que contiene la proteína de Dictyostelium discoideum (incluyendo 8 miembros). También se añadieron a este grupo proteínas de moscas y gusanos. El genoma de la mosca de la fruta contiene cinco proteínas DCX, cuatro de las cuales son repeticiones simples. Además, también se añadieron a este grupo varias proteínas de mamíferos. Este grupo aumentó hasta contener 26 miembros en el grupo N y 19 miembros en el grupo C. Este grupo incluía una proteína del organismo unicelular Plasmodium falciparum, el parásito de la malaria.
La inspección de las proteínas que componen el árbol filogenético C-terminal detectó un grupo que contenía todas las proteínas DCLK3. Cabe destacar que este grupo en su conjunto es bastante distinto de DCX, DCLK y DCLK2. Las proteínas de este grupo contienen un único dominio DCX de mamíferos (humanos, chimpancés, vacas, ratas y zarigüeyas), pero también de moscas de la fruta, abejas y mosquitos de la malaria. Una excepción es la proteína de ciona que marca este grupo (Sca_10), que tiene una repetición en tándem. Uno de los grupos contiene tanto proteínas DCDC2A como DCDC2B, y otro grupo adicional contiene varias proteínas DCDC2B más, lo que sugiere secuencias probablemente menos conservadas evolutivamente en los dominios C-terminales de este subconjunto de proteínas.
Durante el análisis de las proteínas de dominio DCX, se observó la presencia de dominios DCX en tándem o individuales en los correspondientes ortólogos. La forma más sencilla de explicar estas diferencias puede ser la pérdida de secuencias intergénicas. El análisis de los límites exón-intrón incluyó todas las especies de mamíferos y el pollo por ser un vertebrado no mamífero, lo suficientemente cercano a los mamíferos como para hacer posible la comparación (Tabla 2). En general, la localización de los límites intrón-exón está muy conservada. En algunos casos la presencia de un exón adicional, no cambia la longitud de los aminoácidos que forman parte de los dominios DCX. Tal es el caso del DCDC2C; la mayoría de las especies contienen un exón, mientras que el ortólogo de la vaca la secuencia de aminoácidos correspondiente está dividida en dos exones. Sin embargo, en la mayoría de los casos, la falta de un exón implica una reducción de la información de aminoácidos. Por ejemplo, FLJ46154 contiene en la mayoría de las especies tres exones, mientras que en el ratón y en la secuencia correspondiente en la rata sólo dos. En consecuencia, en el ratón y la rata sólo se identificó un único dominio DCX en la región correspondiente a los dominios DCX del FLJ46154 humano. Este análisis también permite identificar puntos temporales clave en la evolución de las proteínas de dominio DCX. Actualmente se cree que el ancestro vertebrado común de los mamíferos y las aves se remonta a 310 millones de años, los marsupiales se separaron del grupo principal (placentarios) hace unos 180 millones de años, y los humanos y los roedores se separaron de su árbol genealógico evolutivo hace unos 87 millones de años. El análisis anterior reveló que es probable que el BAC26042 se perdiera durante la evolución (en el ratón existen dos exones, mientras que la rata y el mono rhesus sólo albergan un exón). Este análisis se ha complicado debido a una secuencia predicha en la rata (XM_230359) que es una secuencia fusionada que contiene tanto FLJ46154 como BAC26042. Sin embargo, tenemos pruebas experimentales que no apoyan la existencia de esta secuencia fusionada. Los anticuerpos que generamos contra la proteína FLJ46154 de ratón reconocen una proteína del tamaño previsto para FLJ46154 en el extracto de cerebro de ratón (figura suplementaria 6). Por lo tanto, hemos realizado nuestro análisis basándonos en los datos humanos, que se derivan de los datos de ARNm y EST, y en los datos de ratón que se basan en los datos EST, apoyados por nuestros datos experimentales. DCLK3 se generó después de la división de mamíferos y aves. BAC26042, FLJ46154 y DCDC2C se generaron después de que los marsupiales se separaran del grupo principal de los placentarios. DCDC1 se generó después de la separación entre humanos y roedores. Según este análisis, los genes más conservados de esta superfamilia son DCX, DCLK y DCDC2A.
Tras el análisis de los dos grupos que incluyen los dominios terminales N y C, se realizó un análisis para todas las proteínas DCX (datos no mostrados). Como se observó anteriormente para las proteínas humanas y de ratón (Fig. 2), los dominios terminales N- y C- eran más similares entre sí que a la repetición correspondiente dentro de la misma proteína. Este resultado sugirió que las duplicaciones del dominio DCX eran antiguas, y probablemente estas dos repeticiones han diferido en sus funciones. La subespecialización de los motivos DCX N-terminal y C-terminal puede visualizarse a nivel de las secuencias del logo. Anteriormente, se identificaron cuatro bloques conservados (A-D) dentro del motivo DCX, estos bloques conservados se muestran en la parte inferior de la Fig. 4. Cuando se analizó la región N-terminal por separado de la región C-terminal, resultó obvio que el A y porciones de los subdominios B y C especifican el N-terminal, mientras que una porción del subdominio C especifica el C-terminal (Fig. 4). Este resultado se obtuvo utilizando el algoritmo de búsqueda de motivos de Lawrence Gibbs sampler. Se obtuvieron resultados similares con el algoritmo de búsqueda de motivos MOTIF de Smith (datos no mostrados). Este análisis indica que, aunque los dominios en tándem comparten una secuencia corta de aminoácidos similares, el dominio N-terminal tiene un bloque único de aminoácidos muy conservado.
Análisis de expresión por hibridación in situ
Teniendo en cuenta las similitudes entre los diferentes paralogos del dominio DCX, y sus funciones comunes en relación con la transducción de señales y la regulación de los microtúbulos , es importante establecer cuándo y dónde se expresan estos genes. Esto ayudará a delinear su función potencial. Por ejemplo, la distinción de si un gen específico se expresa en células en proliferación, en migración o en diferenciación es fundamental cuando se trata de averiguar la función del gen. Además, la coexpresión en un tejido concreto puede indicar que los paralogos podrían cooperar o ser redundantes.
Nuestro análisis se llevó a cabo mediante hibridación in situ en E14.5, una etapa en la que se han formado muchos tipos de células diferenciadas característicos de un organismo adulto pero, al mismo tiempo, dichos tejidos embrionarios de gestación media todavía contienen células progenitoras. Este análisis se realizó con el objetivo de generar una «instantánea» del perfil de expresión. Con la excepción del Dcdc2B, que se expresa de forma ubicua (Fig. 5D), los patrones de expresión de los genes que codifican las proteínas que contienen repeticiones DCX son, en mayor o menor medida, regionales. Dcx, Dclk y Dclk2 se expresan en el sistema nervioso central y periférico, incluyendo el cerebro, la médula espinal, los ganglios de la raíz craneal y dorsal y en los ganglios parasimpáticos (Fig. 5A-C). Una vista de alta potencia (Fig. 5E-H) muestra que en el neocórtex en desarrollo los transcritos Dcx y Dclk son mucho más abundantes en la preplaca, pero se pueden detectar células individuales que expresan los genes Dcx y Dclk en la zona ventricular. Tanto Dclk2 como Dcdc2B se expresan en el neocórtex en desarrollo, en gran medida de manera uniforme y a niveles bajos, pero más pronunciados en la zona ventricular que Dcx y Dclk. Fuera del sistema nervioso, los sitios prominentes de expresión de Dcx y Dclk son los músculos esqueléticos, los músculos de la lengua y las células individuales del epitelio olfativo (Fig. 5A,B). Este último tejido también expresa Dclk2 (Fig. 5C).
BAC26042, FLJ46154 y Dcdc2A muestran patrones de expresión altamente regionales, que en el cerebro parecen ser similares para BAC26042 y FLJ46154 (Fig. 5I-K). Las Fig. 5I y 5J muestran secciones sagitales a través del cerebro anterior con transcripciones de BAC26042 y FLJ46154 presentes en el septum, varios grupos celulares del tálamo ventral, y en el hipotálamo posterior. Otros lugares de expresión son un grupo de neuronas en la base del bulbo olfativo (Fig. 5I,J), el área pretectal, el núcleo facial y neuronas dispersas en las partes ventral y dorsal de la médula espinal (datos no mostrados). La expresión de Dcdc2A en el SNC está restringida a un grupo de neuronas dispersas en la parte más lateral del cerebelo en desarrollo (Fig. 5K). BAC26042 y Dcdc2A se expresan en el plexo coroideo (Fig. 5I,K).
La mayoría de los genes que codifican DCX se expresan en la retina en desarrollo. Surgen tres tipos de patrones: Los transcritos Dcx, Dclk, Dclk2 se expresan fuertemente en la capa neuroblástica interna postmitótica (Fig. 5L-N), mientras que BAC26042 y FLJ46154 también se expresan en esta capa, pero de forma más restringida cerca y en su superficie (Fig. 5P,Q). Por último, los transcritos de Rp1l1 se encuentran en la capa neuroblástica externa que contiene células proliferantes (Fig. 5O). En la capa neuroblástica externa se detectan células que expresan Dcx, Dclk o Dclk2 dispuestas radialmente, lo que recuerda a la situación observada en la zona ventricular del neocórtex (Fig. 5E-G).
Además, el pulmón y el riñón expresan Dcx, Dclk y Dcdc2A. Los transcritos de Dclk2 también se encuentran en el ovario en desarrollo y también se observa una débil expresión en todo el riñón (datos no mostrados).
Nuestro análisis incluyó la mayoría de los 11 genes enumerados en la Tabla 1, siendo las excepciones Dclk3, y Dcdc2C para los que todavía no pudimos identificar plantillas adecuadas. También se examinó Rp1, pero no se expresa en E14.5, salvo la expresión observada en algunas células de la línea media de la médula espinal (datos no mostrados). Para resumir nuestros estudios, encontramos que los tejidos destinados a responder a los estímulos eléctricos -sistemas nerviosos central y periférico y músculos esqueléticos- representan los sitios más llamativos de expresión de los genes que codifican las repeticiones DCX. Fuera de estos tejidos, la expresión es mayoritariamente baja y no suele ser regional, siendo las excepciones el riñón y el pulmón.
Análisis de la expresión en humanos y ratones
La relevancia de los enfoques genómicos funcionales que utilizan modelos de ratón para el estudio de las enfermedades humanas depende obviamente de la similitud de la expresión génica en las dos especies. Así, comparamos la expresión de los miembros humanos de la superfamilia de genes DCX investigados en este estudio con sus ortólogos de ratón. Para ello, utilizamos la base de datos del sitio web Unigene de datos de expresión. Se generaron perfiles de expresión dependientes del tejido para las proteínas humanas y murinas que contienen repeticiones de DCX a partir del recuento de EST proporcionado por UNIGENE . Dado que la comparación ratón-humano era una característica clave, el análisis se limitó a los tejidos con un alto número total de recuentos de EST que eran comunes a ambos organismos. Se analizaron los datos de diez genes humanos diferentes y ocho genes de ratón. Para dos genes humanos no había datos de expresión correspondientes en el ratón: DCDC2B, que tiene un ortólogo de ratón que no aparece en UNIGENE, y DCDC1, que no tiene un ortólogo de ratón. Los datos de expresión agrupados resultantes de este análisis se muestran en la Fig. 6A y una correlación gen-gen basada en esta información se muestra en la Fig. 6B.
Probamos la importancia de la correlación mediante un análisis de permutación aleatoria. Las correlaciones se volvieron a calcular 1000 veces después de remplazar para cada gen independientemente todos los tejidos al azar. Encontramos que todas las correlaciones altas (>0,5) eran significativas (p < 0,01). Se observaron dos grupos que revelaban una correlación muy alta. El grupo más grande incluía RP1 y RP1L1 humanos, y sus ortólogos murinos. Además, se incluyó en este grupo a DCDC1, que hasta ahora se había informado que se expresaba principalmente en los testículos y en el cerebro embrionario. Este grupo se caracteriza por sus altos niveles de expresión en el ojo, lo que es común entre la mayoría de las proteínas DCX, y se ha observado en nuestro análisis in situ. Además de la expresión en el ojo, estos genes se expresan a niveles más bajos sólo en algunos otros tejidos. En este grupo no hay una distinción clara en la correlación gen-gen en la expresión en el ratón y en el ser humano. La correlación entre los diferentes miembros de este grupo es >0,9 en todos los casos. Tanto el FLJ46154 humano como el de ratón están relacionados con este grupo, sin embargo la correlación entre el FLJ46154 humano y el de ratón es baja (0,3). Los productos proteicos de estos dos genes también han divergido, con una pérdida de un dominio DCX en la proteína del ratón. Por lo tanto, es posible que también haya habido menos conservación en las regiones reguladoras de estos genes.
El segundo grupo que exhibe altas correlaciones gen-gen incluye los genes murinos Dcx, Dclk y Dclk2, y sus ortólogos humanos. El DCLK2 humano mostró correlaciones algo menores con su ortólogo de ratón (0,4) que los otros genes de este grupo. Esto puede deberse a sus niveles generales de expresión más bajos (Fig. 6A). Nuestros datos in situ también indicaron una gran similitud en la coexpresión de Dcx, Dclk y Dclk2. Además, nuestro análisis funcional indicó que este grupo comparte más propiedades y sólo ellos interactúan con la proteína andamio neurabin 2. Un tercer grupo de genes con menores niveles de correlación incluye DCDC2A, DCLK3, Dcdc2A, y Dclk3. En este grupo la correlación entre los correspondientes ortólogos no supera el 0,5. Cabe destacar que hay algunas correlaciones altas adicionales entre diferentes genes, por ejemplo; DCLK3 y Flj46154, o FLJ46154 con DCX, DCLK y Dcx.