Identificación en todo el genoma de la introgresión putativa G. soja-G. max
Para investigar la introgresión en todo el genoma entre la soja cultivada y la silvestre, analizamos los datos de resecuenciación del genoma completo de una población de soja representativa que incluye 62 accesiones de G. soja, 130 variedades locales y 110 cultivares de soja mejorados recogidos en diversas regiones ecogeográficas de China y de otros países como Corea, Japón, Rusia, Estados Unidos y Canadá. Estas muestras se distribuyeron en casi todos los principales clados/grupos filogenéticos de 18.480 accesiones de soja domesticada y 1168 accesiones de soja silvestre recogidas en 84 países o desarrolladas en los EE.UU. que están depositadas en la Colección de Germoplasma de Soja del Departamento de Agricultura de los EE.UU. (USDA) y, por tanto, se consideran muy representativas de la diversidad genética de la soja. Primero identificamos los haplotipos regionales locales en cada una de las 62 accesiones de G. soja y 240 de G. max que eran idénticos por descendencia (IBD) a los individuos dentro de las subpoblaciones de G. soja y G. max utilizando todos los datos de SNP de las 302 accesiones siguiendo un enfoque descrito previamente . Para calcular las frecuencias de los haplotipos compartidos en diferentes regiones a lo largo de cada cromosoma del genoma de la soja, dividimos cada cromosoma en bins de 10 kb y calculamos los números de tramos de IBD registrados entre cada accesión y las dos subpoblaciones de G. soja y G. max por bin. Estos números se normalizaron de 0 (no se detectó IBD) a 1 (IBD compartido por todos los individuos dentro de una subpoblación), y el IBD normalizado entre cada accesión y la subpoblación de G. soja (nIBDG. soja) y entre cada accesión y la subpoblación de G. max (nIBDG. max) se utilizó para calcular el IBD relativo (rIBD) entre los grupos comparados (rIBD = nIBDG. soja – nIBDG. max). Por último, se identificó la introgresión genómica putativa de la subpoblación de G. soja a cada una de las accesiones de soja cultivada y de la subpoblación de G. max a cada una de las accesiones de soja silvestre.
A través de este enfoque, se detectó que 297 de las 302 accesiones contenían introgresión putativa interespecífica (Archivo adicional 1: Tabla S1, Archivo adicional 2: Figura S1). Las 110 variedades de élite se excluyeron de los análisis posteriores porque estas variedades mostraban tasas de introgresión relativamente pequeñas a partir de la soja silvestre (0,00015~0,03) y porque el desarrollo de estas variedades implicaba una hibridación de origen humano que podría ocultar los eventos de introgresión de origen natural. También se excluyó una variedad autóctona de los análisis posteriores debido a la calidad relativamente baja de sus secuencias genómicas y al alto nivel de heterocigosidad. Entre las restantes accesiones, que incluían 62 accesiones de G. soja y 129 razas autóctonas, las proporciones de fragmentos de introgresión detectados en los genomas individuales oscilaban entre 0,00037 y 0,60, con una media de 0,032 (Fig. 1, archivo adicional 1: Tabla S1). La distribución cromosómica de la introgresión detectada en las accesiones con > 0,05 (5%) fragmentos introgresados en los genomas individuales (archivo adicional 1: Tabla S1) se ilustran en la Fig. 2. Entre los genomas de G. soja, las proporciones de fragmentos G. max detectados oscilan entre 0,00059 y 0,41, con una media de 0,019 (archivo adicional 2: Figura S1, panel superior). Entre los genomas de G. max, las proporciones de fragmentos de G. soja detectados oscilan entre 0,00037 y 0,60, con una media de 0,031 (archivo adicional 2: figura S1, panel inferior). En total, el 43,94% y el 54,61% de los fragmentos putativos introgresados en las subpoblaciones de G. soja y G. max son compartidos por dos o más accesiones, y el resto son específicos de cada accesión (archivo adicional 2: figura S2). Ninguno de los fragmentos putativos introgresados detectados en este estudio se fijó completamente en las subpoblaciones de G. soja o G. max (Fig. 2).
Análisis anteriores de la estructura de la población y de la mezcla en la soja han revelado regiones genómicas locales que muestran similitudes excepcionales entre G. soja y G. max (5, 7), que se consideraron como evidencia de introgresión genómica. El análisis rIBD que define las regiones genómicas locales de las accesiones individuales implicadas en la supuesta introgresión descrita anteriormente proporciona más pruebas en apoyo de la introgresión G. soja-G. max. No obstante, sigue existiendo la posibilidad de que parte de la introgresión putativa, en particular los fragmentos putativos de G. soja detectados en el fondo de G. max, puedan ser el resultado de una clasificación incompleta del linaje de los polimorfismos ancestrales existentes en la población fuente utilizada en el proceso de domesticación. En un intento de obtener pruebas adicionales para apoyar la hipótesis de la introgresión, realizamos un análisis estadístico D para las grandes regiones putativas de introgresión de G. max detectadas en las 8 accesiones de G. soja (Fig. 2) en comparación por pares con 10 accesiones de G. max sin introgresión detectada (Fig. 1) y para las grandes regiones putativas de introgresión de G. soja detectadas en las 14 accesiones de G. max (Fig. 2) en comparación por pares con 10 accesiones de G. soja seleccionadas al azar sin introgresión detectada (Fig. 1). Como se muestra en la Fig. 3a, el estadístico D para las regiones que albergan introgresión putativa (D = – 0,15 ± 0,07) fue significativamente menor que las regiones sin introgresión putativa (D = – 0,08 ± 0,05) y también fue significativamente menor que el promedio de todo el genoma (D = – 0,11 ± 0,04), lo que sugiere que el flujo de genes entre los taxones G. soja y G. max estuvo involucrado en estas regiones genómicas con introgresión putativa detectada.
En un intento de rastrear el origen de la introgresión detectada, comparamos segmentos de introgresión grandes y representativos en una accesión de G. soja (PI 578357, s61) y una variedad autóctona (PI 339734, m30), que se estimó que portaban un 33% y un 31% de fragmentos de introgresión, respectivamente, con las regiones correspondientes en otras accesiones. La introgresión putativa en todo el genoma en una accesión de G. soja PI 578357 (s61), una de las accesiones de G. soja adyacentes a los clados de G. max, se ejemplificó en la Fig. 4b y en el archivo adicional 2: Figura S3.
Las regiones de introgresión en PI 578357 abarcan toda la región pericentromérica del cromosoma 2 sin QTLs de domesticación previamente detectados (Fig. 2) y, por tanto, se consideró que habían sufrido una presión selectiva mínima para su retención. Encontramos que las regiones examinadas del cromosoma 2 en PI 578357, cultivada en Amur, Rusia, comparten la mayor similitud de secuencia con sus regiones correspondientes en una variedad autóctona Heihexiaohuangdou (m104) cultivada en Heihe, China (Fig. 4a, b, d, f). Por el contrario, las regiones de no introgresión de PI 578357 comparten la mayor similitud con sus regiones correspondientes en una accesión de G. soja PI 522226 (s5) cultivada en Primorie, Rusia (Fig. 4b, c, e, f), que es una de las accesiones de G. soja más divergentes de PI 578357 y del linaje de G. max (Fig. 1), por lo que es poco probable que participe o derive de la población fuente utilizada para la domesticación de la soja. Las regiones de introgresión del cromosoma 19 en PI 339734, una variedad autóctona cultivada en Corea, compartieron la mayor similitud de secuencia con sus regiones correspondientes en una accesión de G. soja PI 407275 (s42) que también se cultivó en Corea (Fig. 4h, i, k, l). Por el contrario, las regiones de no-introducción de PI 339734 comparten la mayor similitud con sus regiones correspondientes en una variedad autóctona PI 548456 (m111) que también fue cultivada en Pyongyang, Corea del Norte (Fig. 4g, h, j, l). La distribución geográfica, los patrones y niveles de similitud y divergencia de secuencias de las regiones genómicas locales, y la diversidad de secuencias de todo el genoma y la filogenia de estas accesiones sugieren conjuntamente que el quimerismo detectado de los cromosomas, como se ha descrito anteriormente, fue probablemente el resultado de la introgresión interespecífica en lugar de la clasificación incompleta del linaje de los polimorfismos ancestrales en la población fuente para la domesticación de la soja. Basándose en las secuencias genéticas de todo el genoma, los tiempos de divergencia entre PI 578357 y Heihexiaohuangdou y entre PI 339734 y PI 407275 se dataron en ~ 0,37 y 0,27 millones de años (mya), respectivamente. Dado que la domesticación de la soja se produjo hace sólo ~ 6000-9000 años, un nivel tan alto de similitudes de las regiones de introgresión examinadas entre los dos pares de accesiones (G. soja-G. max) ejemplificados anteriormente debería considerarse como una prueba directa de la introgresión de G. soja-G. max.
Factores que conforman el paisaje de la introgresión de G. soja-G. max
Para entender las fuerzas evolutivas que dan forma a la distribución de la introgresión genómica en las dos subpoblaciones, primero comparamos las proporciones medias de fragmentos introgresados entre las regiones pericentroméricas y los brazos cromosómicos que se definieron a grandes rasgos sobre la base de las tasas de recombinación genética local y las posiciones físicas de las repeticiones enriquecidas en el centrómero en el genoma de la soja . En general, las regiones pericentroméricas presentan tasas de recombinación genética muy reducidas y una acumulación sesgada de mutaciones deletéreas, como la inserción de elementos transponibles, en comparación con los brazos cromosómicos. Encontramos que, a pesar de algunas excepciones, en general las regiones pericentroméricas tienen mayores proporciones de fragmentos introgresados tanto en la subpoblación de G. soja como en la de G. max (prueba t de Student emparejada, valor p < 0,01, Fig. 2 y archivo adicional 3: Tabla S2). El análisis estadístico D para las regiones pericentroméricas en comparación con los brazos se realizó utilizando el mismo subconjunto de accesiones de G. max y G. soja. Como se muestra en la Fig. 3b, el estadístico D para las regiones pericentroméricas (D = – 0,12 ± 0,06) fue significativamente menor que el de los brazos cromosómicos (D = – 0,09 ± 0,02) (Fig. 3b), sugiriendo una acumulación sesgada de flujo génico en las regiones pericentroméricas. Este sesgo puede ser en parte el resultado de las tasas reducidas de recombinación genética y, por lo tanto, una menor eficiencia en la purga de la variación/fragmentos introgresados en las regiones pericentroméricas en comparación con los brazos cromosómicos.
Teóricamente, la introgresión genómica fue el resultado de la hibridación espontánea, y el posterior retrocruzamiento que involucra a G. soja y G. max debería haber sufrido dos presiones de selección distintas: la selección natural para los rasgos silvestres hacia la formación de accesiones de G. soja o similares a G. soja adaptadas a los entornos naturales frente a la selección artificial para los rasgos cultivados hacia el desarrollo de accesiones de G. max o similares a G. max adecuadas para el cultivo. Si este es el caso, podríamos anticipar la observación de distintos patrones de distribución de los fragmentos introgresados entre el G. soja y G. max. Para probar esta hipótesis, primero estimamos las proporciones de fragmentos introgresados en 122 barridos selectivos (Fig. 2) que mostraban severas reducciones de variación de nucleótidos desde la subpoblación de G. soja a la subpoblación de G. max . Estas regiones en la soja cultivada fueron probablemente el resultado de una fuerte presión selectiva que actuó sobre determinados loci asociados a la domesticación de la soja . Como se esperaba, en las accesiones de G. soja se detectó una proporción significativamente menor de fragmentos de G. max en las regiones correspondientes a las regiones de barrido selectivo en comparación con el resto del genoma (prueba t de Student emparejada, valor p = 0,002667, Fig. 5a). Por el contrario, en las accesiones de G. max se detectó una proporción significativamente menor de fragmentos de G. soja en las regiones de barrido selectivo en comparación con la parte restante del genoma (prueba t de Student emparejada, valor p = 2,542e-09, Fig. 5c).
Además, estimamos las proporciones de fragmentos introgresados en 44 regiones QTL subyacentes a la domesticación de la soja (Fig. 2). Estos QTLs han sido recientemente identificados utilizando aproximadamente 800 líneas endógamas recombinantes (RIL) derivadas de cruces entre Williams 82 y cada una de las 2 accesiones de G. soja PI 468916 (s14) y PI 479752 (s15) . Encontramos que la proporción de fragmentos introgresados en las correspondientes regiones QTL de domesticación de las accesiones de G. max o G. soja es incluso menor que la detectada en las regiones de barrido selectivo (Fig. 5b, d). En conjunto, estas observaciones indican resultados y efectos distintos de la selección bidireccional, es decir La introgresión genómica ha sido considerada como una vía importante para el flujo de genes; nos preguntamos cómo el flujo de genes puede haber afectado el proceso de domesticación y la arquitectura genética del genoma de la soja a nivel poblacional. Recientemente, se han aislado dos genes clave para la domesticación de la soja, GmHs1-1 y Bloom1 (B1), que controlan la impermeabilidad de la semilla y la floración de la cubierta de la semilla, respectivamente. La impermeabilidad de la capa de la semilla y la floración se consideraron importantes o esenciales para la supervivencia a largo plazo de la soja silvestre, mientras que la capa permeable de la semilla sin floración era deseable para la producción agrícola y el consumo humano, y fue objeto de selección en la domesticación. Se identificó y validó funcionalmente la mutación causal en cada uno de los dos loci para la transición clave de la domesticación. Una mutación recesiva (C→T) en la región codificante de GmHs1-1 dio lugar a la transición de una cubierta de semilla impermeable en la soja silvestre a una cubierta de semilla permeable en la soja cultivada, y la selección del alelo domesticado Gmhs1-1 formó una región de barrido selectivo de ~ 160 kb . Una mutación recesiva (C→T) en la región codificante de B1 fue la responsable de la pérdida de floración de la cubierta de la semilla en la soja cultivada, y la selección del alelo domesticado b1 dio lugar a una región de barrido selectivo de ~ 301-kb . Hasta donde sabemos, estos son los únicos dos genes identificados hasta la fecha cuyos dos alelos pueden distinguir casi exclusivamente la soja silvestre de la cultivada, y mientras tanto, la mutación causal idéntica en cada uno de los dos loci para los fenotipos domesticados es compartida por la soja cultivada.
Usando SNPs en las dos regiones de barrido selectivo que rodean los loci GmHS1-1/Gmhs1-1 y B1/b1, construimos las relaciones filogenéticas entre las 62 accesiones de G. soja y las 129 variedades locales. La posible introgresión de las dos regiones de barrido selectivo fue definida por las relaciones filogenéticas. En la región GmHs1-1/Gmhs1-1 de ~ 160 kb, se reveló que 13 variedades locales poseían la región GmHs1-1 similar a G. soja, mientras que sólo una accesión de G. soja, PI 366121 (s58), tenía la región Gmhs1-1 similar a G. max (Fig. 6a). Las regiones GmHs1-1 similares a G. soja encontradas en las 13 razas autóctonas estaban dispersas en todos los clados principales de la población de G. soja (Fig. 6a), mientras que sólo un subconjunto de los clados de las regiones GmHs1-1 puede ser la fuente de selección para el alelo Gmhs1-1 durante la domesticación. Por lo tanto, las diversas regiones GmHs1-1 en estas razas autóctonas fueron más probablemente el resultado de la introgresión interespecífica. En la región B1/b1 de ~ 301 kb, PI 339734 resultó ser la única variedad local que poseía la región B1 similar a G. soja, mientras que PI 549046 (s28) resultó ser la única accesión de G. soja que contenía la región b1 similar a G. max (Fig. 6b), que es casi idéntica a la de una variedad de G. max PI 437654 (m47) (Fig. 6b). Esta accesión de G. soja se agrupó filogenéticamente, a nivel de todo el genoma, en un clado que es distante de otros clados de G. soja adyacentes a G. max (Fig. 1), lo que sugiere que la región b1 en esta accesión de G. soja probablemente surgió de G. max a través del flujo de genes. Entre estas variedades locales, PI 339734 es la única accesión que procesa las regiones GmHs1-1 y B1 (Fig. 6a, b).
Los barridos selectivos que rodean los QTL de domesticación son generalmente detectables a nivel de población, pero los límites de los haplotipos específicos bajo selección dentro de una región de barrido selectivo particular varían entre las accesiones individuales. Para seguir las huellas del flujo génico en estos loci de domesticación clave, nos centramos en los dos genes de domesticación y sus secuencias adyacentes, incluyendo las respectivas secuencias presumiblemente promotoras y terminadoras, centrándonos en la mutación causante que dio lugar al alelo de domesticación en cada locus. En el locus GmHs1-1/Gmhs1-1, se encontró que 13 razas autóctonas compartían los haplotipos de G. soja o similares a G. soja, incluyendo el nucleótido específico de GmHs1-1 (C), mientras que 7 accesiones de G. soja poseían el haplotipo de G. max o similar a G. max, incluyendo el nucleótido específico de Gmhs1-1 (T) (Fig. 6a y archivo adicional 2: Figura S4). En consonancia con la filogenia de las regiones de barrido B1/b1 entre las 191 accesiones (Fig. 6b), G. soja PI 549046 (s28) posee el haplotipo b1, incluyendo la mutación causal (T) para b1, que es idéntica a la de las 191 razas autóctonas, mientras que el haplotipo de la raza autóctona PI 339734 (m30) es altamente idéntico a los de la mayoría de las accesiones de G. soja, incluyendo el nucleótido específico B1 (C) (archivo adicional 2: Figura S5). Dada la distinción filogenética de las subpoblaciones de G. soja y G. max, la mezcla detectada de las regiones de barrido selectivo y los haplotipos en los dos loci del gen de domesticación en la población investigada se consideraría una prueba más del flujo génico entre subpoblaciones.
La introgresión revelada por la diversificación asimétrica entre los genomas nuclear y organelar
Dado que los cruces entre G. soja y G. max pueden realizarse fácilmente para producir semillas fértiles, se pensó que la introgresión o el flujo génico detectado en este estudio, tal y como se ha descrito anteriormente, eran reliquias de rondas de hibridación espontánea en las que participaban estos dos grupos de genes a través de la diseminación del polen y/o la dispersión de semillas. En teoría, algunos de los eventos de hibridación se detectarían por comparación con sus genomas organolépticos en el contexto de la arquitectura genética definida por sus genomas nucleares. Por lo tanto, analizamos las secuencias del genoma del cloroplasto de las 191 accesiones de soja resecuenciadas. Entre los 191 genomas del cloroplasto, se identificaron un total de 333 SNPs de alta precisión que se utilizaron para construir el árbol filogenético (Fig. 7). En general, los 191 genomas del cloroplasto se agruparon en 2 subgrupos, el subgrupo G. max y el subgrupo G. soja. Como se esperaba, los genomas del cloroplasto de las accesiones de G. max dentro del subgrupo G. max son menos divergentes que los de las accesiones de G. soja dentro del subgrupo G. soja. A pesar de la clara distinción de los genomas del cloroplasto entre los subgrupos G. max y G. soja, 24 accesiones de G. max se agruparon en el subgrupo G. soja y 3 accesiones de G. soja se agruparon en el subgrupo G. max (Fig. 7). Estas observaciones indican la ocurrencia de eventos de hibridación G. soja-G. max con G. soja o G. max como padre materno. Tales eventos han remodelado aparentemente la arquitectura genética de los genomas nucleares tanto de las subpoblaciones de G. soja como de G. max.
Para las accesiones de G. max y G. soja que poseen los respectivos cloroplastos de G. max y G. soja, las accesiones más estrechamente relacionadas según sus genomas nucleares tienden a compartir haplotipos idénticos o más similares de sus genomas de cloroplastos (Fig. 7 y archivo adicional 2: Figura S6), lo que sugiere la coevolución entre los genomas nucleares y los genomas de cloroplastos como patrón general. Sin embargo, también se observaron aparentes excepciones. Por ejemplo, se detectó que algunas accesiones con genomas nucleares muy divergentes compartían haplotipos idénticos o casi idénticos de los genomas del cloroplasto, y se detectó que algunas accesiones con genomas nucleares más estrechamente relacionados tenían haplotipos más divergentes de los genomas del cloroplasto (archivo adicional 2: figura S6). Estas excepciones sugieren que también se han producido eventos de hibridación entre accesiones muy divergentes en cuanto a sus genomas nucleares dentro de la subpoblación de G. max o dentro de la subpoblación de G. soja, y es muy probable que tales eventos sean responsables de la diversificación varietal sin parangón observada entre los genomas nuclear y del cloroplasto.