- L’identificazione a livello genomico dell’introgressione putativa G. soja-G. max
- Fattori che modellano il paesaggio di G. soja-G. max
- Flusso genico mediato dall’intrusione che circonda i geni chiave della domesticazione
- Introgressione rivelata dalla diversificazione asimmetrica tra i genomi nucleari e organellari
L’identificazione a livello genomico dell’introgressione putativa G. soja-G. max
Per studiare l’introgressione a livello genomico tra soia coltivata e selvatica, abbiamo analizzato i dati di risequenziamento dell’intero genoma di una popolazione rappresentativa di soia che comprende 62 accessioni di G. soja, 130 ecotipi e 110 cultivar di soia migliorati raccolti in diverse regioni eco-geografiche della Cina e in altri paesi tra cui Corea, Giappone, Russia, USA e Canada. Questi campioni sono stati distribuiti in quasi tutti i principali cladi/gruppi filogenetici di 18.480 accessioni di soia domestica e 1168 accessioni di soia selvatica raccolte da 84 paesi o sviluppate negli Stati Uniti che sono depositate nella US Department of Agriculture (USDA) Soybean Germplasm Collection e quindi considerate molto rappresentative della diversità genetica della soia. Abbiamo innanzitutto identificato gli aplotipi regionali locali in ciascuna delle 62 accessioni di G. soja e 240 di G. max che erano identici per discendenza (IBD) agli individui all’interno delle sottopopolazioni di G. soja e G. max utilizzando tutti i dati SNP dalle 302 accessioni seguendo un approccio precedentemente descritto. Per calcolare le frequenze degli aplotipi condivisi in diverse regioni lungo ogni cromosoma del genoma della soia, abbiamo diviso ogni cromosoma in bins di 10 kb e calcolato il numero di tratti IBD registrati tra ogni adesione e le due sottopopolazioni G. soja e G. max per bin mediante confronti a coppie. Questi numeri sono stati normalizzati da 0 (nessuna IBD rilevata) a 1 (IBD condivisa da tutti gli individui all’interno di una sottopopolazione), e l’IBD normalizzata tra ogni adesione e la sottopopolazione G. soja (nIBDG. soja) e tra ogni adesione e la sottopopolazione G. max (nIBDG. max) sono stati utilizzati per calcolare l’IBD relativa (rIBD) tra i gruppi confrontati (rIBD = nIBDG. soja – nIBDG. max). Infine, è stata identificata l’introgressione genomica putativa dalla sottopopolazione G. soja a ciascuna delle accessioni di soia coltivata e dalla sottopopolazione G. max a ciascuna delle accessioni di soia selvatica.
Attraverso questo approccio, 297 delle 302 accessioni sono state individuate per contenere introgressione interspecifica putativa (file aggiuntivo 1: tabella S1, file aggiuntivo 2: figura S1). Le 110 varietà d’elite sono state escluse da ulteriori analisi perché queste varietà hanno mostrato tassi relativamente minori di introgressione dalla soia selvatica (0,00015~0,03) e perché lo sviluppo di queste varietà ha coinvolto l’ibridazione umana che potrebbe oscurare gli eventi di introgressione naturale. Una razza terrestre è stata inoltre esclusa da ulteriori analisi a causa della qualità relativamente bassa delle sequenze genomiche e dell’alto livello di eterozigosi. Tra le restanti accessioni, tra cui 62 accessioni G. soja e 129 landrace, le proporzioni di frammenti introgressi rilevati nei singoli genomi variano da 0,00037 a 0,60, con una media di 0,032 (Fig. 1, file aggiuntivo 1: Tabella S1). La distribuzione cromosomica dell’introgressione rilevata nelle accessioni con > 0,05 (5%) frammenti introgressi nei singoli genomi (Additional file 1: Tabella S1) sono illustrati in Fig. 2. Tra i genomi di G. soja, le proporzioni di frammenti rilevati G. max variano da 0,00059 a 0,41, con una media di 0,019 (Additional file 2: Figura S1, pannello superiore). Tra i genomi di G. max, le proporzioni dei frammenti di G. soja rilevati vanno da 0.00037 a 0.60, con una media di 0.031 (file aggiuntivo 2: Figura S1, pannello inferiore). In totale, il 43,94% e il 54,61% dei frammenti introgressivi putativi nelle sottopopolazioni di G. soja e G. max sono condivisi da due o più accessioni, e i rimanenti sono specifici dell’adesione (file aggiuntivo 2: Figura S2). Nessuno dei frammenti introgressivi putativi rilevati in questo studio erano completamente fissati nelle sottopopolazioni di G. soja o G. max (Fig. 2).
Analisi precedenti della struttura della popolazione e della commistione nella soia hanno rivelato regioni genomiche locali che mostrano somiglianze eccezionali tra G. soja e G. max (5, 7), che sono state considerate come prove di introgressione genomica. L’analisi rIBD che definisce le regioni genomiche locali di singole accessioni coinvolte nell’introgressione putativa descritta sopra fornisce ulteriori prove a sostegno dell’introgressione G. soja-G. max. Tuttavia, rimane la possibilità che una parte dell’introgressione putativa, in particolare i frammenti putativi di G. soja rilevati nel background di G. max, possa essere il risultato di un incompleto smistamento del lineage dei polimorfismi ancestrali esistenti nella popolazione di origine utilizzata nel processo di domesticazione. Nel tentativo di raccogliere ulteriori prove a sostegno dell’ipotesi di introgressione, abbiamo condotto l’analisi D-statistica per le grandi regioni putative G. max-introdotte rilevate nelle 8 accessioni G. soja (Fig. 2) in confronto a coppie con 10 accessioni G. max senza introgressione rilevata (Fig. 1) e per le grandi regioni putative G. soja-introgresse rilevate nelle 14 accessioni di G. max (Fig. 2) nel confronto a coppie con 10 accessioni di G. soja selezionate a caso senza introgressione rilevata (Fig. 1). Come mostrato in Fig. 3a, la statistica D per le regioni che ospitano introgressione putativa (D = – 0,15 ± 0,07) era significativamente inferiore alle regioni senza introgressione putativa (D = – 0,08 ± 0,05) ed era anche significativamente inferiore alla media genoma-wide (D = – 0,11 ± 0,04), suggerendo che il flusso genico tra il G. soja e G. max taxa era coinvolto in queste regioni genomiche con rilevato introgressione putativa.
Nel tentativo di rintracciare l’origine dell’introgressione rilevata, abbiamo confrontato grandi e rappresentativi segmenti di introgressione in un G. soja (PI 578357, s61) e di una razza (PI 339734, m30), che sono stati stimati portare rispettivamente il 33% e il 31% di frammenti introgressi, con regioni corrispondenti in altre accessioni. L’introgressione genomica putativa in un’accessione di G. soja PI 578357 (s61), una delle accessioni di G. soja adiacenti ai cladi di G. max, è stata esemplificata nella Fig. 4b e nel file aggiuntivo 2: Figura S3.
Le regioni di introgressione in PI 578357 abbracciano l’intera regione pericentromerica del cromosoma 2 senza QTL addomesticamento precedentemente rilevato (Fig. 2) e sono stati quindi considerati di aver subito una pressione selettiva minima per la loro conservazione. Abbiamo trovato che le regioni esaminate del cromosoma 2 in PI 578357, coltivato in Amur, Russia, condividono la più alta somiglianza di sequenza con le loro regioni corrispondenti in un landrace Heihexiaohuangdou (m104) cresciuto in Heihe, Cina (Fig. 4a, b, d, f). Al contrario, le regioni non di introgressione di PI 578357 condividono la più alta somiglianza con le loro regioni corrispondenti in un’accessione di G. soja PI 522226 (s5) coltivata in Primorye, Russia (Fig. 4b, c, e, f), che è una delle accessioni di G. soja che sono più divergenti da PI 578357 e dalla stirpe di G. max (Fig. 1), e quindi è improbabile che sia coinvolto o derivato dalla popolazione di origine utilizzata per la domesticazione della soia. Le regioni di introgressione del cromosoma 19 in PI 339734, una varietà coltivata in Corea, sono risultate condividere la massima somiglianza di sequenza con le loro regioni corrispondenti in un’adesione di G. soja PI 407275 (s42) che è stata anche coltivata in Corea (Fig. 4h, i, k, l). Al contrario, le regioni di non-introgressione di PI 339734 condividono la più alta somiglianza con le loro regioni corrispondenti in un landrace PI 548456 (m111) che è stato anche coltivato a Pyongyang, Corea del Nord (Fig. 4g, h, j, l). La distribuzione geografica, i modelli e i livelli di somiglianza e divergenza di sequenza delle regioni genomiche locali, e l’intera diversità di sequenza a livello genomico e la filogenesi di queste accessioni insieme suggeriscono che il chimerismo rilevato di cromosomi, come descritto sopra, è stato molto probabilmente il risultato di introgressione interspecifica invece di un ordinamento incompleto dei polimorfismi ancestrali nella popolazione di origine per la domesticazione della soia. Sulla base delle sequenze geniche nell’intero genoma, i tempi di divergenza tra PI 578357 e Heihexiaohuangdou e tra PI 339734 e PI 407275 sono stati datati rispettivamente a ~ 0,37 e 0,27 milioni di anni fa (mya). Poiché l’addomesticamento della soia è avvenuto solo ~ 6000-9000 anni fa, un livello così elevato di somiglianze delle regioni di introgressione esaminate tra le due coppie di accessioni (G. soja-G. max) esemplificate sopra dovrebbe essere considerato come prova diretta dell’introgressione G. soja-G. max.
Fattori che modellano il paesaggio di G. soja-G. max
Per comprendere le forze evolutive che modellano la distribuzione dell’introgressione genomica nelle due sottopopolazioni, abbiamo prima confrontato le proporzioni medie di frammenti introgressi tra regioni pericentromeriche e bracci cromosomici che sono stati approssimativamente definiti in base ai tassi di ricombinazione genetica locale e alle posizioni fisiche delle ripetizioni arricchite di centromeri nel genoma della soia. In generale, le regioni pericentromeriche mostrano tassi gravemente ridotti di ricombinazione genetica e accumulo distorto per mutazioni deleterie come l’inserimento di elementi trasponibili rispetto ai bracci cromosomici. Abbiamo trovato che, nonostante alcune eccezioni, nel complesso le regioni pericentromeriche hanno proporzioni più elevate di frammenti introgressi sia nella sottopopolazione G. soja o la sottopopolazione G. max (test t di Student accoppiato, valore p < 0,01, Fig. 2 e file aggiuntivo 3: Tabella S2). L’analisi D-statistica per le regioni pericentromeriche rispetto alle braccia è stata eseguita utilizzando lo stesso sottoinsieme di G. max e G. soja accessioni. Come mostrato in Fig. 3b, la D-statistica per le regioni pericentromeriche (D = – 0,12 ± 0,06) era significativamente inferiore alle braccia cromosomiche (D = – 0,09 ± 0,02) (Fig. 3b), suggerendo un accumulo distorto di flusso genico nelle regioni pericentromeriche. Tale polarizzazione può essere parzialmente il risultato dei tassi ridotti di ricombinazione genetica e quindi ridotta efficienza nel purging introgressed variazione/frammenti nelle regioni pericentromeriche rispetto ai bracci cromosomici.
Teoricamente, introgressione genomica risultato di ibridazione spontanea, e successivo backcrossing che coinvolge G. soja e G. max dovrebbero aver subito due distinte pressioni di selezione: la selezione naturale per i tratti selvatici verso la formazione di G. soja o G. soja-like accessioni adatte agli ambienti naturali contro la selezione artificiale per i tratti coltivati verso lo sviluppo di G. max o G. max-like accessioni adatte alla coltivazione. Se questo è il caso, ci aspetteremmo di osservare modelli distinti di distribuzione dei frammenti introgressi tra il G. soja e G. max sottopopolazioni. Per testare questa ipotesi, abbiamo prima stimato le proporzioni di frammenti introgressi in 122 spazzate selettive (Fig. 2) che mostravano gravi riduzioni della variazione nucleotidica dalla sottopopolazione G. soja alla sottopopolazione G. max. Queste regioni nella soia coltivata erano probabilmente il risultato di una forte pressione selettiva che agisce su particolari loci associati alla domesticazione della soia. Come previsto, una proporzione significativamente più bassa di G. max frammenti nelle regioni corrispondenti alle regioni sweep selettivo rispetto alla restante parte del genoma è stato rilevato nelle accessioni G. soja (test t di Student accoppiato, valore p = 0.002667, Fig. 5a). Al contrario, una proporzione significativamente più bassa di G. soja frammenti nelle regioni sweep selettivo rispetto alla parte rimanente del genoma è stato rilevato nelle accessioni G. max (test t di Student accoppiato, valore p = 2.542e-09, Fig. 5c).
Inoltre, abbiamo stimato le proporzioni di frammenti introgressi in 44 regioni QTL alla base della domesticazione della soia (Fig. 2). Questi QTL sono stati recentemente identificati utilizzando circa 800 linee inbred ricombinanti (RIL) derivate da incroci tra Williams 82 e ciascuna delle 2 accessioni di G. soja PI 468916 (s14) e PI 479752 (s15) . Abbiamo trovato che la proporzione di frammenti introgressi nelle corrispondenti regioni QTL di domesticazione delle accessioni G. max o G. soja è ancora più piccola di quella rilevata nelle regioni di spazzata selettiva (Fig. 5b, d). Insieme, queste osservazioni indicano risultati distinti ed effetti della selezione bidirezionale, cioè, selezione naturale rispetto alla selezione artificiale, sul mantenimento dei frammenti introgressi nelle sottopopolazioni di G. soja e G. max.
Flusso genico mediato dall’intrusione che circonda i geni chiave della domesticazione
L’introgressione genomica è stata realizzata come una via principale per il flusso genico; ci siamo chiesti come il flusso genico possa aver influenzato il processo di domesticazione e l’architettura genetica del genoma della soia a livello di popolazione. Recentemente, due geni chiave dell’addomesticamento della soia, GmHs1-1 e Bloom1 (B1), che controllano rispettivamente l’impermeabilità del seme e la fioritura del mantello del seme, sono stati isolati. L’impermeabilità del mantello del seme e la fioritura sono stati considerati importanti o essenziali per la sopravvivenza a lungo termine della soia selvatica, mentre il mantello del seme permeabile senza fioritura era desiderabile per la produzione agricola e il consumo umano e destinato alla selezione nell’addomesticamento. La mutazione causale in ciascuno dei due loci per la transizione chiave dell’addomesticamento è stata identificata e convalidata dal punto di vista funzionale. Una mutazione recessiva (C→T) nella regione codificante di GmHs1-1 ha provocato la transizione dal mantello del seme impermeabile nella soia selvatica al mantello del seme permeabile nella soia coltivata, e la selezione per l’allele addomesticato Gmhs1-1 ha formato una regione di sweep selettivo di ~ 160 kb. Una mutazione recessiva (C→T) nella regione codificante di B1 era responsabile della perdita di fioritura del mantello del seme nella soia coltivata, e la selezione dell’allele addomesticato b1 ha prodotto una regione di sweep selettivo di ~ 301 kb. A nostra conoscenza, questi sono solo due geni identificati fino ad oggi i cui due alleli possono distinguere quasi esclusivamente la soia selvatica dalla soia coltivata, e nel frattempo, la mutazione causale identica a ciascuno dei due loci per i fenotipi domestici è condivisa dalla soia coltivata.
Utilizzando gli SNP nelle due regioni di spazzata selettiva che circondano i loci GmHS1-1/Gmhs1-1 e B1/b1, abbiamo costruito le relazioni filogenetiche tra le 62 accessioni di G. soja e 129 varietà. L’introgressione putativa che coinvolge le 2 regioni di spazzata selettiva è stata definita dalle relazioni filogenetiche. Nella regione GmHs1-1/Gmhs1-1 di ~ 160 kb, 13 ecotipi sono risultati possedere la regione GmHs1-1 simile a quella di G. soja, mentre solo un’adesione di G. soja, PI 366121 (s58), è risultata avere la regione Gmhs1-1 simile a quella di G. max (Fig. 6a). Le regioni GmHs1-1 simili a G. soja trovate nei 13 landraces erano sparse in tutti i cladi principali della popolazione di G. soja (Fig. 6a), mentre solo un sottoinsieme dei cladi delle regioni GmHs1-1 può essere la fonte della selezione per l’allele Gmhs1-1 durante la domesticazione. Quindi, le diverse regioni GmHs1-1 in queste varietà sono state più probabilmente il risultato dell’introgressione interspecifica. Nella regione ~ 301-kb B1/b1, PI 339734 si è rivelato essere l’unico landrace in possesso della regione B1 G. soja-like, mentre PI 549046 (s28) è risultato essere l’unica adesione G. soja contenente la regione b1 G. max-like (Fig. 6b), che è quasi identica a quella di una varietà G. max PI 437654 (m47) (Fig. 6b). Questa adesione di G. soja è stata filogeneticamente raggruppata, a livello dell’intero genoma, in un clade che è distante da altri cladi di G. soja adiacenti a G. max (Fig. 1), suggerendo che la regione b1 in questa adesione di G. soja è probabile che sia sorta da G. max attraverso il flusso genico. Tra questi landraces, PI 339734 è l’unica adesione che elabora entrambe le regioni GmHs1-1 e B1 (Fig. 6a, b).
Gli sweep selettivi che circondano i QTL di domesticazione sono generalmente rilevabili a livello di popolazione, ma i confini degli aplotipi specifici sotto selezione all’interno di una particolare regione sweep selettiva variano tra le singole accessioni. Per tracciare ulteriormente le impronte del flusso genico che coinvolge questi loci di domesticazione chiave, abbiamo ingrandito i due geni di domesticazione e le loro sequenze adiacenti, comprese le rispettive sequenze di promotori e terminatori presumibili, con un focus sulla mutazione causale che ha portato all’allele di domesticazione in ogni locus. Al locus GmHs1-1/Gmhs1-1, 13 ecotipi sono risultati condividere gli aplotipi G. soja o G. soja-like incluso il nucleotide specifico GmHs1-1 (C), mentre 7 accessioni G. soja sono risultate possedere l’aplotipo G. max o G. max-like incluso il nucleotide specifico Gmhs1-1 (T) (Fig. 6a e Additional file 2: Figura S4). Coerente con la filogenesi delle regioni B1/b1 sweep tra le 191 accessioni (Fig. 6b), G. soja PI 549046 (s28) è risultato possedere l’aplotipo b1, compresa la mutazione causale (T) per b1, che è identico a quello dei 191 landraces, mentre l’aplotipo del landrace PI 339734 (m30) è altamente identico a quelli della maggior parte delle accessioni G. soja compreso il nucleotide B1-specifico (C) (Additional file 2: Figura S5). Data la distinzione filogenetica delle sottopopolazioni di G. soja e G. max, la commistione rilevata delle regioni di sweep selettivo e aplotipi ai due loci gene domesticazione nella popolazione indagata sarebbe considerato come ulteriore prova di flusso genico inter-sottopopolazione.
Introgressione rivelata dalla diversificazione asimmetrica tra i genomi nucleari e organellari
Dato che gli incroci tra G. soja e G. max possono essere facilmente realizzati per produrre semi fertili, l’introgressione o il flusso genico rilevato in questo studio come descritto sopra è stato pensato per essere reliquie di cicli di ibridazione spontanea che coinvolgono questi due pool genici attraverso la diffusione del polline e/o la dispersione dei semi. In teoria, alcuni degli eventi di ibridazione sarebbero stati rilevati dal confronto con i loro genomi organellari nel contesto dell’architettura genetica definita dai loro genomi nucleari. Abbiamo quindi analizzato le sequenze del genoma del cloroplasto delle 191 accessioni di soia ri-sequenziate. Tra i 191 genomi dei cloroplasti, un totale di 333 SNPs altamente accurati sono stati identificati e poi utilizzati per costruire l’albero filogenetico (Fig. 7). Nel complesso, i 191 genomi del cloroplasto sono stati raggruppati in 2 sottogruppi, il sottogruppo G. max e il sottogruppo G. soja. Come previsto, i genomi dei cloroplasti delle accessioni di G. max all’interno del sottogruppo G. max sono meno divergenti di quelli delle accessioni di G. soja all’interno del sottogruppo G. soja. Nonostante la chiara distinzione dei genomi del cloroplasto tra i sottogruppi G. max e G. soja, 24 accessioni G. max sono state raggruppate nel sottogruppo G. soja e 3 accessioni G. soja sono state raggruppate nel sottogruppo G. max (Fig. 7). Queste osservazioni indicano la presenza di eventi di ibridazione G. soja-G. max con G. soja o G. max come genitore materno. Tali eventi hanno apparentemente rimodellato l’architettura genetica dei genomi nucleari di entrambe le sottopopolazioni di G. soja e G. max.
Per le accessioni di G. max e G. soja che possiedono i rispettivi cloroplasti di G. max e G. soja, le accessioni più strettamente correlate secondo i loro genomi nucleari tendono a condividere aplotipi identici o più simili dei loro genomi dei cloroplasti (Fig. 7 e Additional file 2: Figura S6), suggerendo una co-evoluzione tra i genomi nucleari e i genomi dei cloroplasti come modello generale. Tuttavia, sono state osservate anche delle apparenti eccezioni. Per esempio, alcune accessioni con genomi nucleari altamente divergenti sono state rilevate per condividere aplotipi identici o quasi identici dei genomi del cloroplasto, e alcune accessioni con genomi nucleari più strettamente correlati sono state rilevate per avere aplotipi più divergenti dei genomi del cloroplasto (file aggiuntivo 2: Figura S6). Tali eccezioni suggeriscono che si sono verificati anche eventi di ibridazione tra accessioni altamente divergenti in termini di genomi nucleari all’interno della sottopopolazione G. max o all’interno della sottopopolazione G. soja, e tali eventi sono molto probabilmente responsabili della diversificazione varietale senza pari osservata tra i genomi nucleari e cloroplasti.