- Identificarea la nivel de genom a putativelor G. soja-G. max introgresie
- Factori care modelează peisajul de introgresie G. soja-G. max. Factori care modelează peisajul de introgresie G. soja-G. max. max introgresie
- Fluxul de gene mediat de introgresie în jurul genelor cheie ale domesticirii
- Introgresia relevată de diversificarea asimetrică între genomul nuclear și cel organelar
Identificarea la nivel de genom a putativelor G. soja-G. max introgresie
Pentru a investiga introgresia la nivel genomic între soia cultivată și soia sălbatică, am analizat datele de resecvenție a întregului genom de la o populație reprezentativă de soia care include 62 de accesiuni de G. soja, 130 de soiuri locale și 110 soiuri de soia îmbunătățite colectate din diverse regiuni eco-geografice din China și din alte țări, inclusiv Coreea, Japonia, Rusia, SUA și Canada . Aceste eșantioane au fost distribuite în aproape toate cladele/grupurile filogenetice majore din 18 480 de accesiuni de soia domesticită și 1168 de accesiuni de soia sălbatică colectate din 84 de țări sau dezvoltate în SUA, care sunt depuse în Colecția de germoplasmă de soia a Departamentului de Agricultură al SUA (USDA) și, prin urmare, sunt considerate a fi foarte reprezentative pentru diversitatea genetică a soiei. Am identificat mai întâi haplotipurile regionale locale în fiecare dintre cele 62 de accesiuni G. soja și 240 de accesiuni G. max care erau identice prin descendență (IBD) cu indivizii din cadrul subpopulațiilor G. soja și G. max, utilizând toate datele SNP din cele 302 accesiuni, urmând o abordare descrisă anterior . Pentru a calcula frecvențele haplotipurilor comune în diferite regiuni de-a lungul fiecărui cromozom al genomului de soia, am împărțit fiecare cromozom în intervale de 10 kb și am calculat numărul de traiecte IBD înregistrate între fiecare accesiune și cele două subpopulații G. soja și G. max per interval prin comparații pe perechi. Aceste numere au fost normalizate de la 0 (nicio IBD detectată) la 1 (IBD împărtășită de toți indivizii dintr-o subpopulație), iar IBD normalizate între fiecare accesoriu și subpopulația G. soja (nIBDG. soja) și între fiecare accesoriu și subpopulația G. max (nIBDG. max) au fost utilizate pentru a calcula IBD relativă (rIBD) între grupurile comparate (rIBD = nIBDG. soja – nIBDG. max). În cele din urmă, a fost identificată introgresia genomică putativă de la subpopulația G. soja la fiecare dintre accesiunile de soia cultivată și de la subpopulația G. max la fiecare dintre accesiunile de soia sălbatică.
Cu ajutorul acestei abordări, s-a detectat că 297 dintre cele 302 accesiuni conțin introgresie interspecifică putativă (Fișier suplimentar 1: Tabelul S1, Fișier suplimentar 2: Figura S1). Cele 110 varietăți de elită au fost excluse din analizele ulterioare deoarece aceste varietăți au prezentat rate relativ mai mici de introgresie din soia sălbatică (0,00015~0,03) și deoarece dezvoltarea acestor varietăți a implicat o hibridizare artificială care ar putea ascunde evenimentele de introgresie care au avut loc în mod natural. O varietate locală a fost, de asemenea, exclusă din analizele ulterioare din cauza calității relativ scăzute a secvențelor genomice și a nivelului ridicat de heterozigozitate. Printre accesiunile rămase, inclusiv 62 de accesiuni de G. soja și 129 de varietăți locale, proporțiile fragmentelor introgresate detectate în genomurile individuale variază de la 0,00037 la 0,60, cu o medie de 0,032 (Fig. 1, Fișier suplimentar 1: Tabelul S1). Distribuția cromozomială a introgresiei detectate în accesiunile cu > 0,05 (5%) fragmente introgresate în genomurile individuale (Fișier suplimentar 1: Tabelul S1) sunt ilustrate în Fig. 2. Printre genomurile G. soja, proporțiile fragmentelor G. max detectate variază de la 0,00059 la 0,41, cu o medie de 0,019 (Fișier suplimentar 2: Figura S1, panoul superior). Dintre genomurile G. max, proporțiile fragmentelor G. soja detectate variază de la 0,00037 la 0,60, cu o medie de 0,031 (Fișier suplimentar 2: Figura S1, panoul inferior). În total, 43,94% și 54,61% din fragmentele introgresate putative în subpopulațiile G. soja și G. max sunt împărtășite de două sau mai multe accesiuni, iar restul sunt specifice fiecărei accesiuni (Fișier suplimentar 2: Figura S2). Niciunul dintre fragmentele introgresate putative detectate în acest studiu nu a fost complet fixat fie în subpopulațiile G. soja, fie în subpopulațiile G. max (Fig. 2).
Analizele anterioare ale structurii populației și ale amestecului la soia au evidențiat regiuni genomice locale care prezintă asemănări excepționale între G. soja și G. max (5, 7), care au fost considerate ca fiind dovezi ale introgresiei genomice. Analiza rIBD care definește regiunile genomice locale ale accesiunilor individuale implicate în introgresia putativă descrisă mai sus oferă dovezi suplimentare în sprijinul introgresiei G. soja-G. max. Cu toate acestea, rămâne posibilitatea ca o parte din introgresia putativă, în special fragmente putative de G. soja detectate în fondul G. max, să fie rezultatul unei sortări incomplete a polimorfismelor ancestrale existente în populația sursă utilizată în procesul de domesticire. În încercarea de a obține dovezi suplimentare pentru a susține ipoteza introgresiei, am efectuat o analiză D-statistică pentru marile regiuni putative de introgresie din G. max detectate în cele 8 accesiuni de G. soja (Fig. 2) în comparație pe perechi cu 10 accesiuni de G. soja selectate la întâmplare. max fără introgresie detectată (Fig. 1) și pentru marile regiuni presupuse a fi de origine G. soja detectate în cele 14 accesiuni G. max (Fig. 2) în comparație pe perechi cu 10 accesiuni G. soja selectate la întâmplare fără introgresie detectată (Fig. 1). După cum se arată în Fig. 3a, statistica D pentru regiunile cu introgresie putativă (D = – 0,15 ± 0,07) a fost semnificativ mai mică decât regiunile fără introgresie putativă (D = – 0,08 ± 0,05) și a fost, de asemenea, semnificativ mai mică decât media la nivelul întregului genom (D = – 0,11 ± 0,04), sugerând că fluxul genetic între taxonii G. soja și G. max a fost implicat în aceste regiuni genomice cu introgresie putativă detectată.
În încercarea de a urmări originea introgresiei detectate, am comparat segmente mari și reprezentative de introgresie într-o G. soja (PI 578357, s61) și o varietate locală (PI 339734, m30), care au fost estimate ca fiind purtătoare de fragmente introgresate în proporție de 33% și, respectiv, 31%, cu regiunile corespunzătoare din alte accesiuni. Introgresia putativă la nivelul întregului genom într-o accesiune de G. soja PI 578357 (s61), una dintre accesiunile de G. soja adiacente la cladele G. max, a fost exemplificată în Fig. 4b și în fișierul suplimentar 2: Figura S3.
Regiunile de introgresie din PI 578357 acoperă întreaga regiune pericentromerică a cromozomului 2 fără QTL de domesticire detectați anterior (Fig. 2) și, prin urmare, s-a considerat că au fost supuse unei presiuni selective minime pentru păstrarea lor. Am constatat că regiunile examinate ale cromozomului 2 din PI 578357, cultivat în Amur, Rusia, prezintă cea mai mare similitudine de secvență cu regiunile lor corespunzătoare dintr-un soi de teren Heihexiaohuangdou (m104) cultivat în Heihe, China (Fig. 4a, b, d, f). În schimb, regiunile de neintroducere din PI 578357 prezintă cea mai mare similitudine cu regiunile lor corespunzătoare dintr-o accesiune de G. soja PI 522226 (s5) cultivată în Primorye, Rusia (Fig. 4b, c, e, f), care este una dintre accesiunile de G. soja care diferă cel mai mult de PI 578357 și de descendența G. max (Fig. 1) și, prin urmare, este puțin probabil să fie implicată sau să provină din populația sursă utilizată pentru domesticirea soiei. S-a constatat că regiunile de introgresie ale cromozomului 19 din PI 339734, o varietate locală cultivată în Coreea, prezintă cea mai mare similitudine de secvență cu regiunile lor corespunzătoare dintr-o accesiune de G. soja PI 407275 (s42) care a fost cultivată, de asemenea, în Coreea (Fig. 4h, i, k, l). În schimb, regiunile de neintroducere din PI 339734 prezintă cea mai mare similitudine cu regiunile lor corespunzătoare dintr-un soi de teren PI 548456 (m111) care a fost cultivat, de asemenea, în Pyongyang, Coreea de Nord (Fig. 4g, h, j, l). Distribuția geografică, modelele și nivelurile de similaritate și divergență a secvențelor din regiunile genomice locale, precum și diversitatea și filogenia secvențelor la nivelul întregului genom al acestor accesiuni sugerează împreună că chimerismul detectat al cromozomilor, așa cum a fost descris mai sus, a fost cel mai probabil rezultatul introgresiei interspecifice și nu al unei sortări incomplete a polimorfismelor ancestrale în populația sursă pentru domesticirea soiei. Pe baza secvențelor genice din întregul genom, timpii de divergență între PI 578357 și Heihexiaohuangdou și între PI 339734 și PI 407275 au fost datați la ~ 0,37 și, respectiv, 0,27 milioane de ani în urmă (mya). Având în vedere că domesticirea soiei a avut loc cu numai ~ 6000-9000 de ani în urmă , un nivel atât de ridicat de similitudini ale regiunilor de introgresie examinate între cele două perechi de accesiuni (G. soja-G. max) exemplificate mai sus ar trebui să fie considerat ca o dovadă directă a introgresiei G. soja-G. max.
Factori care modelează peisajul de introgresie G. soja-G. max.
Factori care modelează peisajul de introgresie G. soja-G. max. max introgresie
Pentru a înțelege forțele evolutive care modelează distribuția introgresiei genomice în cele două subpopulații, am comparat mai întâi proporțiile medii ale fragmentelor introgresate între regiunile pericentromerice și brațele cromozomiale care au fost definite aproximativ pe baza ratelor de recombinare genetică locală și a pozițiilor fizice ale repetițiilor îmbogățite de centromeri în genomul de soia . În general, în comparație cu brațele cromozomiale, regiunile pericentromerice prezintă rate de recombinare genetică extrem de reduse și o acumulare tendențioasă de mutații dăunătoare, cum ar fi inserția de elemente transpozabile. Am constatat că, în ciuda unor excepții, în general, regiunile pericentromerice au proporții mai mari de fragmente introgresate fie în subpopulația G. soja, fie în subpopulația G. max (test t Student împerecheat, valoare p < 0,01, Fig. 2 și Fișier suplimentar 3: Tabelul S2). Analiza D-statistică pentru regiunile pericentromerice în comparație cu brațele a fost efectuată utilizând același subset de accesiuni de G. max și G. soja. După cum se arată în Fig. 3b, statistica D pentru regiunile pericentromerice (D = – 0,12 ± 0,06) a fost semnificativ mai mică decât brațele cromozomilor (D = – 0,09 ± 0,02) (Fig. 3b), sugerând o acumulare tendențioasă a fluxului de gene în regiunile pericentromerice. O astfel de prejudecată poate fi parțial rezultatul ratelor reduse de recombinare genetică și, prin urmare, al eficienței reduse în epurarea variației/fragmentelor introgresate în regiunile pericentromerice în comparație cu brațele cromozomiale.
Teoretic, introgresia genomică a rezultat din hibridarea spontană, iar încrucișările ulterioare care implică G. soja și G. max ar fi trebuit să fi fost supuse la două presiuni de selecție distincte: selecția naturală pentru trăsăturile sălbatice în vederea formării de accesiuni G. soja sau asemănătoare cu G. soja adaptate la mediile naturale versus selecția artificială pentru trăsăturile cultivate în vederea dezvoltării de accesiuni G. max sau asemănătoare cu G. max adecvate pentru cultivare. În acest caz, ne-am aștepta să observăm modele distincte de distribuție a fragmentelor introgresate între G. subpopulațiile de soia și G. max. Pentru a testa această ipoteză, am estimat mai întâi proporțiile de fragmente introgresate din 122 de scanări selective (Fig. 2) care au prezentat reduceri severe ale variației nucleotidelor de la subpopulația G. soja la subpopulația G. max . Aceste regiuni din soia cultivată au fost probabil rezultatul unei presiuni selective puternice care a acționat asupra anumitor loci asociați cu domesticirea soiei . Așa cum era de așteptat, în accesiunile de G. soja a fost detectată o proporție semnificativ mai mică de fragmente G. max în regiunile care corespund regiunilor de măturare selectivă, în comparație cu restul genomului (test t Student Student împerecheat, valoare p = 0,002667, Fig. 5a). În schimb, în accesiunile de G. max a fost detectată o proporție semnificativ mai mică de fragmente de G. soja în regiunile de baleiaj selectiv în comparație cu partea rămasă a genomului (test t Student împerecheat, valoare p = 2,542e-09, Fig. 5c).
În plus, am estimat proporțiile de fragmente introgresate în 44 de regiuni QTL care stau la baza domesticirii soiei (Fig. 2). Acești QTL au fost identificați recent folosind aproximativ 800 de linii consangvinizate recombinate (RIL) derivate din încrucișări între Williams 82 și fiecare dintre cele 2 accesiuni de G. soja PI 468916 (s14) și PI 479752 (s15) . Am constatat că proporția de fragmente introgresate în regiunile QTL de domesticire corespunzătoare fie ale accesiunilor G. max, fie ale G. soja este chiar mai mică decât cea detectată în regiunile de baleiaj selectiv (Fig. 5b, d). Împreună, aceste observații indică rezultate și efecte distincte ale selecției bidirecționale, și anume, selecția naturală versus selecția artificială, asupra retenției fragmentelor introgresate în subpopulațiile G. soja și G. max.
Fluxul de gene mediat de introgresie în jurul genelor cheie ale domesticirii
Introgresia genică a fost realizată ca o cale majoră pentru fluxul de gene; ne-am întrebat cum ar fi putut afecta fluxul de gene procesul de domesticire și arhitectura genetică a genomului de soia la nivel de populație. Recent, au fost izolate două gene cheie pentru domesticirea soiei, GmHs1-1 și Bloom1 (B1), care controlează duritatea semințelor și, respectiv, înflorirea stratului de semințe . Impermeabilitatea și înflorirea învelișului semințelor au fost considerate importante sau esențiale pentru supraviețuirea pe termen lung a soiei sălbatice, în timp ce învelișul permeabil al semințelor fără înflorire a fost de dorit pentru producția agricolă și consumul uman și a fost vizat pentru selecție în cadrul domesticirii. A fost identificată și validată din punct de vedere funcțional mutația cauzală la fiecare dintre cei doi loci pentru tranziția cheie a domesticirii. O mutație recesivă (C→T) în regiunea codificatoare a GmHs1-1 a dus la tranziția de la un înveliș de semințe impermeabil la soia sălbatică la un înveliș de semințe permeabil la soia cultivată, iar selecția pentru alela domesticată Gmhs1-1 a format o regiune selectivă de ~ 160-kb . O mutație recesivă (C→T) în regiunea de codificare a B1 a fost responsabilă pentru pierderea învelișului de semințe înflorit la soia cultivată, iar selecția alelei domestice b1 a dus la formarea unei regiuni de baleiaj selectiv de ~ 301-kb . După cunoștințele noastre, acestea sunt singurele două gene identificate până în prezent ale căror două alele pot distinge aproape exclusiv soia sălbatică de soia cultivată și, între timp, mutația cauzală identică la fiecare dintre cei doi loci pentru fenotipurile domestice este împărtășită de soia cultivată.
Utilizând SNP-uri în cele două regiuni de baleiaj selectiv care înconjoară locii GmHS1-1/Gmhs1-1 și B1/b1, am construit relațiile filogenetice între cele 62 de accesiuni de G. soja și 129 de varietăți locale. Introgresia potențială care implică cele două regiuni de baleiaj selectiv a fost definită de relațiile filogenetice. În regiunea GmHs1-1/Gmhs1-1 de ~ 160 kb, s-a constatat că 13 varietăți locale posedă regiunea GmHs1-1 asemănătoare cu G. soja, în timp ce doar o singură accesiune de G. soja, PI 366121 (s58), a fost găsită ca având regiunea Gmhs1-1 asemănătoare cu G. max (Fig. 6a). Regiunile GmHs1-1 asemănătoare GmHs1-1 găsite în cele 13 varietăți locale erau răspândite în toate cladele majore ale populației de G. soja (Fig. 6a), în timp ce doar un subset de clade ale regiunilor GmHs1-1 ar putea fi sursa de selecție pentru alela Gmhs1-1 în timpul domesticirii. Astfel, diversitatea regiunilor GmHs1-1 din aceste varietăți locale a fost mai probabil rezultatul unei introgresii interspecifice. În regiunea B1/b1 de ~ 301-kb, PI 339734 s-a dovedit a fi singurul landrace care posedă regiunea B1 asemănătoare cu G. soja, în timp ce PI 549046 (s28) s-a dovedit a fi singurul accesoriu G. soja care conține regiunea b1 asemănătoare cu G. max (Fig. 6b), care este aproape identică cu cea a soiului G. max PI 437654 (m47) (Fig. 6b). Acest accesoriu de G. soja a fost grupat filogenetic, la nivelul întregului genom, într-o cladă care este îndepărtată de alte clade de G. soja adiacente la G. max (Fig. 1), ceea ce sugerează că regiunea b1 din acest accesoriu de G. soja a provenit probabil de la G. max prin flux genetic. Dintre aceste varietăți, PI 339734 este singura adeziune care prelucrează atât regiunea GmHs1-1, cât și regiunea B1 (Fig. 6a, b).
Amplasamentele selective care înconjoară QTL de domesticire sunt, în general, detectabile la nivelul populației, dar limitele haplotipurilor specifice supuse selecției în cadrul unei anumite regiuni de baleiaj selectiv variază între accesiunile individuale. Pentru a urmări în continuare urmele fluxului de gene care implică acești loci cheie de domesticire, am făcut un zoom asupra celor două gene de domesticire și a secvențelor lor adiacente, inclusiv a respectivelor secvențe presupuse de promotor și terminator, concentrându-ne asupra mutației cauzale care a dus la apariția alelei de domesticire la fiecare locus. La nivelul locusului GmHs1-1/Gmhs1-1, s-a constatat că 13 varietăți de teren au în comun haplotipurile G. soja sau G. soja-like, inclusiv nucleotidul specific GmHs1-1 (C), în timp ce 7 accesiuni de G. soja au fost găsite ca având haplotipul G. max sau G. max-like, inclusiv nucleotidul specific Gmhs1-1 (T) (Fig. 6a și Fișierul suplimentar 2: Figura S4). În concordanță cu filogenia regiunilor de măturare B1/b1 în rândul celor 191 de accesiuni (Fig. 6b), G. soja PI 549046 (s28) s-a constatat că posedă haplotipul b1, inclusiv mutația cauzală (T) pentru b1, care este identic cu cel al celor 191 de varietăți de teren, în timp ce haplotipul varietății de teren PI 339734 (m30) este foarte identic cu cel al majorității accesiunilor de G. soja, inclusiv nucleotidul specific B1 (C) (Fișier suplimentar 2: Figura S5). Având în vedere distincția filogenetică a subpopulațiilor G. soja și G. max, amestecul detectat al regiunilor de baleiaj selectiv și al haplotipurilor la cei doi loci ai genei de domesticire în populația investigată ar fi considerat ca o dovadă suplimentară a fluxului genetic între subpopulații.
Introgresia relevată de diversificarea asimetrică între genomul nuclear și cel organelar
Datorită faptului că încrucișările între G. soja și G. max pot fi realizate cu ușurință pentru a produce semințe fertile, introgresia sau fluxul genetic detectat în acest studiu, așa cum a fost descris mai sus, a fost considerat a fi relicve ale unor runde de hibridare spontană care implică aceste două fonduri genetice prin diseminarea polenului și/sau dispersia semințelor. În teorie, unele dintre evenimentele de hibridare ar fi detectate prin compararea genomurilor lor organelare în contextul arhitecturii genetice definite de genomurile lor nucleare. Astfel, am analizat secvențele genomului cloroplastic al celor 191 de accesiuni de soia resecvențiate . Printre cele 191 de genomuri cloroplastice, au fost identificate un total de 333 de SNP-uri foarte precise, care au fost apoi utilizate pentru a construi arborele filogenetic (Fig. 7). În general, cele 191 de genomuri cloroplastice au fost grupate în 2 subgrupuri, subgrupul G. max și subgrupul G. soja. Așa cum era de așteptat, genomurile cloroplastice ale accesiunilor G. max din cadrul subgrupului G. max sunt mai puțin divergente decât cele ale accesiunilor G. soja din cadrul subgrupului G. soja. În ciuda distincției clare a genomurilor cloroplastului între subgrupurile G. max și G. soja, 24 de accesiuni de G. max au fost grupate în subgrupul G. soja și 3 accesiuni de G. soja au fost grupate în subgrupul G. max (Fig. 7). Aceste observații indică apariția unor evenimente de hibridare G. soja-G. max cu G. soja sau G. max ca părinte matern. Se pare că astfel de evenimente au remodelat arhitectura genetică a genomurilor nucleare ale subpopulațiilor G. soja și G. max.
Pentru G. max și G. max. soja care posedă cloroplaste G. max și G. soja respective, accesiunile mai strâns înrudite în funcție de genomurile lor nucleare tind să împărtășească haplotipuri identice sau mai asemănătoare ale genomurilor lor cloroplastice (Fig. 7 și Fișierul suplimentar 2: Figura S6), sugerând co-evoluția între genomurile nucleare și genomurile cloroplastice ca model general. Cu toate acestea, s-au observat, de asemenea, excepții aparente. De exemplu, unele accesiuni cu genomuri nucleare foarte divergente au fost detectate ca având în comun haplotipuri identice sau aproape identice ale genomurilor cloroplastice, iar unele accesiuni cu genomuri nucleare mai strâns înrudite au fost detectate ca având haplotipuri mai divergente ale genomurilor cloroplastice (Fișier suplimentar 2: Figura S6). Astfel de excepții sugerează că au avut loc, de asemenea, evenimente de hibridizare între accesiuni foarte divergente în ceea ce privește genomurile lor nucleare în cadrul subpopulației G. max sau în cadrul subpopulației G. soja, iar astfel de evenimente sunt foarte probabil să fie responsabile pentru diversificarea varietală fără egal observată între genomurile nucleare și cloroplastice.
.