G. soja-G. max introgression
栽培ダイズと野生ダイズのゲノムワイドな導入を調べるために、中国の多様な生態地理的地域および韓国、日本、ロシア、米国、カナダなどの国々から収集した62のG. sojaアクセッション、130ランドレース、110改良ダイズ品種からなる代表的ダイズの全ゲノムリシークエンスデータを分析しました。 これらのサンプルは、米国農務省(USDA)ダイズ生殖質コレクションに寄託されている 84 カ国から収集または米国で開発された 18,480 の家畜ダイズ接種と 1168 の野生ダイズ接種のほぼすべての主要な系統群/グループに分布しており、ダイズの遺伝的多様性を非常に代表するものと考えられてい る。 まず、62 の G. soja と 240 の G. max の各接種から、G. soja と G. max の亜集団内の個体と同一の系統(IBD)である地域的なハプロタイプを、以前に説明したアプローチに従って 302 接種からの全 SNP データを用いて同定した 。 ダイズゲノムの各染色体に沿った異なる領域における共有ハプロタイプの頻度を計算するために、各染色体を 10 kb のビンに分割し、ビンごとに各接種と G. soja および G. max 亜集団との間で記録された IBD トラクトの数を一対比較により計算した。 これらの数を0(IBDが検出されない)から1(亜集団内の全個体が共有するIBD)に正規化し、各接種とG. soja亜集団間の正規化IBD(nIBDG. soja)および各接種とG. max亜集団間の正規化IBD(nIBDG. max)を使用して比較群間の相対IBD(rIBD)を算出した(rIBD = nIBDG. soja – nIBDG…max)。 最後に、G. soja 亜集団から栽培ダイズの各接種への推定ゲノム導入、および G. max 亜集団から野生ダイズの各接種への推定ゲノム導入を同定した
このアプローチにより、302 接種中 297 に推定種間導入が認められた(追加ファイル 1: 表 S1、追加ファイル 2: 図 S1)。 110 のエリート品種は、野生ダイズからの導入率が比較的小さく(0.00015~0.03)、またこれらの品種の開発には人為的な交雑が含まれ、自然に発生する導入イベントが不明瞭になる可能性があるため、さらなる分析から除外された。 また、1 つの陸稲は、ゲノム配列の質が比較的低く、ヘテロ接合性が高いため、さらなる解析から除外した。 残りの G. soja 62 種および 129 種の土地品種では、個々のゲノムで検出された導入断片の割合は 0.00037 から 0.60 であり、平均 0.032 であった(図 1、追加ファイル 1: 表 S1)。 図2に、個々のゲノムで> 0.05 (5%) の導入断片が検出されたアクセッションの染色体分布(Additional file 1: Table S1)を示す。 G. sojaゲノムのうち、G. max断片の検出割合は0.00059から0.41で、平均0.019であった(追加ファイル2:図S1、上段)。 G. maxゲノムのうち、G. sojaフラグメントの検出割合は0.00037から0.60で、平均0.031(Additional file 2: Figure S1、下段部分)。 また、G. soja と G. max のサブ集団に含まれる推定導入断片の 43.94% と 54.61% は 2 つ以上のアクセッションで共有されており、残りはアクセッションに固有であった(追加ファイル 2:図 S2)。
Fig. 1
野生大豆と栽培大豆のパネルの系統樹neighbor-joining tree(近傍接合樹)。 この木は、MEGAプログラムを用いて、ゲノムリシーケンスによって検出されたゲノムワイドSNPsに基づいて構築された。 赤と青のラベルを付けた枝は、それぞれG. sojaとG. max (ランドレース)を示す。 個々のアクセッションのコードと導入された断片の割合は木のアウトレイヤーに示されている
Figure 2
種間導入とゲノム特徴のゲノムワイドな分布。 外から内への輪は、(i)染色体腕(灰色)と染色体周辺領域(緑色)、(ii)集団全体における導入率の染色体分布、(iii)対応する輪の赤い棒で示される家畜化関連QTLの染色体分布、(iv)対応する輪の赤い棒で示される選択的スイープの染色体分布、(v) 12種のそれぞれにおける種間内生殖の染色体分布、を含んでいますG. max と G. soja の各接種における種間導入の染色体分布(22 本の環で示すように、そのゲノムはそれぞれ 5%以上の導入断片を有していた)。 この22の環において、G. maxのセグメントは青色で、G. sojaのセグメントはオレンジ色で示した
これまでの大豆の集団構造と混血の解析では、G. sojaとG. maxに例外的に類似したゲノム領域を見出し(5、7)、これはゲノム導入の証拠とみなされるものであった。 今回のrIBD解析では、上記のような推定される内生に関与する個々のアクセッションの局所的なゲノム領域を定義することにより、G. soja-G. maxの内生を支持するさらなる証拠を得ることができた。 しかしながら、推定される内向性の一部、特に G. max バックグラウンドで検出された推定 G. soja 断片は、家畜化の過程で用いられたソース集団の現存する祖先多型の不完全な系統選別に起因する可能性も残されている。 そこで、G. sojaの8つの系統で検出されたG. maxに侵入したと考えられる大きな領域(図2)について、ランダムに選んだ10種のG. maxと対にしてD-statistic分析を行った。 max の 8 接種(図 1)、および G. max の 14 接種(図 2)、および G. soja の 10 接種(図 1)からランダムに抽出した導入が検出されない接種(図 1)との対比較で検出された大きな G. soja の導入と推定される領域について、実施された統計解析を行った。 図3aに示すように、推定される内向性を持つ領域のD統計量は、推定される内向性を持たない領域(D=-0.08±0.05)よりも著しく低く、ゲノム全体の平均(D=-0.11±0.04)よりも著しく低いことから、推定される内向性を持つこれらのゲノム領域ではG. sojaとG. maxタクサ間の遺伝子フローが関係していると示唆されました。
図3
D-statistic分析により、G. sojaとG. max間の異なる領域での遺伝子フローの異なるパターンが明らかとなった。 maxの8つの接ぎ木で検出されたG. soja-introgressed領域と14のG. max 接種群/種間導入が検出されなかったG. max 接種群/種間導入が検出されなかったG. max 接種群対推定導入なし領域 b 接種群間の一対比較における染色体周辺領域対D統計量 aで述べたように有意差(p値<6674>0.05)であり、コルモゴロフ・スミルノフ検定により検出された。 7206>
検出された導入の起源を追跡するため、G. sojaのアクセッション(PI 578357, s61)およびランドレース(PI 339734, m30)において、それぞれ33%および31%の導入断片を有すると推定される大規模で代表的な導入セグメントと他のアクセッションの対応領域とを比較検討した。 また、G. max に隣接する G. soja の一品種 PI 578357 (s61) におけるゲノムワイドな推定導入は、図 4b および追加ファイル 2 で例示されている。 4805>
図4
相対同一降順(rIBD)で示した導入と推定起源の例示。 a-c 3つの関連アクセッションHeihexiaohuangdou、PI 578357、PI 522226の第2染色体に沿ったゲノム成分。 d 2番染色体の導入領域のSNPに基づくクラドグラム樹で、G. max(Heihexiaohuangdou、青)由来の領域とG. e 非導入領域のSNPに基づくクラドグラム樹で、矢印で示したPI 578357の領域の起源はG. soja (PI 522226, 赤) である。 G. max 接種(h)は、G. soja 接種(i)の対応する領域と最も高い類似性を共有する導入された G. soja 断片を、G. max 接種(g)の対応する領域と最も高い類似性を共有する G. max セグメントを、それぞれ有する。 j 矢印で示した PI 339734 の領域が G. max(PI548456、青)由来であることを示す非交流領域の SNP に基づくクラドグラム樹。 k 2 番染色体の導入領域の SNP に基づくクラドグラム樹で、G. soja (PI 407275, 赤色) の起源となった領域が、G. max accession PI 339734の領域の起源であることを示す。 l 3つの関連アクセッションの地理的分布
PI 578357の導入領域は、これまでに家畜化QTLが発見されていない第2染色体の近心領域全体にわたるため(図2)、それらの保持には最低限の選択圧がかかっているものと考えられた。 その結果、ロシアのアムールで栽培されたPI 578357の2番染色体の検討領域は、中国の河北省で栽培されたランドレースHeihexiaohuangdou(m104)の対応領域と最も高い配列類似性を有していた(図4a、b、d、f)。 一方、PI 578357 の非侵入領域は、ロシア沿海州産の G. soja 接種体 PI 522226 (s5) の対応する領域と最も高い類似性を示す(図 4b, c, e, f)が、これは PI 578357 および G. max 系統から最も分岐した G. soja 接種の一つ(図 1)で、大豆家畜化の源集団と関与しているとは考え難い、またはそれに由来するものと考えられる。 韓国で栽培されているランドレースである PI 339734 の 19 番染色体の導入領域は、同じく韓国で栽培されている G. soja のアクセッション PI 407275 (s42) の対応領域と最も高い配列類似性を持つことがわかった(図 4h、i、k、l)。 一方、PI 339734 の非挿入領域は、同じく北朝鮮の平壌で栽培されていたランドレース PI 548456 (m111) の対応する領域と最も高い類似性を有している (Fig. 4g, h, j, l)。 地理的分布、局所的なゲノム領域の配列類似性と分岐のパターンとレベル、およびこれらの接種のゲノム全体の配列多様性と系統性を総合すると、上記のように検出された染色体のキメラ性は、ダイズ家畜化のためのソース集団における祖先多型の不完全な系統選別ではなく、種間導入に起因する可能性が最も高いと思われる。 ゲノム全体の遺伝子配列に基づき、PI 578357 と Heihexiaohuangdou、PI 339734 と PI 407275 の分岐時期はそれぞれ ~0.37 と 0.27 百万年前(mya)であることが判明した。 ダイズが家畜化されたのは約6000〜9000年前であることから、上記の2組の(G. soja-G. max)アクセッション間の導入領域の高い類似性は、G. soja-G. maxの導入の直接的証拠と見なされるであろう。 maxの内殖を形成する要因
2つの亜集団におけるゲノム内殖の分布を形成する進化の力を理解するために、まず、ダイズゲノムにおける局所的な遺伝子組み換えの割合とセントロメア強化反復配列の物理的位置に基づいて大まかに定義したセントロメア周辺領域と染色体アーム間の導入断片の平均比率を比較した。 一般に、セントロメア周辺領域は、染色体アームの場合と比較して、遺伝子組換え率が著しく低下し、トランスポーザブルエレメントの挿入などの有害な変異が偏って蓄積することがわかった。 その結果、いくつかの例外はあるものの、G. soja亜集団でもG. max亜集団でも、全体としてペリセントロマー領域は導入断片の割合が高いことがわかった(paired Student t test, p値 < 0.01, 図2および追加ファイル 3: 表 S2)。 G. maxとG. sojaの同じサブセットを用いて、アームと比較したセントロメア周辺領域のD-統計解析を行った。 図3bに示すように、染色体周辺領域のD-statistic(D = – 0.12 ± 0.06)は、アーム(D = – 0.09 ± 0.02)よりも有意に低く(図3b)、染色体周辺領域に偏った遺伝子フローが蓄積していることが示唆された。 このような偏りは、遺伝的組換え率が低下し、その結果、染色体アームに比べてペリセントロマー領域で導入された変異や断片を浄化する効率が低下した結果と一部考えられる
理論的には、ゲノム導入は自然交雑によって生じ、その後のG. ソヤとG. maxの戻し交雑は、自然環境に適応したG. sojaまたはG. sojaに似た個体を形成するための野生形質の自然選択と、栽培に適したG. maxまたはG. maxに似た個体を開発するための栽培形質の人工選択の2つの異なる選択圧を受けているはずであった。 もしそうであれば、導入された断片の分布は、G. max と G. max の間で異なるパターンが観察されると予想される。 ソヤとG. maxの亜集団は、それぞれ異なる。 この仮説を検証するために、まず、G. soja亜集団からG. max亜集団への塩基変異の激しい減少を示す122の選択的スイープ(図2)において、導入された断片の比率を推定した。 栽培ダイズにおけるこれらの領域は、ダイズ家畜化に伴う特定の遺伝子座に強い選択圧が作用した結果であると考えられる。 予想通り、G. soja 接種体では、ゲノムの残りの部分と比較して、選択的掃引領域に相当する領域で G. max 断片の割合が著しく低かった(paired Student t test, p 値 = 0.002667, Figure 5a)。 一方、G. maxでは、選択的掃引領域におけるG. soja断片の割合がゲノムの残りの部分に比べて有意に低かった(paired Student t test, p value = 2.542e-09, Fig.5c)
図 5
Patterns of natural selection and artificial selection against genomic introgression.a Proportions of introgressed G. max fragments in the selective sweep region compared with those in the whole genome detected in G. maxで検出されたゲノム全体の断片と選択的スイープ領域の断片の割合。 b. 家畜化関連 QTL 領域における導入 G. max 断片の割合と G. soja 亜集団で検出された全ゲノム中の割合 c. 選択的スイープ領域における導入 G. soja 断片の割合と G. max 亜集団で検出された全ゲノム中の割合 d. 家畜化関連 QTL 領域における導入 G. soja 断片の割合と G. max 亜集団で検出された全ゲノム中の割合。 各比較における有意差はpaired Student t testにより算出した。 ***p < 0.001
さらに、ダイズ家畜化の基盤となる44のQTL領域で導入された断片の割合を推定した(図2)。 これらの QTL は、ウィリアムズ 82 とダイズ属の PI 468916 (s14) および PI 479752 (s15) の交配から得られた約 800 の組換え近交系 (RIL) を用いて最近明らかにされたものである。 その結果、G. max と G. soja のどちらにおいても、対応する家畜化 QTL 領域に導入された断片の割合は、選択的スイープ領域で検出されたものよりさらに小さいことがわかった(図 5b, d)。 これらの結果は、双方向性選択の結果や効果が異なることを示している。
主要な家畜化遺伝子を取り巻く侵入を介した遺伝子流
ゲノム侵入は、遺伝子流の主要な経路として実現されている。我々は、遺伝子流が家畜化プロセスやダイズゲノムの集団レベルでの遺伝子構造にどのように影響した可能性があるかを検討した。 最近、ダイズ家畜化の鍵となる2つの遺伝子、GmHs1-1とBloom1(B1)がそれぞれ種子硬度および種皮ブルームを制御することが明らかにされた。 種皮の不透過性とブルームは野生ダイズの長期生存に重要あるいは必須であると考えられ、一方、ブルームのない透過性種皮は農業生産と人間の消費に望ましく、家畜化において選択の対象とされた。 その結果、家畜化移行期の鍵となる2つの遺伝子座における原因変異が同定され、機能的に検証された。 GmHs1-1 のコード領域における劣性突然変異(C→T)は、野生ダイズの不透過性種皮から栽培ダイズの透過性種皮への移行をもたらし、家畜化対立遺伝子 Gmhs1-1 の選択は約 160kb の選択的スイープ領域を形成していた。 B1のコーディング領域における劣性突然変異(C→T)は、栽培ダイズにおける種皮のブルーム消失の原因であり、家畜化対立遺伝子b1の選択により、約301kbの選択的掃討領域が形成された … 私たちの知る限り、2つの対立遺伝子がほぼ独占的に野生大豆と栽培大豆を区別し、一方、家畜化表現型の2つの遺伝子座それぞれにおける同一の原因変異が栽培大豆に共有されているのは、現在までに同定されたこの2つの遺伝子だけである。
GmHS1-1/Gmhs1-1およびB1/b1遺伝子座を取り巻く二つの選択的スイープ領域のSNPsを用いて、G. soja 62アクセッションと129ランドレースの系統関係を構築した。 この系統関係から、2つの選択的掃引領域が関与していると推定される導入が定義された。 約160kbのGmHs1-1/Gmhs1-1領域において、13のランドレースはG. sojaに似たGmHs1-1領域を持つことが明らかになったが、G. sojaに似たGmhs1-1領域を持つのはPI 366121(s58)1系統のみであった(図6a)。 13のランドレースで見つかったG. soja様GmHs1-1領域は、G. soja集団のすべての主要なクレードに散らばっており(図6a)、GmHs1-1領域のクレードの一部のみが、家畜化の過程でGmhs1-1アレルの選択源となった可能性が考えられた。 したがって、これらの品種に見られる多様なGmHs1-1領域は、種間導入に起因する可能性が高い。 B1/b1 領域では、PI 339734 が G. soja-like B1 領域を持つ唯一のランドレースであり、PI 549046 (s28) が G. max-like b1 領域を持つ唯一の G. soja 接種であると判明した(図 6b)。 このG. sojaの系統は、全ゲノムレベルで、G. maxに隣接する他のG. sojaとは離れたクレードに分類され(図1)、このG. sojaのb1領域は、遺伝子フローによってG. maxから上昇した可能性があることが示唆される。 図6
二つの選択的スイープ領域との比較から明らかになった191アクセッション間の系統関係 aはGmHs1-1領域、bはB1領域。 アスタリスクはそれぞれG. sojaとG. maxから導入された断片を含むアクセッションを示す
家畜化QTLを取り巻く選択的スイープは一般に集団レベルで検出されるが、特定の選択的スイープ領域内で選択されている特定のハプロタイプの境界は個々のアクセッション間で変化している。 そこで、これらの家畜化遺伝子座に関わる遺伝子フローをさらに追跡するために、2つの家畜化遺伝子とその隣接配列(それぞれの推定プロモーターおよびターミネーター配列)を拡大し、それぞれの遺伝子座で家畜化アレルをもたらした原因変異に注目した。 GmHs1-1/Gmhs1-1遺伝子座では、13のランドレースがGmHs1-1特異的ヌクレオチド(C)を含むG. sojaまたはG. soja-like haplotypesを共有し、7種のG. sojaアクセッションはGmhs1-1特異的ヌクレオチド(T)を含むG. maxまたはG. max-like haplotypeを持っていた(図6a、追加ファイル2:図 S4)。 191アクセッションのB1/b1スイープ領域の系統と一致し(図6b)、G. soja PI 549046 (s28) は b1 の原因変異 (T) を含む b1 ハプロタイプを持ち、191 のランドレースと同一であった。一方、ランドレース PI 339734 (m30) のハプロタイプは B1 特有のヌクレオチド (C) を含む大部分の G. soja 接種と非常に同一だった (Additional file 2: Figure S5). G. sojaとG. maxの亜集団の系統的区別を考慮すると、調査集団において検出された2つの家畜化遺伝子座における選択的スイープ領域とハプロタイプの混在は、亜集団間の遺伝子流動のさらなる証拠であると考えることができる。
核ゲノムと器官ゲノムの非対称的多様化による内向性
ソジャとマックスの交配により容易に稔性種子が得られることから、上記のように本研究で検出された内向性または遺伝子流は、花粉飛散や種子分散によりこの二つの遺伝子プールが自然に交雑した跡であると考えられる。 このようなハイブリダイゼーションは、核ゲノムで定義された遺伝的構造との関連で、両者の器官ゲノムを比較することによって検出されるはずである。 そこで、ダイズの 191 接種について、葉緑体ゲノム配列の解析を行った。 その結果、191 種類の葉緑体ゲノムから 333 個の高精度 SNP が同定され、系統樹の構築に使用されました(図 7)。 191 種類の葉緑体ゲノムは、G. max サブグループと G. soja サブグループの 2 つにクラスター化された。 予想通り、G. maxサブグループ内のG. maxアクセッションの葉緑体ゲノムは、G. sojaサブグループ内のG. sojaアクセッションのそれよりも分岐が少ないことがわかった。 G. maxサブグループとG. sojaサブグループの葉緑体ゲノムは明確に区別されるにもかかわらず、24のG. maxアクセッションはG. sojaサブグループに、3のG. sojaアクセッションはG. maxサブグループにクラスター化された(Fig. 7)。 これらのことから、G. sojaとG. maxの交雑は、G. sojaまたはG. maxを母方親とする交雑事象の発生が示唆された。 図7
G. maxとG. sojaの核および葉緑体の非対称的分岐。 191アクセッションの核ゲノムの系統樹は全ゲノムで検出されたすべてのSNPを用いて構築し,同じセットのアクセッションの葉緑体の系統樹は葉緑体ゲノムに分布する333個の高信頼性SNPを用いて構築した。 G. maxの系統樹は2本の木の青い枝で示し、青い点で示した。G. sojaの系統樹は2本の木の赤い枝で示し、赤い点で示した。 2本の木に含まれる同じアクセッションは線で結ばれた。 青線はG.max型の葉緑体を持つG.max属、オレンジ線はG.max型の葉緑体を持つG.soja属、グレー線はG.soja型およびG.max型の葉緑体をそれぞれ持つG.soya属、G. max属を示す
G. maxおよびG. maxについて、その葉緑体の種類はG. maxとG. sojaのそれぞれの葉緑体を持つアクセッションについて,核ゲノムにより近縁なアクセッションほど,葉緑体ゲノムのハプロタイプが同一または類似する傾向があり(図7,追加ファイル2:図S6),核ゲノムと葉緑体ゲノムの共進化が一般的パターンとして示唆された. しかし、明らかな例外も観察された。 例えば、核ゲノムの乖離が大きいアクセッションの中には、葉緑体ゲノムのハプロタイプが同一またはほぼ同一であるものが検出され、核ゲノムがより近縁なアクセッションの中には、葉緑体ゲノムのハプロタイプがより乖離しているものが検出された(追加ファイル 2: 図 S6)。 このような例外は,G. max亜集団内あるいはG. soja亜集団内で核ゲノムの乖離が大きいアクセッション間の交雑も起きていることを示唆しており,核ゲノムと葉緑体ゲノム間で見られる比類のない品種多様化の原因は,このような事象である可能性が非常に高い
.