2015年12月15日火曜日

アズキゲノムをPacBioで解読

先日、つくばにて、データ解析ワークショップ(NGSワークショップ)があり、私は午前中のセッションでSequelについて喋ってきました。
午前中は、NGSメーカー全社がそれぞれの最新情報を発表し合うというもの。
なかなかそういう場は無いですよね。
よく、「競合同士は仲が悪い」と勘違いされているひとが多いですが、私に限っては結構業界の横のつながりが多いです。
その方が業界全体が活性化されると思うので。

さて、お昼前には、五條掘先生の特別講演。
サウジアラビアの大学は、まさに世界でもトップクラスだということを実感しました。
お金が潤沢にあるから、と片付けてしまえばそれまでですが、石油以外に目立った産業が無いことを将来の危機と感じて、学問を育てよう、どうせやるなら世界一を目指そう、というサウジ政府の覚悟がすごい!
同じように、将来を見て教育に投資をしている国は、シンガポール、スウェーデン、など、大国ではない国に見られる気がします。
日本やばい。

五條掘先生が最後の方に仰った、
「良い問題をつくることが良い結果を残すことにつながる」という哲学的な言葉は、学問全般に言えるな、と思いました。
しょーも無い問題を提起して研究しても、それなりのレベルの結果しか残らない。
しかし「良い問題」を作るのもまた、センスがいる。
学問のみならず、政治や産業の世界にも通じる言葉の気がしました。


さて、セッション最後の発表は、農生研の坂井さん。
「Vigna属植物ゲノム研究の最前線」です。
坂井さんらのこの研究は、先日、論文なりました。


NGS現場の会では共著者の内藤さんが、進化学会ランチョンでは坂井さんが、それぞれ発表されていますので、ご存知のかたも多いでしょう。

アズキマメが含まれるVigna属というのは本当にすごい植物たちです。
乾燥に強かったり、塩害に強かったり、アルカリ土壌や酸性土壌に強かったりと、様々な耐性を身につけた種が多いスーパー植物連合だそうです。
9種が栽培種となり、82種は野生種。 栽培種9種のうちのひとつ、アズキマメのゲノムを今回PacBioとイルミナのシークエンサーで読んでアセンブリし、これまでで一番精度の高いゲノム配列を作り上げました。

ゲノムアセンブリのために使用したデータは、51xのPacBio ケミストリーはP5-C3
最初のエラー補正はSpraiを使用、その後リードの長いほうから25x分を選択してCelera アセンブリし、Quiverで最終補正というパイプライン。

まず、PacBioだけのアセンブリ結果(Assembly_3)ですが、Roche+Illumina(Assembly_1)、Illumina Only(Assembly_2)と比べても、Contig数、N50やMax Contig 長などの数字が桁が違うのは一目瞭然。
Sakai et al.,(2015)
さて、その後6,000個のSNPマーカーを頼りに、リンケージマップを作成し、Contigをアンカリングしていきます。
このようにしてアセンブルミスを除去していくと、想定ゲノムサイズの83%、448Mbにまとまりました。うち明らかな矛盾は19箇所。
これらはイルミナリードをマッピングすることで、矛盾は除去されたそうです。

PacBioといえども、アズキマメの例では、アセンブルのエラーは0ではありませんでした。
1,631個のSubstitution、8,611個のInsertion、38,889個のDeletionエラーがあったそうです。
ランダムに91個をSangerで調べたところ、確かにPacBioの方が間違いであったと。
その多くは、3塩基以上連続するホモポリマー。
私もデータを見せてもらいましたが、確かにホモポリマーが多かった記憶があります。
Sakai et al.,(2015)

これらのエラーはイルミナデータで修正し、さらに、ScaffoldのギャップをPB-Jellyで埋めて、2,529本のScaffoldにしてゲノムの95.2%をカバー。


Sakai et al.,(2015)
こちらは、Roche+Illumina(Assembly_1)、Illumina Only(Assembly_2)、PacBio Only(Assembly_3)のアセンブリ結果それぞれで、ゲノムの何%をユニークな配列が、リピート配列が、ギャップが占めていたかを表したグラフです。
ショートリードのアセンブリが、全体に占めるギャップの割合が多く、リピート配列の割合が少ないのは理解できます。
しかし、ユニークな配列も、ショートリードのアセンブリでは、PacBioアセンブリに比べて少なかったのは意外です。
ということは、ショートリードアセンブリでは、リピート配列以外のユニークな配列でも、取りこぼしがあったということ。
PacBioロングリードで読んで、初めてわかったことです。

いずれにしても、PacBioで作成した染色体配列は、これまでのどの配列よりも高精度で、リファレンスとして使用できるレベルになりました。

この論文の良いところは、「PacBioすげー!」だけではなく、PacBioだけでアセンブリしてつまづいた(結構エラーがあった)ところを、どうやって修正していったか、をこと細かに書かれていること。
メーカー側にいると、つい「PacBioだけでアセンブルは完成できる!」なんて言ってしまいがちなんですが、まあ、バクテリアならそうだったかもしれません。
でも高等生物はずっと複雑。
PacBioを使えば、すごい結果が良くなるのは確かだけれど、もうひとつ上のレベルの精度を目指すなら、ショートリードもちょっと必要だということです。

このプロジェクトはP5-C3ケミストリーでシークエンスされたので、P6-C4で読んだらもっと精度は高かったかもしれませんね。
野生種のシークエンスプロジェクトにも期待しています!

最後に、
論文の謝辞に入れていただき、ありがとうございます。


ーーーーー
論文の著者でもあります、坂井さんは、2月23日に秋葉原で行なわれる「第二回PacBio現場の会」ワークショップセミナー でお話します!



0 件のコメント:

コメントを投稿