パックマンの挑戦　－　PacBioシークエンサー: アズキゲノムをPacBioで解読

先日、つくばにて、データ解析ワークショップ（NGSワークショップ）があり、私は午前中のセッションでSequelについて喋ってきました。
午前中は、NGSメーカー全社がそれぞれの最新情報を発表し合うというもの。
なかなかそういう場は無いですよね。
よく、「競合同士は仲が悪い」と勘違いされているひとが多いですが、私に限っては結構業界の横のつながりが多いです。
その方が業界全体が活性化されると思うので。

さて、お昼前には、五條掘先生の特別講演。
サウジアラビアの大学は、まさに世界でもトップクラスだということを実感しました。
お金が潤沢にあるから、と片付けてしまえばそれまでですが、石油以外に目立った産業が無いことを将来の危機と感じて、学問を育てよう、どうせやるなら世界一を目指そう、というサウジ政府の覚悟がすごい！
同じように、将来を見て教育に投資をしている国は、シンガポール、スウェーデン、など、大国ではない国に見られる気がします。
日本やばい。

五條掘先生が最後の方に仰った、
「良い問題をつくることが良い結果を残すことにつながる」という哲学的な言葉は、学問全般に言えるな、と思いました。
しょーも無い問題を提起して研究しても、それなりのレベルの結果しか残らない。
しかし「良い問題」を作るのもまた、センスがいる。
学問のみならず、政治や産業の世界にも通じる言葉の気がしました。

さて、セッション最後の発表は、農生研の坂井さん。
「Vigna属植物ゲノム研究の最前線」です。
坂井さんらのこの研究は、先日、論文になりました。

NGS現場の会では共著者の内藤さんが、進化学会ランチョンでは坂井さんが、それぞれ発表されていますので、ご存知のかたも多いでしょう。

アズキマメが含まれるVigna属というのは本当にすごい植物たちです。
乾燥に強かったり、塩害に強かったり、アルカリ土壌や酸性土壌に強かったりと、様々な耐性を身につけた種が多いスーパー植物連合だそうです。
9種が栽培種となり、82種は野生種。　栽培種9種のうちのひとつ、アズキマメのゲノムを今回PacBioとイルミナのシークエンサーで読んでアセンブリし、これまでで一番精度の高いゲノム配列を作り上げました。

ゲノムアセンブリのために使用したデータは、51xのPacBio　ケミストリーはP5-C3
最初のエラー補正はSpraiを使用、その後リードの長いほうから25x分を選択してCelera アセンブリし、Quiverで最終補正というパイプライン。

まず、PacBioだけのアセンブリ結果（Assembly_3）ですが、Roche＋Illumina（Assembly_1）、Illumina Only（Assembly_2）と比べても、Contig数、N50やMax Contig 長などの数字が桁が違うのは一目瞭然。

Sakai et al.,(2015)

さて、その後6,000個のSNPマーカーを頼りに、リンケージマップを作成し、Contigをアンカリングしていきます。

このようにしてアセンブルミスを除去していくと、想定ゲノムサイズの83%、448Mbにまとまりました。うち明らかな矛盾は19箇所。

これらはイルミナリードをマッピングすることで、矛盾は除去されたそうです。

PacBioといえども、アズキマメの例では、アセンブルのエラーは０ではありませんでした。

1,631個のSubstitution、8,611個のInsertion、38,889個のDeletionエラーがあったそうです。

ランダムに91個をSangerで調べたところ、確かにPacBioの方が間違いであったと。

その多くは、3塩基以上連続するホモポリマー。

私もデータを見せてもらいましたが、確かにホモポリマーが多かった記憶があります。

Sakai et al.,(2015)

これらのエラーはイルミナデータで修正し、さらに、ScaffoldのギャップをPB-Jellyで埋めて、2,529本のScaffoldにしてゲノムの95.2%をカバー。

Sakai et al.,(2015)

こちらは、Roche+Illumina（Assembly_1）、Illumina Only（Assembly_2）、PacBio Only（Assembly_3）のアセンブリ結果それぞれで、ゲノムの何%をユニークな配列が、リピート配列が、ギャップが占めていたかを表したグラフです。

ショートリードのアセンブリが、全体に占めるギャップの割合が多く、リピート配列の割合が少ないのは理解できます。

しかし、ユニークな配列も、ショートリードのアセンブリでは、PacBioアセンブリに比べて少なかったのは意外です。

ということは、ショートリードアセンブリでは、リピート配列以外のユニークな配列でも、取りこぼしがあったということ。

PacBioロングリードで読んで、初めてわかったことです。

いずれにしても、PacBioで作成した染色体配列は、これまでのどの配列よりも高精度で、リファレンスとして使用できるレベルになりました。

この論文の良いところは、「PacBioすげー！」だけではなく、PacBioだけでアセンブリしてつまづいた（結構エラーがあった）ところを、どうやって修正していったか、をこと細かに書かれていること。

メーカー側にいると、つい「PacBioだけでアセンブルは完成できる！」なんて言ってしまいがちなんですが、まあ、バクテリアならそうだったかもしれません。

でも高等生物はずっと複雑。

PacBioを使えば、すごい結果が良くなるのは確かだけれど、もうひとつ上のレベルの精度を目指すなら、ショートリードもちょっと必要だということです。

このプロジェクトはP5-C3ケミストリーでシークエンスされたので、P6-C4で読んだらもっと精度は高かったかもしれませんね。

野生種のシークエンスプロジェクトにも期待しています！

最後に、

論文の謝辞に入れていただき、ありがとうございます。

ｰｰｰｰｰ
論文の著者でもあります、坂井さんは、2月23日に秋葉原で行なわれる「第二回PacBio現場の会」ワークショップセミナー　でお話します！

パックマンの挑戦　－　PacBioシークエンサー

2015年12月15日火曜日

アズキゲノムをPacBioで解読

0 件のコメント:

コメントを投稿