2018年1月16日火曜日

PAG XXVI 学会(その1)ゲノムシークエンスはPacBioとHi-CとBioNanoで決まり!

PAGは植物と動物のゲノム学会とだけあって、いろんな生物のゲノムシークエンスの発表があります。
今回ちょっと残念なのは、聞きたい発表が結構重なっていること。
でもPacBioが一般的に使われてきたせいかなーと思うことにしています。
PacBioのブース 
デザインの好みは分かれるか
昨年もそうでしたが、PacBio+Dovetail Chicago/Hi-C + BioNano
のどれかの組み合わせはゲノムシークエンスの発表で良ーく耳にします。
特に今回多かったのはPacBio+Hi-Cの組み合わせ。
Complex Genome Sequencingのセッションでは、クルミ、ココナッツ、ヒマワリ、ピーナッツ、とどれもPacBioが基本で補正的にHi-CとBioNanoを使っていました。

クルミ(ゲノムサイズ560Mb前後)の発表ではBioNanoを最初に使って物理マッピング地図を作っていました。(最初にBioNanoから行うゲノムプロジェクトは初めて聞いた!)
PacBioデータは47x でアセンブリ、N50=8Mbも得られたのは驚きですが、BioNanoの地図を加えて294本のスキャフォルド、N50=34.8Mbを達成したとのこと。

ココナッツはゲノムサイズが2Gb~2.6Gbと大きく、50xのイルミナデータでアセンブリ、15xのPacBioでギャップフィリング、DovetailのChicagoデータを足してスキャフォルディングという安全かつ簡単な方法を採用していました。
因みにココナッツは全世界の25%をフィリピンで生産しているらしく、一番の用途はコスメティクらしいです。へー意外。

ヒマワリはゲノムサイズ3.6Gbで、8kbと11kbのリピートが多くゲノムの33%を占めるらしいです。
102xのPacBioデータをFalconアセンブリして2.93Gb、N50=498kb、12,318本のコンティグを得たあと、こちらはBACデータにアラインしてPseudo chromosomeを作っていました。BACデータがあったからこそできた話ですね。

ピーナッツは1.25GbのAゲノムと1.4GbのBゲノムが2~300万年前にくっついて2.8GbのAABBとなったらしい。AとBは98%が同じ配列で64%がリピート、ATリッチという特徴があるそうです。
48xのPacBioデータをアセンブリしてコンティグN50=460kbを得た後、Hi-Cを行って、最後はイルミナリードでアセンブリエラー修正。
ピーナッツは染色体の端っこの方ではBゲノムがAゲノムになる傾向があるらしいです。


これとは別のセッションでも参考になる話が聞けたので少し。

キヌアゲノムは昨年Natureの論文で出ましたが、Kaniwa(カニューアと発音するらしい)という種を初めて聞きました。キヌアよりもタンパク質が多くて健康食らしいです。
ゲノムサイズは452Mbで、イルミナとHi-Cである程度スキャフォルディングまではできた。
これにPacBioデータを加えてギャップフィリングをするのですが、17xデータでやったけれど結構苦労したとのこと。やっぱり30xは欲しいと言っていました。
個人的には、Hi-CをするよりもChicagoを行った方がギャップフィリングの前のスキャフォルドの精度が上がったと思います。
または、最初からイルミナを使わずにPacBioで70xくらい読んで、それにHi-Cを加えるのが、お金があれば最適の方法でしょう。(←Sequelのランニングコストで考えるとPacBioのアセンブリもバカ高いわけではありません)

カベルネ・ソーヴィニョンもアップデートがありました。
以前ここでも紹介しましたが、ヘテロ性が高いのでFalcon Unzipのテストにも使われたこともあります。
これまではアセンブリしてN50が数Mbとかの話で終わっていましたが、その後BioNanoデータとDovetail Hi-Cを加えて、19本のPseudo Chromosome / allele まで完成させていました!
ほかにもIsoSeqを行い、672,000本の高精度アイソフォーム配列を得たそうです。
うち549遺伝子(585アイソフォーム)は、他の品種のゲノムにも転写産物データベースにもなかったとのこと。新規?

アセンブリにどれくらいのカバレッジが必要か問題についても少し議論があり、カベルネ・ソーヴィニョンの例では、「多ければ多いほど」良いとの結論でした。
つまり、カバレッジが多すぎてコンティグの長さが saturate してしまう、ということは無く、90xでも100xでも、多ければ多いほどアセンブリ結果は良くなる、というそうです。
とは言っても、100xの場合でもエラー補正に使われるリードがかなりありますし、カベルネ・ソーヴィニョンの場合はヘテロ性がとても高いので、ハプロタイプあたり50xと言えなくもないです。
そうするとヒトゲノムアセンブリで50x以上を推奨しているのとほとんど変わらない、かもしれませんね。




0 件のコメント:

コメントを投稿