2017年5月26日金曜日

夏らしい話題 ヒマワリゲノム解読完了

まだ5月ですが夏の話題です。
みなさんヒマワリというと、何を思い浮かべますでしょうか?

私は小学生の時に種から育てた記憶と、花が枯れた後に取れた種をハムスターの餌に与えていた記憶が強いです。
でも、最近では植物油として売られているし、アメリカではオーガニックの食用ヒマワリの種がスーパーで売ってました(日本でも売ってるか)。 
あと、なんといってもあの太陽に向いているイメージが強いので、企業やお店の名前にも使われますね。 「ひまわりクリーニング」とか、西日本でよく見る「スーパードラッグ ひまわり」とか。

長々とすいません、本題に入ります。
先日、Natureに出たのがヒマワリゲノム!
論文はこちら

この論文、何がすごいかって、その迫力と規模。
RSIIのSMRT Cellを何と407個使って、102カバレッジのデータを出力。
3,200万本の超ロングサブリード(平均10.3kb、N50=13.7kb)でアセンブルして想定ゲノムサイズ(3.8Gb)の80%、およそ3Gbをカバー。
使ったアセンブラーはPBcR wgs8.3rc1で、Falconではありません。
Contigの数は14,000本
N50=およそ400kb

32万個以上のBACクローンから12.5Xの物理地図が作られ、QTL解析などをもとに、17本の擬似染色体が作られた。それらは遺伝子の97%をカバーした。

ここまでの仕事は大変だったと想像できます。
せっかくなので、SequelとDovetailを使うとどんな感じでできるかと、妄想してみました。

Sequel 
セルあたりの出力=6Gbと推定(公式には5~8Gbと言っているけれど控えめにしてみた)
サブリードの平均長やN50はRSIIと同じと仮定

3.8Gb/genome x 102 coverage = 387.6 Gb /genome
387.6 Gb / 6 Gb/Cell = 64.6 Cells(65セル)

4セルランを16回または8セルランを8回、追加1セルラン
大体、かかる時間は1ヶ月++
出力したデータはFalcon + unzipでアセンブリ
計算機にもよるけれど恐らく1週間程度?

Dovetail
PacBioである程度ドラフトアセンブリが完成したと仮定
ContigのN50は400kbと仮定

100kb以上の高分子DNAを抽出
ゲノムサイズは3.8Gbで複雑なゲノムらしいので、Chicagoライブラリは3種類作る
100x程度の物理カバレッジをとるためHiSeq Xのランは2レーン行う
PacBioのドラフトアセンブリとDovetail Chicagoを合わせてHiRiseスキャフォルディング
ここまででおよそ2か月

た、ぶ、ん、

スキャフォルドをしたあとのN50 は、メガベース単位

で、その次にHi-Cを加える
Chicagoのときと同じく、しかし今度は in vivo でライブラリを作製
時間短縮のため、Chicagoと同時にライブラリを作成してシークエンスしたと仮定すると、Dovetail全体でおよそ4か月

Hi-Cを加えて、擬似染色体まで完成!








0 件のコメント:

コメントを投稿