2013年9月15日日曜日

Pacすごいぜ論文と、最新20kbサンプルデータ



Koren et.al. Reducing assembly complexity of microbial genomes with single-molecule sequencing. Genome Biology 2013, 14:R101
(http://genomebiology.com/2013/14/9/R101/abstract)

この論文は9月13日にPublishされました。
日々、PacBioのプレゼン等でこういう「Pacすごいぜ」的な情報に慣れきっている私には、それほど驚くほどのものではない、と言っては著者に失礼ですが、PacBioを知らない方やこれから学ぼうとしている方には良い参考になると思います。
ちなみに、著者は、エラー補正アルゴリズム(pacBioToCA)の作者でもあります。


さて、先々週の「NGS現場の会」の続きです。
「DeNovoの達人」で東大・笠原さんの解析フローが、公開されました。
こちら(https://cell-innovation.nig.ac.jp/wiki/tiki-index.php?page=Sprai


デモデータで使用できるPacBioデータのリンクもありますので是非どうぞ。
E.coli 20kbのライブラリのデータを使うと、10kb以上の長さのContigは1つだけになったそうです。
詳しい手順は上記のサイトをご覧ください。

私がHGAP-CA-Quiverのフローで行ったところ、同じく1本になりました。
最初のPre-Assemblyステップで8,103bpをSeedリードに、それ以下の短いリードを補正用に使います。
そうして作られた12,418本の補正後ロングリード、総塩基数109MbpをCelera Assembly
その後QuiverでContigをPolishして得た最終Contigが、長さ4,665,426bp

その過程で作られる、サブリードの長さの分布がこちら
 
うーん、これはチャンピオンデータだな。
ここまで良いデータはなかなか出ないです。
10kp以上のサブリードだけでも100Mb(総塩基数)= 20X ある!
実際、20kbのライブラリをうまく作るのがキーで、サイズセレクションは必須、ということはたくさんDNAが取れることが必須、なわけですね。
 
 


0 件のコメント:

コメントを投稿