2013年3月15日金曜日

もうショートリードはいらない?

私の話し方が、松岡修造に似ているそうです。(良い意味で?)
ある方から言われて、何人かに「そう?似てる?」って聞いたら「うん!」という答えが。
喜んでいいのかなあ・・・。 少し複雑。
暑苦しいプレゼンは嫌だ。


まあ、それはそれとして、タイトルに「もうショートリードはいらない?」
と書きましたが、バクテリアサイズのゲノムアセンブリには、いらないかも? という意味です。

昨年(2012年)は、ロングリードの精度を上げるためのエラーコレクションという手法(pacBioToCAとLCS)が少し流行りました。このブログでも何度か取り上げたので、ご存知のかたも多いと思います。 

昨年後半くらいから、ショートリードを使わずにエラーコレクションをする方法がいろいろ開発されて、PacBioではHGApという手法が作られました。
Hierarchical Genome Assembly processing の略で、開発したのは元A社のJason Chin。

Pacのリード(サブリード)は、長さと数をプロットすると、このような感じになります。形に注目!

これはセル1個ではないので、リードの本数は気にしないでください。 1個でも8個でも、リードの長さの分布はこのような形になります。
長いリードはあまり多くないですね。
でも、アセンブリに有利なのは長いリードです。
そこで、超長いリード(例えば6kb以上)だけをアセンブリに使用し、それ以下の長さのリードは、超ロングリードのエラー補正に使おう、というのがHGApの考え方です。

超ロングリード(Seedリード)に対し、それ以下の長さのリードをマッピングして、多数決のような感じでコンセンサスを作ります。 
そうすると結果的に精度が向上した超ロングリードができる(Seedを6kbにしたときは精度の高い6kbができる)わけです。
知っての通り、シングルリードの精度は約85%、それがHGApのあとは、QV45以上になる超ロングリードも得られるのです。
このような、QV45の6kb超リードを20x~30xくらい得て、Celera Assembler等でアセンブリすれば、数MbサイズのバクテリアゲノムであればPacのみでFinishできる!
というわけです。

実際はリピートの存在などにより、完全に1本になるとは限りませんが、他のどのテクノロジーよりもコスパが良い、と言えると思います。

さて、今月フロリダで行われたAGBTで、PacBioのCSO、Korlach氏の講演がとても良かったので、紹介しようと思います。

動画はこちらから見れますので、是非どうぞ。
前半はHGApの話、後半でその素晴らしい応用例が出てきます。

私が一番いいなと思ったのは、百日咳菌のゲノムアセンブリのところ。
百日咳の原因となるBordetella pertussisのゲノムは、今年(2013年)の初めまでに2株読まれていました。
2003年にサンガー研で行われた、130,000以上のサンガーリードをアセンブリした例(Parkhil et al, Nature Genetics 35: 32-40)と、2011年に33万本の454リードと1万本以上のサンガーリードでアセンブリした例(Zhang et al, J Bacteriology 193: 4017-4018)だけです。ちなみにゲノムサイズは4Mb程です。
どちらも一大プロジェクトです。

PacBioでは、オランダのグループとの協力で、このほか9つの株を1週間足らずで読んでしまいました。 
1株あたり使用したSMRT Cellの数は4個から8個、アセンブラーはHGAP+CAのパイプラインです。
実際は1台のシークエンサーだと、ライブラリ作成に2日、8個Cellのランに1日、解析に1日、というのが現実的でしょう。
ライブラリ作成を同時にすれば時間短縮はできるでしょうね。

この菌は、リピートやゲノムの複雑さで知られており、実際に読んだゲノムから複雑な構造変異があることもわかりました。

他の菌でも、例えば新規Plasmidを発見したり、遺伝子の新規Horizontal Transferを検出したり、と、昨年から次々と結果を出しています。
そのうち論文になることでしょう。

論文といえば、HGApについても近々Publishされると思います。
私も数Mbサイズのゲノムアセンブリには、まず、これを使います。
やろうと思えば数十Mbサイズまでいけます。
Pacによると、将来的には高等生物ゲノムでもできるようにしたいとのことです。

それにはスループットが・・・という声が聞こえてきそうですが、ご安心ください。
スループットは向上します。
光学系と、サイズセレクション(サンプル調整時)と、酵素と、蛍光
この4つが今年のキーになるでしょう。

0 件のコメント:

コメントを投稿