2014年2月19日水曜日

PacBioデータだけでヒトゲノム54X

AGBTに参加された方はこのニュースをフロリダで聞いたのかもしれません。 (私は日本でしたが)
PacBioは昨年、バクテリアサイズのゲノムアセンブリにおいては、ライバルはいない! と言っても過言ではないほど、確固たる地位をつくりました。
チャレンジは少しずつ大きなゲノムサイズに移り、ホウレンソウゲノム、Arabidopsisゲノム、Drosophilaゲノムも、PacBioだけで読める、アセンブリできる、というレベルになりました。

そして、今、まさに時代はヒトゲノムをPacBioだけでアセンブリしようというステージに突入!

PacBioブログには12日に発表されていますが、Washington University in St. LouisのRick Wilson博士、University of WashingtonのEvan Eichler博士らのグループは、Haploidのセルラインである CHM1htertを、PacBioのデータのみで何と、54カバレッジも読んだそうです!

以前、彼らはここのブログでヒトゲノム10x読んで、それを公開したことを報告しましたが、今回はこれをさらに44x分読み足したということです。
これにより、NIHのAlternate reference assemblyはより精度が上がることが予想されます。

とは言っても、この、ヒトゲノム54カバレッジ分のSMRT Cellデータ、普通のサーバでは解析でき無さそうなことは予想できます。
ちなみに、アセンブリは、まだプロトタイプの次世代HGAp(FALCON+CA8.1)を使用

一番計算処理に負担がかかるところが、最初のPre-Assembly(エラー補正)ステップです。
PacBio社は、ここでGoogleの協力を要請。 Google Cloud Platformのスパコンシステムで、405,000 CPU hoursを使用することで、たった一日でシングルリード同士をアラインさせてPre-Assembly終了!
“普通の” サーバでやったら何か月(?)かかるのかな。

このPre-Assemblyされたデータを使って、PacBioでCelera Assemblyし、3.25Gbのアセンブリ配列、4.38Mb のN50、44Mbの最大Contigを得ることができました。
この数字、Contig N50= 4.38Mb というのは、2013年6月14日現在のCHM1アセンブリでのContig N50= 144Kbと比べて桁違いに大きいです。

CHM1_1.1は、ショートリードを使って出したデータを、Reference Guided Assemblyした後、BAC by BACでつないでいったらしいです。 それでも144KbしかN50が出ていない!

昨年10月のアメリカ人類遺伝学会では、ヒトゲノム10xをPacBioで読んだ、というのが話題になりました。
その時、別のセッションで、hg20、GRCh38のリリースの話もありました。
これは新しいゲノムリファレンスの話で、今までのヒトゲノム参照配列のバージョンアップです。
PacBio 54xプロジェクトによって、新たに大きな構造変異などが見つかることでしょう。
今までリファレンスと呼ばれていた配列も、、大幅に変わってくるかもしれませんね。

個人ゲノムの幕開け(の幕開け?)、のような気がするのであります!





0 件のコメント:

コメントを投稿