2014年12月22日月曜日

PacBioでヒトゲノム構造解析

もう年末ですよね。
急に寒くなってきたり、雪が降ったり。

出張で顧客のところに行ったとき、偶然、知っている企業のひとに会うことが結構あるんです。
皆さん、年末ということで忙しそうです。
そんな中、とあるところで、今年のサンディエゴのASHGでのパーティで出会った、某企業のお偉いさんに偶然会いました。
彼は私のことを覚えていて、立ち話したのですが、彼らの新製品、実に魅力的なんです。
シークエンス解析に大きなインパクトを与えるかも知れない、でもシークエンサーではない、そんな機械です。
BioNano Genomics のIrys
またこの機械のことは書こうかと思いますが、いわゆるオプティカルマッピングとは似て非なるもの。
PacBioとの相性も良いと思いますよ。


さて、もうご存知の方もいらっしゃると思いますが、PacBioでヒトゲノムを読んだ論文がNatureから出ています。
ヒトゲノムといってもこちらはハプロイド。
どういうことかというと、受精のときに、卵由来の核が無く、精子由来の核のみが分裂、増殖していくという現象があるそうです。
この場合、46本の染色体を持つことになるけれど、普通の受精卵と異なり、2つのペアは片方のコピー、つまり遺伝的にはハプロイド。
下の図の右側
20 Nov. 2014, vol 515, Nature, p323より
我々の「One of the MUST READ Paper」は、
Chaisson MJ., et al. Resolving the complexity of the human genome using single-molecule sequencing. (2014) Nature.
リンクはこちら

彼らはCHM1ハプロイドゲノムをPacBioのP5-C3ケミストリーで40x読んで、GRCh37に存在する様々なStructural Variantを解析した。
結果、リファレンスゲノムGRCh37に存在する164個のGapのうち、50をCloseさせて、そのうち39のGapは数Kbに及ぶSTRを持っていたらしい。
Closeによって伸長されたゲノム配列は398Kb
またClose まではできなくとも、Gapの両端を伸ばすことによって伸長した配列は721kbに及んだ。

彼らは、PacBioデータでデノボアセンブルを試みたわけではない。
まずはロングリードをGRCh37のリファレンス配列にBLASRでマップして、Gapの領域周辺にマップされたリードだけに注目する。
そのGap周辺Mappedリードだけを、Celera Assemblerでローカルアセンブリ、QuiverでContig Poishingをして、精度の高いコンセンサス配列を得た
その配列を、以前、CHM1tertのBACを読んで得た配列と比較したところ、99.97%(Phred score = 37.5)の一致を得、エラーの72%はホモポリマー内のInDelだったそうな。

これまでヒトゲノムのGapのCloseができなかったのは、配列がGCリッチであったり、ATリッチであったり、またリピート配列そのものが大腸菌に毒であったり(それによってクローンができない)、はたまたリピートがとんでもなく大きかったり、そういう理由があるそうです。
でもPacBioなら、クローンを作る必要なし、GC含量によらない、ということで、ヒトゲノムの構造多型を解析するのには最適なのです。
(もちろん数100kb単位でのリピートは、さすがのPacBioも無理です。余談ですがそんな超ラージリピートの解析に、最初に紹介したBioNanoのIrysが役に立つ!)

もちろんバイオインフォマティクスは複雑。出来合いのツールは無いので、自分たちで開発しないといけません。
当然、ヒトゲノムのフロンティアを切り開いてやろう!という野望を持った研究者なら、優秀なバイオインフォマティシャンとタッグを組んでいると思います。
ツール開発、アルゴリズム開発は常に、こうした新しい技術と優秀な人材で、前進していくものですね。

この論文のラスト・オーサーである、Dr. Evan Eichlerは、今年のASHGのPacBioワークショップで講演しています。
その様子を見たいかたは、こちらからどうぞ

PacBioのリード長も伸び、スループットが増えたので、ヒトゲノムに挑戦する研究者は多いと思います。
まだまだ全ゲノムアセンブリは計算機パワーなどで大変でしょうが、リファレンス配列やショートリードのデータをうまく利用すれば、構造多型、Large InDelの解明に少しずつ開けてくると信じています。

来年、2015年は、PacBio Year !

0 件のコメント:

コメントを投稿