2013年12月22日日曜日

Moleculoのリード?

丸の内KITTE(キッテ)の中にある、クリスマスツリーです! 
東京駅の丸の内南口すぐ近く、日本郵政のビルにあります。
本物の雪ではないんですけど、それらしく見えますね。

私たちは2年ほど前から大手町にオフィスを構えていたのですが、このたび引っ越ししました。
会社のオフィスの引っ越しは普通でも大変だと思うのに、年の瀬の引っ越しとは・・・。

新オフィスは文京区の根津です。前ほど広くは無いですが、働くスペースとしては十分。
大手町は、それなりに楽しい街でしたが、根津もまた、下町でいい感じ。
前職の職場が人形町だったので、それに近い雰囲気がありますね。




さて、12月は2日の週は神戸で分子生物学会がありましたね。
PacBioのセミナーは行いませんでした。分生ではNGSの発表は少なかった気がします。
そんな中でも面白かったのは、Illumina社のランチョンセミナー。
Moleculoテクロノジーの話が登場しました。
初めて聞くひとも多かったと思います。
その中で、Moleculoのロングリードは、平均何キロbpとか、精度がQVいくつとかの数字が出てきました。

Moleculoのテクノロジーは、それ自体は素晴らしいものだと思います。 ショートリードのシークエンサーで、ロングリードを再現させる、という発想はさすがアメリカのベンチャーです。
技術の全ては明らかにされていませんが、10Kbpにゲノムを断片化したあと、ウェルごとに数百の断片化クローン配列を増幅し、クローンごとにタグ付してから、HiSeqでシークエンスします。
そのあと、タグごとにリードを分けてアセンブリし、もとのクローン配列(10Kbpに断片化した配列)を再現するというわけです。

しかし、

誤解を恐れずに言えば、Moleculoが出すデータはContigです。
「リード長10Kbpのデータを出力できます!」 というのは、正確には「元々10Kbpに断片化した配列をMoleculoテクノロジーを使ってタグ付してショートリードで読み、タグを基準にそれぞれをアセンブルすると、10Kbp長のContigが再生できます!」
ということ。
再生されるContigは、(アセンブルのデータなので当たり前ですが)全てが10Kbpというわけでは無い。
やはり短いContigがたくさん出てきて、配列が長くなるにしたがってContig数は少なくなるという普通のアセンブリの傾向があります。

というわけで、MoleculoのContigリードと、PacBioのリアルリードを、配列単位の長さや精度で比較するのはフェアでない。
と思うのです。

しかしこれ以上書くといろいろとまあアレなので、以上。

0 件のコメント:

コメントを投稿