2012年10月21日日曜日

LSC Long-Readのエラーコレクション

秋は学会・展示会シーズンですね。 
私は10月10日のBioJapan、10月15日のCBI、に行きました。 
来週の日本遺伝学会は残念ながら行けないのですが、来月サンフランシスコで行われるアメリカ人類遺伝学会には行く予定です。
今から楽しみです!

10月10日のBioJapanでは、前回のブログでも書きましたが、沖縄県のセミナーでPacBioの発表がありました。
そこでちょっとサプライズゲストとして、PacBioの創始者で現CTO、Steve Turner氏の挨拶を頂きました。
その場にいたひとは聞いたと思いますが、PacBioはこれからも進化します。 
リード長ももっと長くなります。
新酵素の開発、新ケミストリーの開発、Movie開始時期の改良、ソフトウェアの改良・・・。

そこで良く聞かれるのが、「リードは長くなっても、精度は低いままじゃあちょっと・・・」という声。

リード単位の精度はもっと上がるのか? 
リファレンスにアラインしたとき、塩基がリファレンスと異なる(InDelも含め)率が約15%
これが劇的に改善されるか?
本音はというと、ちょっと・・・

そこで、バイオインフォマティクスでエラー率を低くする方法がたくさん開発されているのです。

7月5日のブログにも書きましたが、エラーコレクションといえば、Nature Biotecで発表されたpacBioToCA が有名?でしょうか。 最近のセミナーでも、さかんにこれを使った発表がされています。

そんな中、先週別のアルゴリズムが論文化されました。 これはRNA-Seq用にも適したエラーコレクションアルゴリズムだそうです。

Au et al.,  Improving PacBio Long Read Accuracy by Short Read Alignment
PLoS One 7(10), e46679.

Homopolymer Compression という方法で例えば、GCGAAAATA => GCGATA
に情報を圧縮します。 Pylosequencerなどでのエラーコレクションに使われる手法で、これをPacBioにも応用しています。
情報量は意外と失われないそうで、私も近いうち試してみたくなりました。
 

pacBioToCAと同様、ショートリードでPacのロングリードを「修正」するアルゴリズムですが、Mammalianのトランスクリプトーム用に開発されただけあって、メモリー消費やラン時間に工夫がされているようです。 pacBioToCAは処理時間が長い、LSCよりメモリを食う、と。
LSCというのがこのアルゴリズムの名前です。

軽いなら是非試してみたい!
ツールも公開されていますので。
そのうちこのツールを使用した発表も、学会などで多く見られるようになるでしょう。

そういえば今年の7月くらいにPacBio本社で、cDNA解析のPacでの可能性についてディスカッションをしたとき、マッピングの方法と合わせて、エラーコレクションの話をしたことを思い出しました。 
ちなみにPac社内では、「error correcton」という言葉を嫌うひともいます。
correction = 修正です。 修正するってことは、もとが間違っているということ。 なるほど。
ですので、私は気を利かせて「improve accuracy = 精度の向上」と言うようにしています。
ま、単なる言葉ですけど。

ショートリードでロングリードを「修正」する方法は目新しくなくなりましたが、「修正」すること無しにAccuracyを良くする方法も出てきています。
それがQuiverというツールです。 
これに関してはまた今度。

最後に、精度には2つの意味があります。
リード単位の精度とマッピング精度です!

リード単位の精度ではショートリードの方がずっと良い。 これは認める。 
では、リファレンスやゲノムにマッピングさせたときの、真の場所に正しくマッピングされるという意味での精度は、どうか?
Yes! ロングリードであればある程、良い、でしょう。

本当はリード一本で精度がphred 40 以上くらいあって、かつ数十キロ以上読めれば(+低コストで)、向かうところ敵無しなんでしょうが。
まだ無理かなあ。

0 件のコメント:

コメントを投稿