2012年1月17日火曜日

PacBioの精度 (1)

PacBioのデータの精度と聞いて、皆さんどんな印象を持っているでしょうか?
一分子で読むことのインパクトや原理のことは注目されますが、研究者にとってはやはりデータの精度がどれくらいのものなのか、が重要な基準でしょう。

前から(私が聞くところでは2年くらい前から)言われていたことで、データの精度は70-80%くらいだ、というのがあります。
これは、額面通りに受け取ってしまうと、つまり他の次世代シーケンサーと比較してしまうと、とても効率の悪いシステムに聞こえてしまいそうです。

しかし、これはPacBioの1本あたりのリードの精度です。
ちなみに85%というのが最近の値です。 8割以上、塩基を正しく読んでいます。

でも、インサート配列が数百塩基の場合、同じインサート配列を何度も読むことによって、この精度を限りなく100%に近づけることができます。 「何度も」というのは5回くらいで、結果99%に近づくそうです(λファージを読んだときの結果です)。 

同じインサートを何度も読むことを可能にしているのが、ダンベル型のライブラリーです。
数字は無視してください。
左のアダプターにくっついているのがポリメラーゼですが、これが2本鎖DNAを何度も読むことができることが、明らかでしょう。
センス鎖とアンチセンス鎖が何度も読まれるわけです。
これを、Circular Consensus と呼びます。


一方、できるだけ長く読みたい、そんな場合は15%の読み取り間違いも許しましょう。
PacBioの特徴は、最大6kbのリードを出すことができる超ロングリードにあります。
(この数字は近い将来更新されます)
その場合の読み取りエラーは、別のショートリードシーケンサー、例えばHiSeqなどで補うことができると思います。

ということで、読み取り精度が低い、というのは
  • 1分子インサートをたった1回しか読まない場合で、
  • インサートが短ければ何回も繰り返し読めるので精度を限りなく100%に近づけることが可能
です。

この絵は、以前のExpression Analysis社のWeb セミナーの絵ですが、真ん中がCircular Consensus、何度も同じ配列を読むパターンです。 アダプターを除いた後の配列を重ねれば、その場所の精度が上がるわけです。

一番上が6kbのインサートを読むケースです。 一本しかありませんが超ロングリードです。
一番下のStrobeは今は無視して下さい。

以前Roche454のユーザから聞いたことがあるのですが、長いリードは長いということに大変価値があるので、読み取りのエラーはショートリードで補う方が良いとのことです。
Pacの価値も超ロングリードということにあるので、同様な使われ方をされるのではないかと、信じています。


0 件のコメント:

コメントを投稿