2017年11月20日月曜日

PacBioとナノポア 違いはここだ! (2017年版)

2017年は、PacBioにとってのライバル、オックスフォード・ナノポアテクノロジーズ(以下ONT)がいよいよ本格的に市場に登場、ロングリード業界に新たな風が生まれました。
(正確には、2016年でもMinIONを購入することはできましたが、誰でも手軽に買えるようになったという意味では2017年が国内リリースの年といっても良いでしょう)

そこで聞くのが、PacBioより長いリードが出てくるとか、バクテリアアセンブリにはONTだけで十分とか、ロングリードはナノポアに席巻されるのでは?という、PacBioに否定的な意見。
一方、ナノポアのデータはまだ精度が悪い、超ロングリードはエラーだらけ、ノートPCではランはできるけど解析はできない、というONTに否定的な意見も。

どちらもロングリードを謳っているだけあって、目的がデノボアセンブリやゲノム構造変異解析、16S解析など、ガチでぶつかるのは当たり前です。
では2017年11月の現時点で、このふたつの製品はどこがどう違うのか?

注!:皆さんご存じ、私はPacBio側の人間なので、これから書くことは多少ともPacBioバイアスがかかっています。そこを承知の上、お進みくださいね。


さて、PacBioとONT、現時点でどこがどう違うのか?

【テクノロジーの違い】単純にいうと
  • PacBio:DNAポリメラーゼがDNAを合成するときに、取り込む塩基に付加されている蛍光を、レーザーによって1塩基ずつ検出する。1つのウェルからは1本の配列データしか出力されない
  • ONT:DNAがナノサイズの穴を通るときに生じるわずかな電位差を検出し、アルゴリズムが塩基配列に変換する。1つのポアから複数本の配列データが出力される
つまり、
  • PacBio:DNA合成を伴う、蛍光色素を使う。レーザー励起エネルギー検出
  • ONT:DNA合成は行わない、蛍光色素は使わない。電位差検出
皆さんご存じの方も多いと思います。

【リード長はどうか?】
  • 平均リード長:PacBioもONTも同じくらい (10kb~20kb)
  • 最大リード長:PacBioは読むライブラリのサイズ、ムービー時間などで制限されるので60kb~100kb程度ではないかと思う。数百kbのリードは見たことが無い。一方ONTは、ポアを通るDNAが長ければ、最大1Mbのリードも出るそうだ
  • しかしリードの本数や分布には注意が必要。PacBioもONTも、短い(とはいっても数キロbpはあるが)リードは多く出力され、長いリードほど出力数は少なくなる。先のONTの超ロングリードも、出力本数でいうと数本
  • 因みにランタイムはPacBioのSequelが30分~10時間、ONTのMinIONが1分~48時間、だそうで。
数値についてはこちらを参照(オフィシャルな情報です)

で、精度はどうか?
生リードとコンセンサスリードで精度の意味は違う。
ここを一緒にして、「ロングリードは精度が悪い」という研究者のなんと多いことか!!

【生リードの精度】
  • PacBio:RSIIのP6C4ケミストリーや今のSequelは、平均86%
  • ONT:精度の数字はケミストリーのバージョンによって様々のようだけど、R9.2は平均80%~85%くらいか(違ってたらゴメン)。でも使うベースコーラーによって精度は変わってくるそうです。ベースコーラーは何種類かある
つまり、どちらも生リードの精度はほぼ同じ、ということになる。しかしもっと重要な点は、エラーの入り方。
【エラーの入り方】
  • PacBioはランダム
  • ONTはランダムという話も聞くが、実は決まった場所に必ずエラーが入るというユーザーのポスターも見るので本当のところはわからない
【コンセンサス配列の精度】
  • PacBio:エラーがランダムに入るので20~30カバレッジでQV50(99.999%)も可能
  • ONT:ONTだけのデータでQV50を達成している結果は私は聞いたことが無い。たいていイルミナデータをエラー補正に使っているようである
とまあ、ここまで読んで、いやそんなことは無い!と思った方もいるでしょう。
あくまでバイアスがかかった私見ですので。
この辺の技術の数字は、すぐに変わる可能性があります。少なくともPacBioは、来年データ量が増える予定なので。この辺はONTとの競争ですよ

【ベースコール】

  • PacBio:装置から出てくるデータは既にベースコール済み
  • ONT:ベースコーラーが数種類あるのでユーザが適切なものを使用してベースコールをかける必要がある

【PacBioしかできない解析】
  • CCS:ライブラリを1分子DNAの単位で何度も繰り返し読むことができ、精度を上げることが可能。Iso-Seq(完全長cDNAを高い精度で読む解析)ができる
【ONTしかできない解析】
  • ダイレクトRNAシークエンス? 今どこまで現実的に使えるのか、知っているひといたら教えてください
【PacBioでもONTでもできる解析】
これはいつくかリストした後に考えてやっぱり消しました。というのは、「できる」という言葉の定義がひとによってさまざまだから。
バクテリアのゲノムアセンブリができる、と言っても、精度99.99%以上でできるというのと、ラフなドラフトでいいからできる、というのとでは全然違う。
HLAなどのロングアンプリコンシークエンスもそうです。求められる精度が6桁なのか8桁なのかで同じく「できる」というべきか。
あと、メチレーションや16SなどでもONTのデータを私は知らないのでできると言うのはやめました。
あと、意外と知られていないことですが、ノートPCにUSB挿してランができるMinIONも、データ解析には普通のサーバが必要です。

それでは技術以外の、それぞれの特徴を考えてみましょう!

【PacBioの特徴】

  • 装置型なのでシークエンスを行う環境が安定している
  • 実験プロトコルが用意されている
  • 解析パイプライン(マッパーやアセンブラ)がほぼ確立されている。これを使っておけば大丈夫的なツールがある
  • グローバルに数百台入っていて、国際プロジェクトにも正式採用されている(例えばG10K(脊椎動物のゲノムプロジェクト)ではPacBio、10XGenomics、Hi-Cのみが正式採用)ので信頼が高い
  • PacBioを使った研究の論文数、学会でのポスター数は圧倒的にONTのそれより多い(これは先行者だからかもしれません。来年が勝負の年かも)
【ONTの特徴】
  • MinIONはコンパクトで持ち運べる
  • 初期投資額が少なくて済む
  • 誰でもどこでもいつでもシークエンス、を謳っているが、「どこでも」シークエンスをするとデータにバラつきが出やしないか?(逆に、誰がどこでランしても一定のデータが出てくるなら凄い)
  • ユーザーコミュニティの中からプロトコルや解析ツールが作られる、ボトムアップなイメージ。NGSは昔からサードパーティのツールがユーザーから作られるものだが、ONTはよりその傾向が強いように感じる
  • バージョンアップのスピードが速い。PacBioもそこそこ速いけれどONTはもっと速いイメージ


と、つれづれなるままに書いてみましたが、いかがでしょうか?
結局はコストだと言われるかもしれませんが、シンプルにランニングコストで比較すればPacBioも負けていませんよ。アプリケーションによっては。

結論!
PacBioやONTのどちらも持っていない場合

  • どうしても自分でランしたくて、ユーザーコミュニティでどんどん聞いて行くのが好きで、インフォマティクスにも強ければONT(ベースコールも何種類かあるのをお忘れなく)
  • 自分でランすることにはこだわらず、安定したデータを早く出したい、インフォを誰かに頼めるか自分でできれば、受託か共同研究でPacBio
  • 限られた予算を無駄なく効果的に使いたければ・・・ (答:     )

PacBioを持っている場合:
迷わずPacBio(笑) これ一本!

以上、2017年11月現在の私の意見でした。

0 件のコメント:

コメントを投稿