パックマンの挑戦　－　PacBioシークエンサー: バクテリアマルチプレックスシークエンス

Sequel のスループットは、RSII より多いです。

Movie時間やライブラリの種類によって変わりますが、一般的にRSIIでも1セルあたり550Mb~1Gb のデータは出てきます。

一方Sequelは、3Gb~7Gb のデータが出ます。

ポリメラーゼリードの分布はこのような感じ。

1セルで7Gbものデータが出ると、高等真核生物のような大型ゲノムのアセンブリには向いているんですが、バクテリアサイズのゲノムにはそのままではオーバースペックなんですね。

そこで誰もが思いつくのがマルチプレックス。

バーコードをつけて、多検体を一度にシークエンスし、解析のところでバーコードごとに振り分けて検体ごとにHGAPする方法です。

その公式プロトコルができあがりました。解析ワークフローはこちらにあります。

この方法を簡単にまとめると

10kbライブラリをつくる（ゲノムを切るとき10kbをターゲットにする）
ゲノムを切った後はExo VII酵素で切れ端一本鎖を処理する
バーコード付きのダンベルアダプターをDNAの両端にライゲーションする
ライゲーションした後複数サンプルを混ぜる
5Mbゲノムなら12サンプルまで、2Mbゲノムなら16サンプルまで一度に混ぜることができる（Sequelのとき）
サイズセレクションにBlue Pippin は使わないで、0.45X AMPure PBを使用する
解析はSMRT Link4.0 以降のソフトウェアで行なう

なぜ20kbでなく10kbライブラリを作るのか？
バーコードはインサートDNAの両側のアダプターについています。
そのアダプター配列を正しく読むためには、10kbくらいがちょうど良い長さなのです。
もちろんもっと短くても、ほとんどのポリメラーゼが端っこのアダプターまで到達するでしょうが、あまり短いとデノボアセンブリに向きませんね。
20kb のインサートだと、端っこのアダプターまで到達するポリメラーゼの数は半分以下か、もっと少なくなります。
それでは得られるデータが少なくなるのでマルチプレックスする意味が無い。

バーコードを認識するにはアダプターまで読みぬかないとダメ

ライブラリの長さとバーコード認識の比率はトレードオフの関係なんです。
ということは、ですね、とても長いリピート配列を含むゲノムには向いていないのです。
30kbのリピートが存在するゲノムをつなげるには、30kb 以上のライブラリが必要。
それだとバーコードまで届かない・・・。ジレンマ

でも、そこまで長いリピートを持たないバクテリア、または染色体を完全につなげなくても良い場合などはマルチプレックスをすることでコストを大きく引き下げることができます。

必要ゲノムDNAの量は？
DNAシェアリング（切断）した後のステップは、Exo VII酵素処理です。
ここで必要な検体あたりのDNA量は、
4マルチプレックスの場合：250ng
8マルチプレックスの場合：125ng
10マルチプレックスの場合：100ng
12マルチプレックスの場合：83ng
全体量で1μgがあれば良いのです

バーコード付きのアダプターは自分で作るの？
売ってます。PacBio Barcoded Adapter Complete Prep Kit.という名前で。
お勧め配列があるのでそれをつかいます

混ぜるときの注意点は？
DNA切ったときの切れ具合が、混ぜるサンプル間で似ていることが重要！

10kb狙って切ったとして、Bioanalyzerで確認して、もしも大きく切れかたが違った場合、DNA濃度をもとにして均等に混ぜるよりも、モル数を同じにして混ぜないと、均等にならない恐れがあります。注意しましょう。

ランニングコストはいくらになる？
12種類のバクテリア（ゲノムサイズ5Mb）を、この方法でバーコード付けてマルチプレックスで読んだときの、1株あたりのコストは、55,000円（2017年2月現在・Sequelの1セル使用時）

パックマンの挑戦　－　PacBioシークエンサー

2017年2月23日木曜日

バクテリアマルチプレックスシークエンス

0 件のコメント:

コメントを投稿