2017年9月5日火曜日

Iso-Seq:Sequelでの実力はどれくらいか?



以前、こちらこちらのブログで、「言葉を覚える鳥」ゲノムのことを書きました。
ゲノムを読んだら次は遺伝子発現、ということで、Iso-Seq(完全長cDNAのシークエンス)をやった結果のデータが公式にアップされました。

PacBio公式ブログでの記事はこちら

ポスターはこちらからダウンロードできます。
出たばかりのSMRT Link v5 を使っていたようですね。

データ出力のところを注目してみましょう。
SMRT Cellは4個使っています。
セルごとにバーコードで2種の鳥のサンプルを読んでいます。
Cellあたりの出力塩基数は6.1Gbから7.7Gb、ポリメラーゼリード長のN50はなんと32kb~38kb!
どうです? いや、長さが全てだとは言いません。でもPacBioでもこんなに長いリードが出るんです。
冗談はさておき、サブリードのN50 も5kb台です。十分転写産物をカバーできていると言えるでしょう。

ポスターを見ると、High QualityのIsoformは、Zebra Finchもハチドリも、それぞれおよそ17,000本を得ています。
これは偶然でしょうか? (いいえ)

2種類のサンプル(AとB)を4セルで読むとき、Aを2セル、Bを2セル、というシークエンス方法もあります。
今回はわざわざバーコードを付けて、ABを後から区別できるようにし、2つを混ぜてから4セルで読んでいます。
こうすることで1セルに2種類のサンプルが均等に読まれることになります。
結果、異なるセル間の出力のばらつきがたとえあったとしても、A、Bそれぞれの4セル分のリード数は同じようになると期待できますよね。
これもSequelになって出力が増えたおかげかな?

さて、この解析のところでIso-Seq2もしくはToFU2というのが出てきますが、これはまだ開発版でサポート外です。
今までのIso-Seqとどう違うかというと、主に解析パフォーマンスを上げるためのバージョンアップになります。
SGEを使うのがオプションになったり、クラスターを作るところでBLASRとDALIGNERのどちらかを選べたりします。
Sequelになってデータ量が増えた分、Iso-Seqの解析時間がかかり過ぎていた問題点を、これで改善する目的で作られました。
詳しくはこちらのPDFをご覧あれ
ToFU2: Design Overview より



0 件のコメント:

コメントを投稿