2018年5月4日金曜日

Sequel を爆買いする中国の勢いが止まらない(ジョークです)

注:ジョークです エイプリルフールネタにしようと思っていた
------------------------------------------------------------------------

中国では、Novogene社やAnnoroad社がSequelを10台単位で購入しているそうで、その爆買いぶりに開いた口が塞がらない。
そんな中、PacBio本社では、これからさらに来るであろう注文を見越して生産態勢を一層強化したそうです。
それがこの写真!
生産が完了したSequelたち
日本含むアジアに向けてまもなく出荷予定のSequelたち
積み出しを待つSequelたち
こちらは欧米向け出荷予定のSequelたち
これちょっと並び方がおかしい? それは真上から撮影したらわかります。

すみません、全体を写すとこうなります
遊び心がありますねー。
NGSの装置で会社のロゴを作ってしまうとは!!



ゴールデンウィーク中日ですからこういう軽いネタで許してください
はい、もちろんこれは本物の装置ではありません。USBです。
欲しいかたは↓こちらの会に参加してGET! 数に限りがあるので早いもの勝ち

5月18日「PacBio現場の会 2018」
まだ若干席がありますよ!

2018年4月29日日曜日

Genetics and Genomicsっていう夜中のバーチャルイベント

ゴールデンウイークですが、皆さんはいかがお過ごしでしょうか。
帰省? 旅行? それとも仕事?
私は家でのんびり、というわけにもいかず、初日は人間ドックでした。
直ぐわかる範囲では検査結果に異常は無く、若干白血球が低め、みたいなことを言われましたが気にするほどでは無いとのこと。
そんなわけでこんな時間(夜中)ですがパソコンに向かっています。 

LabRoots.comが提供するバーチャルイベント、Genetics and Genomicsが再来週の5月9と10日にあるそうです。
PacBioを使ったメタゲノムの話が2つあるみたいなので、紹介しますね。

先ずは我らがCSOの話。ショットガンメタゲノムのお話も出てくるそうです。

こちらはrRNAのPCRアンプリコンで株レベルまでの微生物プロファイルをした話。
と、以上の2つがPacBio社からお知らせメールで回って来たのですが、いかんせん、時差がキツイ!
向こうの朝9時って日本の翌深夜1時なんですよねー。
1時に難しい話を英語でされて、寝落ちしない自信が無い・・・

私的には、以下の構造解析、NGMLRとSniffle の開発者の話も聞きたいけれどこれも深夜1時、ガクっ。
でもPacBioやNanoporeのデータを使って、さらに10Xのリンクドリードも使って、染色体構造解析をするあたり、やっぱり1時過ぎまで起きて聞きたいなあ。と思ってみたり。

リンク先はこちらです
興味のあるかたは、頑張って起きてみてください
夜中のイベント、っていうと楽しく聞こえるけど、ね。



--------- 5/18(金)は秋葉原へ集合!------------
「PacBio 現場の会 2018」
登録はこちらから
5名の招待演者と
PacBio、Dovetail、その他最新NGS情報を
一度に聞ける年に一度のイベントです!
情報交換会もあります。
参加無料 空席あと少し、急げ‼

2018年4月23日月曜日

ローディングリコメンデーションという「推奨」

PacBioに限らず、ローディングリコメンデーションという単語があります。
アプライDNA量の推奨値、という方がわかりやすいでしょうか。
シークエンスデータが最も最適に出力されるような、DNAライブラリの濃度と量のことを示しています。

「最適に出力」という意味は「より長いリードをより多く出力」と考えてかまいません。

その前に、、、
P0、P1、P2、というPacBioに特別な単語があります。
これはZMWの中にポリメラーゼとSMRT Bellライブラリのコンプレックスが入ってシークエンスされるわけですが、そのデータを見て、

  • P0:データ無し→つまりZMWにライブラリが入っていない。空っぽ
  • P1:きれいな1分子のDNAデータが出てくる→きちんとZMWにライブラリが入って、かつシークエンスがされていた
  • P2:上記以外→データがノイズばかりの場合。ZMWに複数ライブラリが入った場合。クオリティが低いリードしか読まれていない場合など
を区別しています。
実際解析に使用されるデータは、P1のデータです。
アプライDNA量が極端に少なければ、ZMWに入るライブラリが少ししかないのでP0が増えます。逆に極端に多くライブラリを入れた場合は、オーバーロードと言って、P0は減るかもしれませんがP2が増えることが予想されます。

RSIIや初期のSequelの場合、ZMW全体のうち20%~40%のZMWからP1データが出力されることが望ましい、と言われていました。
ポワソン分布に従うならば33%、それをもっと上げるためにマグビーズなどが使用されて40%、多い時は50%を目指していました。

Sequelの5.1になり、そのリコメンデーションが改訂されました。ここ
  • P1はほとんどのアプリケーションで50%以上を目指すように
    (ただし、あまり多くのP1リードを目指すとリード長が短くなる恐れもある)
  • オーバーロード(ライブラリの入れすぎ)の指標は、P0の値を参考にする。P0は20%くらいが望ましく、10%を切るようならばライブラリ量を減らした方が良い
  • Iso-Seqやアンプリコンの場合、Pre-extension(読む前にシークエンス反応をある程度進める方法)をするので、P1は70%を目指すことが可能で、P2は20%未満を狙う
  • Expressキットを使うゲノムアセンブリ用のロングライブラリの場合、P1は50%台を目指す
  • バクテリアのマルチプレックスは、P1は50~65%を狙う
と、細かいことですがつまり長いライブラリでもZMWの半分からは良いデータが出てくるような濃度でアプライすることを推奨しているのですね。
SequelセルのZMWは100万あるので、50万本のロングリードが1セルから出力されることを想定して、最適なライブラリ濃度を調整することが必要というわけです。

短めのライブラリ、Iso-Seqやアンプリコンの場合は、最高70万本の配列が出力されることが十分あり得るのでデータ単位のコストはかなり低くなると思います。

ここまで書きまして思うところがあるのですが、
P1の数字を狙って濃度調整することは難しい!
というのがユーザの本音だと思います。

なのであくまでもリコメンデーション、推奨、なのです。
「その値を狙ってアプライしたときが一番良い結果を生むと思います。ですが結果はサンプルにも依存するので必ず良い出力を出すという保証はございません」
という意味です。

なので受託に頼んでスループットが予想ほど良く無くても、受託会社さんを責めないでくださいね。

2018年4月17日火曜日

ハイブリッド でIso-Seqしたい方はこの論文を!

Iso-Seqは皆さんご存じですね。
PacBioのロングリードで完全長cDNAを一気に読んで、スプライシングバリアントを含めたRNAの構造解析をする方法です。

ショートリードでデノボで転写産物をシークエンス&アセンブリする方法には、Trinityという有名なものがあります。
しかしリピート配列があると正確に転写産物を再現できない、K-merサイズによってはアセンブリが不正確になる、など、ショートリードだけの完全長cDNAシークエンスには限界がありました。

IDP-denovo
そんな中、ショートリードでデノボアセンブリしたアイソフォームコンティグに、ロングリード配列をマッピングさせて、アイソフォーム全体の姿を再現するIDP-denovoというツールが出ました。

この論文はあくまでも、ショートリードがメインで、これを補佐する役割としてPacBioのロングリードが登場します。
正直、私はPacBio一本でやった方が良い気がしたのですが、、、。
だって最初のショートリードのアセンブルで、既に、読める配列がイルミナ技術に依存しているでしょう?
それからPacBioで一分子配列を付け足して補正、ってどれだけ精度が上がるのか疑問。

多分、コストが問題だったのでしょう。
でも今はSequel使えばコスト的にもだいぶ割安感があると思うんですけどね。



さてさて、ここからはIso-Seqの話です。
SMRT Link(PacBio解析ソフトウェア)バージョン5.1には、Iso-SeqとIso-Seq2が搭載されています。
へぇ、Iso-Seq2とは?

その前にIso-Seq解析のおさらいです。
実験のプロトコルはこちらからダウンロードできる。簡単に言うと、

  1. サンプルの中で発現しているmRNAの、完全長cDNAを作る
  2. 完全長cDNAをPCRで十分量増やす
  3. SMRT Bellライブラリを作る(SequelではIso-Seqのサイズ分割は基本行わない。長い転写産物に注目したい場合は4kbを境に分割しても良い)
  4. Sequelで読む→ データが出てくる


ここから先は、SMRT Link 5.1で解析すると仮定しますね。
Iso-Seq解析は最初にCCSを作ります。

5'プライマー、インサート配列、ポリA配列、3'プライマーを持つ場合、完全長cDNAとみなされます。完全長=Full Length(FL)と不完全長=Non-FLのリードに分ける。
このステップがClassify

次のステップがClustering
アイソフォームレベルのクラスタリングを行うにはFLのCCSだけが使われる。
このクラスタリングステップがとても時間がかかり、今まで問題になっていた。
Iso-Seq1では配列の長さが同じくらいのものをまとめ、クラスタリングを行っている。
Iso-Seq2では塩基配列のパターンから同じようなものをまとめ、クラスタリングを行っている。
2の方が1より2倍ほど計算速度が速いとのこと。
さて、クラスタリングしてアイソフォーム配列が出来たら、これにFLとNon-FLのサブリードをアラインし、ArrowまたはQuiverで配列精度を高める。
いずれにしても、転写産物を網羅的に見る場合は、Iso-Seq2の方が良い。
一方、ターゲットIso-Seqの場合は、どのアイソフォームも同じような配列パターンを持つので、サイズによってクラスタリングする普通のIso-Seqの方が良い。

最後に、リファレンスがある場合はGMAPでゲノム配列にマップして、Alternative Splicingを見る。ここはヒトとかマウスとかのモデル生物で行われる。
アイソフォームを見つけたらその精査が必要だ。
SQANTIというツールは見つけたアイソフォーム配列を、機能ごとにアノテーション付けてくれる。
FSM = full splice match   (perfect match w/ known isoform)
ISM = incomplete splice match  (partial match)
NIC = novel in catalog  (novel isoform with known junctions)
NNC = novel not in catalog  (novel isoform with new junctions)
というように。
論文にもなっているのでこちらもどうぞ

そのほかにもありますが今日のところはこれにて


518日(金)は秋葉原にて「PacBio現場の会 2018
登録はこちらから

2018年4月9日月曜日

ロングリード解析やっているひとはこの論文を絶対読まないと!

NGS解析をやっているひと、特にロングリード解析をやっているひとは絶対読まなければいけない論文、それがこれ
Piercing the dark matter: bioinformatics of long-range sequencing and mapping
Sedlazeck et al., (2018)Nature Reviews Genetics.
ロングレンジ技術を使ったゲノム解析に関する、すごくComprehensiveにまとめられた、バイオインフォマティクスのレビューです。
これはほんと超おすすめ。
このレビューはいくつかのパートに分かれてまして、

1.ロングリードテクノロジーのまとめ
ここでいうロングレンジ技術とは、Pacific Biosciences (PacBio)や Oxford Nanopore Technologies (ONT)のように、「本当の」ロングリードと、10X Genoimics のリンクドリード、BioNanoのフィジカルマッピング、Hi-Cのような超ロングレンジメイトぺア、を含みます。
それぞれの技術の特徴(ロングリードのエラー率の高さなど)がまとめられています。
Bamファイルの今のフォーマットが、ロングリードマッピングデータにはもはや向いていない、という点は前から言われていましたね

2.De Novo Assemblyへの挑戦

  • ゲノムに存在するリピート配列の存在が、ショートリードでのゲノムアセンブリを難しくしている
  • ロングリードが30カバレッジ未満しか無いときは、ショートリードとのハイブリッドを使うべきだろう
  • しかしショートリードでのロングリードエラー補正(PBcR, Nanocorr, Spades and MaSuRCA,)は、GCバイアスなどの問題でロングリードを正しくエラー補正できない可能性がある
  • ロングリード同士のSelf Correction (HGAP, PBcR, Canu, MARVEL or FALCON)が、もっとも良い
  • 倍数性の高いゲノムのアセンブルは今も、難しい (NRGeneという会社は倍数体があっても独自の秘密プログラムで行っているそうですが仕組みは非公開です)
  • コンティグを作った後のポリッシングには、QuiverやArrow(PacBio用)、Nonopolish(ONT用)、Pilon(ショートリードをポリッシングに使用)などがある
3.スキャフォルディングとギャップフィリング

  • スキャフォルディングには、10XやHi-Cなどが有効
  • しかしアセンブルの時点で高精度のコンティグを作ることが何より重要
4.SV解析
  • まずはSVの定義をはっきりさせている(挿入とか欠損とか、転移とか)
  • SV検出精度はマッピングの精度に依存する(BLASR, BWA-MEM, minimap/minimap2, LASTなどについても言及)
  • コスト、倍数体、リファレンス配列の精度、などがSV解析の大きな問題点

そのほか、ここには書ききれないほどのトピックスがたくさんあって、とにかく、一度読んでみてくださいと言うしかない!
バイオインフォマティクスのレビューなので、アセンブルからSVコール、RNAシークエンスまで、巷にあふれるたくさんのツールの解説があります。

もちろんこのレビューは、決してPacBio贔屓ではありません。
ロングリードはPacBioとONTがありますが、むしろ、最長ロングリードはONTに軍配が上がっている。
PacBioは、エラーのランダム性から、コンセンサス配列の精度は最も高いロングリードと言える。

どうやってもロングリードの場合、PacBioもONTもリード長には限界があり、結果、10XとかHi-Cとか、ショートリードによる擬似的な超ロングリードとの組み合わせがアセンブル結果や構造解析、フェージング解析の結果を大きく改善することは間違いない。

今の時代、複数のテクノロジーを、最適なバイオインフォマティクスツールをうまく使いこなして解析することが重要なんだなと、改めて実感するレビュー論文でした。



--------- 5/18(金)は秋葉原へ集合!------------
「PacBio 現場の会 2018」
登録はこちらから
5名の招待演者と
PacBio、Dovetail、その他最新NGS情報を
一度に聞ける年に一度のイベントです!
情報交換会もあります。
参加無料、PacBioに興味のある研究者なら誰でも参加OK!

2018年4月4日水曜日

PacBio現場の会 2018 登録スタート!

5月18日は、年に一度の現場の会、といっても「PacBio現場の会」です。
今年はもうNGS現場の会が無いので、復活しました、この名前!
場所は秋葉原UDX Next1

ロングリードを愛する全てのひとへ心を込めて

あえてロングリードとしたのは、今やPacBio以外でもOxford Nanoporeのシークエンサーで読んでいる研究者も多いだろうと思うからです。
もしあなたが、MinIONデータで何かを読んでいるとしても、私たちは拒みません。
PacBioがいまだにロングリード市場でメジャーなシークエンサーだということは、紛れもない事実なのですから。

前置きが長くなりましたが、登録サイトがスタートしたのでこちらからどうぞ!
英語名がPacBio User Group Meetingとなっているのは各国で統一感を出すための便宜的な名前なのでユーザーでなくとも参加できますよ



顔写真入りの紹介って、案外良いですねぇ
最新のプログラム、時間割りは「最新プログラムはこちらから」のリンクからダウンロードできます。
まだ変更が入るかもしれませんがご了承下さい。

5月18日ですよー
アキバですよー
時間は1時から開始で、情報交換会もあります 
結構びっちり、勉強になると思います

奮ってご参加下さい ここから

2018年3月31日土曜日

CCSは精度では全てのNGSに勝る。コストではサンガーに勝る。カナダの生物種同定プロジェクトの例


これは私がずーーーっと前にこのブログで説明したCCS(Circular Consensus Sequence)についての絵です。
一時期、CCSのことをROI(Reads Of Insert)と呼んでいたこともありましたが、わかりにくいということでCCSの呼び名が復活しました。

今のSequelでは、1セルあたり100万のZMWから30万本~60万本のリードが出てきます。
平均10kbのリード長とすると(実際は平均12kbのときもあればそれ以上のときもありますが、少な目に見積もって10kbとした)、15万本~30万本のリードは10kb以上読めていることになる。
例えば1kbのライブラリを作りランするとしたら、10回以上同じインサートDNAを繰り返し読んで作られたCCSが、15万~30万本作られることになりますね。
10回以上繰り返し同じDNAを読めば、かなり精度が高いCCSが作られます。
実際の解析ではもちろんパス数でフィルタリングするよりも、QVでフィルタリングした方が良いでしょう。


ミトコンドリア配列中にあるシトクロムCオキシダーゼI(COI)遺伝子の配列は、さまざまな生物で配列に違いがある。
GC含量が15%~45%とバリエーションが広く、サンガー法ではホモポリマーなどが原因で読みにくい。
この配列を読むことで生物種多様性を研究しているひとたちがいる。

International Barcode Of Life という国際プロジェクトがある。
Dr. Paul Hebert, Director of the Biodiversity Institute at Guelph, Canadaは、今までサンガー法で行っていたCOI配列のDNAフィンガープリントを、Sequelでバーコードを使って読み、大幅なコストダウンを実現したという。
Hebert博士のプレゼンの様子はこちらから録画が見れます。
Dr. Hebertのプレゼンから
実際にはCOI遺伝子の658塩基の領域を増幅して、アシンメトリーのバーコードを付けて、Sequelで読んだ。
100種類のバーコード配列をアシンメトリーにヘアピンアダプターに付けるので、100x100種類で合計10,000種類の識別が可能になる。

10,000種類の識別が一度に可能ということで、1日に4セルランし、1週間で260,000種類のDNA検体を解析したとのこと。



実験の詳しい内容はここの論文に書かれています。
サンガー法と比べても、コストと手間の面でSequelが圧倒的に優れています
精度もサンガー法と引けをとりません。
もっとも、一度に10,000サンプルとか言われると、DNA検体を集める方が大変かもしれませんが。
Hebert博士らの論文(2018)
なお、ショートリードでは658bpを連続して読むことはできません。
MiSeqを使った250bpメイトペアシークエンスでも届かないでしょう
同じロングリードのオックスフォード・ナノポアはどうか?
残念ながらCCSのように同じライブラリを何度も読むことはできないので、サンガー法のような精度を達成することはできないでしょう。

ということでSequel(もちろんRSIIも)は、PCRアンプリコンをたくさん一度に精度を高く読むことのできる唯一のNGSと言えるでしょう!