2018年1月16日火曜日

PAG XXVI 学会(その2)PacBioとDovetailの新情報

今回のPAGではゲノムアセンブリ関係で2つの大きなニュースがあります。
まずはPacBioの最新スループット
これは今日のワークショップでMarty(製品担当責任者)が発表していたのでそのまま紹介しますね。
PacBioワークショップより Martyの発表

な、なんと、ポリメラーゼリードのN50 が30kb超!
つまりデータの半分以上が30kb以上の長さということ。
1セルあたりの塩基数は10Gb
リード数は40万本
いいですねえ、素晴らしい。

ロングリードのあちらの会社には負けてませんよ!


もうひとつのゲノム関連企業、Dovetail Genomics
こちらは新製品の発表です。
Dovetail Hi-Cキット
Hi-Cライブラリ作製キットです。
もうウェブサイトにも情報が載っているので見た方もいるでしょうか。
これは、1キット8本入りで、1本は3Gbまでのゲノムサイズに対応しています。
つまり5Gbのゲノムなら2本分が必要。3Gbゲノムサイズまでの生物なら1キットで8サンプル分が作れます。

ユーザはこのキットを使う前に、自分が読みたいゲノムのドラフトアセンブリを持っていることが条件です。
さらにそのアセンブリのコンティグ/スキャフォルドのN50 が1Mb を超えていることが必要です。
その理由は、Hi-Cで良い結果を出すためにはもともとのアセンブリのクオリティが良い必要があるからです。
そのクオリティ(N50=>1Mb)に達していない場合は、あらかじめPacBioでアセンブリしておくか、Chicagoを使ってアセンブリしておくか、いずれかが必要でしょう。

さて、Hi-CキットでHi-Cライブラリを作ったら、自分のところでシークエンスします。
HiSeqXで1レーンくらい読めば3Gb程度のゲノムなら事足ります。

読んだリードを自分のドラフトアセンブリと組み合わせてスキャフォルドするには、HiRiseというソフトウェアが必要です。
これを追加料金でDovetailにお願いするも良し、自分でやってみたい場合はDNANexusのクラウドパイプラインを使って無料で1回やるも良し。
このキットにはDNANexusのパイプラインで1回解析する分のライセンス料も含まれています。

現在はまだ、哺乳類でしか検証していないので他の生物種でうまくいくかは未確認ですが、いずれできるようになるでしょう。
そして4月以降のどこかで、植物用のキットも出る計画。
気になるお値段ですが、来週以降に決定する予定です。お楽しみに。

キットを販売すると言っても、今まで通り受託サービスも続けますから、全部お任せコースも維持します。
Dovetailは公平な目で見ても、今年のPAGで一番勢いのある会社と言っていいと思いますよ。

PAG XXVI 学会(その1)ゲノムシークエンスはPacBioとHi-CとBioNanoで決まり!

PAGは植物と動物のゲノム学会とだけあって、いろんな生物のゲノムシークエンスの発表があります。
今回ちょっと残念なのは、聞きたい発表が結構重なっていること。
でもPacBioが一般的に使われてきたせいかなーと思うことにしています。
PacBioのブース 
デザインの好みは分かれるか
昨年もそうでしたが、PacBio+Dovetail Chicago/Hi-C + BioNano
のどれかの組み合わせはゲノムシークエンスの発表で良ーく耳にします。
特に今回多かったのはPacBio+Hi-Cの組み合わせ。
Complex Genome Sequencingのセッションでは、クルミ、ココナッツ、ヒマワリ、ピーナッツ、とどれもPacBioが基本で補正的にHi-CとBioNanoを使っていました。

クルミ(ゲノムサイズ560Mb前後)の発表ではBioNanoを最初に使って物理マッピング地図を作っていました。(最初にBioNanoから行うゲノムプロジェクトは初めて聞いた!)
PacBioデータは47x でアセンブリ、N50=8Mbも得られたのは驚きですが、BioNanoの地図を加えて294本のスキャフォルド、N50=34.8Mbを達成したとのこと。

ココナッツはゲノムサイズが2Gb~2.6Gbと大きく、50xのイルミナデータでアセンブリ、15xのPacBioでギャップフィリング、DovetailのChicagoデータを足してスキャフォルディングという安全かつ簡単な方法を採用していました。
因みにココナッツは全世界の25%をフィリピンで生産しているらしく、一番の用途はコスメティクらしいです。へー意外。

ヒマワリはゲノムサイズ3.6Gbで、8kbと11kbのリピートが多くゲノムの33%を占めるらしいです。
102xのPacBioデータをFalconアセンブリして2.93Gb、N50=498kb、12,318本のコンティグを得たあと、こちらはBACデータにアラインしてPseudo chromosomeを作っていました。BACデータがあったからこそできた話ですね。

ピーナッツは1.25GbのAゲノムと1.4GbのBゲノムが2~300万年前にくっついて2.8GbのAABBとなったらしい。AとBは98%が同じ配列で64%がリピート、ATリッチという特徴があるそうです。
48xのPacBioデータをアセンブリしてコンティグN50=460kbを得た後、Hi-Cを行って、最後はイルミナリードでアセンブリエラー修正。
ピーナッツは染色体の端っこの方ではBゲノムがAゲノムになる傾向があるらしいです。


これとは別のセッションでも参考になる話が聞けたので少し。

キヌアゲノムは昨年Natureの論文で出ましたが、Kaniwa(カニューアと発音するらしい)という種を初めて聞きました。キヌアよりもタンパク質が多くて健康食らしいです。
ゲノムサイズは452Mbで、イルミナとHi-Cである程度スキャフォルディングまではできた。
これにPacBioデータを加えてギャップフィリングをするのですが、17xデータでやったけれど結構苦労したとのこと。やっぱり30xは欲しいと言っていました。
個人的には、Hi-CをするよりもChicagoを行った方がギャップフィリングの前のスキャフォルドの精度が上がったと思います。
または、最初からイルミナを使わずにPacBioで70xくらい読んで、それにHi-Cを加えるのが、お金があれば最適の方法でしょう。(←Sequelのランニングコストで考えるとPacBioのアセンブリもバカ高いわけではありません)

カベルネ・ソーヴィニョンもアップデートがありました。
以前ここでも紹介しましたが、ヘテロ性が高いのでFalcon Unzipのテストにも使われたこともあります。
これまではアセンブリしてN50が数Mbとかの話で終わっていましたが、その後BioNanoデータとDovetail Hi-Cを加えて、19本のPseudo Chromosome / allele まで完成させていました!
ほかにもIsoSeqを行い、672,000本の高精度アイソフォーム配列を得たそうです。
うち549遺伝子(585アイソフォーム)は、他の品種のゲノムにも転写産物データベースにもなかったとのこと。新規?

アセンブリにどれくらいのカバレッジが必要か問題についても少し議論があり、カベルネ・ソーヴィニョンの例では、「多ければ多いほど」良いとの結論でした。
つまり、カバレッジが多すぎてコンティグの長さが saturate してしまう、ということは無く、90xでも100xでも、多ければ多いほどアセンブリ結果は良くなる、というそうです。
とは言っても、100xの場合でもエラー補正に使われるリードがかなりありますし、カベルネ・ソーヴィニョンの場合はヘテロ性がとても高いので、ハプロタイプあたり50xと言えなくもないです。
そうするとヒトゲノムアセンブリで50x以上を推奨しているのとほとんど変わらない、かもしれませんね。




2018年1月14日日曜日

PAG XXVI 学会(その0)

今私は、カリフォルニア州サンディエゴの近く、ミッションバレーという街で行われるPlant Animal Genomics学会に来ています。
毎年同じ場所で行われるみたいですね。
その学会報告は明日から。今日は半分旅行記みたいなものです。

私は、航空会社はいつもANA系列を使っているので、サンディエゴに来るときは乗り換えなければいけません。
隠れたお勧めは、LAX(ロサンゼルス国際空港)で降りて、陸路で行く方法です。

先ずはLAX空港からUnion Stationに行きます。空港を出たらすぐ前のバス乗り場から、FlyAwayというシャトルバスに切符は買わずに乗り込みます。行先はちゃんと確認!
終点のUnion Stationで降りたら、運賃を支払って駅に歩いて向かいます。
片道9ドル75セントです。クレジットカードしか使えないので注意。
Union Stationの中 歴史ある建物です
Union Stationからは、Amtrakという列車に乗ります。
これはあらかじめネットでチケットを買っておくと便利で、サンディエゴまでコーチ(普通車)クラスで37ドル、ビジネスクラス(グリーン車)で56ドル。ビジネスクラスは飲み物とチップスが付いてくる。
電車と席はこんな感じ
ディーゼル機関車が引っ張るがっしりした列車
普通車でも十分快適!
日本ではもう珍しくなったディーゼル機関の列車に乗りこんで、アメリカンサイズの椅子に座ったら、本を読んでも良し、のんびり景色を眺めても良し。誰かと一緒ならおしゃべりしても。
汽笛を鳴らしながら、大都市ロサンゼルスの郊外を走り、ディズニーランドがあるアナハイム、大学町のアーバインを抜けると、列車はだんだん加速します。
ロサンゼルスのダウンタウンが遠くに見える
しばらくすると右側に海が広が見えてきます。
1月だというのにビーチで遊んでいるひとがいました。あったかいのかな。
スマホで天気を確認したら外は26度あるとのこと。なるほどねー、水着でも大丈夫なのか。
太平洋
途中駅のOceanside、文字通り海沿いにあるリベラルな町です。
もう20年も前の話になりますが、留学時代、私はこの町に住んでいる友達を訪ねて来て何日間か住んだことがあります。当時、アパートから見える太平洋の向こうに日本があるのかなーって思ったもの。今日も海がきれいでした。
海岸線を走っているとだんだん車内も静かになってきます。みんな疲れているのでしょうね。

ロサンゼルスを出てから約3時間、間もなくサンディエゴです。
San Diego Old Townという駅があります。
次が終点、San Diego Santa Fe Depotです。
ダウンタウンに行くなら終点までですが、今回はミッションバレーというところのホテルなので、Old Townで降ります。

降りたらタクシー? いえ、Uber使いましょう。全然安くて便利です。
ホテルまで8ドルちょっと。
車内でUber運転手の兄ちゃんと話しました。「How are you doing?」から始まって、日本から来たことを話すと、彼も日本に行ったことがある、って食いついてきた。
福岡に行ったそうで、何でも、前回?のWorld Baseball Classicトーナメント予選で、メキシコ代表チームとして出場したことがあるらしい(私はWBCについては詳しくないのでこれ以上話を掘り下げられなかったのが残念)。

えー! プロ野球選手がUber運転してていいの? と思ったけど、そこは忖度して聞かないであげた。
ちゃんとあとでUber の運転手評価を★5つにしたし、チップも追加したし。

どうでしょう? 長時間飛行機乗った後にまた別の飛行機乗るのはしんどい、空路だとホテルのチェックイン可能時間前についてしまう、というときはのんびり陸路もいいですよ。 飛行機より断然安いし。
ただし、時間に余裕があるときに限ります。列車は20分・30分遅れは当たり前。

帰りは空路で帰るけどね。

2018年1月12日金曜日

平均リード長20kb越えって、もう珍しくない?

今年もニュースになりました、JP Morgan Healthcare Conference
英語のサイトでいろいろ書かれていますが、まとめサイト的には
1日目はここ
2日目はここ
3日目はここ
がわかりやすいか。

さて、そんな中PacBioの発表は、iSeqのような新製品ではないものの、これまでの常識を遥かに超えるものでした。CEOによると、
新しいケミストリーとソフトウェアが2月を目標にリリースされます。
今のベータテスターの結果によると、次のような結果が既に出ているとのことです。

【ゲノムシークエンス用のラージサイズライブラリの場合】
1セルあたりのスループット:12Gb
平均リード長:25kb
最長リード長:100kb

【ターゲットアンプリコンシークエンスの場合】
1セルあたりのスループット:16.5Gb
平均リード長:33.5kb
最長リード長:135kb

【Iso-Seq(完全長cDNAシークエンス)の場合】
1セルあたりのスループット:22Gb
平均リード長:37kb
最長リード長:200kb

PCR産物の場合はDNAのクオリティがゲノムDNAと比べて高いので、全体的なスループットが高くなる傾向にあります。
それにしてもゲノムDNAのライブラリで平均リード長が25kbとは、もう、昨年作ったカタログをまた作り変えないと。

さらに、2018年末に予定しているスループット8倍のセル、についてもマイク(CEOの愛称です)は触れています。
これはちょっと、私も間違ったうわさを聞いたことがあるので正確にお伝えしておきますね。

スループット8倍のセルとは、ZMWの数が今の100万から、800万になるSMRT Cellのことです。価格ではありません。
800万個のZMWでシークエンスを行い、DNA合成反応から塩基を検出するには、今よりも格段に優れた光学系部品とベースコール計算機が必要になります。
そのため、単純に新しいセルが発売されるのではなく、それに伴い装置内部のアップグレードも必要になります。これは有償になる予定です。金額は現段階では未定です。

PacBioではこの800万ZMWセルについて、アップグレードパスが用意されている、という言い方をしています。
アップグレードへの道がある、という感じでしょうか。
しかし、800万ZMWのセルが出たら、ロングリードの新しい世界が次のステージに行くでしょう。
1セルでヒトゲノムアセンブリ程度のデータが、20kb以上のロングリードで出てくるのですから。
それが後1年で可能になります(I hope)

これに備えて、今から新サービスやソフトウェア開発を始めている企業も、あるかもしれませんね。

2017年12月8日金曜日

生物遺伝資源のバックアップ施設

今年の分生、神戸の展示会場をうろついていたら、「生物遺伝資源のバックアップ施設」を発見しました。
発見といっても私が知らなかっただけで、5年前からあるみたいですが。

Interuniversity Bio-Backup Project for Basic Biology
IBBPとは、研究者が研究中の生物遺伝資源(DNAとか試料とか生き物全般)をバックアップ保管するプロジェクトだそうです。
地震や火災などで研究所の大事なサンプルが無くなってしまったら大変なので、これらを大切に保管・管理するバックアップ目的で作られたとのこと。
ナショナルバイオリソースプロジェクト(NBRP)と似ていますが、IBBPはあくまで研究途中のサンプルのバックアップが目的。秘密厳守で他者とはシェアしない。
他の研究者がアクセスできる目的のNBRPとはちょっと違うらしいです。

岡崎の基礎生物学研究所内にその施設はあり、バックアップをお願いするためにかかる費用は無料!
送料・手数料もかからないとのことです。
「知っているひとがまだまだ少ないんですよー」
とブースのひとに言われまして、ここで宣伝した次第です。

気になったひとは是非こちらから
基礎生物学研究所IBBPセンター


2017年11月20日月曜日

PacBioとナノポア 違いはここだ! (2017年版)

2017年は、PacBioにとってのライバル、オックスフォード・ナノポアテクノロジーズ(以下ONT)がいよいよ本格的に市場に登場、ロングリード業界に新たな風が生まれました。
(正確には、2016年でもMinIONを購入することはできましたが、誰でも手軽に買えるようになったという意味では2017年が国内リリースの年といっても良いでしょう)

そこで聞くのが、PacBioより長いリードが出てくるとか、バクテリアアセンブリにはONTだけで十分とか、ロングリードはナノポアに席巻されるのでは?という、PacBioに否定的な意見。
一方、ナノポアのデータはまだ精度が悪い、超ロングリードはエラーだらけ、ノートPCではランはできるけど解析はできない、というONTに否定的な意見も。

どちらもロングリードを謳っているだけあって、目的がデノボアセンブリやゲノム構造変異解析、16S解析など、ガチでぶつかるのは当たり前です。
では2017年11月の現時点で、このふたつの製品はどこがどう違うのか?

注!:皆さんご存じ、私はPacBio側の人間なので、これから書くことは多少ともPacBioバイアスがかかっています。そこを承知の上、お進みくださいね。


さて、PacBioとONT、現時点でどこがどう違うのか?

【テクノロジーの違い】単純にいうと
  • PacBio:DNAポリメラーゼがDNAを合成するときに、取り込む塩基に付加されている蛍光を、レーザーによって1塩基ずつ検出する。1つのウェルからは1本の配列データしか出力されない
  • ONT:DNAがナノサイズの穴を通るときに生じるわずかな電位差を検出し、アルゴリズムが塩基配列に変換する。1つのポアから複数本の配列データが出力される
つまり、
  • PacBio:DNA合成を伴う、蛍光色素を使う。レーザー励起エネルギー検出
  • ONT:DNA合成は行わない、蛍光色素は使わない。電位差検出
皆さんご存じの方も多いと思います。

【リード長はどうか?】
  • 平均リード長:PacBioもONTも同じくらい (10kb~20kb)
  • 最大リード長:PacBioは読むライブラリのサイズ、ムービー時間などで制限されるので60kb~100kb程度ではないかと思う。数百kbのリードは見たことが無い。一方ONTは、ポアを通るDNAが長ければ、最大1Mbのリードも出るそうだ
  • しかしリードの本数や分布には注意が必要。PacBioもONTも、短い(とはいっても数キロbpはあるが)リードは多く出力され、長いリードほど出力数は少なくなる。先のONTの超ロングリードも、出力本数でいうと数本
  • 因みにランタイムはPacBioのSequelが30分~10時間、ONTのMinIONが1分~48時間、だそうで。
数値についてはこちらを参照(オフィシャルな情報です)

で、精度はどうか?
生リードとコンセンサスリードで精度の意味は違う。
ここを一緒にして、「ロングリードは精度が悪い」という研究者のなんと多いことか!!

【生リードの精度】
  • PacBio:RSIIのP6C4ケミストリーや今のSequelは、平均86%
  • ONT:精度の数字はケミストリーのバージョンによって様々のようだけど、R9.2は平均80%~85%くらいか(違ってたらゴメン)。でも使うベースコーラーによって精度は変わってくるそうです。ベースコーラーは何種類かある
つまり、どちらも生リードの精度はほぼ同じ、ということになる。しかしもっと重要な点は、エラーの入り方。
【エラーの入り方】
  • PacBioはランダム
  • ONTはランダムという話も聞くが、実は決まった場所に必ずエラーが入るというユーザーのポスターも見るので本当のところはわからない
【コンセンサス配列の精度】
  • PacBio:エラーがランダムに入るので20~30カバレッジでQV50(99.999%)も可能
  • ONT:ONTだけのデータでQV50を達成している結果は私は聞いたことが無い。たいていイルミナデータをエラー補正に使っているようである
とまあ、ここまで読んで、いやそんなことは無い!と思った方もいるでしょう。
あくまでバイアスがかかった私見ですので。
この辺の技術の数字は、すぐに変わる可能性があります。少なくともPacBioは、来年データ量が増える予定なので。この辺はONTとの競争ですよ

【ベースコール】

  • PacBio:装置から出てくるデータは既にベースコール済み
  • ONT:ベースコーラーが数種類あるのでユーザが適切なものを使用してベースコールをかける必要がある

【PacBioしかできない解析】
  • CCS:ライブラリを1分子DNAの単位で何度も繰り返し読むことができ、精度を上げることが可能。Iso-Seq(完全長cDNAを高い精度で読む解析)ができる
【ONTしかできない解析】
  • ダイレクトRNAシークエンス? 今どこまで現実的に使えるのか、知っているひといたら教えてください
【PacBioでもONTでもできる解析】
これはいつくかリストした後に考えてやっぱり消しました。というのは、「できる」という言葉の定義がひとによってさまざまだから。
バクテリアのゲノムアセンブリができる、と言っても、精度99.99%以上でできるというのと、ラフなドラフトでいいからできる、というのとでは全然違う。
HLAなどのロングアンプリコンシークエンスもそうです。求められる精度が6桁なのか8桁なのかで同じく「できる」というべきか。
あと、メチレーションや16SなどでもONTのデータを私は知らないのでできると言うのはやめました。
あと、意外と知られていないことですが、ノートPCにUSB挿してランができるMinIONも、データ解析には普通のサーバが必要です。

それでは技術以外の、それぞれの特徴を考えてみましょう!

【PacBioの特徴】

  • 装置型なのでシークエンスを行う環境が安定している
  • 実験プロトコルが用意されている
  • 解析パイプライン(マッパーやアセンブラ)がほぼ確立されている。これを使っておけば大丈夫的なツールがある
  • グローバルに数百台入っていて、国際プロジェクトにも正式採用されている(例えばG10K(脊椎動物のゲノムプロジェクト)ではPacBio、10XGenomics、Hi-Cのみが正式採用)ので信頼が高い
  • PacBioを使った研究の論文数、学会でのポスター数は圧倒的にONTのそれより多い(これは先行者だからかもしれません。来年が勝負の年かも)
【ONTの特徴】
  • MinIONはコンパクトで持ち運べる
  • 初期投資額が少なくて済む
  • 誰でもどこでもいつでもシークエンス、を謳っているが、「どこでも」シークエンスをするとデータにバラつきが出やしないか?(逆に、誰がどこでランしても一定のデータが出てくるなら凄い)
  • ユーザーコミュニティの中からプロトコルや解析ツールが作られる、ボトムアップなイメージ。NGSは昔からサードパーティのツールがユーザーから作られるものだが、ONTはよりその傾向が強いように感じる
  • バージョンアップのスピードが速い。PacBioもそこそこ速いけれどONTはもっと速いイメージ


と、つれづれなるままに書いてみましたが、いかがでしょうか?
結局はコストだと言われるかもしれませんが、シンプルにランニングコストで比較すればPacBioも負けていませんよ。アプリケーションによっては。

結論!
PacBioやONTのどちらも持っていない場合

  • どうしても自分でランしたくて、ユーザーコミュニティでどんどん聞いて行くのが好きで、インフォマティクスにも強ければONT(ベースコールも何種類かあるのをお忘れなく)
  • 自分でランすることにはこだわらず、安定したデータを早く出したい、インフォを誰かに頼めるか自分でできれば、受託か共同研究でPacBio
  • 限られた予算を無駄なく効果的に使いたければ・・・ (答:     )

PacBioを持っている場合:
迷わずPacBio(笑) これ一本!

以上、2017年11月現在の私の意見でした。

2017年11月10日金曜日

薬草などのIso-Seq論文3本

長年この仕事をしているとたまに、別々の研究者からほとんど同じ研究内容の話を別々にされることがあります。
例えば所属が違うAさんとBさんから、全く同じ生物種の、非常に近い研究テーマの話を、別々にされる。
あれ? もしかして共同研究者? って思ってしまうけれどもそこは要注意です。
とりあえずその場では初めて聞いたふうに取り繕って、後で名前をググって確かめます。

経験上、50%以上の確率でそういう場合は競争相手。
(注:フィールドによって若干その割合は違う。植物系は共同研究の確率高い。動物系は半々。医学系はほぼ競争相手だ!)
守秘義務があるのでもちろん聞いた研究内容は誰にも言いませんが、競争相手同士からほぼ同時に相談あるいは話をされたときは細心の注意を払います。
そんな時は聞き役に徹すべし

さて、ほぼ同時に、薬草を材料にしたIso-Seqの論文が3本出たそうです。
韓国・中国・インド・オーストラリアのチームから。
材料はそれぞれ違うのでかれらは競争相手同士ではないでしょう。

そのうちのひとつ Panax ginseng(オタネニンジン・高麗人参・朝鮮人参)は、異質四倍体の3.2Gbゲノムと結構複雑なんですね。
リピートも多く、読みにくい。
そこでIso-Seqを行って完全長トランスクリプトーム解析を行った。
Jo et al., Isoform Sequencing Provides a More Comprehensive View of the Panax ginseng Transcriptome

組織は4か所から採取
RSIIを使っているので、サイズセレクションをしています。
1‐2kb、2‐3kb、3‐6kb、6kb以上、という風に4区画ですね。
サブリードがトータルで822万本取れています
そこからcDNAをフルでカバーしていて、Isoformごとにクラスタリングして、クオリティも良いものだけをフィルタリングしていくと、
このテーブルの下の数字くらいの数、合計17万4000本くらいになる

ご存じかもしれませんが、Iso-SeqはSequelではもうサイズセレクションをしません。
そのまま全部のサイズのcDNAでライブラリを作り、一気に同じセルで流します。
ここに書きましたので参照下さい

Iso-Seqは、遺伝子のスプライシングイベントを正確に読むことができる、単純かつ素晴らしいアプリケーションだと思っています。
ゲノム配列が完全にわかっていないような生物でも、cDNAの完全長を読めば、ある程度どんな遺伝子が発現していたのかがわかるので、非モデル生物の研究にもかなり使われてきています。
今年はそういった成果が次々に論文になりました。
今の論文なので実験をした当時はRSIIですから、サイズセレクションを必ずしています。
来年あたりはSequelを使った、サイズセレクション無しの論文も期待!