2018年1月16日火曜日

PAG XXVI 学会(その2)PacBioとDovetailの新情報

今回のPAGではゲノムアセンブリ関係で2つの大きなニュースがあります。
まずはPacBioの最新スループット
これは今日のワークショップでMarty(製品担当責任者)が発表していたのでそのまま紹介しますね。
PacBioワークショップより Martyの発表

な、なんと、ポリメラーゼリードのN50 が30kb超!
つまりデータの半分以上が30kb以上の長さということ。
1セルあたりの塩基数は10Gb
リード数は40万本
いいですねえ、素晴らしい。

ロングリードのあちらの会社には負けてませんよ!


もうひとつのゲノム関連企業、Dovetail Genomics
こちらは新製品の発表です。
Dovetail Hi-Cキット
Hi-Cライブラリ作製キットです。
もうウェブサイトにも情報が載っているので見た方もいるでしょうか。
これは、1キット8本入りで、1本は3Gbまでのゲノムサイズに対応しています。
つまり5Gbのゲノムなら2本分が必要。3Gbゲノムサイズまでの生物なら1キットで8サンプル分が作れます。

ユーザはこのキットを使う前に、自分が読みたいゲノムのドラフトアセンブリを持っていることが条件です。
さらにそのアセンブリのコンティグ/スキャフォルドのN50 が1Mb を超えていることが必要です。
その理由は、Hi-Cで良い結果を出すためにはもともとのアセンブリのクオリティが良い必要があるからです。
そのクオリティ(N50=>1Mb)に達していない場合は、あらかじめPacBioでアセンブリしておくか、Chicagoを使ってアセンブリしておくか、いずれかが必要でしょう。

さて、Hi-CキットでHi-Cライブラリを作ったら、自分のところでシークエンスします。
HiSeqXで1レーンくらい読めば3Gb程度のゲノムなら事足ります。

読んだリードを自分のドラフトアセンブリと組み合わせてスキャフォルドするには、HiRiseというソフトウェアが必要です。
これを追加料金でDovetailにお願いするも良し、自分でやってみたい場合はDNANexusのクラウドパイプラインを使って無料で1回やるも良し。
このキットにはDNANexusのパイプラインで1回解析する分のライセンス料も含まれています。

現在はまだ、哺乳類でしか検証していないので他の生物種でうまくいくかは未確認ですが、いずれできるようになるでしょう。
そして4月以降のどこかで、植物用のキットも出る計画。
気になるお値段ですが、来週以降に決定する予定です。お楽しみに。

キットを販売すると言っても、今まで通り受託サービスも続けますから、全部お任せコースも維持します。
Dovetailは公平な目で見ても、今年のPAGで一番勢いのある会社と言っていいと思いますよ。

PAG XXVI 学会(その1)ゲノムシークエンスはPacBioとHi-CとBioNanoで決まり!

PAGは植物と動物のゲノム学会とだけあって、いろんな生物のゲノムシークエンスの発表があります。
今回ちょっと残念なのは、聞きたい発表が結構重なっていること。
でもPacBioが一般的に使われてきたせいかなーと思うことにしています。
PacBioのブース 
デザインの好みは分かれるか
昨年もそうでしたが、PacBio+Dovetail Chicago/Hi-C + BioNano
のどれかの組み合わせはゲノムシークエンスの発表で良ーく耳にします。
特に今回多かったのはPacBio+Hi-Cの組み合わせ。
Complex Genome Sequencingのセッションでは、クルミ、ココナッツ、ヒマワリ、ピーナッツ、とどれもPacBioが基本で補正的にHi-CとBioNanoを使っていました。

クルミ(ゲノムサイズ560Mb前後)の発表ではBioNanoを最初に使って物理マッピング地図を作っていました。(最初にBioNanoから行うゲノムプロジェクトは初めて聞いた!)
PacBioデータは47x でアセンブリ、N50=8Mbも得られたのは驚きですが、BioNanoの地図を加えて294本のスキャフォルド、N50=34.8Mbを達成したとのこと。

ココナッツはゲノムサイズが2Gb~2.6Gbと大きく、50xのイルミナデータでアセンブリ、15xのPacBioでギャップフィリング、DovetailのChicagoデータを足してスキャフォルディングという安全かつ簡単な方法を採用していました。
因みにココナッツは全世界の25%をフィリピンで生産しているらしく、一番の用途はコスメティクらしいです。へー意外。

ヒマワリはゲノムサイズ3.6Gbで、8kbと11kbのリピートが多くゲノムの33%を占めるらしいです。
102xのPacBioデータをFalconアセンブリして2.93Gb、N50=498kb、12,318本のコンティグを得たあと、こちらはBACデータにアラインしてPseudo chromosomeを作っていました。BACデータがあったからこそできた話ですね。

ピーナッツは1.25GbのAゲノムと1.4GbのBゲノムが2~300万年前にくっついて2.8GbのAABBとなったらしい。AとBは98%が同じ配列で64%がリピート、ATリッチという特徴があるそうです。
48xのPacBioデータをアセンブリしてコンティグN50=460kbを得た後、Hi-Cを行って、最後はイルミナリードでアセンブリエラー修正。
ピーナッツは染色体の端っこの方ではBゲノムがAゲノムになる傾向があるらしいです。


これとは別のセッションでも参考になる話が聞けたので少し。

キヌアゲノムは昨年Natureの論文で出ましたが、Kaniwa(カニューアと発音するらしい)という種を初めて聞きました。キヌアよりもタンパク質が多くて健康食らしいです。
ゲノムサイズは452Mbで、イルミナとHi-Cである程度スキャフォルディングまではできた。
これにPacBioデータを加えてギャップフィリングをするのですが、17xデータでやったけれど結構苦労したとのこと。やっぱり30xは欲しいと言っていました。
個人的には、Hi-CをするよりもChicagoを行った方がギャップフィリングの前のスキャフォルドの精度が上がったと思います。
または、最初からイルミナを使わずにPacBioで70xくらい読んで、それにHi-Cを加えるのが、お金があれば最適の方法でしょう。(←Sequelのランニングコストで考えるとPacBioのアセンブリもバカ高いわけではありません)

カベルネ・ソーヴィニョンもアップデートがありました。
以前ここでも紹介しましたが、ヘテロ性が高いのでFalcon Unzipのテストにも使われたこともあります。
これまではアセンブリしてN50が数Mbとかの話で終わっていましたが、その後BioNanoデータとDovetail Hi-Cを加えて、19本のPseudo Chromosome / allele まで完成させていました!
ほかにもIsoSeqを行い、672,000本の高精度アイソフォーム配列を得たそうです。
うち549遺伝子(585アイソフォーム)は、他の品種のゲノムにも転写産物データベースにもなかったとのこと。新規?

アセンブリにどれくらいのカバレッジが必要か問題についても少し議論があり、カベルネ・ソーヴィニョンの例では、「多ければ多いほど」良いとの結論でした。
つまり、カバレッジが多すぎてコンティグの長さが saturate してしまう、ということは無く、90xでも100xでも、多ければ多いほどアセンブリ結果は良くなる、というそうです。
とは言っても、100xの場合でもエラー補正に使われるリードがかなりありますし、カベルネ・ソーヴィニョンの場合はヘテロ性がとても高いので、ハプロタイプあたり50xと言えなくもないです。
そうするとヒトゲノムアセンブリで50x以上を推奨しているのとほとんど変わらない、かもしれませんね。




2018年1月14日日曜日

PAG XXVI 学会(その0)

今私は、カリフォルニア州サンディエゴの近く、ミッションバレーという街で行われるPlant Animal Genomics学会に来ています。
毎年同じ場所で行われるみたいですね。
その学会報告は明日から。今日は半分旅行記みたいなものです。

私は、航空会社はいつもANA系列を使っているので、サンディエゴに来るときは乗り換えなければいけません。
隠れたお勧めは、LAX(ロサンゼルス国際空港)で降りて、陸路で行く方法です。

先ずはLAX空港からUnion Stationに行きます。空港を出たらすぐ前のバス乗り場から、FlyAwayというシャトルバスに切符は買わずに乗り込みます。行先はちゃんと確認!
終点のUnion Stationで降りたら、運賃を支払って駅に歩いて向かいます。
片道9ドル75セントです。クレジットカードしか使えないので注意。
Union Stationの中 歴史ある建物です
Union Stationからは、Amtrakという列車に乗ります。
これはあらかじめネットでチケットを買っておくと便利で、サンディエゴまでコーチ(普通車)クラスで37ドル、ビジネスクラス(グリーン車)で56ドル。ビジネスクラスは飲み物とチップスが付いてくる。
電車と席はこんな感じ
ディーゼル機関車が引っ張るがっしりした列車
普通車でも十分快適!
日本ではもう珍しくなったディーゼル機関の列車に乗りこんで、アメリカンサイズの椅子に座ったら、本を読んでも良し、のんびり景色を眺めても良し。誰かと一緒ならおしゃべりしても。
汽笛を鳴らしながら、大都市ロサンゼルスの郊外を走り、ディズニーランドがあるアナハイム、大学町のアーバインを抜けると、列車はだんだん加速します。
ロサンゼルスのダウンタウンが遠くに見える
しばらくすると右側に海が広が見えてきます。
1月だというのにビーチで遊んでいるひとがいました。あったかいのかな。
スマホで天気を確認したら外は26度あるとのこと。なるほどねー、水着でも大丈夫なのか。
太平洋
途中駅のOceanside、文字通り海沿いにあるリベラルな町です。
もう20年も前の話になりますが、留学時代、私はこの町に住んでいる友達を訪ねて来て何日間か住んだことがあります。当時、アパートから見える太平洋の向こうに日本があるのかなーって思ったもの。今日も海がきれいでした。
海岸線を走っているとだんだん車内も静かになってきます。みんな疲れているのでしょうね。

ロサンゼルスを出てから約3時間、間もなくサンディエゴです。
San Diego Old Townという駅があります。
次が終点、San Diego Santa Fe Depotです。
ダウンタウンに行くなら終点までですが、今回はミッションバレーというところのホテルなので、Old Townで降ります。

降りたらタクシー? いえ、Uber使いましょう。全然安くて便利です。
ホテルまで8ドルちょっと。
車内でUber運転手の兄ちゃんと話しました。「How are you doing?」から始まって、日本から来たことを話すと、彼も日本に行ったことがある、って食いついてきた。
福岡に行ったそうで、何でも、前回?のWorld Baseball Classicトーナメント予選で、メキシコ代表チームとして出場したことがあるらしい(私はWBCについては詳しくないのでこれ以上話を掘り下げられなかったのが残念)。

えー! プロ野球選手がUber運転してていいの? と思ったけど、そこは忖度して聞かないであげた。
ちゃんとあとでUber の運転手評価を★5つにしたし、チップも追加したし。

どうでしょう? 長時間飛行機乗った後にまた別の飛行機乗るのはしんどい、空路だとホテルのチェックイン可能時間前についてしまう、というときはのんびり陸路もいいですよ。 飛行機より断然安いし。
ただし、時間に余裕があるときに限ります。列車は20分・30分遅れは当たり前。

帰りは空路で帰るけどね。

2018年1月12日金曜日

平均リード長20kb越えって、もう珍しくない?

今年もニュースになりました、JP Morgan Healthcare Conference
英語のサイトでいろいろ書かれていますが、まとめサイト的には
1日目はここ
2日目はここ
3日目はここ
がわかりやすいか。

さて、そんな中PacBioの発表は、iSeqのような新製品ではないものの、これまでの常識を遥かに超えるものでした。CEOによると、
新しいケミストリーとソフトウェアが2月を目標にリリースされます。
今のベータテスターの結果によると、次のような結果が既に出ているとのことです。

【ゲノムシークエンス用のラージサイズライブラリの場合】
1セルあたりのスループット:12Gb
平均リード長:25kb
最長リード長:100kb

【ターゲットアンプリコンシークエンスの場合】
1セルあたりのスループット:16.5Gb
平均リード長:33.5kb
最長リード長:135kb

【Iso-Seq(完全長cDNAシークエンス)の場合】
1セルあたりのスループット:22Gb
平均リード長:37kb
最長リード長:200kb

PCR産物の場合はDNAのクオリティがゲノムDNAと比べて高いので、全体的なスループットが高くなる傾向にあります。
それにしてもゲノムDNAのライブラリで平均リード長が25kbとは、もう、昨年作ったカタログをまた作り変えないと。

さらに、2018年末に予定しているスループット8倍のセル、についてもマイク(CEOの愛称です)は触れています。
これはちょっと、私も間違ったうわさを聞いたことがあるので正確にお伝えしておきますね。

スループット8倍のセルとは、ZMWの数が今の100万から、800万になるSMRT Cellのことです。価格ではありません。
800万個のZMWでシークエンスを行い、DNA合成反応から塩基を検出するには、今よりも格段に優れた光学系部品とベースコール計算機が必要になります。
そのため、単純に新しいセルが発売されるのではなく、それに伴い装置内部のアップグレードも必要になります。これは有償になる予定です。金額は現段階では未定です。

PacBioではこの800万ZMWセルについて、アップグレードパスが用意されている、という言い方をしています。
アップグレードへの道がある、という感じでしょうか。
しかし、800万ZMWのセルが出たら、ロングリードの新しい世界が次のステージに行くでしょう。
1セルでヒトゲノムアセンブリ程度のデータが、20kb以上のロングリードで出てくるのですから。
それが後1年で可能になります(I hope)

これに備えて、今から新サービスやソフトウェア開発を始めている企業も、あるかもしれませんね。