2018年5月4日金曜日

Sequel を爆買いする中国の勢いが止まらない(ジョークです)

注:ジョークです エイプリルフールネタにしようと思っていた
------------------------------------------------------------------------

中国では、Novogene社やAnnoroad社がSequelを10台単位で購入しているそうで、その爆買いぶりに開いた口が塞がらない。
そんな中、PacBio本社では、これからさらに来るであろう注文を見越して生産態勢を一層強化したそうです。
それがこの写真!
生産が完了したSequelたち
日本含むアジアに向けてまもなく出荷予定のSequelたち
積み出しを待つSequelたち
こちらは欧米向け出荷予定のSequelたち
これちょっと並び方がおかしい? それは真上から撮影したらわかります。

すみません、全体を写すとこうなります
遊び心がありますねー。
NGSの装置で会社のロゴを作ってしまうとは!!



ゴールデンウィーク中日ですからこういう軽いネタで許してください
はい、もちろんこれは本物の装置ではありません。USBです。
欲しいかたは↓こちらの会に参加してGET! 数に限りがあるので早いもの勝ち

5月18日「PacBio現場の会 2018」
まだ若干席がありますよ!

2018年4月29日日曜日

Genetics and Genomicsっていう夜中のバーチャルイベント

ゴールデンウイークですが、皆さんはいかがお過ごしでしょうか。
帰省? 旅行? それとも仕事?
私は家でのんびり、というわけにもいかず、初日は人間ドックでした。
直ぐわかる範囲では検査結果に異常は無く、若干白血球が低め、みたいなことを言われましたが気にするほどでは無いとのこと。
そんなわけでこんな時間(夜中)ですがパソコンに向かっています。 

LabRoots.comが提供するバーチャルイベント、Genetics and Genomicsが再来週の5月9と10日にあるそうです。
PacBioを使ったメタゲノムの話が2つあるみたいなので、紹介しますね。

先ずは我らがCSOの話。ショットガンメタゲノムのお話も出てくるそうです。

こちらはrRNAのPCRアンプリコンで株レベルまでの微生物プロファイルをした話。
と、以上の2つがPacBio社からお知らせメールで回って来たのですが、いかんせん、時差がキツイ!
向こうの朝9時って日本の翌深夜1時なんですよねー。
1時に難しい話を英語でされて、寝落ちしない自信が無い・・・

私的には、以下の構造解析、NGMLRとSniffle の開発者の話も聞きたいけれどこれも深夜1時、ガクっ。
でもPacBioやNanoporeのデータを使って、さらに10Xのリンクドリードも使って、染色体構造解析をするあたり、やっぱり1時過ぎまで起きて聞きたいなあ。と思ってみたり。

リンク先はこちらです
興味のあるかたは、頑張って起きてみてください
夜中のイベント、っていうと楽しく聞こえるけど、ね。



--------- 5/18(金)は秋葉原へ集合!------------
「PacBio 現場の会 2018」
登録はこちらから
5名の招待演者と
PacBio、Dovetail、その他最新NGS情報を
一度に聞ける年に一度のイベントです!
情報交換会もあります。
参加無料 空席あと少し、急げ‼

2018年4月23日月曜日

ローディングリコメンデーションという「推奨」

PacBioに限らず、ローディングリコメンデーションという単語があります。
アプライDNA量の推奨値、という方がわかりやすいでしょうか。
シークエンスデータが最も最適に出力されるような、DNAライブラリの濃度と量のことを示しています。

「最適に出力」という意味は「より長いリードをより多く出力」と考えてかまいません。

その前に、、、
P0、P1、P2、というPacBioに特別な単語があります。
これはZMWの中にポリメラーゼとSMRT Bellライブラリのコンプレックスが入ってシークエンスされるわけですが、そのデータを見て、

  • P0:データ無し→つまりZMWにライブラリが入っていない。空っぽ
  • P1:きれいな1分子のDNAデータが出てくる→きちんとZMWにライブラリが入って、かつシークエンスがされていた
  • P2:上記以外→データがノイズばかりの場合。ZMWに複数ライブラリが入った場合。クオリティが低いリードしか読まれていない場合など
を区別しています。
実際解析に使用されるデータは、P1のデータです。
アプライDNA量が極端に少なければ、ZMWに入るライブラリが少ししかないのでP0が増えます。逆に極端に多くライブラリを入れた場合は、オーバーロードと言って、P0は減るかもしれませんがP2が増えることが予想されます。

RSIIや初期のSequelの場合、ZMW全体のうち20%~40%のZMWからP1データが出力されることが望ましい、と言われていました。
ポワソン分布に従うならば33%、それをもっと上げるためにマグビーズなどが使用されて40%、多い時は50%を目指していました。

Sequelの5.1になり、そのリコメンデーションが改訂されました。ここ
  • P1はほとんどのアプリケーションで50%以上を目指すように
    (ただし、あまり多くのP1リードを目指すとリード長が短くなる恐れもある)
  • オーバーロード(ライブラリの入れすぎ)の指標は、P0の値を参考にする。P0は20%くらいが望ましく、10%を切るようならばライブラリ量を減らした方が良い
  • Iso-Seqやアンプリコンの場合、Pre-extension(読む前にシークエンス反応をある程度進める方法)をするので、P1は70%を目指すことが可能で、P2は20%未満を狙う
  • Expressキットを使うゲノムアセンブリ用のロングライブラリの場合、P1は50%台を目指す
  • バクテリアのマルチプレックスは、P1は50~65%を狙う
と、細かいことですがつまり長いライブラリでもZMWの半分からは良いデータが出てくるような濃度でアプライすることを推奨しているのですね。
SequelセルのZMWは100万あるので、50万本のロングリードが1セルから出力されることを想定して、最適なライブラリ濃度を調整することが必要というわけです。

短めのライブラリ、Iso-Seqやアンプリコンの場合は、最高70万本の配列が出力されることが十分あり得るのでデータ単位のコストはかなり低くなると思います。

ここまで書きまして思うところがあるのですが、
P1の数字を狙って濃度調整することは難しい!
というのがユーザの本音だと思います。

なのであくまでもリコメンデーション、推奨、なのです。
「その値を狙ってアプライしたときが一番良い結果を生むと思います。ですが結果はサンプルにも依存するので必ず良い出力を出すという保証はございません」
という意味です。

なので受託に頼んでスループットが予想ほど良く無くても、受託会社さんを責めないでくださいね。

2018年4月17日火曜日

ハイブリッド でIso-Seqしたい方はこの論文を!

Iso-Seqは皆さんご存じですね。
PacBioのロングリードで完全長cDNAを一気に読んで、スプライシングバリアントを含めたRNAの構造解析をする方法です。

ショートリードでデノボで転写産物をシークエンス&アセンブリする方法には、Trinityという有名なものがあります。
しかしリピート配列があると正確に転写産物を再現できない、K-merサイズによってはアセンブリが不正確になる、など、ショートリードだけの完全長cDNAシークエンスには限界がありました。

IDP-denovo
そんな中、ショートリードでデノボアセンブリしたアイソフォームコンティグに、ロングリード配列をマッピングさせて、アイソフォーム全体の姿を再現するIDP-denovoというツールが出ました。

この論文はあくまでも、ショートリードがメインで、これを補佐する役割としてPacBioのロングリードが登場します。
正直、私はPacBio一本でやった方が良い気がしたのですが、、、。
だって最初のショートリードのアセンブルで、既に、読める配列がイルミナ技術に依存しているでしょう?
それからPacBioで一分子配列を付け足して補正、ってどれだけ精度が上がるのか疑問。

多分、コストが問題だったのでしょう。
でも今はSequel使えばコスト的にもだいぶ割安感があると思うんですけどね。



さてさて、ここからはIso-Seqの話です。
SMRT Link(PacBio解析ソフトウェア)バージョン5.1には、Iso-SeqとIso-Seq2が搭載されています。
へぇ、Iso-Seq2とは?

その前にIso-Seq解析のおさらいです。
実験のプロトコルはこちらからダウンロードできる。簡単に言うと、

  1. サンプルの中で発現しているmRNAの、完全長cDNAを作る
  2. 完全長cDNAをPCRで十分量増やす
  3. SMRT Bellライブラリを作る(SequelではIso-Seqのサイズ分割は基本行わない。長い転写産物に注目したい場合は4kbを境に分割しても良い)
  4. Sequelで読む→ データが出てくる


ここから先は、SMRT Link 5.1で解析すると仮定しますね。
Iso-Seq解析は最初にCCSを作ります。

5'プライマー、インサート配列、ポリA配列、3'プライマーを持つ場合、完全長cDNAとみなされます。完全長=Full Length(FL)と不完全長=Non-FLのリードに分ける。
このステップがClassify

次のステップがClustering
アイソフォームレベルのクラスタリングを行うにはFLのCCSだけが使われる。
このクラスタリングステップがとても時間がかかり、今まで問題になっていた。
Iso-Seq1では配列の長さが同じくらいのものをまとめ、クラスタリングを行っている。
Iso-Seq2では塩基配列のパターンから同じようなものをまとめ、クラスタリングを行っている。
2の方が1より2倍ほど計算速度が速いとのこと。
さて、クラスタリングしてアイソフォーム配列が出来たら、これにFLとNon-FLのサブリードをアラインし、ArrowまたはQuiverで配列精度を高める。
いずれにしても、転写産物を網羅的に見る場合は、Iso-Seq2の方が良い。
一方、ターゲットIso-Seqの場合は、どのアイソフォームも同じような配列パターンを持つので、サイズによってクラスタリングする普通のIso-Seqの方が良い。

最後に、リファレンスがある場合はGMAPでゲノム配列にマップして、Alternative Splicingを見る。ここはヒトとかマウスとかのモデル生物で行われる。
アイソフォームを見つけたらその精査が必要だ。
SQANTIというツールは見つけたアイソフォーム配列を、機能ごとにアノテーション付けてくれる。
FSM = full splice match   (perfect match w/ known isoform)
ISM = incomplete splice match  (partial match)
NIC = novel in catalog  (novel isoform with known junctions)
NNC = novel not in catalog  (novel isoform with new junctions)
というように。
論文にもなっているのでこちらもどうぞ

そのほかにもありますが今日のところはこれにて


518日(金)は秋葉原にて「PacBio現場の会 2018
登録はこちらから

2018年4月9日月曜日

ロングリード解析やっているひとはこの論文を絶対読まないと!

NGS解析をやっているひと、特にロングリード解析をやっているひとは絶対読まなければいけない論文、それがこれ
Piercing the dark matter: bioinformatics of long-range sequencing and mapping
Sedlazeck et al., (2018)Nature Reviews Genetics.
ロングレンジ技術を使ったゲノム解析に関する、すごくComprehensiveにまとめられた、バイオインフォマティクスのレビューです。
これはほんと超おすすめ。
このレビューはいくつかのパートに分かれてまして、

1.ロングリードテクノロジーのまとめ
ここでいうロングレンジ技術とは、Pacific Biosciences (PacBio)や Oxford Nanopore Technologies (ONT)のように、「本当の」ロングリードと、10X Genoimics のリンクドリード、BioNanoのフィジカルマッピング、Hi-Cのような超ロングレンジメイトぺア、を含みます。
それぞれの技術の特徴(ロングリードのエラー率の高さなど)がまとめられています。
Bamファイルの今のフォーマットが、ロングリードマッピングデータにはもはや向いていない、という点は前から言われていましたね

2.De Novo Assemblyへの挑戦

  • ゲノムに存在するリピート配列の存在が、ショートリードでのゲノムアセンブリを難しくしている
  • ロングリードが30カバレッジ未満しか無いときは、ショートリードとのハイブリッドを使うべきだろう
  • しかしショートリードでのロングリードエラー補正(PBcR, Nanocorr, Spades and MaSuRCA,)は、GCバイアスなどの問題でロングリードを正しくエラー補正できない可能性がある
  • ロングリード同士のSelf Correction (HGAP, PBcR, Canu, MARVEL or FALCON)が、もっとも良い
  • 倍数性の高いゲノムのアセンブルは今も、難しい (NRGeneという会社は倍数体があっても独自の秘密プログラムで行っているそうですが仕組みは非公開です)
  • コンティグを作った後のポリッシングには、QuiverやArrow(PacBio用)、Nonopolish(ONT用)、Pilon(ショートリードをポリッシングに使用)などがある
3.スキャフォルディングとギャップフィリング

  • スキャフォルディングには、10XやHi-Cなどが有効
  • しかしアセンブルの時点で高精度のコンティグを作ることが何より重要
4.SV解析
  • まずはSVの定義をはっきりさせている(挿入とか欠損とか、転移とか)
  • SV検出精度はマッピングの精度に依存する(BLASR, BWA-MEM, minimap/minimap2, LASTなどについても言及)
  • コスト、倍数体、リファレンス配列の精度、などがSV解析の大きな問題点

そのほか、ここには書ききれないほどのトピックスがたくさんあって、とにかく、一度読んでみてくださいと言うしかない!
バイオインフォマティクスのレビューなので、アセンブルからSVコール、RNAシークエンスまで、巷にあふれるたくさんのツールの解説があります。

もちろんこのレビューは、決してPacBio贔屓ではありません。
ロングリードはPacBioとONTがありますが、むしろ、最長ロングリードはONTに軍配が上がっている。
PacBioは、エラーのランダム性から、コンセンサス配列の精度は最も高いロングリードと言える。

どうやってもロングリードの場合、PacBioもONTもリード長には限界があり、結果、10XとかHi-Cとか、ショートリードによる擬似的な超ロングリードとの組み合わせがアセンブル結果や構造解析、フェージング解析の結果を大きく改善することは間違いない。

今の時代、複数のテクノロジーを、最適なバイオインフォマティクスツールをうまく使いこなして解析することが重要なんだなと、改めて実感するレビュー論文でした。



--------- 5/18(金)は秋葉原へ集合!------------
「PacBio 現場の会 2018」
登録はこちらから
5名の招待演者と
PacBio、Dovetail、その他最新NGS情報を
一度に聞ける年に一度のイベントです!
情報交換会もあります。
参加無料、PacBioに興味のある研究者なら誰でも参加OK!

2018年4月4日水曜日

PacBio現場の会 2018 登録スタート!

5月18日は、年に一度の現場の会、といっても「PacBio現場の会」です。
今年はもうNGS現場の会が無いので、復活しました、この名前!
場所は秋葉原UDX Next1

ロングリードを愛する全てのひとへ心を込めて

あえてロングリードとしたのは、今やPacBio以外でもOxford Nanoporeのシークエンサーで読んでいる研究者も多いだろうと思うからです。
もしあなたが、MinIONデータで何かを読んでいるとしても、私たちは拒みません。
PacBioがいまだにロングリード市場でメジャーなシークエンサーだということは、紛れもない事実なのですから。

前置きが長くなりましたが、登録サイトがスタートしたのでこちらからどうぞ!
英語名がPacBio User Group Meetingとなっているのは各国で統一感を出すための便宜的な名前なのでユーザーでなくとも参加できますよ



顔写真入りの紹介って、案外良いですねぇ
最新のプログラム、時間割りは「最新プログラムはこちらから」のリンクからダウンロードできます。
まだ変更が入るかもしれませんがご了承下さい。

5月18日ですよー
アキバですよー
時間は1時から開始で、情報交換会もあります 
結構びっちり、勉強になると思います

奮ってご参加下さい ここから

2018年3月31日土曜日

CCSは精度では全てのNGSに勝る。コストではサンガーに勝る。カナダの生物種同定プロジェクトの例


これは私がずーーーっと前にこのブログで説明したCCS(Circular Consensus Sequence)についての絵です。
一時期、CCSのことをROI(Reads Of Insert)と呼んでいたこともありましたが、わかりにくいということでCCSの呼び名が復活しました。

今のSequelでは、1セルあたり100万のZMWから30万本~60万本のリードが出てきます。
平均10kbのリード長とすると(実際は平均12kbのときもあればそれ以上のときもありますが、少な目に見積もって10kbとした)、15万本~30万本のリードは10kb以上読めていることになる。
例えば1kbのライブラリを作りランするとしたら、10回以上同じインサートDNAを繰り返し読んで作られたCCSが、15万~30万本作られることになりますね。
10回以上繰り返し同じDNAを読めば、かなり精度が高いCCSが作られます。
実際の解析ではもちろんパス数でフィルタリングするよりも、QVでフィルタリングした方が良いでしょう。


ミトコンドリア配列中にあるシトクロムCオキシダーゼI(COI)遺伝子の配列は、さまざまな生物で配列に違いがある。
GC含量が15%~45%とバリエーションが広く、サンガー法ではホモポリマーなどが原因で読みにくい。
この配列を読むことで生物種多様性を研究しているひとたちがいる。

International Barcode Of Life という国際プロジェクトがある。
Dr. Paul Hebert, Director of the Biodiversity Institute at Guelph, Canadaは、今までサンガー法で行っていたCOI配列のDNAフィンガープリントを、Sequelでバーコードを使って読み、大幅なコストダウンを実現したという。
Hebert博士のプレゼンの様子はこちらから録画が見れます。
Dr. Hebertのプレゼンから
実際にはCOI遺伝子の658塩基の領域を増幅して、アシンメトリーのバーコードを付けて、Sequelで読んだ。
100種類のバーコード配列をアシンメトリーにヘアピンアダプターに付けるので、100x100種類で合計10,000種類の識別が可能になる。

10,000種類の識別が一度に可能ということで、1日に4セルランし、1週間で260,000種類のDNA検体を解析したとのこと。



実験の詳しい内容はここの論文に書かれています。
サンガー法と比べても、コストと手間の面でSequelが圧倒的に優れています
精度もサンガー法と引けをとりません。
もっとも、一度に10,000サンプルとか言われると、DNA検体を集める方が大変かもしれませんが。
Hebert博士らの論文(2018)
なお、ショートリードでは658bpを連続して読むことはできません。
MiSeqを使った250bpメイトペアシークエンスでも届かないでしょう
同じロングリードのオックスフォード・ナノポアはどうか?
残念ながらCCSのように同じライブラリを何度も読むことはできないので、サンガー法のような精度を達成することはできないでしょう。

ということでSequel(もちろんRSIIも)は、PCRアンプリコンをたくさん一度に精度を高く読むことのできる唯一のNGSと言えるでしょう!

2018年3月30日金曜日

学会2連ちゃんした結果頭の切り替えが大変だった件

今週は日曜月曜が日本育種学会、火曜水曜が日本細菌学会。
両方とも福岡での開催で連続していたので2連ちゃんをしたわけです。
これは細菌学会での私たちのブース
お隣さんは、ショートリードのI社ですよ。反対のお隣さんはひとつおいてロングリードのO社ですよ。さすがAEさん!
まあ、NGS業界はみんな仲良いから変な空気にはなりませんけどね。

どちらも登録して中のセッションも聞きに行きました。
育種学会はもちろん植物の学会なので、遺伝マーカー、連鎖解析、植物の各組織の名前、収量、環境ストレス、というキーワードが頻繁に聞かれます。
一方細菌学会は、抗菌薬、選択圧、病原性、病気の名前、サーベイランス、プラズミド、というキーワードを良く耳にしました。
というわけで、あたりまえですが参加者の研究分野が全然違うのです。恐らくお互い接点は無いのでは。
なので2連ちゃんすると異業種交流会に来たような錯覚。

以下、私見ですが・・・
ゲノム解析の重要性について
育種学の分野では、イネなどの主要穀物は、国際プロジェクトなどである程度ゲノムが読まれている。しかし今は品種ごとにゲノムを決定する必要がある。コムギなどはゲノムサイズが大きく、また倍数性も高いため、完全ゲノムを決定するのは極めて困難。遺伝マーカーを決めるためにRAD-Seqなど様々な方法を試している。野菜や果物などもゲノム解析のニーズは高いが、植物はリピートなどが極めて多いので、完全なゲノム配列を求めるというよりも、選別のための遺伝マーカ―さえわかればOKという感じ。

細菌学の分野では、バクテリアはゲノムサイズが小さいので完全長ゲノムを決定することは十分可能。とはいっても、染色体中に数十Kbの同じ配列が逆向きに挿入されるような場合もあるらしく、そういう場合はもちろんPacBioなどロングリードが必要だし、それを使っても完全長決定が大変な場合もある。バクテリアゲノムは遺伝子が密な分、完全に塩基配列を決定する重要性が感じられた。
薬剤耐性、特にカルバぺネム耐性菌の場合、耐性遺伝子がプラズミドに乗っている場合があるらしいです。その場合はプラズミド配列を読むことが一層大切。


学会の参加者と話して感じたこと
育種学会には、全国の農業試験場、農研機構、国立研究機関、大学農学部、種苗メーカー、食品メーカー、酒造メーカー、などから研究者が集まります。
私が感じたのは、この業界は産学の繋がりが強いということ。
中にはいろいろ大人の事情もあるのでしょうが、外から見た感じは「みんなすごく仲が良い!」 
より良い農作物を作ろう、という目的はみな同じ。横のつながりが強いのでしょうかね。
あと良かったのは、育種学会のポスター発表では必ず毎回、地元の高校生も発表するんですね。こういうのは素敵です。
懇親会はいつも、地元の食材を使った料理やお酒がふるまわれます。秋の大会(育種学会は年二回)のほうがお酒の量凄い、気が。

細菌学会は、国立国際医療研究センター、国立感染症研究所などの研究機関、大学医学部の微生物や細菌学の教室、全国の総合病院などから研究者が集まります。
細菌学は産業と言うより、公衆衛生学の観点からいかに感染拡大を防ぐか、どうやって細菌からの感染を予防するか、の議論が多いように感じました。
生死に直結している分、緊迫感が感じられる学会かな。
こちらは懇親会は無し。ポスターのミキサーでは軽食がありました。
ポスターはこちらもすごい活気がありましたよ。部屋の温度が5度くらい上がっていたかもね。

育種学会と細菌学会はそんなわけで連続していたのですが、全然客層も違う学会なので頭の切り替えが難しかった。
でもどちらも今回はブース出したかいはありました。
出展料の数十倍のリターンはあったかも。

PacBio系の話は次にします


~~~さて連絡事項です~~~
今年もやります、PacBio現場の会!
2018年5月18日(金)
午後1時から5時過ぎまで 懇親会もあります
場所は東京・秋葉原のUDX Next1

演者の方も決まりました。4月になりましたらお知らせします!
バクテリアから植物ゲノム、がんゲノムなど幅広い分野から5名のお客様の講演
PacBioのアプリケーション、アップデート、Dovetail Genomicsの紹介などなど、盛りだくさんな半日セミナーになる予定です!

是非まずは日付をチェック!〇付けてほかに予定入れないでおいてくださいね!

4月になったら、NGS現場の会メーリスや、このブログや、PacBioからのメール、トミーデジタルバイオロジーからのメールなどで、登録サイトなどをお知らせします。
乞うご期待

2018年3月25日日曜日

ファインディング・ニモ

育種学会に来ています。このブース、雑多に見えるかもしれませんが、それは後ろのブースが見えているからですかねー。実際に見ると意外とすっきりしていますよ。
値段を入れたせいか、たくさんのお客さんが足を止めてくれました。

私たちの目の前の企業さんが、ブースに「人工気象器」というものを展示しているのですが、「人工太陽」をデモするたびに、眩しっ!
目の前が眩むっす。 これも育種学会あるある?

さて、学会とは直接関係ありませんが、ファインディング・ニモでおなじみのカクレクマノミのゲノムが読まれました。
Finding Nemo’s Genes: A chromosome-scale reference 1 assembly of the genome of the orange clownfish Amphiprion percula
https://www.biorxiv.org/content/early/2018/03/08/278267
サウジアラビアとオーストラリアのチームですね。日本人のかたも著者に入っていますね。

彼らは20kbライブラリをPacBio RSIIで6時間、113セル読み、113.8Gb(121カバレッジ)のロングリードを得ました。
Falconアセンブリで最初にエラー補正された58カバレッジのp-readをアセンブリに使い、最終的に1,414本のPolish済みコンティグ(N50=1.86Mb)を得たそうです。
その後はもちろんHi-Cでのスキャフォルド。アセンブリ結果の98%の配列は24本の染色体の中に納まったそうです。
最終アセンブリ配列は908.8Mbで、コンティグN50は3.12Mb、スキャフォルドN50は38.4Mbとのこと。
PacBioとHi-Cの組み合わせはここでも活きていました
魚類の中では、最も長い連続配列を取得したアセンブリ結果のひとつだそうです。

さて、最近論文発表された同属のアセンブリ(NanoporeとIllumina、IlluminaとPacBio)と比較して表をPacBioのマーケが作ってくれたので見てみましょうか。

PacBioのみでアセンブルしたA.percula が最も長いコンティグ/スキャフォルドN50を達成していることがわかるでしょう。

2018年3月20日火曜日

PacBio Sequel v.5.1  ~もうバージョン5.1になってました、、、

装置やソフトウェア、試薬のバージョンアップは、この業界では頻繁にあることです。
今のSequelでは、装置ソフトウェアと解析ソフトウェアが同じバージョンでそろっていて、試薬やケミストリーが別のバージョン番号で管理しているのです。
ちょっとややこしいですが、試薬・ケミストリーが v.2.1で、ソフトウェアが v.5.0 という感じだったんですね。
解析ソフトウェアSMRT Link(SMRT Analysisを含む)のバージョンが、装置ソフトウェアと同じバージョンです。

そこで今回、新たなバージョンアップ!

ソフトウェアが v.5.1になり、ケミストリーが 2.1 version 2 に!
ん? v.2.1 のさらに v.2 って・・・ と思う方もいるでしょうが、そこは気にしないでください。

装置&ソフトウェアの v.5.1と、試薬 v.2.1(v2)を使った場合のスループットがこちら。
ロングライブラリ(35kb)を10時間読んだとき

ショートライブラリ、5kbアンプリコンを20時間で読んだとき

そう、v.5.1から、10時間ムービーと20時間ムービーが選べます。
20時間で読む場合は、LRという別のSMRT Cellを使う必要があります。
(因みにスタンダードのセルよりもLRセルの方が若干高価)

どう使い分けるのか?ですが、今のところ、
  • ゲノムアセンブリのような長いインサートライブラリは10時間
  • PCRアンプリコンやIso-Seqのような短いライブラリは20時間
をお勧めしています。将来的には変わるかもしれませんが、今はこのように、長いライブラリは今まで通りの10時間で読み、短いライブラリは、もちろん10時間でも良いけれど20時間で読むこともお勧め、ということです。
もちろん、20時間で読んだ方がロングライブラリでも長く読めるのでは?という疑問が出てくると思いますが、今のところ、ロングライブラリを20時間で読んでも、10時間で読んだときと平均リード長はほぼ同じ(最長リードは長いが)。というデータが出ています。
LRセルの方が高価だということを考えると、10時間でも費用対効果は良い。

ところが短いライブラリで、主にCCSを作ることを目的としたシークエンスでは、20時間は生きてくるのです。
先のデータによると、

35kbライブラリの場合、10時間で読んだとき
  • データの半分以上は、30kb以上の長さのリード(ポリメラーゼリードとサブリードはほぼ同じ長さとみて良い)
  • 最長リードは90kb超え
  • 1セルあたりの出力塩基数は 10Gb
  • 出力リード数は40万

5kbアンプリコンライブラリの場合、20時間で読んだとき
  • データの半分以上は、70kb以上の長さのリード(アンプリコンサイズが5kbだから何度もインサートを繰り返し読むことのできるポリメラーゼリード、が多く出力される)
  • 最長ポリメラーゼリードは180kb超え
  • 1セルあたりの出力塩基数は20Gb
  • 出力リード数(この場合出力CCS数と言っても良い)は40万

アプリケーションごとのSequel v5.1パフォーマンス(1 SMRT Cell あたりの出力)は以下のようになっています(v5.1 Software Upgrade and Performance Overview - Customer Training より引用)

Whole Genome Sequencing for De Novo Assembly
-Up to 10 Gb:サイズセレクション済の 40kb以上のロングライブラリの場合
-Up to ~7-10 Gb:サイズセレクション済の 15-40 kbロングライブラリの場合

Iso-Seq 完全長 cDNAシークエンス
-Up to 20 Gb
-Up to 250,000-350,000本の full-length non-chimeric (FLNC) reads

Targeted Sequencing (アンプリコンシークエンス)
-Up to 20 Gb
-Up to 300,000 CCS reads:2.5 kb アンプリコンの場合
-Up to 200,000 CCS reads:5 kb アンプリコンの場合
-P1リードのうち 40% 以上は QV 30 のCCSを作成可能:5 kb アンプリコンの場合

Structural Variation Calling (構造変異解析)
-Up to ~7.5 Gb: サイズセレクション済の 15kb ロングライブラリの場合

「Up to」と書かれていますね。これは、そういう意味です。
必ず出る保証はないけれども、うまくいけばこのくらいの塩基は読めるという。

と書いていて自分で言うのも何ですが、数字ばかり並べてもあまり説得力がないと思います。
それぞれ、研究にどれだけ使えるのかを具体的に示せなければ意味が無い。
これについては次に書く予定です。

お知らせ:
3/25-26 日本育種学会総会
3/27-28 日本細菌学会総会
にそれぞれ出展します。どちらも福岡での開催です!

2018年3月16日金曜日

Human Genome Meeting 2018 @パシフィコ横浜 終了!

あー、終わった終わった。
いつも学会展示会の後はそう思います。
立ちっぱなしも結構疲れるんですよ。

今週はHuman Genome Meetingという国際学会に出展していました。
RIKEN&Hugoが主催で開いたこのミーティングには、およそ400人の国内外のヒトゲノム研究者が集まったそうです(最終参加人数はまだ聞いていませんが、およそそれくらいの人数かと)

どうですか? このすばらしいブースデザイン!
サイズ感がわからない?
バックの絵は高さが2mちょい、横幅は4mくらいあるんですよ。

他にもたくさん企業が出展していまして、ロングリードのもうひとつの会社も、ショートリードの会社ももちろん。
シークエンス受託会社も、タカラバイオさんをはじめ、マクロジェンさん、Novogeneさん、DNA Linkさん、BGIさんも出展。
BGI シークエンサーも、展示してありました。100bpまたは200bpのペアエンドで読めるらしいです。
イルミナさんの iSeq は、斬新なデザインでしたね。白いカクカクっとした立方体。
半導体のチップは、どこかの会社のアレにそっくりでした。
さすがに写真は撮らなかったですけど。

さてさて、私たちPacBioは、初日にスポンサーセッションとランチョンセミナーをやりました。
スポンサーセッションでは、東京大学大学院医学系研究科 ゲノム医学講座の河津正人先生に、「Genetic status of immune microenvironment in microsatellite instability-high colorectal cancers」という題名でお話し頂きました。

ランチョンセミナーでは、前半をPacBioのCSO、Jonas Korlachが「Accessing the full size-spectrum of human genetic variation using PacBio long-read SMRT sequencing on the Sequel System」
後半をHouston Methodist Research Instituteの芦澤哲夫先生に「Internal sequences of large pentanucleotide repeat expansion alleles in SCA10」というタイトルでお話し頂きました。

Jonasの講演

芦澤先生の講演

翌日、私たちはアジア時間に合わせてウェビナーを行いました。
芦澤先生には、こちらのウェビナーでもお話し頂き、たくさんの参加者が参加されました。
当日参加できなかったかへ朗報。
ここからビデオ録画が視聴できます。

精神疾患とその原因のひとつと考えられている、繰り返し配列のシークエンス。
Cas9を応用したPacBioのEnrichment技術。
PacBioはまさに、メディカルに応用できるロングリード技術である、ということが実感できると思います。

是非ご覧ください。


2018年3月5日月曜日

2018年3月 最近のIso-Seq論文

3月になって東京も少し暖かくなってきましたね。
予報によると桜の開花は東京は3月17日だそうで、平年より早め。
ところが先週行った沖縄では、桜の木は既に緑でした!
沖縄では桜は毎年1月下旬に開花するらしいです。といっても最初から葉桜とのこと。
桜吹雪は無く、散るときはツバキみたいに花被全体が落ちるらしい。

さて、今日は久々にIso-Seqの話題
PacBioのIso-Seqメーリングリストがあってそこから送られてきた最近の論文リストを紹介します。

1.Minio et al. Isoform-scale annotation and expression profiling of the Cabernet Sauvignon transcriptome using single-molecule sequencing of full-length cDNA

2.Yan et al. SMRT-Cappable-seq reveals complex operon variants in bacteria

3.Workman et al. Single-molecule, full-length transcript sequencing provides insight into the extreme metabolism of ruby-throated hummingbird Archilochus colubris, Gigascience (2018)

4.Balazs et al., Long-Read Sequencing of Human Cytomegalovirus Transcriptome Reveals RNA Isoforms Carrying Distinct Coding Potentials, Scientific Reports (2017)

5.Cheng et al., Long-read sequencing of the coffee bean transcriptome reveals the diversity of full-length transcripts, GigaScience (2017)

この中でも2のバクテリアIso-Seqは今までに無くて面白いかも。
Iso-Seqというと、真核生物のmRNAのスプライスバリアントを一気に読みぬくことができる強み、が特徴です。
でもバクテリアは、、、イントロンありませんよね?

そこでバクテリアのIso-Seqは何が見れるのかというと、

オペロンです!

オペロンって、分子生物学・分子遺伝学の最初の方で習いました、よね?
プロモーター、転写開始点、終了点などを初めて習うところで。

Yan et al. SMRT Cappable-seq
バクテリアのmRNAにも poly-A 配列があります。
最初の cDNA は、オリゴ dTを含むRTプライマーによって逆転写で作られます。
不完全に作製された cDNA はRNase I によって排除。
次にTerminal Transferaseによって cDNA の3’側にPoly-G が付けられます。
2本鎖目の cDNAとその後はPCR増幅によって作られていきます。
Yan et al., SMRT Cappable-seq
その後USER(NEBの酵素名)によってdUracilは除去され、スティッキーエンドが作られます。その後、SMRTbellライブラリが作成される、という流れ。

著者にNEB社が入っているので酵素はクローンテック社のものでは無くNEB社のもので完結しています。
そこは少しPacBioオフィシャルプロトコルと違うところです。

で、このバクテリアIso-Seqを大腸菌でやってみたところ、なんと40%の転写終了点が遺伝子リードスルー(日本語訳わからん)だったとのこと。
この技術は真核生物のスプライスバリアントと同じくらい、バクテリアオペロンのバリアントもたくさん存在することが明らかになるかもしれませんね。

2018年1月28日日曜日

ダボス会議でもゲノムプロジェクトがトピックに上がったらしい件

ニュースで知ったのですが先週はスイスのダボスで「世界経済フォーラム」が行われていたそうですね。
通称「ダボス会議」。最終日にはアメリカのトランプ大統領がスピーチし、「アメリカファーストはアメリカ孤立主義では無い」と述べたそうです。外では反トランプデモをやっていたそうな。

正直ダボス会議って、主要各国の首相や大統領、官僚や経済界トップなどが集まって、なんか世界のためにどうするか話し合う場、のような漠然としたイメージしかありません。
「国連総会」よりもまとまりがあるような、「G20」よりも守備範囲が広いような、そんなイメージしかないなぁ。
日本であまり報道されないのも、今年は安倍総理が出席しなかったからかな?
G7の首脳で今回出席しなかったのは安倍さんだけだったらしい・・・。

日本での報道があまり無いならググるしかないわけですが、ダボス会議の精神は、「世界の多様性を重んじて、社会をより良くするための、マルチステークホルダーになる」ことらしいです。
何だか漠然としたテーマですね。簡単にいうと「世界にはいろんな価値観のある国や民族、宗教があるけれど、お互いを認め合って、これまでのような戦争をせずに、地球の限られた資源をみんなで仲良く使いましょう!」っていうのを確認し合う会議らしい。

経済フォーラムというだけあって、産業やビジネスと密接に関連する環境汚染や資源の枯渇問題、地球温暖化、脱炭素社会などへの取り組み、なども話し合われたみたいです。
これは私がググって探したわけではないのですが、ダボス会議ではゲノムプロジェクトの話題もあったそうな。

ダボス会議のウェブサイトより
UC デービスのウェブサイトより
地球上に存在する植物・動物から昆虫、単細胞生物まですべての真核生物種の推定数は1,500万(この数字には色々説があるようですが)。
そのうち150万種程度が分類学的に知られていて、うち15,000種のゲノムが読まれているらしい。つまり我々はほんのわずかの生物しかゲノムシークエンスしていない。
もちろん皆さんならゲノムが「読まれた」というのと、ゲノム配列が「わかった」というのが全然別次元の話なのは、言わずもがなですよね。(この辺はマスコミに報道されるときにごっちゃにされるんですよね)


地球上のすべての種のゲノムを読むという「Earth BioGenome Project(EBP)」は、スケールがでかすぎるのか、実現するには10年と47億ドルかかるらしい・・・。
かつて、ヒトゲノム解読プロジェクトが国際チーム V.S. 1企業(セレラ・ジェノミクス社)で競い合いながら、ほぼ同時に完了を発表しました。
その時、ヒトの遺伝子配列が特許になりうるか?という問題が話題になりました。
ヒトゲノムを読むことがビジネスになるかも、という期待があったのです。

今、生命の宝箱と言われるアマゾンで、様々な生物のゲノムを読んで、農業への応用や新薬のシーズ探しをしようという野心的なプロジェクトが進んでいます。
ブラジルに住むペルー人の起業家、Juan Carlos Castilla-Rubio氏は、今なら数多くの種のゲノム配列を決めることも昔ほど難しくないと知っているのでしょう。ゲノムを知ることでそこから生まれるビジネスの匂いを嗅ぎ分けているのかもしれません。

同じようなゲノムプロジェクトはG10KやB10K、確か植物系でも昆虫系でも似たようなものがあります。あえて今からプロジェクトを立ち上げる必要があるのかな、って思ったりしますが。

数十万円~数百万円あれば、生物一種のゲノムは決まる時代。
結局、いろんな人がそれぞれ好きな生物のゲノムを読んで、データをぜーんぶ集めたら知らないうちに地球上の生物全てを読んでいました! 的なオチになるんじゃないかな?


2018年1月26日金曜日

32ギガベースの巨大ゲノムを、たった32xのPacBioデータでアセンブリしたって?

最近寒いですねー。東京でも雪、連日の冬日。
このまま氷河期に入るんじゃないか?
2月になっても寒い日が続くのでしょうか。
ビールが好きな私ですが、こんな日は芋焼酎お湯割り、がいい!

そんな中、驚きの32Gbゲノムアセンブリ論文がNatureから出されました。
The axolotl genome and the evolution of key tissue formation regulators
サラマンダー、またはメキシカンサンショウウオ、またの名をAxolotl
今の40代以上のひとならアホロートル、という名前より、ウーパールーパーといったほうがわかるかな?

東京池袋のサンシャイン水族館で一時大人気だったウーパールーパー
こいつ、小さくてかわいいわりにゲノムサイズが32GBもあるそうです!
またこいつは、失った手足を自分で再生することができる。その辺が科学者に注目されてきたのです。
昭和のバブル時代、なぜか大ブームになった、らしい
私もかすかに記憶あります

Dr. Gene Myersらのグループは、PacBioとショートリード、BioNanoを組み合わせ、さらに新しいゲノムアセンブラー「MARVEL」を作り、この巨大ゲノム生物のアセンブリに挑戦しています。
RSIIを使いなんと2,000個のSMRT Cellから32カバレッジのロングリードを取得。でも32カバレッジでアセンブリなんてできるのでしょうか?
そこはさすがGene Myersです。MARVELアセンブラーはHGAPのように最初に生リードのエラーを補正するのではなく、エラーっぽい箇所を見つけては「つぎはぎ」するらしいです。そうして99%程度の精度にした後でアセンブリに持ち込む。
詳細はSupplementにアルゴリズムが説明されています。今度しらふの時にしっかり読んでみることにしよう。

最初にPacBioデータだけで作ったアセンブリのコンティグN50は218kb
次に7カバレッジのイルミナデータでエラー補正して、最後にBioNanoデータでスキャフォルディングしてN50=3Mbを達成しています。

アセンブリした配列は65%程度がリピート、特にLong Terminal Repeat(LTR)がこの巨大ゲノムに多く見られたそうです。
このアセンブリ配列は、四肢の再生を制御し成長をつかさどるのに重要な役割を果たすHoxA遺伝子群や、その他重要遺伝子・遺伝子ファミリーの機能解明に役立つかもしれません。

今回のゲノムアセンブリ、32Gbゲノムですが、32カバレッジだけ(といっても結構な量を読んでいますけれど)でコンティグN50が217kbというのはなかなかすごいです。
BioNanoを使ってスキャフォルドしていますが、個人的にはDovetail ChicagoやHi-Cを加えれば恐らく、ChicagoでスキャフォルドN50が数Mb、Hi-Cで数十Mbは可能だったのでは?と思います。
巨大ゲノムはいまだにチャレンジングかつお金がかかる・・・ と思った論文でした。

Nowoshilow et al., 上記論文より
他の巨大ゲノムアセンブリとの比較
左が今回のアホロートルゲノムアセンブリ



2018年1月21日日曜日

PAG XXVI 学会(その3)SMRT Developers Conference など

今回のPAGのゲノムアセンブリの発表の中で、特に興味を持ったのは、Trio-binning という方法でF1ハイブリッドのハプロタイプを決める方法。

ウシの場合、黒いアンガス牛と白いブラフマン牛の掛け合わせで、ブランガスという牛がいるそうです。これは、肉質は良いが暑さに弱いアンガスと、肉量は少ないが病気や高温に強いブラフマンの掛け合わせで、両方の良いとこを取ったF1牛です。

このようにして作りだしたF1ハイブリッド種は、とてもゲノムのヘテロ性が高いと想像できます。
ゲノムを読んでアセンブリしたら、ゲノムサイズx2くらいのアセンブリサイズが作られるでしょうね。
それにPacBioのようなロングリードで深く読んだとしても、Falcon Unzipではハプロタイプスイッチ、ということがおきて、完全にハプロタイプを決めることは困難。
PAGXXVI Dr. Sergey Korenのスライドより
”Falcon Unzipで作られるPrimary Contigは、正しいハプロタイプを反映しない。
これは、Pseudohaplotypesといった方が良い。
正しいHaplotigsを作るには、もっと別な方法が必要。”

そんな中SMRT Informatics Developers Conferenceでも発表したDr. Sergey Koren が提案しているのは Trio-binningという方法です。
あらかじめアンガスとブラフマンはIlluminaショートリードでたくさん読んでおく。
F1はPacBioでたくさん読んでおく。
F1をアセンブルする前に、F1のPacBioリードを、親のショートリードのK-merで、SNPをもとにそれぞれの由来リードに分けてしまう。
アンガス由来とブラフマン由来に分けられたPacBioリードを、Canuでアセンブルする。
ざっくり言うと↑な感じです。
PAGXXVI Dr. Sergey Korenのスライドより
左がFalcon Unzip、右がTrioBinningの結果
左はアンガスとブラフマンがFalcon Unzipではうまく分けられていない
右は、両者のTrioBinning後のアセンブリがきれいにアンガスとブラフマンに分かれている

このやり方ができるのは、両親のゲノムをもとにF1のリードを分けるので、両親がわかっている場合に限られます。
野生動物や、親がわからない種は、できないのではないかな。


さて、SMRT Informatics Developers Conferenceの発表に使われたスライドはこちらにアップされていますので興味ある方は是非チェック!
PacBioのポスターなどもあるので面白いですよ。

2018年1月16日火曜日

PAG XXVI 学会(その2)PacBioとDovetailの新情報

今回のPAGではゲノムアセンブリ関係で2つの大きなニュースがあります。
まずはPacBioの最新スループット
これは今日のワークショップでMarty(製品担当責任者)が発表していたのでそのまま紹介しますね。
PacBioワークショップより Martyの発表

な、なんと、ポリメラーゼリードのN50 が30kb超!
つまりデータの半分以上が30kb以上の長さということ。
1セルあたりの塩基数は10Gb
リード数は40万本
いいですねえ、素晴らしい。

ロングリードのあちらの会社には負けてませんよ!


もうひとつのゲノム関連企業、Dovetail Genomics
こちらは新製品の発表です。
Dovetail Hi-Cキット
Hi-Cライブラリ作製キットです。
もうウェブサイトにも情報が載っているので見た方もいるでしょうか。
これは、1キット8本入りで、1本は3Gbまでのゲノムサイズに対応しています。
つまり5Gbのゲノムなら2本分が必要。3Gbゲノムサイズまでの生物なら1キットで8サンプル分が作れます。

ユーザはこのキットを使う前に、自分が読みたいゲノムのドラフトアセンブリを持っていることが条件です。
さらにそのアセンブリのコンティグ/スキャフォルドのN50 が1Mb を超えていることが必要です。
その理由は、Hi-Cで良い結果を出すためにはもともとのアセンブリのクオリティが良い必要があるからです。
そのクオリティ(N50=>1Mb)に達していない場合は、あらかじめPacBioでアセンブリしておくか、Chicagoを使ってアセンブリしておくか、いずれかが必要でしょう。

さて、Hi-CキットでHi-Cライブラリを作ったら、自分のところでシークエンスします。
HiSeqXで1レーンくらい読めば3Gb程度のゲノムなら事足ります。

読んだリードを自分のドラフトアセンブリと組み合わせてスキャフォルドするには、HiRiseというソフトウェアが必要です。
これを追加料金でDovetailにお願いするも良し、自分でやってみたい場合はDNANexusのクラウドパイプラインを使って無料で1回やるも良し。
このキットにはDNANexusのパイプラインで1回解析する分のライセンス料も含まれています。

現在はまだ、哺乳類でしか検証していないので他の生物種でうまくいくかは未確認ですが、いずれできるようになるでしょう。
そして4月以降のどこかで、植物用のキットも出る計画。
気になるお値段ですが、来週以降に決定する予定です。お楽しみに。

キットを販売すると言っても、今まで通り受託サービスも続けますから、全部お任せコースも維持します。
Dovetailは公平な目で見ても、今年のPAGで一番勢いのある会社と言っていいと思いますよ。

PAG XXVI 学会(その1)ゲノムシークエンスはPacBioとHi-CとBioNanoで決まり!

PAGは植物と動物のゲノム学会とだけあって、いろんな生物のゲノムシークエンスの発表があります。
今回ちょっと残念なのは、聞きたい発表が結構重なっていること。
でもPacBioが一般的に使われてきたせいかなーと思うことにしています。
PacBioのブース 
デザインの好みは分かれるか
昨年もそうでしたが、PacBio+Dovetail Chicago/Hi-C + BioNano
のどれかの組み合わせはゲノムシークエンスの発表で良ーく耳にします。
特に今回多かったのはPacBio+Hi-Cの組み合わせ。
Complex Genome Sequencingのセッションでは、クルミ、ココナッツ、ヒマワリ、ピーナッツ、とどれもPacBioが基本で補正的にHi-CとBioNanoを使っていました。

クルミ(ゲノムサイズ560Mb前後)の発表ではBioNanoを最初に使って物理マッピング地図を作っていました。(最初にBioNanoから行うゲノムプロジェクトは初めて聞いた!)
PacBioデータは47x でアセンブリ、N50=8Mbも得られたのは驚きですが、BioNanoの地図を加えて294本のスキャフォルド、N50=34.8Mbを達成したとのこと。

ココナッツはゲノムサイズが2Gb~2.6Gbと大きく、50xのイルミナデータでアセンブリ、15xのPacBioでギャップフィリング、DovetailのChicagoデータを足してスキャフォルディングという安全かつ簡単な方法を採用していました。
因みにココナッツは全世界の25%をフィリピンで生産しているらしく、一番の用途はコスメティクらしいです。へー意外。

ヒマワリはゲノムサイズ3.6Gbで、8kbと11kbのリピートが多くゲノムの33%を占めるらしいです。
102xのPacBioデータをFalconアセンブリして2.93Gb、N50=498kb、12,318本のコンティグを得たあと、こちらはBACデータにアラインしてPseudo chromosomeを作っていました。BACデータがあったからこそできた話ですね。

ピーナッツは1.25GbのAゲノムと1.4GbのBゲノムが2~300万年前にくっついて2.8GbのAABBとなったらしい。AとBは98%が同じ配列で64%がリピート、ATリッチという特徴があるそうです。
48xのPacBioデータをアセンブリしてコンティグN50=460kbを得た後、Hi-Cを行って、最後はイルミナリードでアセンブリエラー修正。
ピーナッツは染色体の端っこの方ではBゲノムがAゲノムになる傾向があるらしいです。


これとは別のセッションでも参考になる話が聞けたので少し。

キヌアゲノムは昨年Natureの論文で出ましたが、Kaniwa(カニューアと発音するらしい)という種を初めて聞きました。キヌアよりもタンパク質が多くて健康食らしいです。
ゲノムサイズは452Mbで、イルミナとHi-Cである程度スキャフォルディングまではできた。
これにPacBioデータを加えてギャップフィリングをするのですが、17xデータでやったけれど結構苦労したとのこと。やっぱり30xは欲しいと言っていました。
個人的には、Hi-CをするよりもChicagoを行った方がギャップフィリングの前のスキャフォルドの精度が上がったと思います。
または、最初からイルミナを使わずにPacBioで70xくらい読んで、それにHi-Cを加えるのが、お金があれば最適の方法でしょう。(←Sequelのランニングコストで考えるとPacBioのアセンブリもバカ高いわけではありません)

カベルネ・ソーヴィニョンもアップデートがありました。
以前ここでも紹介しましたが、ヘテロ性が高いのでFalcon Unzipのテストにも使われたこともあります。
これまではアセンブリしてN50が数Mbとかの話で終わっていましたが、その後BioNanoデータとDovetail Hi-Cを加えて、19本のPseudo Chromosome / allele まで完成させていました!
ほかにもIsoSeqを行い、672,000本の高精度アイソフォーム配列を得たそうです。
うち549遺伝子(585アイソフォーム)は、他の品種のゲノムにも転写産物データベースにもなかったとのこと。新規?

アセンブリにどれくらいのカバレッジが必要か問題についても少し議論があり、カベルネ・ソーヴィニョンの例では、「多ければ多いほど」良いとの結論でした。
つまり、カバレッジが多すぎてコンティグの長さが saturate してしまう、ということは無く、90xでも100xでも、多ければ多いほどアセンブリ結果は良くなる、というそうです。
とは言っても、100xの場合でもエラー補正に使われるリードがかなりありますし、カベルネ・ソーヴィニョンの場合はヘテロ性がとても高いので、ハプロタイプあたり50xと言えなくもないです。
そうするとヒトゲノムアセンブリで50x以上を推奨しているのとほとんど変わらない、かもしれませんね。




2018年1月14日日曜日

PAG XXVI 学会(その0)

今私は、カリフォルニア州サンディエゴの近く、ミッションバレーという街で行われるPlant Animal Genomics学会に来ています。
毎年同じ場所で行われるみたいですね。
その学会報告は明日から。今日は半分旅行記みたいなものです。

私は、航空会社はいつもANA系列を使っているので、サンディエゴに来るときは乗り換えなければいけません。
隠れたお勧めは、LAX(ロサンゼルス国際空港)で降りて、陸路で行く方法です。

先ずはLAX空港からUnion Stationに行きます。空港を出たらすぐ前のバス乗り場から、FlyAwayというシャトルバスに切符は買わずに乗り込みます。行先はちゃんと確認!
終点のUnion Stationで降りたら、運賃を支払って駅に歩いて向かいます。
片道9ドル75セントです。クレジットカードしか使えないので注意。
Union Stationの中 歴史ある建物です
Union Stationからは、Amtrakという列車に乗ります。
これはあらかじめネットでチケットを買っておくと便利で、サンディエゴまでコーチ(普通車)クラスで37ドル、ビジネスクラス(グリーン車)で56ドル。ビジネスクラスは飲み物とチップスが付いてくる。
電車と席はこんな感じ
ディーゼル機関車が引っ張るがっしりした列車
普通車でも十分快適!
日本ではもう珍しくなったディーゼル機関の列車に乗りこんで、アメリカンサイズの椅子に座ったら、本を読んでも良し、のんびり景色を眺めても良し。誰かと一緒ならおしゃべりしても。
汽笛を鳴らしながら、大都市ロサンゼルスの郊外を走り、ディズニーランドがあるアナハイム、大学町のアーバインを抜けると、列車はだんだん加速します。
ロサンゼルスのダウンタウンが遠くに見える
しばらくすると右側に海が広が見えてきます。
1月だというのにビーチで遊んでいるひとがいました。あったかいのかな。
スマホで天気を確認したら外は26度あるとのこと。なるほどねー、水着でも大丈夫なのか。
太平洋
途中駅のOceanside、文字通り海沿いにあるリベラルな町です。
もう20年も前の話になりますが、留学時代、私はこの町に住んでいる友達を訪ねて来て何日間か住んだことがあります。当時、アパートから見える太平洋の向こうに日本があるのかなーって思ったもの。今日も海がきれいでした。
海岸線を走っているとだんだん車内も静かになってきます。みんな疲れているのでしょうね。

ロサンゼルスを出てから約3時間、間もなくサンディエゴです。
San Diego Old Townという駅があります。
次が終点、San Diego Santa Fe Depotです。
ダウンタウンに行くなら終点までですが、今回はミッションバレーというところのホテルなので、Old Townで降ります。

降りたらタクシー? いえ、Uber使いましょう。全然安くて便利です。
ホテルまで8ドルちょっと。
車内でUber運転手の兄ちゃんと話しました。「How are you doing?」から始まって、日本から来たことを話すと、彼も日本に行ったことがある、って食いついてきた。
福岡に行ったそうで、何でも、前回?のWorld Baseball Classicトーナメント予選で、メキシコ代表チームとして出場したことがあるらしい(私はWBCについては詳しくないのでこれ以上話を掘り下げられなかったのが残念)。

えー! プロ野球選手がUber運転してていいの? と思ったけど、そこは忖度して聞かないであげた。
ちゃんとあとでUber の運転手評価を★5つにしたし、チップも追加したし。

どうでしょう? 長時間飛行機乗った後にまた別の飛行機乗るのはしんどい、空路だとホテルのチェックイン可能時間前についてしまう、というときはのんびり陸路もいいですよ。 飛行機より断然安いし。
ただし、時間に余裕があるときに限ります。列車は20分・30分遅れは当たり前。

帰りは空路で帰るけどね。