2017年10月17日火曜日

植物ゲノムが熱い件(2) ドリアン!

シンガポールの市場をぶらついていると、たまに悪臭が鼻をつくことがあります。
温泉の硫黄の臭いと下水とブルーチーズの臭いのミックスというか、そんな感じの香りを感じたら、犯人はドリアンです!

「果物の王様」
いつか食べてやりたいと思いつつも、あの匂いで食欲がわかないので未だ食べるに至らず・・・。
そういえば、シンガポールの地下鉄には、「No Smoking, No Drinking, No Durian」
って書いてあるんですよ。

そんなドリアン、ドラフトゲノムが読まれました!

シンガポールとマレーシアのチームが、PacBioとDovetailをメインにゲノムを決定!
論文はOPENです

K-mer解析によるとゲノムサイズは約738Mb
153カバレッジのPacBioデータを使ってFalconアセンブリ、そしてFalcon Unzipでポリッシュ。
そのあとDovetailのChicagoライブラリとHi-Cライブラリでスキャフォルディング。
スキャフォルドN50は驚きの22.7Mb!
Bin Tean Teh et al., Nature Gen. 2017
この論文、Falconのパラメータとか、Dovetailサービスを使った場合の論文記載方法とか、その後のDuplicationのチェック方法とか、ゲノムアセンブリをやっているひとには役に立つことがたくさん載っている、と思います。

この論文ではゲノムを読んだあとに、ドリアンの匂いの元、のVolatile sulfur compounds産生に関わる遺伝子の異種間比較解析(コピー数解析)を行っていて、そちらも面白いですよ。
匂い自体は複数の化合物が複雑に合わさってできますが、そのひとつの遺伝子のコピー数がドリアンでは多いらしい。

これを読んだあとはドリアンに挑戦したくなる、
と思ったわけでした。

2017年10月16日月曜日

植物ゲノムが熱い件(1)

10月7、8日に岩手大学の育種学会に行ってきました。
「ゲノム育種」という言葉はNGSの登場前から結構昔から言われてきたみたいです。
親戚に農家もいないし、農学の知識が無い私なりに理解したのは、育種にはどうも、1.収量を多くする、2.病気や環境ストレスに強くする、という2つの大きな目的があるようです。
イネなんかを想像するとわかりますよね。北海道で栽培できる品種はどう考えても寒冷環境に耐性がありそうです。
イネは昔と比べて収穫量が増えたと、中学か高校の教科書で習った記憶もあります。

ですが昔の品種改良は、交配して育ててみないとこの形質が遺伝したのかわからなかったから、手間と時間がかかっていた。
それを今では、ゲノムを読んで有用な形質遺伝を持つDNA配列(DNAマーカー)がわかってさえいれば、交配したあと、個体がまだ小さいうちに遺伝子検査すれば(スクリーニング)どの個体に有用遺伝子が含まれているか、がわかる。
そうしてこの個体を増やしていけば、有用な形質を持った「品種」を効率的に作ることができる。
これを「ゲノム育種」という。

そこで、有用な形質遺伝を持つDNA配列、を探すためにたくさんの育種研究者が日々シークエンスをしている。
んー、あってるかな?

さて、育種学会のポスターで、信州大学のパパイヤの性に関する発表がありました。
オス、メス、両性、の3つの性が普通にあることに驚き!
今度パパイヤを食べるときは友達に自慢しましょう。

植物のゲノム解析は、1.サイズが大きい、2.リピートが多い、3.倍数性が複雑、などの理由でとっても大変。
なのでゲノム配列がたとえわかっていなくても、皆さんいろいろ工夫して(妥協して)遺伝解析をやっているなあ、と実感しました。
でも皆さんならもう、PacBioとDovetailを使えば結構ちゃんとしたゲノム配列が決定できることを知っていますよね?


さて、PacBioのウェビナーの宣伝です。
10月24日と31日に、うれしくも日本時間に合わせて動植物ゲノムアセンブリのウェビナーがあります。
1回目(10/24)
"SMRT Sequencing Applications in Plant and Animal Sciences: an Overview"
by Emily Hatas, Director, AgBio, Vertical Marketing, PacBio
登録はこちら

2回目(10/31)
"Understanding, Curating, and Analyzing your Diploid Genome Assembly"
by Sarah B. Kingan, PhD, Bioinformatics Scientist, Applications, PacBio
登録はこちら



2017年10月4日水曜日

ASHG2017でのイベント情報

すっかり涼しくなってきたな~と思えるときもある10月。
10月と言えばアメリカ人類遺伝学会(ASHG)。
毎年恒例で多くの日本人研究者も集まりますが、今年は特に多い。
場所がフロリダ州オーランドだからでしょうか?

ということで、PacBioのイベント情報をお知らせします。
ASHG学会に行く人も行かないひともぜひチェック!

このページ行けば全部書いてあるんですけど、まとめますね。

ワークショップは10/18(水)の現地時間12時半から
テーマはヒトゲノム構造解析
Cas9を使った配列特異的ターゲットシークエンスを使って脊髄小脳失調症タイプ10のメカニズム解明に挑む例や、大きなゲノム構造変異と知的障害の関係性の研究、1000人ゲノムプロジェクトの最新情報など。
特に1000人ゲノムの発表は、今年HUGOのPresidentでもあるDr. Charles Leeです!
参加はこちらから、学会には行けないけど後で講演を聞きたい!というひとも、レジストして
Not attending. Send the recording
を選択すればOKですよ! (もちろん参加したひとにも録画のリンクが送られてきます)

それ以外の注目イベントはこれ!

10/19 11:00 am-12:30 pmの Concurrent Platform Session “Advances in the Genetics of Autoimmune Disease,”では、“The MHC Diversity in Africa Resource: A roadmap to understanding HLA diversity in Africa,”(Martin Pollard of the Wellcome Trust Sanger Institute)というタイトルの発表があります。PacBioを使ったMHCシークエンスの実例が示されるそうです。

同日午後4:15-6:15の Concurrent Invited Session “Analysis of Cancer Genome Variation Using Long-read Sequencing”では、Dr. Fritz Sedlazeck (Baylor College of Medicine)、Dr. Jacques Banchereau (Jackson Labs for Genomic Medicine) らによるガンゲノムへのPacBioの応用例がこれでもか!と発表される予感。

Dr. Xufeng Zhao、Dr. Mark Chaissonらは、the Human Genome Structural Variation Consortiumを代表して, “Comprehensive Discovery of Structural Genomic Variants Through Integration of Multiple Sequencing Platforms,” というタイトルのポスターを18日の 午後2:00-3:00 のポスターセッションで発表するそうです (Poster #1501).
彼らは最近、3組のトリオの全ゲノムをPacBioで読んで解析し、1000 Genome Projectのショートリードデータ解析よりも10倍以上の構造変異を見つけたとして bioRxiv に発表。この論文はチェックしているかたも多いでしょう。

PacBio社からの注目は、Tyson Clark が “Targeted Enrichment Without Amplification and SMRT Sequencing of Repeat-expansion Disease Causative Genomic Regions” というポスターを18日の 3:00-4:00 pm で発表します。
これが例のCas9ターゲットです!(Poster #1480).

さらにさらに、初日17日(火)の午後1時から4時にあるGenome Reference Consortium (GRC) & Genome in a Bottle consortium (GIAB) Workshop も見逃せませんよ。
ヒトゲノムリファレンスのアップデートが話し合われるとても面白いワークショップです!PacBioのロングリードも大活躍しています。

と、いろいろ書きましたがプレスリリースにも書いてありますので時間がある方はどうぞ。
PacBio関連のプレゼンだけで約30もあるそうです! 全部をフォローするのは難しいけれどできるだけ聞いてきます。


2017年9月26日火曜日

SMRT Link ‐ Sequelデータの解析ソフトウェア

PacBioの解析ソフトウェアといえばSMRT Analysisがあります。
これにラン設定のソフトウェア、データ管理のソフトウェアを合わせてパッケージにしたのがSMRT Linkです。
私も最初、Sequelが出たばかりの頃、このSMRT Linkが何を指すのか結構悩みました。
というかPacBio社の内部でも、SMRT Linkと言ったときにこれが装置操作のソフトを指したり解析ソフトを指したりで結構混乱していたのを覚えてます。
まあ、今でもはっきりしないところもあるんですけどね。

それはさておき、遅ればせながらようやく、SMRT Linkの紹介ビデオが公開されました。
こちらから見ることが出来ます。
どれも3分から5分程度で、きれいな英語なのでリスニングにもいいかも。

CCSやHGAP、LAAなど、使い方がメインですが何となくこんなソフトで解析するんだー、って実感できるかな。
欲を言えば、解析の中身、どういうアルゴリズムで計算するのか、というようなことも紹介してくれればいいのに。というところです。

明日の昼から、Structural Variantのウェビナーがあります。
ギリギリだけど今ならまだ間に合うか?
聞き逃したひとはお知らせください。
録画ビデオリンクをお知らせします。全体公開ならこのブログでも公開。

この1、2週間でいくつも凄いニュース(論文関係)が出ました。
キャッチアップするのが大変なくらい。
次のブログに書きますね。


2017年9月13日水曜日

ナノポアZMWって何?

Twitterやその他SNSで知った人もいるかと思いますが、こんな論文がNature Nanotechnologyから出ています↓
"Length-independent DNA packing into nanopore zero-mode waveguides for low-input DNA sequencing"
はて、ナノポア? ZMW? そしてオーサーの一人はPacBioのCSO(最高科学責任者)?
そうです。これはナノポアとPacBioのSMRT Sequencingの両方の技術を組み合わせた新しい技術です。
どんなものかというと、今のPacBioのSMRT CellにはZMWという微小ウェルがありますね。
PacBio・SMRTシークエンスの良いところはたくさんありますが、唯一の欠点はDNA量。
ナノグラム単位のDNA(ライブラリ)をアプライする必要があります。
これをピコグラム単位にすることは、裏プロトコルはあるにはあるのですが、結構難しい。

単純に言うと、ZMWのウェルの中にDNA‐ポリメラーゼの複合体をロードする効率が悪いからです。
長いライブラリ(例えば20kb)は短いライブラリ(例えば1kb)よりもウェルに入りにくい。これをローディングバイアスという。
マグネティックビーズを使って物理的にロードする方法はRSIIの時代に確立されましたが、それでも効率よくライブラリをウェルに入れるのは今でも難しいものです。

ONTのナノポアには、ポアにDNAを通すため、ガイドプロテインをいうものを使います。
この論文にあるナノポアZMW(NZMW)は、ZMWの底にナノポア(穴)を開け、電圧を使ってDNAをZMWにガイドするそうです。

これによるとかなり効率よくDNAライブラリをローディングできるらしい。
10ピコグラムのDNAでも1分以内にローディングできるとのこと。
20kbライブラリの場合、2秒の電圧パルスの結果、DNAをNZMWに吸着できた。
ローディングバイアスも見られず、1kb~48.5kbまでのライブラリをローディングできたとのこと。
Larkin et al., Fig 2

そこまで言うと、じゃあこれが次のPacBioのバージョンアップ技術になるの?
と思うでしょう?
残念ながらこれはまだPOP (proof of principle)の段階で、すぐに商品化されるわけではありません。と、CSOのJonas Korlachも言っています。
でも実現されれば面白い。装置の改良も必要かもしれませんが。
詳しくはNature Nanotechの論文

またはGenomewebのこの記事を参照ください。

有料記事なので詳細は書きませんでした。ご了承下さいまし・・・
個別にディスカッションしましょうね

2017年9月5日火曜日

Iso-Seq:Sequelでの実力はどれくらいか?



以前、こちらこちらのブログで、「言葉を覚える鳥」ゲノムのことを書きました。
ゲノムを読んだら次は遺伝子発現、ということで、Iso-Seq(完全長cDNAのシークエンス)をやった結果のデータが公式にアップされました。

PacBio公式ブログでの記事はこちら

ポスターはこちらからダウンロードできます。
出たばかりのSMRT Link v5 を使っていたようですね。

データ出力のところを注目してみましょう。
SMRT Cellは4個使っています。
セルごとにバーコードで2種の鳥のサンプルを読んでいます。
Cellあたりの出力塩基数は6.1Gbから7.7Gb、ポリメラーゼリード長のN50はなんと32kb~38kb!
どうです? いや、長さが全てだとは言いません。でもPacBioでもこんなに長いリードが出るんです。
冗談はさておき、サブリードのN50 も5kb台です。十分転写産物をカバーできていると言えるでしょう。

ポスターを見ると、High QualityのIsoformは、Zebra Finchもハチドリも、それぞれおよそ17,000本を得ています。
これは偶然でしょうか? (いいえ)

2種類のサンプル(AとB)を4セルで読むとき、Aを2セル、Bを2セル、というシークエンス方法もあります。
今回はわざわざバーコードを付けて、ABを後から区別できるようにし、2つを混ぜてから4セルで読んでいます。
こうすることで1セルに2種類のサンプルが均等に読まれることになります。
結果、異なるセル間の出力のばらつきがたとえあったとしても、A、Bそれぞれの4セル分のリード数は同じようになると期待できますよね。
これもSequelになって出力が増えたおかげかな?

さて、この解析のところでIso-Seq2もしくはToFU2というのが出てきますが、これはまだ開発版でサポート外です。
今までのIso-Seqとどう違うかというと、主に解析パフォーマンスを上げるためのバージョンアップになります。
SGEを使うのがオプションになったり、クラスターを作るところでBLASRとDALIGNERのどちらかを選べたりします。
Sequelになってデータ量が増えた分、Iso-Seqの解析時間がかかり過ぎていた問題点を、これで改善する目的で作られました。
詳しくはこちらのPDFをご覧あれ
ToFU2: Design Overview より



2017年8月28日月曜日

学会・展示会情報の最強検索ページはここだ!

残暑厳しいですが8月も今週で終わりですね。
秋は学会シーズン! 先生方も、我々企業も忙しくなります。

星の数ほど多くの学会がある中で、それらをまとめたサイトは意外と少ないと思います。
皆さんはどんな学会がいつあるか、どうやって調べていますか?

とあるPacBioユーザの方からお聞きしたのですが、冨島海運株式会社のウェブサイトが結構網羅されています!
冨島海運さんといえば、展示会場で我々企業が展示している実機やデモ機を運搬してくれる輸送業者さんです。
なので冨島さんが担当されない学会は載ってないのですが、それでも結構な数を集めています!

医学系に絞れば、大学病院医療情報ネットワーク研究センター(UMIN)のサイト、学術集会・研究集会等一覧もすごく網羅性が高い。

でも、微生物から植物、動物、メディカル、有名学会から若手研究会まですべてをカバーしているサイトはありそうで無いですね。


さて、私たちはいろんな学会の先生方からスポンサーを依頼されたりするのですが、お断りする大きな理由のひとつはタイミングです。
他の学会と被っていては物理的にダメですが、もう一つ、依頼されるタイミングが遅いとかなり難しくなります。
例えばうちでは、2017年に出展する学会は、2016年12月にはほぼ決定しています。
この業界はわりとそういう会社が多いです。

なので、もしあなたが次の学会の運営担当になったとして、企業からスポンサーを得たい場合は学会開催年の前の年にお願いすると、得られる確率が高くなるかもしれません。

あとこれは個人的な意見ですが、無料オプションとして、

  1. 企業にも発表の場をつくる(セミナーなどで発表できると宣伝効果が高い。ただし、ランチョンは弁当代経費が結構かかるので嫌がる企業が多い)
  2. 学会参加証をつける(企業も最新学術情報を勉強できる)
と、良いかもしれません。
社内的には「私は仕事で行きます。決して学会出張に乗じての飲み会のために行くわけではありません」という理由付けが実は一番大事だったりするので。
この点、NGS現場の会は良いお手本でした。