パックマンの挑戦　－　PacBioシークエンサー: Iso-Seq　WholeかTargetか

大阪は梅田、阪急三番街。　新阪急ホテルとの間に地蔵横丁がある。
うっかりすると通り過ぎるような、小さい路地。
そこの角にある、「玉五郎」というラーメン屋に入った。

カウンターのみの店だが入りやすい雰囲気。
先に食券を買って店の入り口に並ぶ。　結構混んでいる。
店内、3分の1は女性客で、私の隣も女子1人だった。

煮干のだしがきいた豚骨ラーメン。　つけめんは結構太麺。
お勧めはチャーシュー、煮玉子入りの特製ラーメンと水餃子。
味がしっかり濃いので、飲んだ後のシメには向かないかな。
がっつり食べたいときにおすすめ！

さてさて、らーめんとは関係ありませんが、Iso-Seqの話をします。
アイソフォームシークエンス、の略で、いわゆる転写産物のAlternative Splicingを、PacBioで一気に読んで解析しようというアプリケーション。
以前も少し紹介しましたね。
ここで

スタンフォードのチームは、ヒト幹細胞を使い、転写産物の本来の姿、アイソフォームの姿を明らかにしようとしました。
RT-PCRでcDNAを作り、そこから直接PacBioライブラリを作製、34 SMRT Cell使ってシークエンスし、ゲノムにアラインしたら10％が新規のアイソフォームだった、というお話でした。

彼らの研究の続編がこちらです。

こちらもヒトの細胞株を使ったWhole Transcriptomeです。
この論文は、ある意味すごい。
今、PacBioのIso-Seqプロトコルでは、全長cDNAを作製した後、PCRで増幅し、その後ゲルに流すなどしてサイズセレクションするんです。
１－２kb、２－３kb、３kb以上、という風に分画し、サイズを分けてそれぞれのcDNAを回収する。
回収後はさらにPCR増幅し、1μg以上の量に増やす。

そしてサイズごとに分けてライブラリ作製　→　シークエンス、という流れです。

なんでサイズに分けるかというとですね、前にも書いたかな？　サイズによってZMWウェルの中への入りやすさが違うからです。
これを「ローディングバイアス」と言います。
短いライブラリほど、優先的にウェルに入る傾向にあるから、できるだけサイズをそろえてあげて、別々のセルで読む必要があるのです。

しかーし、ここに問題があります。

増幅バイアスです。

PCR増幅されやすいライブラリ配列は、どんどん増幅され、指数関数的に増えていきます。
つまり、転写量はわからなくなります。

というわけで、スタンフォード大のDr. Tilgnerらは、増幅していません。
ローディングバイアスと増幅バイアスを天秤にかけ、どちらを取るか。
転写産物の量をできるだけあるがままに解析するには、増幅はしないほうが良い。
という判断のもと、サイズセレクションはしませんでした。

数百万もの細胞を使って大量にRNAを抽出、RT-PCRでcDNAにしたあと、できるだけ増幅バイアスをかけずにライブラリを作製、シークエンスしています。

1株につき32セルを使用し、711,000本のCCSを取得、これらをゲノムにマッピングした例が下の図です。

Tilgner et al.

Exon-Intronがはっきり分かれてマップされているのがわかりますね。
これ、１本が、１分子のRNA (cDNA) を全長で読んだ結果なんですよ。
アセンブリしていません。

このような図は、もちろんサイズで分画したライブラリでシークエンスしても得られます。
誤解の無い様付け加えると、このようなWhole Transcriptomeの実験でも、サイズ分画した例はいくつもあります。　論文も出ています。
むしろPacBioとしては、どんな場合もIso-Seqは、サイズ分画を勧めているくらいです。
それは先ほど説明した、ローディングバイアスを避けるため。
アイソフォームの量よりも、種類を得る目的に使用してもらうためです。
なのでIso-Seqは、「新規のアイソフォームの種類を発見しよう！」という目的に向いています。

さて、Dr. Tilgnerらの論文は、HiSeqのデータも持っているので、アイソフォームごとの発現量推定も行っていますし、さらにアレルごとの転写産物解析にもチャレンジしています。
とはいっても結構、シークエンスコスト、解析コスト共にハードルが高いので、現実的かどうかは意見の分かれるところです。

Whole Transcriptomeはちょっと・・・　フルコースより単品が良い、ってひともいるでしょう。
見たい遺伝子はある程度決まっている。
他の遺伝子はあんまり興味は無い、というかた。
ターゲットIso-Seqはいかがでしょう？

この論文は、特定の遺伝子にフォーカスしてSplice Variantをシークエンス解析した例です。

完全長の neurexinの遺伝子配列を特異的プライマーで増やし、シークエンスします。
あらかじめ大体のサイズがわかっていますから、コントロールしやすいですね。

転写産物の長さは、４～５kbらしいです。結構長い。
PacBioシークエンスは少なくとも１パスは完全に全長を読んでいたものだけを解析に使用しています。
そうして参照配列にマッピングしたあと見てみると、Nrxn1αについては取得できた2,574本の完全長cDNAから247種類のアイソフォームを分類できました。

Treutlein et al.

ターゲットIso-Seqの利点は、全トランスクリプトームを対象にしているわけでは無いので、セル数が比較的少なく済む点です。

これは論文に出てくる数字をまとめたものですが、使用したセル数にばらつきがあるのがわかります。
６セル使ったライブラリのサイズは４．５～４．７kb、比較的長い。
１．５kbくらいのライブラリに対しては、２，３セルで十分量のデータが得られているとのこと。

Movie時間が９０分ですが、今（2014年8月現在）は最高１８０分まで読むことができます。
なので、今同じ実験を組んだら、セルの数はもっと少なくて済むはずです。

Whole Iso-SeqかTarget Iso-Seqか？

目的によって分かれるでしょうが、どちらにしても、遺伝子の転写の姿が、アイソフォームの姿が、今までよりはっきりとわかる、このアプリケーションはとても魅力的だと思いませんか？

実際使ってみたい！
こんなふうな実験は可能か？
といったアイデアがある方は、お知らせください。
ディスカッションしましょう！

パックマンの挑戦　－　PacBioシークエンサー

2014年8月30日土曜日

Iso-Seq　WholeかTargetか

0 件のコメント:

コメントを投稿

2014年8月30日土曜日

Iso-Seq WholeかTargetか

0 件のコメント:

コメントを投稿

Iso-Seq　WholeかTargetか