2014年8月30日土曜日

Iso-Seq WholeかTargetか

大阪は梅田、阪急三番街。 新阪急ホテルとの間に地蔵横丁がある。
うっかりすると通り過ぎるような、小さい路地。
そこの角にある、「玉五郎」というラーメン屋に入った。

カウンターのみの店だが入りやすい雰囲気。
先に食券を買って店の入り口に並ぶ。 結構混んでいる。
店内、3分の1は女性客で、私の隣も女子1人だった。

煮干のだしがきいた豚骨ラーメン。 つけめんは結構太麺。
お勧めはチャーシュー、煮玉子入りの特製ラーメンと水餃子。
味がしっかり濃いので、飲んだ後のシメには向かないかな。
がっつり食べたいときにおすすめ!


さてさて、らーめんとは関係ありませんが、Iso-Seqの話をします。
アイソフォームシークエンス、の略で、いわゆる転写産物のAlternative Splicingを、PacBioで一気に読んで解析しようというアプリケーション。
以前も少し紹介しましたね。
ここで


スタンフォードのチームは、ヒト幹細胞を使い、転写産物の本来の姿、アイソフォームの姿を明らかにしようとしました。
RT-PCRでcDNAを作り、そこから直接PacBioライブラリを作製、34 SMRT Cell使ってシークエンスし、ゲノムにアラインしたら10%が新規のアイソフォームだった、というお話でした。

彼らの研究の続編がこちらです。


こちらもヒトの細胞株を使ったWhole Transcriptomeです。
この論文は、ある意味すごい。
今、PacBioのIso-Seqプロトコルでは、全長cDNAを作製した後、PCRで増幅し、その後ゲルに流すなどしてサイズセレクションするんです。
1-2kb、2-3kb、3kb以上、という風に分画し、サイズを分けてそれぞれのcDNAを回収する。
回収後はさらにPCR増幅し、1μg以上の量に増やす。

そしてサイズごとに分けてライブラリ作製 → シークエンス、という流れです。

なんでサイズに分けるかというとですね、前にも書いたかな? サイズによってZMWウェルの中への入りやすさが違うからです。
これを「ローディングバイアス」と言います。
短いライブラリほど、優先的にウェルに入る傾向にあるから、できるだけサイズをそろえてあげて、別々のセルで読む必要があるのです。

しかーし、ここに問題があります。

増幅バイアスです。

PCR増幅されやすいライブラリ配列は、どんどん増幅され、指数関数的に増えていきます。
つまり、転写量はわからなくなります。

というわけで、スタンフォード大のDr. Tilgnerらは、増幅していません。
ローディングバイアスと増幅バイアスを天秤にかけ、どちらを取るか。
転写産物の量をできるだけあるがままに解析するには、増幅はしないほうが良い。
という判断のもと、サイズセレクションはしませんでした。

数百万もの細胞を使って大量にRNAを抽出、RT-PCRでcDNAにしたあと、できるだけ増幅バイアスをかけずにライブラリを作製、シークエンスしています。

1株につき32セルを使用し、711,000本のCCSを取得、これらをゲノムにマッピングした例が下の図です。
Tilgner et al.
Exon-Intronがはっきり分かれてマップされているのがわかりますね。
これ、1本が、1分子のRNA (cDNA) を全長で読んだ結果なんですよ。
アセンブリしていません。

このような図は、もちろんサイズで分画したライブラリでシークエンスしても得られます。
誤解の無い様付け加えると、このようなWhole Transcriptomeの実験でも、サイズ分画した例はいくつもあります。 論文も出ています。
むしろPacBioとしては、どんな場合もIso-Seqは、サイズ分画を勧めているくらいです。
それは先ほど説明した、ローディングバイアスを避けるため。
アイソフォームの量よりも、種類を得る目的に使用してもらうためです。
なのでIso-Seqは、「新規のアイソフォームの種類を発見しよう!」という目的に向いています。

さて、Dr. Tilgnerらの論文は、HiSeqのデータも持っているので、アイソフォームごとの発現量推定も行っていますし、さらにアレルごとの転写産物解析にもチャレンジしています。
とはいっても結構、シークエンスコスト、解析コスト共にハードルが高いので、現実的かどうかは意見の分かれるところです。


Whole Transcriptomeはちょっと・・・ フルコースより単品が良い、ってひともいるでしょう。
見たい遺伝子はある程度決まっている。
他の遺伝子はあんまり興味は無い、というかた。
ターゲットIso-Seqはいかがでしょう?

この論文は、特定の遺伝子にフォーカスしてSplice Variantをシークエンス解析した例です。


完全長の neurexinの遺伝子配列を特異的プライマーで増やし、シークエンスします。
あらかじめ大体のサイズがわかっていますから、コントロールしやすいですね。

転写産物の長さは、4~5kbらしいです。結構長い。
PacBioシークエンスは少なくとも1パスは完全に全長を読んでいたものだけを解析に使用しています。
そうして参照配列にマッピングしたあと見てみると、Nrxn1αについては取得できた2,574本の完全長cDNAから247種類のアイソフォームを分類できました。
Treutlein et al.
ターゲットIso-Seqの利点は、全トランスクリプトームを対象にしているわけでは無いので、セル数が比較的少なく済む点です。

これは論文に出てくる数字をまとめたものですが、使用したセル数にばらつきがあるのがわかります。
6セル使ったライブラリのサイズは4.5~4.7kb、比較的長い。
1.5kbくらいのライブラリに対しては、2,3セルで十分量のデータが得られているとのこと。

Movie時間が90分ですが、今(2014年8月現在)は最高180分まで読むことができます。
なので、今同じ実験を組んだら、セルの数はもっと少なくて済むはずです。


Whole Iso-SeqかTarget Iso-Seqか?

目的によって分かれるでしょうが、どちらにしても、遺伝子の転写の姿が、アイソフォームの姿が、今までよりはっきりとわかる、このアプリケーションはとても魅力的だと思いませんか?

実際使ってみたい!
こんなふうな実験は可能か?
といったアイデアがある方は、お知らせください。
ディスカッションしましょう!


0 件のコメント:

コメントを投稿