2015年4月14日火曜日

ターゲットリシークエンス 続き 一般論

2回にわたって、PacBioでのターゲットリシークエンスについて書いてきましたが、今日はPacBio関係ではありません
Pacは次回までお休み


ターゲットリシークエンスをした後の解析のひとつが、変異検出です。
そういえば、この「パックマンの挑戦」ブログを始める前に書いていた、「ショートリードの憂鬱」ブログでは、良くこの変異検出について書いたものでした。

見返したところ、2011年7月に、Exome 解析 non-synonymous SNVを見つけた後は・・・というタイトルで、SNV(SNP)を見つけた後に行なう解析あれこれ、みたいなことを書いていました。
今から4年前、フリーツールを駆使して、見つけたSNPをフィルタリングしたり、意味付けしたり

人類遺伝学会などでは毎年、ヒトゲノムリシークエンス、エキソームシークエンス、など、NGS(主にショートリードだけど)を使用した大規模プロジェクトの発表を聞きます。
特にアメリカは、やたらヒトゲノム読んでいますね。大きな病院を拠点にして、周辺の大学や病院と、患者ゲノム情報を共有する、、、なんて話を3年前のASHGでも聞きました。

遺伝子検査ビジネス大手、deCODE社やAmbry Genomics社も、やはりヒトゲノム、またはエキソームを読んで、検出したSNVを、データベースと照らし合わせて意味付けをしています

そういう会社、大学、プロジェクトは大抵、解析パイプラインが決まっています
どのゲノムリファレンスを使うか、マッパーは何を使うか、変異検出ツールは何をつかうか・・・等
逆に決まっていないと、後でデータ間比較をしたいときに整合性がとれない

例えば、BWAでHG19にマップしてGATKで変異コールして・・・という流れでも、途中のfastqフィルタリングやマッピングパラメータ、冗長性除去の有無など、いろいろ決めなければいけない項目はあるはずです

さて、決められたルールに従って変異が検出されたとしましょう
この後はその変異の意味付けです

意味付け?

先の「ショートリードの憂鬱」ブログにも、いろいろSNVフィルタリングを紹介したのですが、ナレッジを使った意味付け、というのもあります

ナレッジって何でしょう。これは論文や発表、色んな種類の公開データを、人間が精査して集めたデータベースです
SRA(sequence read archive)のようなNGS配列データベースは、中身のデータ量が爆発的に増えていますが、ここではナレッジに入れないでおきます。

ナレッジのわかりやすい例は論文です。
世界最大の医学生命科学論文データベース・MEDLINEは、今や2400万件の論文を保持しているそうです(5年前くらいまでは、1400万件と言っていましたからその増加分たるや!)

論文をまとめて遺伝子同士の関係や、化合物との関係をまとめたデータベースが、実は結構価値あるんですよ。
私も前職でPathway Studioというソフトを扱っていたのでわかるんですが、遺伝子を中心にして
周辺のレギュレーターとかを検索するのが、わずか数分でできてしまうんです
残念ながらこのソフトは某大手出版会社に買収されてしまいましたが

で、そのころはマイクロアレイなどの実験の解析に、論文ナレッジデータは使われていたのですが、今や時代はNGS(と言ったらアレイやっているひとに怒られるかな? アレイはアレイで、良いところたくさんあります!)

先のようにリシークエンスをして、変異解析をしたら、VCFというフォーマットのファイルでSNVを表現すると思います。
このファイルには、SNVの場所情報が記載されている
どこの遺伝子のどこに変異があったか、がわかる

そんな遺伝子が、今わかっている遺伝子間の制御関係において、どこに位置するのか?
それはどんな機能のパスウェイに影響するのか?
変異が起こったことによって、どんなフェノタイプに関連すると示唆されるのか?

というような情報がナレッジによってわかってくるのです。

さ、前置き長くなりましたが、そういうナレッジの解析をクリック&クリック、簡便化して行うことができるソフトウェアがあります。
~Ingenuity Variant Analysis~

自社の製品の宣伝になってますが、今、市場にあるどんなソフトウェアより使いやすいしわかりやすい
Pathway Studioもここまで頑張れば良かったのに・・・ と思ってしまいました

5月29日まで無料解析キャンペーンをやっています
このチラシの裏面のチャートがわかりにくい、という方、とりあえずNGS使ってヒトでリシークエンスやっていて、VCFまで出したけど、変異の絞込みこれでいいのかなあー?ってちょっと不安に思っていて、まあアンケートに協力してやってもいいかな? 
って思っているひとなら誰でも申し込みOKです
申し込みはこちら



このソフトで使われているナレッジは、人間が実際に論文を読んで集められたもの。
すごい人海戦術です。インド人恐るべし

しかし将来は、人工知能がこういうナレッジを作るのでしょうか
2045年問題(コンピュータが人間の脳を超える日)というのがありますが、コンピュータによる論文からのナレッジ抽出は、実は前述のPathway Studioで10年前に実現されていました。
もちろん完璧ではなくミスもありました。(ああ懐かしい!ちなみにPathway Studioはロシア製)


2045年は今からちょうど30年後
30年後を待たずとも、データベース検索や、もっと言えばシークエンスデータからのフェノタイプ予測などが、人工知能で全部できる時代が、意外と早く来る予感がします。
そうなったとき、世界はどうなっているのでしょうね。

今から30年後

子供の世代の生命観は、全く予想がつきません

0 件のコメント:

コメントを投稿