2012年5月29日火曜日

PacBio RS に付属するソフトの概要

この間「NGS現場の会」で、参加者のひとたちと話していて、気づきました。
PacBio RS に付属するソフトウェア、について今までブログで全然触れていなかった、と。

"PacBio RS Software and Data Analysis" という、最近出来立てのチラシがあるんですが、その中にこんな絵があります。


中央下のシーケンサーから時計回りに、
  • RS Remote
  • RS Touch
  • SMRT Portal
  • SMRT View
  • DevNet
とあります。このうちDevNetはPacBioのサイトで、開発中のツールなどを提供しているもので、今日は含めません。

では、順番に説明します。

  1. RS Remote: ユーザの用意したWindows PC にインストールします。 ここでランの設定や、実行中のランの様子を確認します。 終わったランの、時間軸でのジョブの様子を見ることもできます(例えば何時に何番目のセルのランが行われていたか、など)
  2. RS Touch: シーケンサー本体にインストールされていて、タッチパネルから操作します。 主に、RS Remoteで設定し保存されたランを、実行する時に使います。 実行中のランの様子をここからも確認できます。 装置のエラー(温度やレーザーの異常、データの転送エラー)などがあれば、この画面に表示されます。
  3. SMRT Portal: ユーザが2次解析を行うときのウェブブラウザアプリです。 ユーザは、用意したLinuxサーバに、SMRT Analysis という2次解析ソフトをインストールします。 SMRT Portalは、このSMRT AnalysisソフトのGUIで、Internet Explore, Fire Fox, Google Chrome のブラウザに対応しています。 SMRT Analysisについては後ほど。
  4. SMRT View: いわゆるゲノムブラウザです。 Java で動き、Mapping の結果などを参照できます。

これらのソフトは似たような名前なので、最初は良くごっちゃになりました。 
特に、RS RemoteとRS Touchは機能が似ている上、名前も似ている。

そしてこれはデータの流れをまとめた図。 
ランの設定をするのがRS Remote(左下)
シーケンサー本体のRS Touch上でランを実行したら1次解析のデータ(ベースコール結果)が作られます。 この1次解析自体は、シーケンサー横の黒いベースコールサーバ(Blade Center)内で行われます。
1次解析データは、HDF5という階層型のデータフォーマットと、生のFastq、Fastaデータが含まれ、これらは自動的にユーザのストレージサーバに転送されます。 

次に、WebアプリであるSMRT Portal(中央下)から、ユーザは、SMRT Analysisにアクセスします。
SMRT Portal上で、ユーザは、ストレージサーバに転送された1次解析データをクエリに、2次解析(MappingとかAssemblyとか)の設定をします。

SMRT Analysisはストレージ内の1次解析データを呼び出し、計算をして、BAMやSAMなどの結果を指定した場所に書き込みます。
ちなみに2次解析のコマンド群をSMRT Pipeと呼んだりします。 
GUIで行いたい方向けに、SMRT Portalがあるんですが、CUIがいい!ってひとはこのSMRT Analysisをコマンドべースで使うのももちろんOK

SMRT Analysisの解析メニューは、

  1. BLASR(ブレイザーと発音)というPacのロングリードに向いたアライメントツール
  2. GATKのGenotyperを使用したSNP検出ツール
  3. ALLORA(アローラと発音)という名のアセンブラー
  4. ギャップフィルタリングやScaffoldingをするAHA(アハッ)
  5. そしてMethylation 検出
の5つが柱。 5のMethylation検出は今度のバージョン1.3.1から新たに加わります。 
これらについては、そのうち、例を出しながら書く予定。

さて、SMRT Analysisはユーザがサーバにインストールするわけですが、どんなサーバを用意すれば良いのでしょうか?

OSはUbuntu 10.0.4以降、CentOS 5.6以降
MySQL、bash shell、Perl v5.8.8以降、Perl XML parserがインストールされていることが必要です。

ハードウェアの最低条件
ヘッドノード: 16GB~32GBのメモリ、250GBのスペース
子ノード(5つ): コアあたり2GBメモリで、ノードあたり8コア、250GBのスペース
ストレージ: 約10TB

これに満たなくても動くことは動きます。
ただ、遅いかも。
メモリは多いに越したことはないけれど、ストレージのディスクを速いのにしたほうが、実行速度は高まるらしいです。 
私は、感覚的にはそうかなあ、って感じですが。

ということで、ユーザがインストールしなくてはならないのはRS RemoteとSMRT Analysisの2つ。
RS Remoteは普通のWindows PCで動くで問題無いが、SMRT AnalysisはそこそこなスペックのLinuxサーバが必要。
特に、大きなゲノムサイズに挑戦するには、メモリは多い方が良いです。



0 件のコメント:

コメントを投稿