2013年4月1日月曜日

リピートの秘密


PacBioの紹介プレゼンで良く登場する(させている?)のが、fragile X mental retardation 1 (FMR1)脆弱X症候群関連遺伝子の、CGGリピートを読んだ例。
この遺伝子は、5’-UTR領域にCGGリピートがあるのですが、これが55リピート未満なら正常、55以上ならその数によって、例えば200-1000リピートになると、その部分がメチル化されて正常なmRNAが転写されず、結果として運動失調や自閉症などの疾患を引き起こすそうです。OMIM Number: 309550

CGGCGGCGGCGG....と、CGGの3塩基単位がずーっと続くような配列、通称3塩基リピート(Trinucleotide repeat: TNR)と言います。
50リピートだと150塩基、普通のNGSシークエンスでもいけそうです。
200リピートだと600塩基、ショートリードでは無理ですね。
500リピートだと1500塩基、そろそろサンガーでもきつい。
750リピートだと2250塩基、これはもう無理。

で、PacBioの出番となったわけです。

ケーススタディのダウンロードはここから

昨年サンフランシスコでの人類遺伝学会でもHagerman氏の講演がありました。
また論文も出ましたね。(Loomis et al., Sequencing the unsequenceable: Expanded CGG-repeat alleles of the fragile X gene (2012) Genome Research. リンク )
リピートを読むのはチャレンジングですが、PacBioなら、何とか読める気がします。
勿論、解析はオートメーションではできませんから、その意味でも「チャレンジング」です。

リピートといえば、3塩基リピートだけでも色んな種類があるのですね。
ちょっとググったらわかったのですが、ヒトゲノムにある3塩基リピートでも
AAT, AAC, AAG, AGG, ATC, ACC, CAG, CGG, ACT, GAC などがあるそうです。

Kslowski et al., Trinucleotide repeats in human genome and exome. (2010) Nucleic Acids Research. リンク 
この論文で面白かったのは、リピートは種類によって、ゲノムに多いもの、Exomeに多いもの、それぞれ差があるということ。 
ここでリピートの定義は、3塩基が6回以上連続する配列、ゲノムはhg18、ExonはRefSeqを基準にしたそうです。
そうすると、ゲノムに対してExomeで良く出現するリピート上位3位は、CGG、CAG、AGG
逆にAAT、AAC、AAGなどはゲノムに多く出現するそうな。

でも、これはリファレンスゲノムを見て、の話しなんですよね。
hg18は、確かほとんどがサンガーシークエンスで読んでまとめられたゲノム配列だから、サンガーで読めなかった場所は、当然カウントされていない。
とすると、もし、将来(近い将来)、ロングリードで今まで読めなかったリピート領域を読んでリファレンスゲノムが作り替えられたら、上記のグラフは大きく変わるでしょうねえ。

そんなことを考えながら、リピートリピートと、テーマを探す最近です。


0 件のコメント:

コメントを投稿