慶應義塾大学先端生命科学研究所慶應義塾大学先端生命科学研究所

研究紹介

HOME 研究紹介 研究ハイライト 論文ハイライト Restauro-G:ゲノム再アノテーションソフトウェアの開発

Restauro-G:ゲノム再アノテーションソフトウェアの開発

Restauro-G:ゲノム再アノテーションソフトウェアの開発
メタゲノム時代を支援する高速再アノテーションソフトウェアで、比較ゲノム解析前にアノテーションの統一を


1.Tamaki S, Arakawa K, Kono N, Tomita M.(2007) Restauro-g: a rapid genome re-annotation system for comparative genomics.
Genomics Proteomics Bioinformatics. 5(1):53-8.

 ゲノム配列の高速シーケンシングが可能となり、大量のゲノム情報が蓄積されてきたことを受け、生物種間で遺伝子の配列や構成を比較しようとする、いわゆる比較ゲノム解析が盛んである。また、メタゲノム解析と呼ばれる、同じ環境の中にいる大量の微生物のゲノムを一気に読んで比較し、環境と遺伝子の関係を解析しようとする試みも注目されている。

 生物種の全ゲノムが読まれると専門家による註釈付け(アノテーション)が行われ、ゲノムのどの領域に何の遺伝子があるか、といった情報が付け加えられ る。公開されているゲノムファイルの多くはこのアノテーション情報を含んでおり、ゲノムの解析に不可欠な情報を提供している。ところが、アノテーションを 行うために用いられた手法は生物間、遺伝子間で必ずしも一致しない。つまり、ゲノムファイルによって含まれる情報の信頼性や根拠とするものが異なっている のである。

 ゲノムの比較を行う際には、同じ手法で得られた統一性のあるアノテーション情報が必要である。そこで玉木らは、自動かつ高速にゲノムを再アノテーションするソフトウエア、Restauro-Gを開発した。

 Restauro-Gは、GenBank形式やFASTA形式などで記述されたゲノムファイルを与えるだけで、自動で再アノテーションを行いその結果を 出力する。この時、必要に応じて最大7種類のデータベースに対して問い合わせを行う。配列の相同性検索では最も信頼性の高い結果を選択し、その信頼度を示 すアルゴリズム(レベル分け機能)を採用している。出力結果には、既存のアノテーション情報と重複しないように新しい結果のみが追加される。また、ユー ザーが必要に応じて基本設定を変更することで、その時に得られたアノテーション情報のみが付いたゲノムファイルを作成することもできる。

 例として、大腸菌K-12株のゲノムを用いると、約5分で再アノテーションが完了し、EMBLとの比較において99%のアノテーションが一致していた。 一致しなかった1%はデータベースの更新頻度が異なることに起因している。特にSwiss-protは更新が早いため、バージョンが異なっていることが多 い。また、アノテーションの中でも、遺伝子のコーディング領域はしばしば変更されているため、注意が必要である。Restauro-Gを使うと最新のデー タベースを利用して再アノテーションすることができるので、より信頼性のあるアノテーションが得られるのである。

 ゲノムのアノテーションに用いられた当時のデータベースの内容と現在公開されているデータベースの内容は、ソフトウエア開発時の精度検証が困難なほどに 異なっていたという。アノテーションという確立された分野に対して、データベース間の更新頻度の違いから生まれる問題について提起し、かつ統一的なアノ テーション手法を提案したことは、今後の網羅的なゲノム解析時代を見越した必須のアプローチであったと言えるだろう。

 また、本研究所で開発されている統合ゲノム解析プラットフォームG-languageとの連携も既になされている。次々と解読されるゲノム情報が高精度 かつ統一的なアノテーションをされ、高機能なゲノム解析環境と融合することによって、更れたなりれれる一基準によるの新たな知的発見のプラットフォームが 完成してゆくのである。

[ 編集: 小川 雪乃 ]

TOPへ