慶應義塾大学先端生命科学研究所慶應義塾大学先端生命科学研究所

論文/ハイライト

HOME 論文/ハイライト 研究ハイライト 論文ハイライト ゲノム解析統合環境 G-language Systemのウェブサービス

ゲノム解析統合環境 G-language Systemのウェブサービス

World Wide Webの仕組みを使うことで,ブラウザさえあれば誰でも簡単にゲノム解析が可能に

Kazuharu Arakawa*, Nobuhiro Kido, Kazuki Oshita and Masaru Tomita. (2010) G-language genome analysis environment with REST and SOAP web service interfaces. Nucleic Acids Research, 38, W700-W705.

  バイオインフォマティクスの発展は目覚ましく,多様化する研究に合わせてさまざまな分野でうみだされる膨大なデータを解析するために,多数のソフトウェアツールが開発され,公開されている.これらの解析ツールは通常単独で完結するものではなく,実際に研究を行う過程では,複数のツールを組み合わせることによって複雑な生命現象を明らかにしていく.そんな時に問題になるのがソフトウェアの相互運用性(Interoperability)だ.一般のソフトウェア同様に,Windows専用,Linux専用,あるいはMacOS X専用のツールが存在することはもちろん,研究のためのソフトウェアは特定のバージョンのOSを要求したり,依存する外部ツールやソフトウェアライブラリすることが少なくない.また,各ソフトウェアが入出力するファイルの形式もさまざまで,実際にこれらを組み合わせて使うには多くの労力が必要だ.そこで注目されているのが,ウェブサービスという新しいソフトウェア形態である.ソフトウェアをサービスとして提供することで,研究者はインターネットを介して,プラットフォームやバージョンなどの違いを意識することなくソフトウェアを利用することができる.

 荒川和晴講師らは主にバクテリアゲノムのさまざまなゲノム解析のため,2001年からゲノム解析統合ソフトウェア環境G-language Systemを開発している.G-language SystemはUNIX系統のさまざまなOS上で動作し,100以上ものゲノム解析ツールとライブラリを持つ解析環境として,内包するツールやサポートするさまざまなデータ形式の間での相互運用性を実現しているが,今回外部のツールからこのG-language Systemの機能を容易に利用できるように,本システムをウェブサービスとして提供開始した.ウェブサービスはインターネットを介してソフトウェアを実行可能にする仕組みだが,その要素技術としてはXML-RPC,SOAP,あるいはREST (Representational State Transfer)といったさまざまな実装方法が存在している.今回荒川講師らは既にバイオインフォマティクス向けウェブサービスとして広く浸透しており,ソフトウェアライブラリからの利用に適しているSOAPによるものと,比較的新しい技術でありより簡便に扱うことができるRESTによる2つの方式でG-language Systemをウェブサービスとして公開した.

 XML-RPCやSOAPによるウェブサービスの利用はプログラミングの知識を必要とし,また特定のソフトウェアライブラリがなければ実装が困難であるなど,多くの研究者に利用してもらうためには敷居が高い点が否めない.一方,RESTによる実装はWorld Wide Webで利用されているURLとHTTPに基づいており,ウェブブラウザさえあれば比較的容易に扱うことができる.例えば,バクテリアゲノムがその複製によって受ける選択・変異圧の結果生じる塩基組成の偏り(ストランドバイアス)を可視化する解析手法としてGC skewというものがあるが,大腸菌でこれを解析したい場合,http://useG.jp/ecoli/gcskew というURLにアクセスするだけで解析結果をグラフとして得ることができる.マイコプラズマ菌のGC skewを1000塩基のウインドウサイズで観察する場合はhttp://useG.jp/mgen/gcskew/window=1000/,GC skewではなくコドン使用頻度を計算したい場合は http://useG.jp/mgen/codon_usage といった具合に,URLをコマンドのように扱うことによって,G-language Systemが持つ100を超える機能にどこからでも簡単にアクセスすることができるのだ.

 RESTによるウェブサービスは,その簡便さから利点が多く,実装もまた容易であるように見えるが,実際にこれを実装する場合には多くの工夫が必要だったと荒川講師は語る.HTTPに基づいてブラウザ上でURLを入力して解析を行う場合,ゲノム解析のように非常に高度な計算と大量のデータ処理を要求するものであっても,極めて短い時間で結果を表示する必要がある.前述の例では瞬時に結果のグラフが表示されるため,一見生成された画像を表示しているかのように思えるが,実際にサーバ上では動的にゲノム解析を行い結果を出力しており,「このように高速な計算が可能なG-language SystemだからこそRESTによる使いやすいサービスが実現できた」と荒川講師は言う.

 定量的かつ網羅的な測定技術の進歩により,さまざまな角度から細胞を分析することが可能になった今日,膨大な測定データを効率良く処理してあらたな知見を導きだすためにバイオインフォマティクスはもはや分子生物学とは不可分な学問だと認識されてきている.その研究にはさまざまな解析ソフトウェアが必要で,これらの相互運用性の重要性は高まるばかりである.G-language Systemをはじめとする世界中のあらゆるツールをより多くの研究者が簡単に利用できるようになれば,生命に関する謎の多くが明らかになる日も近くなるはずだ.

Image

[ 編集: 高根香織 ]

TOPへ