慶應義塾大学先端生命科学研究所慶應義塾大学先端生命科学研究所

研究紹介

HOME 研究紹介 研究ハイライト 論文ハイライト Chaos Game Representationによるゲノムのフラクタル解析

Chaos Game Representationによるゲノムのフラクタル解析

複雑系カオス理論を応用した新規ゲノム可視化手法を開発

Arakawa, K., Oshita, K. and Tomita, M. A web server for interactive and zoomable Chaos Game Representation images. Source Code Biol. Med.,4, 6.

 「シェルピンスキーのギャスケット」や「コッホ曲線」で知られるフラクタル図形は,図形の部分と全体が自己相似形になっているもので,自然界でも海岸線や樹木の枝の形など,いたるところで見つけることができる.また,フラクタル図形は有限の面積の中に無限の長さを持つことができるため,わたしたち人体内でも血管の分岐構造や腸の内壁など表面積を必要とする器官はフラクタル構造をもつことが多い.「シェルピンスキーのギャスケット」と「コッホ曲線」は共に正三角形をもとにして,単純なルールを繰り返すことによって描くことができるが,同様に一見不規則な変動(カオス)を元にしても,隠された法則性と十分な反復回数があれば,無作為な手順によってグラフを描くことでカオスアトラクターと呼ばれるフラクタル図形を得ることができる.このようにしてカオスからフラクタル図形を作ることは「カオスゲーム」と呼ばれる.

 ゲノムの塩基配列情報は一見ランダムに見えるが,遺伝子をコードするために隠れた規則性を持っている.そこで,1990年代からJeoffreyらによってゲノム塩基配列のカオスゲームの応用が提案され,研究されてきた.ある生物のゲノムは,通常"Genomic Signature"(ゲノムの署名)と呼ばれる固有の2塩基頻度分布を持つが,同様にカオスゲームによって得られたChaos Game Representation(CGR)も固有のパターンを示す.このように,ゲノムの大きさに依存しない生物種間の特徴比較や,特徴的な塩基配列の存在にCGRは利用されてきた.また,数学的にはCGRは塩基配列のマルコフ遷移確率表を非正数度数に一般化しものであることがAlmeidaらによって示され,あらゆる長さの塩基配列のマルコフ性(ある並びが来た時にどういう配列が次に並びやすいか,という確率論モデル)を解析する上で有用であることが注目されてきている.

 一方で,CGRを一般化マルコフ遷移確率表として用いるにはいくつか問題がある.まず,通常のピクセル画像としてCGRを扱うかぎりはその解像度に限界があり,長い配列や長いマルコフ性の観察ができない.また,CGR自体は単なる点の集合であるので,内部の座標系がマルコフ遷移確率表におけるどの配列に相当するのかを把握することができない.そこで,荒川講師らは多段階解像度をGoogle Maps APIを用いたZoomable User Interfaceによって表現し,相同な座標系を持つオリゴ配列表とユーザ入力による座標ハイライトを実装することで,ユーザ操作を前提とした新しいCGR可視化手法を開発した.誰もが簡単に扱えるようにウェブサービスとして実装された本可視化手法を使えば,CGRによって特徴的なオリゴ配列の解析が容易になる.

 先端科学においては,研究者の発想を支援するための可視化手法が欠かせない.一方で,複雑化を続ける現代科学のデータは多次元・多階層化してきており,従来のように単純に画像として表現するだけではもはや十分ではない,と荒川講師は語る.そして,このような複雑なデータの可視化には,ユーザによる操作を前提とし,インタラクションによって表現を変えるような可視化が必要であり,ユーザインタフェースを含めた可視化が今後のサイエンティフィックビジュアライザーションの進むべき道,だと言う.情報学と生物学の融合によってうまれたバイオインフォマティクスという先端領域においては,可視化という科学研究における基本的なもののあり方もまた変わっていかざるをえないようだ.



Image

図1. シェルピンスキーのギャスケット(左)とコッホ曲線(右) (Wikipediaより)
共に正三角形からはじまり,各辺の中点を結んだ三角形を再帰的に作成することでシェルピンスキーのギャスケットを,各辺を三等分して中央に新たな三角形を作ることによりコッホ曲線を描くことができる.

図2. 大腸菌(左)とシアノバクテリア(右)のChaos Game Representation

TOPへ