慶應義塾大学先端生命科学研究所慶應義塾大学先端生命科学研究所

論文/ハイライト

HOME 論文/ハイライト 研究ハイライト 論文ハイライト コドンバイアスに及ぼすG+C含量バイアスの寄与度を定量化

コドンバイアスに及ぼすG+C含量バイアスの寄与度を定量化

コドンバイアスとコドン3文字目のG+C含量の相関は細菌ゲノム間で大きく異なる

Suzuki, H., Saito, R. and Tomita, M. Variation in the Correlation of G+C Composition with Synonymous Codon Usage Bias among Bacteria. EURASIP J Bioinform Syst Biol.(2007/9/4 )

 遺伝子は細胞の部品であるタンパク質の設計図であり、コドンと呼ばれる連続した3文字のDNA分子でタンパク質を構成するアミノ酸を指定している。例えば、ATG-GTT-TTCというDNA塩基配列は、AUG-GUU-UUCというRNA塩基配列に転写された後、Met-Val-Phe(メチオニン-バリン-フェニルアラニン)というアミノ酸配列に翻訳される。


 4種類ある塩基の3文字の組み合わせ(64通り)はアミノ酸の種類(20種類)よりも多いため、ほとんどのアミノ酸には複数のコドンが対応している。同一のアミノ酸を指定するコドンは同義コドンとよばれ、1文字目と2文字目の塩基が共通で、3文字目だけが異なる場合が多い。例えば、バリンに対応するコドンは、GUU、GUC、GUA、GUGの4種類であり、3文字目はどの塩基でもかまわない。遺伝子における同義コドンの使用頻度は必ずしも均等ではなく、ゲノム固有、もしくは遺伝子固有の偏りを示す。大腸菌の全遺伝子ではバリンを指定する同義コドンのうちGUGを一番多く使うが、リボソームタンパク遺伝子群だけでみるとGUUを偏って使用している(図)。

 細菌ゲノムのG+C含量はさまざまで、4文字の塩基が均等に使われている生物もいれば、実に全ゲノムの75%がG+Cに偏っている種も存在する。このようなG+C含量の偏りが同義コドン使用頻度の偏り(コドンバイアス)に影響を及ぼすということが、これまで多くの生物で研究されてきた。しかし、この寄与の程度を異なるゲノム間で定量的に比較する試みがなされたことはなかった。そこで鈴木博士らは、エントロピーと相関係数を用いて、G+C含量バイアスがコドンバイアスに及ぼす影響の定量的な評価に取り組んだ。

 鈴木博士らは、まず各遺伝子のコドンバイアスの程度を定量化することから始めた。従来、各遺伝子の同義コドン使用の均等度を測るためには、Shannonの情報理論のエントロピーが用いられてきた。しかし、この手法はアミノ酸使用の3つの側面(種類数、相対度数、およびコドン縮重度)を考慮しない。そこで、これらの3側面を考慮する新しい手法として、相対エントロピーの加重合計 -- The weighted sum of relative entropy (Ew) を開発した(Suzuki et al., 2004)。Ewは、各アミノ酸の同義コドン均等度(相対エントロピー)を、各アミノ酸の相対度数により重み付けし、それらを合計した値として定義される。また、従来の手法と比較したところ、アミノ酸使用バイアスの影響を最も受けにくく、コドンバイアスの程度を定量化する手法としての有効性を証明することができた。

 次に、エントロピーを用いて、各遺伝子のG+C含量バイアスの程度(G+C含量とA+T含量の均等度)を定量化した。最後に、相関係数(r値)を用いて、コドンバイアス(Ew)とG+C含量バイアスとの間の相関の強さを定量化した。このr値を用いることで、初めて定量的な比較ゲノム解析が可能となった。

 これまでに、コドン1文字目のG+C含量(GC1)やコドン2文字目のG+C含量(GC2)と比較して、コドン3文字目のG+C含量(GC3)は、コドンバイアスに及ぼす寄与が最も大きいことが報告されている。この点に関しては、GC1、GC2、GC3に対応するr値を比較することによって、既知の通りであることを定量的に確認することができた。ここで、従来コドンバイアスとGC3との間の相関は、生物種によらず普遍的に認められると考えられてきたが、定量的解析の結果、GC3のr値は-0.07(無相関)から0.95(強い相関)の非常に広い範囲を示し、コドンバイアスに及ぼすGC3の寄与は細菌ゲノム間で大きく異なることが認められたのである。

 コドンバイアスを形成する要因としては、ゲノムG+C含量を変化させる(G+CまたはA+T方向の)変異圧の偏りや、高発現遺伝子で翻訳過程を効率的に行うコドンの選択などが考えられている。コドンバイアスに及ぼすGC3の寄与度(r値)は一般に、ゲノムG+C含量が50%から離れる(G+C、もしくはA+Tに富むゲノム)ほど大きくなるものの、いくつかの例外も認められている。Nanoarchaeum equitans Kin4-MとMycoplasma genitalium G37はゲノムG+C含量がいずれも32%と同程度であるが、r値はそれぞれ0.34、0.87と大きく異なっている。また、Thermococcus kodakarensis KOD1はゲノムG+C含量が50%程度であるが、r値は0.86と高い。これらの例外の存在は、コドンバイアスとGC3の相関関係には、ゲノム規模での変異圧が主たる影響を及ぼしてはいるものの、他の要因も関与していることを示唆する。例えば、ゲノム内の遺伝子間でG+C含量やコドン使用が異なる要因のひとつとして、遠縁種間の遺伝子水平伝播が提唱されている。

 コドンは遺伝暗号の一番基礎的な単位であり、この使用頻度の偏りを調べることは生命現象のもっとも根幹的な「翻訳」や「発現」などの機構を知る上で重要な手がかりとなる。そればかりか、ある生物やそのゲノムがどのように進化してきたかを探る痕跡ともなりうる。そのためには多くのゲノムを定量的に比較できなければならない。鈴木博士らによって確立されたコドンバイアスを定量的に解析できる技術は、コドンバイアスを形成する新規要因を発見したり、コドンバイアスに基づいて高発現遺伝子や他の生物種から水平伝播してきた遺伝子を予測したりする場合に有効な技術となるだろう。


参考文献:
Suzuki H, Saito R, Tomita M."The 'weighted sum of relative entropy': a new index for synonymous codon usage bias."Gene. 2004 Jun 23;335:19-23.

Suzuki, H., Saito, R. and Tomita, M."Variation in the Correlation of G+C Composition with Synonymous Codon Usage Bias among Bacteria,"EURASIP. J Bioinformatics and Systems Biology.



図の説明:コドンテーブル。
大腸菌のリボソームタンパク遺伝子群におけるコドン使用の集計表。例えば、アミノ酸Valを指定するコドンはGUU、GUC、GUA、およびGUGの4種類があり、それぞれの集計値は306、65、154、および101個である。コドンテーブルは、バイオインフォマティクス解析のための汎用解析環境G-language Genome Analysis Environmentにより作成した。

TOPへ