完全長マウスゲノムの完成

克服された問題
これまでマウスのゲノムに塩基配列の未決定領域が残っていた理由は、ゲノムの複数箇所に存在している塩基配列の類似性の高い領域が解読を妨げていたからです[図A:染色体におけるテロメア・セントロメア・リボソームDNAの模式図]。テロメアは各染色体の両末端に存在する繰り返し配列(TTAGGG)で、テロメア結合タンパク質とともに染色体末端の保護を担っています。セントロメアは染色体の短腕と長腕が交差する部分にある反復配列からなる領域で、ヒトではほとんどの染色体のほぼ中央にある一方、マウスでは短腕のテロメアに近い位置にあります。リボソームDNAはリボソームを構成するRNAを生み出す領域であり、ほぼ同じ塩基配列からなる数千塩基対を1つの構成単位として、一部の染色体に複数単位あります(ヒトでは約45,000塩基対のユニットが13、14、15、21、22番染色体の短腕に存在;マウスでは約38,000〜約53,000塩基対のユニットが12、15、16、18、19番染色体に存在)。塩基配列の類似性が高いこれらの領域は技術的に再構成しづらく、また、従来の技術ではこれらの領域の全長を一度に解読できなかったため、ゲノムの塩基配列を解読するとき、これらの長さや染色体上の位置を正確に決められませんでした[図B:ゲノム解読の工程]。

背景にある技術革新
ヒトやマウスの完全長ゲノムを解読できた背景には、大別して2つの技術革新があります9。
代表的な技術革新の1つ目は、第3世代シークエンサー(長鎖型シークエンサー)です[図C:ジデオキシ法・次世代シークエンサー(短鎖型シークエンサー)・長鎖型シークエンサーの比較]。キャピラリー電気泳動を使ったジデオキシ法(サンガー法)よりも高効率・高生産性に塩基配列を解読できる次世代シークエンサーは、A・T・G・Cを判別する正確性には長けていました。しかし、次世代シークエンサーがひとつづきに解読できる塩基配列の長さは、最大で300塩基対ほどでした(Illumina社やMGI社等の短鎖型シークエンサー)。このため、ゲノムに多数存在する数十〜数百塩基対の繰り返し配列や数万塩基対におよぶ類似性の高い配列は、次世代シークエンサーを使っても解読できませんでした。しかし2018年に、約10万〜約90万塩基対という非常に長いDNAをひとつづきに解読できるウルトラ ロングリード技術がOxford Nanopore Technologies(ONT)社から発表10されました。さらに翌2019年には、平均1万4千塩基対のDNAを99.8%の精度で解読できるhigh-fidelity(HiFi)技術が、PacBio社から発表11されました。これらの長鎖型シークエンサーの開発が転機となり、従来の短鎖型シークエンサーに起因するゲノムの塩基配列の解 読における問題は解決されました。

もう1つの代表的な技術革新はHi-C12です[図D]。もともとHi-Cは、ゲノムの高次構造(クロマチン相互作用)を網羅的かつ高効率に検索できる技術として、2009年に発表されました。しかし2013年から、同一DNA分子の遠距離間の相互作用を調べられるHi-Cの特長が、ゲノムの塩基配列の再構築にも活用され始めました13–15。今ではHi-Cは、同じ染色体上にある塩基配列を選んで並び順も決める有効な手法として、標準的になっています。


大阪大学大学院医学系研究科 廣瀬直毅