大橋順「アジア人・日本人の遺伝的多様性 ゲノム情報から推定するヒトの移住と混血の過程」

 井原泰雄、梅﨑昌裕、米田穣編『人間の本質にせまる科学 自然人類学の挑戦』所収の論文です。ヒトゲノムとは、ヒト(Homo sapiens)が持つ遺伝情報(全DNA配列)の1セットのことです。あらゆる生物の基本単位は細胞で、赤血球以外のヒトの体細胞は核膜で囲まれた球状の細胞核を持っています。細胞核の中に染色体があり、各染色体はヒストンとよばれるタンパク質にデオキシリボ核酸(DNA)が巻きついた棒状の構造をしています。DNAの最小単位(ヌクレオチド)は、塩基と糖とリン酸から構成されています。塩基にはアデニン(A)とグアニン(G)とシトシン(C)とチミン(T)の4種類があり、ヌクレオチドにはそのうち1塩基が結合しています。ヌクレオチドはリン酸を介して鎖状につながっており、DNA鎖と呼ばれます。2本のDNA鎖の塩基同士は水素結合によりつながっており、二重螺旋構造となっています。向かい合う塩基の組み合わせは特異的で相補的な関係にあり、具体的にはAとT、GとCです。DNA鎖における4種類の塩基の組み合わせが塩基配列で、生物が正常な生命活動を維持するための遺伝情報が含まれています。ヒトゲノムは約31億塩基対により構成され、その一部(数%)はタンパク質のアミノ酸配列を規定しており、そうした部位はタンパク質コード遺伝子と呼ばれます。ヒトゲノムには、約25000個のタンパク質コード遺伝子が存在します。


●性特異的遺伝マーカー

 ヒトの細胞核には、22対の常染色体(ヒトは二倍体生物なので44本)と1対の性染色体(女性はX染色体が2本、男性はX染色体とY染色体が1本ずつ)が含まれています。卵子には必ずX染色体が1本含まれますが、精子にはX染色体を含むものとY染色体を含むものがあり、精子が卵子と結合すると、前者ならば女子、後者ならば男子が生まれます。Y染色体は父親から息子にのみ伝わるので、父親の系譜を反映する遺伝マーカーとしてよく利用されます。

 ミトコンドリアは細胞質に存在する細胞小器官で、エネルギー産生や呼吸代謝の役割を担っています。ミトコンドリアもDNAを含んでおり(mtDNA)、核DNAと同様に親から子供に伝わります。受精のさい、父親由来のミトコンドリアは卵子の中に入らないか、入っても破壊されるので、mtDNAは母親からのみ子供に伝わります。この母系遺伝の性質から、mtDNAは母親の系譜を反映する遺伝マーカーとして利用されています。mtDNAは男性も有しており、細胞内のDNA量が多く解析しやすいため、これまでに多くの研究があります。


●SNP

 配偶子が形成されるさい、ひじょうに低い確率ではあるものの、DNA複製エラーによる塩基配列の変化が起きることもあり、突然変異と呼ばれます。突然変異には、塩基置換、塩基の挿入や欠失、繰り返し配列における繰り返し数の増減などがあり、突然変異により生じた新たな塩基配列が、世代経過に伴って集団中で頻度が増加すると、多型として観察されるようになります。ヒトゲノム中で最も高頻度に観察される多型は、SNP(一塩基多型)です。SNPとは、着目する集団において、塩基配列上のある特定の位置に、2種類以上の塩基が存在する部位のことです。SNPの異なる塩基をアレル(対立遺伝子)と呼びます。ヒトの点突然変異(1塩基が別の塩基に置換されること)率は1世代1塩基あたり1.2×10⁻⁸と低いので、大部分のSNPには2種類の塩基しか観察されず、そのほとんどが単一起源と考えられます。単一起源とは、祖先型がGアレルで派生型がAアレルの場合、GアレルからAアレルへの突然変異は過去に1回しか起きていない、ということです。二倍体生物のヒトは両親から相同染色体を1本ずつ受け継ぐので、各SNPに対して3種類の遺伝子型が存在し、たとえばA/GのSNPでは、A/AとA/GとG/Gの3通りの遺伝子型が存在します。

 タンパク質コード遺伝子上にあるSNPのうち、塩基の違いにより異なるアミノ酸となるものを非同義SNP、同じアミノ酸となるものを同義SNPと呼びます。多くのSNPはアメリカ国立生物工学情報センター(National Center for Biotechnology Information、略してNCBI)に登録されており、rsで始まるIDが付与されています。SNPを構成する2つのアレルのうち、頻度の低い方はマイナーアレル、頻度の高い方はメジャーアレルと呼ばれます。NCBIのdbSNPデータベースには、マイナーアレル頻度が1%以上の非同義SNPが101000個以上、同義SNPが89000個以上登録されています(2020年10月27日時点)。

 日本人を含むアジア東部人に特徴的な表現型を示すSNPに、ABCC11遺伝子上の非同義SNP(rs17822931)とEDAR遺伝子上の非同義SNP(rs3827760)があります。ABCC11はABC(ATP binding Cassette)トランスポータータンパク質の一つで、乳腺やアポクリン腺などの外分泌組織で作用するタンパク質です。rs17822931はABCC11タンパク質の180番目のアミノ酸残基がグリシン(Gアレル)もしくはアルギニン(Aアレル)となるSNPで、アルギニンとなるアレル頻度がアジア東部人では高く、A/A遺伝子型だと耳垢は乾燥型に、G/AもしくはG/G遺伝子型だと耳垢は湿った型になります。EDARはエクトジスプラシンA受容体で、胚発生において重要な役割を果たすタンパク質です。rs3827760はEDAR タンパク質の370番目のアミノ酸塩基がバリン(Tアレル)もしくはアラニン(Cアレル)となるSNPで、Cアレルを持つほど毛髪が太くなり、また切歯のシャベルの度合いが強くなります。乾燥型の耳垢と関連するrs17822931のAアレルには、アジア東部人の祖先集団で強い正の自然選択が作用した可能性が高く(関連記事)、それが明瞭な地域差を生じさせた、と考えられます。


●減数分裂と組換え

 生殖細胞系列で起こる細胞分裂の様式は減数分裂と呼ばれ、細胞が通常増殖するさいの様式は有糸分裂もしくは体細胞分裂と呼ばれます。減数分裂が体細胞分裂と異なる点は、染色体の複製跡に姉妹染色分体となり、2回連続して細胞分裂(減数第一分裂と減数第二分裂)が起きることで、最終的に配偶子では染色体数が分裂前の細胞に半分になることです。減数分裂により遺伝的多様性が生み出される仕組みに、非姉妹染色分体間で染色体の一部が入れ替わる交叉(乗換)があり、各染色体あたり約2ヶ所以上(減数分裂あたり約50ヶ所)で交叉が起きます。これにより、新たな塩基配列を有する染色体(組換え体)が子供に伝わることがあります。同一染色体上の2地点間で組換えが起こる頻度が1%以上の時、その2点間の遺伝距離を1センチモルガン(cM)と呼び、ヒトの場合は1.3cMの距離が約100万塩基に相当します。


●ハプロタイプと連鎖不平衡

 ハプロタイプとは、同一染色体上に存在する複数のSNPのアレルの組み合わせです。観察されるハプロタイプの種類数は、SNP部位間で過去に起きた組換えの回数に依存しており、SNP部位が近接している(正確には、遺伝的距離が短い)と組換え率が低いため、理論上の最大種類数よりも少なくなります。観察されるハプロタイプの種類や各ハプロタイプ頻度は集団により異なりますが、遺伝的に近い集団ではよく似ているので、ヒト集団間の遺伝的近縁関係や、ヒトの移住史の推定に用いられます。


 連鎖不平衡とは、同一染色体上の2つ以上の多型間のアレルに関連がある状態のことです。SNP1(AアレルとGアレル)とSNP2(CアレルとTアレル)により規定されるハプロタイプの場合、A-CとA-TとG-CとG-Tの4種類のハプロタイプが存在し得ます。ハプロタイプの頻度がそれを構成するアレル頻度の積と等しくない場合、両アレルは連鎖不平衡の関係にあると呼ばれ、ハプロタイプ頻度の方がアレル頻度の積よりも大きければ正の連鎖不平衡、小さければ負の連鎖不平衡と呼ばれます。A-CとA-TとG-CとG-Tの各ハプロタイプ頻度をh11とh12とh21とh22とする場合、AアレルとCアレルの各頻度はh11+h12とh11+h21です。AアレルとCアレルの連鎖不平衡係数を、A-Cハプロタイプ頻度からアレル頻度の積を引いたD11=h11- (h11+h12) (h11+h21)と定義すると、D11>0ならばAアレルとCアレルは負の連鎖不平衡、D11>0ならばAアレルとCアレルは負の連鎖不平衡、D11=0ならば、AアレルとCアレルは連鎖平衡にある、と呼ばれます。AアレルとTアレルの連鎖不平衡係数をD12、GアレルとCアレルの連鎖不平衡係数をD21、GアレルとTアレルの連鎖不平衡係数をD22と定義すると、D11=-D12=-D21=D22の関係が常に成立します。


●ゲノム人類学

 全ゲノム配列決定技術が実用化されたことで、ゲノム人類学研究において飛躍的な進展がみられています。ゲノム人類学とは、ヒトゲノムの多様性情報から、人類の進化過程や表現型の多様性の基盤となる遺伝因子を明らかにし、ゲノム水準で「生物としてのヒト」の理解を目指す学問分野と言えます。多くの生物種でゲノム解析が行なわれていますが、公共ゲノムデータベースが最も充実しているのはヒトで、データ解析のフリーソフトウェアも多数公開されています。一昔前までは、実験してDNA配列を決定するという、いわゆるwet解析抜きに研究を進めることは困難でしたが、現在ではデータベースのデータを利用したいわゆるdry解析のみで優れた成果を挙げられます。若い人が参入しやすい点からも、ゲノム人類学は今後ますます発展する、と期待されます。


●アジア人の形成過程

 人の進化を包括的に理解するには、より多くのヒト集団の解析が必要なので、大規模な国際共同研究計画が盛んに行なわれています。その一つにヒトゲノム解析機構(Human Genome Organisation、略してHUGO)の汎アジアSNP共同事業体(Pan-Asian SNP Consortium、略してPASC)があります。PASCでは、アジア人の形成過程を明らかにする目的で、アジアの73集団の1808人について、54794個のSNP遺伝子型が調べられています(関連記事)。

 これまで、アジア東部現代人の祖先集団の形成について、二つの仮説が提案されてきました。一方は、アジア東部集団とアジア南東部集団がアジア大陸南部の沿岸部に沿って到達し、一つの共通祖先を有しており、アジア南東部到達後にアジア東部まで北上した、という説です(南岸経路説)。もう一方は、アジア東部に到達した二つの移住経路があり、南を経由した移住の後に、より北方を経由して到達した(アジア中央部を介してヨーロッパ集団とアジア集団をつないだ)移住があった、という説です(南北両経路説)。代表的なアジア集団と、アフリカ集団とヨーロッパ集団とオセアニア集団とアメリカ大陸先住民集団を含めた、29集団を対象とした系統樹解析により、ヨーロッパ集団とアジアやオセアニアやアメリカ大陸先住民の集団とが分岐した後、オセアニア集団とアジアおよびアメリカ大陸先住民集団とが分岐し、最後にアジア東部集団とアメリカ大陸先住民集団とが分岐した、と示唆されました。なお、本論文はこのように指摘しますが、現生人類各集団間の関係は複雑で(関連記事)、遺伝的に大きく異なる集団間の混合により形成された集団を単純な系統樹に位置づけることには、難しさがあるように思います(関連記事)。

 SNPハプロタイプの多様度に注目すると、南の集団から北の集団にいくほど(緯度に比例して)、その多様性は減少しており、アジア集団の祖先は南から北へと移動してきた、と強く示唆されます。アジア東部集団で観察されるハプロタイプの90%のうち、50%はアジア南東部集団で観察される一方、わずか5%しかアジア中央部および南部集団では観察されませんでした。系統樹解析結果も合わせると、アジア東部集団の主要な起源はアジア南東部にあり、南岸経路説の方が有力と言えそうです。

 ネグリートは、アジア南東部からニューギニア島にかけて住む少数民族です。ネグリートは、低身長や暗い褐色の皮膚や巻毛といった特徴的な表現型を持ち、狩猟採集を営みながら孤立して存続してきたことから、その祖先集団や他のアジア集団との関係については諸説ありました。ネグリートは系統樹解析結果では、アジア東部人やアメリカ大陸先住民とともにオセアニア人から分岐しており、ネグリートの一部集団がアジア東部人やアメリカ大陸先住民と遺伝的に近いことから、ネグリートは他のアジア集団と共通祖先を有している、と考えられます。


●47都道府県の解析

 47都道府県の日本人11069個体の138688ヶ所の常染色体SNP遺伝子型データを用いて、日本人の遺伝的集団構造を調べた研究(関連記事)では、47各都道府県から50個体ずつ無作為抽出され、各SNPのアレル頻度が計算され、漢人(北京)も含めてペアワイズにf2統計量を求めてクラスタ分析が行なわれました。f2統計量とは、2集団間の遺伝距離を測定する尺度の一つで、SNPごとにアレル頻度の集団間差の2乗を計算し、全SNPの平均値として与えられます。クラスタ分析とは、多次元データからデータ点間の非類似度を求め、データ点をグループ分けする多変量解析手法の一つで、この研究では階層的手法の一つであるウォード法が用いられています。47都道府県を4クラスタに分けると、沖縄、東方および北海道、近畿および四国、九州および中国に大別されます(図5.9、図のCHBは北京漢人)。関東や中部の各都県は1クラスタ内に収まりません。これは、関東もしくは中部の都県を遺伝的に近縁な集団とはみなせず、そうした単位で日本人集団の遺伝的構造を論じることは難しい、と示しています。以下は本論文の図5.9(本論文の参照文献より引用)です。
画像

 47都道府県を対象にした主成分分析結果(図5.10a)では、沖縄県に遺伝的に最も近いのは鹿児島県と示されます。主成分分析とは、多数の変数(多次元データ)から全体のバラツキをよく表す順に互いに直行する変数(主成分)を合成する、多変量解析の1手法です。最も多くの情報を含む第1主成分の値から、沖縄県と鹿児島県の遺伝的近縁性が示されます。これは、単に地理的近さだけではなく、奄美群島の存在も影響していると考えられます。図5.9でクラスタを形成した地方については、九州と東北が沖縄県と遺伝的に近く、近畿と四国が遺伝的に遠い、と示されます。第2主成分は、都道府県の緯度および経度と有意に相関しています。以下は本論文の図5.10(本論文の参照文献より引用)です。
画像

 日本列島には3万年以上前からヒトが棲んでおり、16000年前頃から縄文時代が始まります(開始の指標を土器だけで定義できるのか、開始も終了も地域差がある、との観点から、縄文時代の期間について議論はあるでしょう)。弥生時代が始まる3000年前頃(この年代についても議論があるとは思います)に、それまで日本に住んでいた「縄文人」が、アジア大陸部から到来してきた「渡来人」と混血した、と考えられています。現代日本人の成立については、おもに北海道のアイヌと、おもに沖縄県の琉球人と、本州・四国・九州を中心とする「本土人」から構成される「二重構造モデル」が想定されています。遺伝学的研究により、「縄文人」と「渡来人」の混血集団の子孫が「本土人」で、アイヌや琉球人、とくに前者は当時の混血の影響をあまり受けていない、と示されています。

 「渡来人」の主要な祖先集団の子孫と想定される北京漢人と、各都道府県のf2統計量を計算すると、沖縄県は漢人から遺伝的に最も遠く、近畿と四国が漢民族に近い(最も近いのは奈良県)、と示されました。したがって、図5.10aにおいて、第1主成分の値が大きい都道府県は「縄文人」と遺伝的に近く、値が小さい都道府県は「渡来人」と近い、と想定されます。大部分の「渡来人」は朝鮮半島経由で日本列島に到達したと考えられますが、朝鮮半島から地理的に近い九州北部ではなく、近畿や四国の人々に「渡来人」の遺伝的構成成分がより多く残っており、近畿と四国には、他地域よりも多くの割合の「渡来人」が流入したかもしれません。


●日本人に特徴的なY染色体

 Y染色体上の組換えを受けない領域の塩基配列の違いに基づいて、「縄文人」由来のY染色体を同定できる可能性があります。日本人男性345個体のY染色体の全塩基配列決定に基づく系統解析(関連記事)では、日本人のY染色体は主要な7系統に分かれました。他のアジア東部集団のY染色体データを含めての解析に基づくと、日本人で35.4%の頻度で見られる系統1は、他のアジア東部人ではほとんど観察されない、と示されました。系統1に属する日本人Y染色体の変異を詳細に解析すると、系統1はYAPという特徴的な変異を有するY染色体ハプログループ(D1a2a)に対応しています。YAP変異は、形態学的に「縄文人」と近縁と考えられているアイヌにおいて、80%以上という高頻度で観察されます。「渡来人」の主要な祖先集団の子孫である韓国人集団や中国人集団には系統1に属するY染色体がほとんど観察されなかったことから、系統1のY染色体は「縄文人」に由来する、と結論づけられます。なお、同一検体のmtDNAの系統解析からは、明らかに「縄文人」由来と想定されるような系統は検出されませんでした。


●今後の課題

 日本列島「本土人」の常染色体のゲノム成分の80%程度は「渡来人」由来と推定されており(関連記事)、「縄文人」と「渡来人」の混血割合は2:8程度だったと思われます。縄文時代晩期の人口は8万人程度と推定されており、その居住範囲は日本列島全域にわたっていました。混血割合から単純に考えると、32万人の「渡来人」が渡海して日本列島に流入したことになりますが、この推定値は多すぎると思われます。より少ない「渡来人」が日本列島で優勢になる可能性として、「渡来人」との戦闘により「縄文人」が激減した可能性も想定されます。しかし、「縄文人」由来の系統1のY染色体の割合が現代日本人では35%となることから、仮に大多数の「縄文人」男性が系統1のY染色体を有していても、2:8の混血割合であれば、せいぜい20%にしかならないはずです。戦闘でまず犠牲になるのは男性であることが多く、系統1のY染色体の頻度はさらに低くなるでしょう。この問題も含めて、日本人の集団史には未解明の問題が残っています。


 以上、本論文についてざっと見てきました。現代日本人は先住の「縄文人」と弥生時代以降にアジア大陸部から新たに日本列島に到来してきた「渡来人」との混合により形成された、との見解は現代日本社会においてかなり定着してきたように思います。しかし、近年の古代DNA研究の進展から、その形成過程はかなり複雑だったように思われます(関連記事)。朝鮮半島において、「縄文人」的構成要素でゲノムをモデル化できる個体が8300年前頃から確認されており、2800~2500年前頃の朝鮮半島中部西岸の個体は日本列島「本土」現代人と遺伝的構成がよく似ています。これらを踏まえると、日本列島「本土」現代人の基本的な遺伝的構成は朝鮮半島において紀元前千年紀初頭には確立しており、この集団が弥生時代以降に日本列島に到来して勢力を拡大した、と考えられます。

 さらに、朝鮮半島では紀元前千年紀後期以降に人類集団の遺伝的構成に大きな変化があって現代北京漢人により近づき、そうした集団が弥生時代後期から飛鳥時代にかけて到来し、日本列島「本土」現代人の祖先集団に遺伝的影響を残した、と現時点では想定しています。47都道府県単位で奈良県民が遺伝的に最も北京漢人に近いのは、古墳時代から飛鳥時代に朝鮮半島から渡来した集団がおもにヤマト王権の中心地域に移住した結果だろう、と推測しています。また本論文では、「縄文人」由来と考えられる系統1のY染色体の割合が日本列島「本土」現代人で高い、と指摘されていますが、そのうち一定以上の割合は弥生時代以降に朝鮮半島から到来した可能性が高いように思います。もちろん、こうした私見も日本列島、さらにはユーラシア東部の人口史を過度に単純化しているのでしょうし、今後の古代DNA研究の進展により大きく見直す必要が出てくるかもしれません。


参考文献:
大橋順(2021)「アジア人・日本人の遺伝的多様性 ゲノム情報から推定するヒトの移住と混血の過程」井原泰雄、梅﨑昌裕、米田穣編『人間の本質にせまる科学 自然人類学の挑戦』(東京大学出版会)第5章P78-91