當前位置:
首頁 > 文史 > DNA 的基因檢測,北方人和南方人差距有多大?

DNA 的基因檢測,北方人和南方人差距有多大?

本文節選自各色 DNA 的基因產品總監雷雷的文章。

今天,我想跟大家深度解讀如何從基因上來看地域差異,並分享各色 DNA 新版祖源基因檢測報告的「秘密」,這也是各色 DNA 第一次在其他平台上講述自己的演算法。

我先問三個問題為大家熱身,它們的答案藏在文章里:

1、祖源檢測,測的是你的祖先生活過的地方嗎?

2、南方漢族和北方漢族真的有基因差異嗎?

3、四川人的基因更接近貴州,還是浙江?

如果你希望獲得別處沒有的信息,這一定是你能看到的最全的祖源知識通關攻略,配合祖源分析報告食用,佐以中國歷史,你會發現基因測祖源遠比「曬外國血統」更有趣。

首先要告訴大家,各色 DNA 的祖源檢測結果不久前升級了,祖源部分由原本的 14 個地區,細分了成全世界 59 個地區和族群。

新版的祖源檢測報告長這樣

攻略 1 :我的祖源結果是怎麼得出來的?

我發現人們對祖源檢測存在一個誤解:「祖源測的就是我祖先曾經所在的地方。」

其實並不是,祖源分析的參考數據都是連續幾代生活在這個地方的現代人

拿北方漢族來說,當我們找到足夠多長期生活在北方漢族地區的人,我們就構建了一個北方漢族地區的參考資料庫。

2016 年,當我剛開始做中國人祖源解讀的時候,我發現,幾乎沒有中國不同地域的基因參考資料庫。

即使在全球用戶量最大的 23andMe(目前可以探測全球 150 個國家和地區的祖源),中國人也只是被粗略劃分為南方人和北方人。

一個典型的中國人在23andme的祖源成分檢測結果

在我們去年9月份發布第一版祖源解讀的時候,我們積累了第一版中國人族群資料庫。

我們將生活在中國的人分成了 6 個地區,將國外人口分成了8個地區。據此給出了每個人的比例解讀,並且邀請大家繼續參與家庭出生地的調查。

今年,我們有了更大更豐富的族群資料庫。升級之後,各色的祖源由原來 14 個地區,升級為 59 類,主要是源自於祖源參考數據集的優化。

我們積累的參考資料庫包括有:

由數萬名各色用戶貢獻的 DNA 數據

國際千人基因組計劃中的公開數據

(http://www.internationalgenome.org/category/population/)

斯坦福大學人類基因組多樣性研究計劃中的公開數據

(http://www.hagsc.org/hgdp/ )

由於各色用戶絕大部分是中國人,因此在收集和整理國外不同族群的參考數據時,我們仍然重點分析中國人的數據,特別是漢族群體。

攻略 2 :測出來的「外國血統」,到底怎麼理解?

我看到很多人會樂於在社交網路上分享自己的「5% 美洲土著基因」,這聽上去很酷。它的科學解釋是:祖源成分並不代表你一定有這裡的祖先,而是你的祖先有 5% 的可能是這裡人。

人有 23 對染色體,22 對常染色體,1 對性染色體(女性是 XX,男性是 XY )。做祖源成分分析使用的是 22 對常染色體數據。

人類基因組中,大約 99.9% 的 DNA 序列都相同。所以要通過祖源成分分析獲得你屬於某一個或幾個地區或族群的「可能性」,第一步是收集在不同地區和族群分布有差異的基因位點。

比如,影響人是否有腋臭的基因位點是 rs17822931,這個點基因型為 C 的人,體味更重一些。

而在東亞攜帶 C 的比例只有 22%,大部分人東亞人在這個位點是 T型,表現為乾燥的耳垢和更輕的體味。

如果一個人 rs17822931 檢測結果為 TT,從概率上來講,他更可能是一個東亞人。

祖源參考數據集示例

計算祖源成分的演算法上,我們使用的是美國加利福尼亞大學洛杉磯分校相關人員研發的,也是目前使用比較廣泛的專門計算祖源成分的方法—— ADMIXTURE(http://software.genetics.ucla.edu/admixture/)。

其核心演算法是極大似然估計法(Maximum Likelihood Estimate,MLE),簡單說就是通過你的基因數據,計算出你最可能由哪幾種族群組成,以及相對應的百分比。

所以,如果改變祖源地區的劃分類別,檢測結果就會發生變化。

攻略 3 :你的基因中藏了哪些地域的秘密?

各色的祖源主要是以地域而非民族為劃分標準的。因為,大部分中國人是北方漢族或南方漢族主體,如果用民族來做祖源劃分,一個漢族人的祖源結果會比較「無聊」。

其實,除了民族之外,基因中還蘊藏著非常豐富的地域差異信息。

今年新發表的一項大規模中國人祖源研究,根據 19 個省和直轄市 共 11670 名漢族人的分析發現:

漢族人南方和北方之間的差異是最大的。

北方省市中,甘肅、陝西和山西,與其他省市(東北三省、山東和河南等)有差異。

相比北方漢族呈現出來的東西差異,南方漢族則呈現南北差異,即長江流域(江蘇、安徽、湖北、浙江等)和東南沿海(湖南、福建和廣東)存在差異。

各色選擇 3620 個代表用戶,得到了跟上面這個研究類似的結果:

當地各色漢族用戶較少的國內省市和自治區未包含,圖中的分類「中國」為用戶填寫的原始數據

這張結構圖可能看上去有點費解,你記住這幾點就好了:

中國漢族可以分為南北兩部分,南方漢族和北方漢族。

北方漢族中,甘肅與吉林省和其他省市存在差異,這可能是因為甘肅與新疆和內蒙相連,長期的民族融合交流會影響漢族的特異性;而吉林省滿族人聚居,且東臨朝鮮半島。

天津市明顯區別北方漢族的表現,讓我們有些費解。希望有更多天津土著參與我們的檢測,期待未來我們可以一起破解這一謎題。

南方的劃分中,貴州省、重慶市和雲南省與其他地區存在差異。其他地區可以分為長江以南和東南沿海兩大部分。

根據層次聚類和 PCA 分析結果,我們選擇了區域而非民族(南方漢族和北方漢族)來給大家進行祖源成分劃分。

中國歷史上多次人口遷徙和民族融合,比如四川省與湖北、江西和浙江等省市比較類似,我們都將其定義為「長江以南」地區。這也呼應了清朝初期「兩廣填四川」的人口遷移史。

各色漢族分類

攻略 4 :怎麼理解報告中的祖源百分比?

如下圖,我出生在山東,我有 34.44% 的北方東部成分。這個數字的科學解釋是,我來源於北方東部人的可能性是 34.44%。

我們把你 DNA 數據中的大量基因位點,和祖源參考數據進行比對,得到了你的綜合預測結果。即你來源於這個族群的概率

攻略 5 :少數民族的參考資料庫是怎麼來的?

我們用戶中數量比較多的少數民族,如藏族、新疆地區少數民族,以及西南少數民族,都使用用各色用戶數據作為參考資料庫。

但由於其他少數民族的用戶數量較少,我們參考了國外的公開資料庫。

各色少數民族分類

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 付春兵 的精彩文章:

珍貴的滿族傳統生活畫卷
老滿洲旗人民風和民俗——有序

TAG:付春兵 |