基於細胞起源模式的新型癌症分類系統
TCGA研究團隊從染色體的非整倍性、DNA超甲基化、mRNA,miRNA表達水平、反相蛋白晶元(RPPA)數據5種平台對約10,000例樣本33種腫瘤類型的樣本集進行單平台聚類和整體聚類。大部分單平台聚類結果揭示出這種分類主要源於組織學或解剖學類型差異。而使用iCluster對多平台數據整體聚類則通過突變、染色體拷貝數變化、通路和微環境等共性特徵進一步擴大了癌症亞型分類的範圍。
這些共性特徵對分子分類學的作用甚至超越了腫瘤階段或起源組織的表型貢獻。通過尋找解剖學相關的癌症類型之間的分子相似性,比如泛胃腸道癌、泛婦科癌、泛腎癌、泛鱗狀癌症以及與幹細胞特性相關癌症的泛癌症分析提供了基礎,從而可能對治療手段的發展提供幫助。
文章題目:Cell-of-Origin Patterns Dominate the Molecular Classification of 10,000 Tumors from 33 Types of Cancer
研究人員:TCGA研究團隊
發表時間:2018.04.05
期刊名稱:Cell
影響因子:30.41
研究背景
許多種類的癌症基因組研究和分子分析表現出基因組缺陷,信號通路和致癌過程改變的巨大差異性。這種差異可能是內源因素,如生長和分化程序、起源細胞的表觀狀態和外源因素,如誘變劑、病原體和炎症的結合。早在2014年,TCGA報道了對12種癌症類型約3527例腫瘤樣本的初步研究,從6種平台(DNA:外顯子測序,DNA甲基化,拷貝數;RNA:mRNA和microRNA測序;蛋白質:腫瘤相關蛋白和磷蛋白檢測)對腫瘤進行實驗,提出了與現有的基於器官/組織學的病理學分類系統不同的基於分子特徵的新型分類系統,並估計至少有十分之一的腫瘤患者因新分類方法而被重新定義類別。在此基礎上,TCGA研究團隊進一步對大型腫瘤資料庫癌症基因組圖譜(The Cancer GenomeAtlas,TCGA)中約10,000例樣本,包括33種腫瘤類型的腫瘤數據集進行了整體的分子分析,從而提供了第一個區分TCGA中不同腫瘤分子起源的綜合視圖。
研究方法
樣本選擇
選取TCGA資料庫中至少擁有以上五種平台數據中的一種數據的腫瘤樣本,共11,286例。其中,有9759例擁有4種平台的完整數據:非整倍性、DNA甲基化、mRNA、miRNA;有7858例樣本擁有RPPA蛋白數據。
共有33種腫瘤類型,包括血液和淋巴惡性腫瘤類:急性淋巴白血病(LAML),擴散大B細胞淋巴瘤(DLBC),胸腺瘤(THYM)。器官系統類有:婦科實體瘤:卵巢癌(OV),子宮內膜癌(UCEC),宮頸鱗狀細胞癌和腺癌(CESC),乳腺癌(BRCA);泌尿類:膀胱尿路上皮癌(BLCA),前列腺腺癌(PRAD),睾丸生殖細胞腫瘤(TGCT),腎透明細胞癌(KIRC),腎嫌色細胞癌(KICH),腎乳頭狀細胞癌(KIRP);內皮素類:甲狀腺癌(THCA)和腎上腺皮質癌(ACC);核心胃腸道:食管癌(ESCA),胃腺癌(STAD),結腸腺癌(COAD),直腸腺癌(READ);發展性胃腸道:肝細胞癌(LIHC),胰腺腺癌(PAAD),膽管癌(CHOL);頭頸部:頭頸部鱗狀細胞癌(HNSC);胸部:肺腺癌(LUAD),肺鱗狀細胞癌(LUSC),間皮瘤(MESO)。中樞神經系統類有:成膠質母細胞瘤(GBM),腦低級膠質瘤(LGG)。軟組織類有:肉瘤(SARC),子宮癌肉瘤(UCS)。神經嵴起源組織類:嗜鉻細胞瘤和副神經節瘤(PCPG)。此外還有皮膚黑色素瘤(SKCM)和葡萄膜黑素瘤(UVM)。
分析方法
研究人員基於iCluster提出了一種新型泛癌症圖譜的整體分析方法,通過4種不同的TCGA平台,從33種癌症類型中確定了28個不同的分子亞型。並證實了與常規臨床上腫瘤分類系統的重要差異和一致性。使用了一種新的2D可視方法,TumorMap,來解釋樣本和iCluster結果之間的差異。
研究成果
1.按單個平台聚類
從5種平台各自結果來看,通過非監督聚類方式可以將樣本劃分至10~25個組別。研究人員觀察到不同癌症類型被聚類到一組,同時同種癌症類型的樣本分散到不同組別中。
對10,522例樣本按照染色體非整倍性聚類,共聚成10類。AN1-5染色體改變數較多,AN7突變數目較少。在以13號染色體增加和18號染色體缺失為特徵的AN2分類中,含有胃腸道腫瘤(COAD, READ, STAD)和食管癌的樣本,這與2014年的研究結果一致。(圖1A)
對10,814例樣本按照DNA甲基化數據中3139個CpG位點進行聚類,共聚成25類。儘管已除去了已知的組織特異性DNA甲基化位點,仍能觀察到來源於同一器官系統的腫瘤按照細胞類型聚在一起的趨勢。比如鱗細胞癌(HNSC, ESCA, LUSC和CESC)聚類到METH1-2組中,腺細胞癌中胃腸道腺癌(ESCA, STAD, COAD, READ)聚類到METH10-13組中。這和非整倍染色體結果也一致。(圖1B)
對10,165例樣本中mRNA表達量進行聚類,共聚成25類。同樣觀察到腫瘤類型是很強的分類驅動因素。鱗狀癌(BLCA, CESC, ESCA, HNSC, LUSC)被聚類到一起。具有組織或器官相似性,或位置相近的癌症類型也被聚到一起。比如神經內分泌和膠質瘤(GBM, LGG, PCPG);皮膚和眼的黑色素瘤(SKCM, UVM);腎透明細胞癌和腎乳頭狀細胞癌;腎上腺皮質癌和腎嫌色細胞癌;肝細胞癌和膽管癌;胃腸道組(COAD, READ, 非鱗狀ESCA, READ, STAD);消化系統組(PAAD, STAD, 部分ESCA);血液和淋巴癌組(LAML, DLBC, THYM),肺癌組(LUAD, LUSC)。(圖1C)
對10,170例樣本中miRNA表達量聚類,共15類。其中有6類為單癌症類型。剩下9類每一類代表一種癌症型的混合。比如MIR2富集了鱗狀癌;MIR11為泛腎癌;MIR6為泛胃腸癌組。(圖1D)
除急性淋巴白血病(無蛋白表達數據)外的32種腫瘤7858例樣本的蛋白質表達數據共聚成10類。P1(GBM, LGG)、P2(DLBC, SARC, PCPG, UCS, THYM, 轉移性SKCM)與高EMT特徵的間葉細胞狀腫瘤類型大部分一致。與其他平台結果類似,來自相關器官系統的樣本被聚類到一起:婦產科類(BRCA-Luminal, UCEC, OV);P6為泛腎癌;P8為泛胃腸癌組。(圖1E)
圖1 33種類型的10,000例TCGA腫瘤樣本基於各平台數據的分類
2.多平台的整體聚類分析
研究人員使用2014年發表的聚類分配演算法(COCA)來評估這5種平台數據聚類結果之間的重疊。泛胃腸道癌(COAD, READ, STAD, ESCA腺癌)在mRNA、miRNA、RPPA平台數據的聚類中都被劃分到一起,但在DNA甲基化平台中被分成不同類型。泛鱗狀癌(LUSC, HNSC, CESC, ESCA, BLCA)在其他平台被聚到一起,在非整倍型和DNA甲基化兩個水平又被進一步劃分。在泛婦科癌症(BRCA, OV, UCEC, UCS)中,RPPA數據說明OV和UCEC在蛋白表達水平相似,然而在mRNA、miRNA和DNA甲基化數據中卻是按照器官位置被分組。值得注意的一點是,13%的BRCA亞型因為mRNA和DNA甲基化數據的不同而從其他BRCA中區分開來。(圖2A)
圖2 多平台分類揭示了跨腫瘤類型下基因組、表觀組、轉錄組之間的相似性和差異性
儘管COCA方法在其他平台結果有高度的一致性,但是對於非整倍性來說,約三分之一的樣本只有少量甚至沒有非整倍染色體事件發生。為了補充COCA結果,研究人員又對9759例擁有4種平台完整數據的樣本(CNV, DNA甲基化, mRNA,miRNA)使用iCluster進行分子亞型綜合分析進行補充,共聚出28類。通過對不同平台在iCluster潛在變數的特徵權重累加,可以得到每個平台數據在聚類中的相對貢獻值。可以看到,拷貝數變異在整體聚類分析中佔了約47%的貢獻。轉錄組(mRNA, miRNA)佔42%,DNA甲基化佔11%。(圖2B)
從聚類結果來看,對於16個腫瘤類型,有超過80%的樣本聚在同一個Cluster中。其中8個是單腫瘤類型,其他Cluster包括來自相似或相關細胞或組織的腫瘤:如C28為泛腎癌,C15為皮膚和眼睛黑色素瘤等等。還有6種腫瘤類型被聚到了多個iCluster中。
泛胃腸道隊列可以根據DNA甲基化水平的差異分為三個iCluster:C1、C4和C18。C1主要包括超甲基化的EBV相關腫瘤,C18大部分則由MSI性腫瘤如STAD和COAD構成,C4主要由CIN(染色體不穩定)性腫瘤(如COAD和READ)組成。泛鱗癌隊列聚成了C10、C25、C27三個iCluster,而且基本所有的CESC都在C27中,LUSC都在C10中,這些泛鱗癌iCluster均擁有3q染色體擴增的分子特徵,同時C10包括了9p染色體缺失,C25包括了11號染色體擴增的特異性特徵。
在混合腫瘤類型的iCluster中,C7、C2和C13都是主要根據染色體拷貝數來區分定義的。C7主要包括9號染色體缺失的腫瘤,C2:BRCA主要包括ERBB-2擴增的腫瘤如BRLA、BLCA和STAD,C13主要含有如BRCA-basal、UCEC(高染色體拷貝數亞型)等高度非整倍體腫瘤混合構成。C3和C20主要由非腫瘤細胞組分的免疫或基質分子特徵來區分定義。研究人員對iCluster的非腫瘤成分進行了進一步研究,基於DNA甲基化數據,他們用1減去腫瘤純度和白細胞比例作為基質的比例。其中C20的中間基質比例最高,然後是C14、C10、C3(圖3A)。這些iCluster都表現出更高的白細胞比例(圖3B)。C3主要包含間充質瘤,C20主要是混合性的上皮腫瘤。
圖3 iCluster樣本間的腫瘤微環境細胞組成
通過計算每個iCluster的優勢癌症類型比例並將其與平均的iCluster輪廓寬度(描述分子異質性)進行比較來描述各個iCluster的組成和異質性(圖2C)。結果發現,7個泛器官系統中有6個具有與單個癌症型的iCluster相近的分子異質性範圍。由一個共同的特定染色體改變的iCluster(如C13,chr8缺失)往往構成了多種腫瘤類型,並且最低的輪廓寬度說明具有大量的分子異質性。
研究人員使用桑基圖來進一步可視化iCluster各分類、癌症種類和器官系統之間的關係(圖2D),泛腎癌基本全部映射到C28類。而屬於鱗狀細胞癌的宮頸癌則使得泛婦科癌和泛鱗癌重疊。這表明iCluster受到個體癌細胞起源類型的強烈影響。
3.器官系統的腫瘤地圖(Tumor Map)
研究人員計算了所有樣本對在iCluster潛在變數之間的歐幾里得距離,並使用TumorMap將距離映射到2D平面上,揭示了iCluster、泛癌症亞型和器官系統之間的關係(圖4A、B、C)。腎腫瘤分為KICH、KIRC和KIRP,其中CpG島甲基化腎細胞癌亞型(RCC-CIMP)位於泛胃腸道癌附近,這與它們DNA超甲基化平台數據有關(圖4D)。泛婦科亞型有部分重疊(圖4E),並廣泛分布在各個iCluster中。泛胃腸道癌分子亞型(圖4F)則分別代表MSI腫瘤、超突變snv腫瘤、基因組穩定腫瘤、 CIN腫瘤和EBV相關胃癌。
TumorMap圖表明,即使在Map生成過程中並沒有使用組織病理學信息,但具有相似病理分類的腫瘤仍傾向於聚到一起(圖5A)。這個結果突出說明了細胞起源對癌症中觀察到的分子模式的影響,並且進一步對泛鱗狀癌亞型分析提供支持。在TumorMap上基於Thorsson等人(2018年)發現的免疫信號亞型分類也得到了類似結果,這指示了iCluster、組織病理學信息和免疫浸潤類型之間的關係(圖5B)。泛鱗狀癌擁有共同的創面癒合和gamma干擾素主導的免疫信號。
癌症幹細胞作為一種治療耐藥性的可能機制,同時也是亞群重新生成新轉移灶能力的重要驅動因素。 基於mRNA表達和DNA甲基化數據的兩個幹細胞指數揭示了TumorMap中不同區域上高幹性腫瘤的聚集現象(圖5C、D)。TGCT(睾丸生殖細胞腫瘤)表現出較強的兩類幹細胞特徵,而其他腫瘤如LAML(急性淋巴白血病)則只有基於mRNA的強幹性特徵。
圖4 iClusterTumorMap結果
圖5 iCluster TumorMap中的樣本特徵
4.iCluster的變異性評估
研究人員統計了iCluster的突變負荷和signature特徵。各種體細胞的突變負荷在不同iCluster中各不相同,黑色素瘤和肺腺癌、泛胃腸道癌和泛鱗狀癌的突變頻率相對較高(圖6A)。擁有最多癌症類型組成的兩個iCluster(C3和C20)內突變頻率差異很大。各個iCluster間的突變signature差異也較大。預期signature比較明顯,比如C15中的UVB signature,C14(肺腺癌)中的吸煙signature,C8(子宮內膜癌)和C4(泛胃腸道癌)中超突變樣本的POLE突變(圖6B)。於此同時,還發現泛器官組如C18表現出已知的如CpG、毒素和未知的突變signature的富集。這可能和這個組中錯配修復缺陷型腫瘤的高佔比有關。
圖6 iCluster突變模式
5.泛癌症iCluster的亞型通路特徵
研究人員比較了其他文獻中提到的基於PARADIGM的約19,000個通路特徵、基於表達分數的22個基因程序和18條典型的靶向通路,來探究這28個iCluster中的通路特點差異(圖7)。
C28(泛腎癌)具有高缺氧信號、視網膜代謝、低增殖、PPAR-RXR通路和包括免疫檢查點PD-1和CTLA4的免疫信號。然而另外的腎癌如KICH(腎嫌色細胞癌)和ACC(腎上腺皮質癌)被共聚類到C9中,且在幾乎所有通路中都表現出低活性,這兩種癌症類型都在染色體拷貝數分類中被分類為亞二倍體型。
C10、C25、C27等泛鱗狀癌iCluster儘管癌症類型組成差異很大,但是在通路特徵上具有許多相同之處。均具有高水平的鱗狀細胞相關信號、增殖相關通路,較高的缺氧、免疫相關信號及基礎信號。
泛胃腸道癌(C1、C4、C18)都具有相對較高的增殖信號,但也會存在一些通路特徵差異性。如其中C4的免疫相關信號較低,而C1、C18較高。此外,擁有32%泛胃腸道癌樣本的混合iCluster C20也表現出很強的免疫相關信號。細胞粘附信號在C4、C18、C20中較高,但在C1中較低。
含有較多婦科癌症類型樣本的混合性iCluster C13和C20都表現出了高基礎信號和增殖信號。儘管分布在不同iCluster中,卵巢癌、子宮內膜癌、乳腺癌和宮頸癌等共有一些相似的通路,包括高增殖、DNA修復和基礎信號通路等。儘管在乳腺癌的兩個iCluster C2和C19中,雌激素信號基因程序GP7很高,但在其他婦科癌症中表現較低。
圖7 通路特徵確定PanCancer-33的亞型
文章總結
比起2014年12種癌症的泛圖譜研究,本次研究的數量和種類都擴大近3倍。本文首先通過對來自5個不同平台的腫瘤數據分別進行無監督聚類,揭示了10,000例腫瘤樣本下與經典腫瘤分類系統迥異的5種不同緯度的分子特徵子集。比起其他4種聚類來說,染色體的非整倍性緯度是結果一致性最弱的,原因是約三分之一的腫瘤幾乎沒有拷貝數的變異。研究人員使用COCA來探究跨平台的聚類關係,使用iCluster來將多平台的分子數據同時整合到最終28個iCluster中。
這些iCluster中約三分之一是單腫瘤類型,三分之二表現出不同程度的異質性。最多的C20甚至包含了25種癌症類型。按照來源細胞或器官系統位置,這些腫瘤類型可以分為4類:泛胃腸道癌(pan-GI)、泛婦科癌(pan-gyn)、泛鱗狀癌(pan-squamous)、泛腎癌(pan-kidney)。這種iCluster的基於多平台分類系統具有潛在的臨床應用價值,通過更好地定義惡性腫瘤這一高度多樣化群體的起源組織,可能會進一步改善1%-3%的未知原發性癌症病人的治療方案。
TumorMap的可視化展示了4類起源模式的空間共定位,也揭示了儘管iCluster分類受到起源模式的強烈影響,但仍然存在著內部的異質性。通過對PARADIGM通路特徵、典型通路和基因程序的鑒定,發現C3和C20都具有強烈的免疫相關信號特徵,這預示著在臨床上可能可以針對這些iCluster腫瘤使用特定的免疫療法。C3、C20、C14、C10共有的JAK2/STAT通路表明不同腫瘤使用JAK-STAT治療的可能性。
隨著越來越多的臨床藥物開始以癌症驅動通路為靶點(ALK, EGFR, ERBB2, ERα, KIT, BRAF, ABL1),傳統的解剖學分類系統應該輔以一種基於不同組織類型中共有分子改變的分類方案。許多研究如NCI-MATCH研究正在調查這種新方法的臨床可行性和有效性。通過考慮突變和致癌信號通路、腫瘤的組織或細胞來源等對腫瘤做綜合的分子剖面分析,對改善籃式研究(不同癌症共有的分子靶點研究)的設計有著可見幫助。
小編評論
傳統的癌症分類主要基於組織學或解剖學特徵。這項研究通過使用對多種類型分子數據聚類分析的方法,從分子的角度對癌症分類和亞型進行了定義。這種尋找分子共性的分類可以預見能以分子機製為驅動的治療方法帶來廣闊前景,這也與如今正熱的精準醫療思想相一致。綜合聚類的研究方法也為我們尋找新的分子機制或靶點提供了啟示。
參考文獻:
[1]The Cancer Genome Atlas. Cell-of-Origin Patterns Dominate the Molecular Classification of 10,000 Tumors from 33 Types of Cancer[J].Cell, 2018.
本篇轉載自: TumorDecoder
※我要問名醫-癌症疼痛怎麼處理或治療才能減輕病人的痛苦?
※為什麼身邊得癌症的人越來越多了?
TAG:癌症 |