科研人員發展基於深度學習的蛋白質單分子分析新方法
蛋白質是生命活動的物質基礎和主要承擔者,許多重要的蛋白質以複合物或多聚體形式參與信號轉導、離子轉運、免疫響應等眾多生理過程,蛋白質的化學計量組成與其生物功能的調控及多種疾病的發生髮展密切相關。因此,在生理條件下定量表徵蛋白質的化學計量比(亞基組成數或蛋白聚集狀態),對於研究蛋白質的相互作用、闡明蛋白質結構-功能的調控機制、研發新葯等都具有十分重要的意義。
在國家自然科學基金委、科技部和中國科學院的支持下,中科院化學研究所分子納米結構與納米技術重點實驗室方曉紅課題組長期致力於發展分析活細胞體系蛋白質動態變化的單分子顯微成像新方法,所建立的利用光漂白計數定量表徵膜蛋白化學計量比等單分子研究方法,為化學生物學和生物醫學研究提供了先進的技術(Natl. Sci. Rev. 2018, 5, 300)。近年來他們與生命科學家合作,發現了多種信號轉導蛋白激活和轉運新機制(Nat. Microbiology2019, 4, 97-111;Nat. Commun.2018, 9:11;Cell Res., 2015, 25,738-752)。
最近,他們針對單分子光漂白計數分析中檢測信號弱、易被噪音掩蓋和光閃爍干擾、數據量大等挑戰性問題,巧妙地利用人工智慧深度學習技術,提出了一個機器學習的深度神經網路架構——CLDNN,對單分子光漂白事件進行準確、高效計數。他們所設計的CLDNN可憑藉其自身強大的學習能力以及特徵提取能力,通過卷積層提取光漂白台階信號,通過長短時記憶(LSTM)循環層排除熒光閃爍等干擾, 實現90%以上準確率的化學計量比分析。相比於已報道的單分子信號分析方法,CLDNN具有諸多優勢:(1)更高的分析準確率,尤其對於低信噪比的數據,優勢更為明顯;(2)更高的計算效率,可以快速處理大批量數據;(3)簡單易用,無需對單分子數據做濾噪等預處理,也無需設置演算法參數;(4)具有較好的推廣性和擴展性,可對除訓練水平外的不同信噪比數據以及包含更多光漂白事件的數據進行有效分析。此外,使用者也可以加入自己的實驗數據集重新訓練CLDNN,使其更加滿足個性化分析需要。
CLDNN為研究人員提供了一種全新的數據分析策略,使人們可更為高效、準確、客觀地分析蛋白質等生物大分子化學計量比,該架構還可應用於分析化學領域其它具有時間序列特徵的數據分析,將促進人工智慧技術在化學中的應用。相關研究成果近期發表於J. Am. Chem. Soc.(2019,141,6976-6985)。
CLDNN深度學慣用於單分子光漂白計數分析及蛋白質化學計量比研究
來源:中國科學院化學研究所
※過渡金屬硫化物中伊辛超導電性研究取得新進展
※科學家首次觀測到三維量子霍爾效應
TAG:中科院之聲 |