科學家如何計算基因的數量?
『基因』是一個特別虛無縹緲的概念!我建議在學術討論時,用轉錄單元、順反子、ORF、CDS、外顯子等更有明確定義的概念來取代『基因』
以下內容搬運自我的知乎專欄【閑話】當我們談論基因,我們在談論什麼 - K·吐 - 知乎專欄
當然也可以在微信公眾號里找到完全一樣的一篇,可以用CaptainK2搜索到,歡迎關注
工號九千多的BGI新員工玄澄問我,「基因是什麼」。我的回復是「這真是一個很困難的問題」。作為節操導師,我不能隨隨便便就誤導和打發了一個新員工,嗯,沒錯是這樣,順便在收入多於我幾倍的新員工面前裝裝逼什麼的。
我不知道「基因」是什麼,或者說,我其實不知道我們每個人在每種語境下所謂的「基因」是什麼。
【當我們談論基因,我們可以談論任何DNA】
根據我們 非常值得呵呵的 的中學生物課本——暫且把初中義務教育的內容作為讀者們的「共識」吧,基因是「具有遺傳效應的DNA片段」。 如果基因的定義是這樣的話,那麼任何長度尺度、任何遺傳效應的DNA片段都可以稱之為「基因」。比如編碼了一個蛋白的DNA序列——比如大家可能比較熟悉的BRCA1,可以稱之為一個「基因」。一個外顯子(編碼一個蛋白質的一部分),可以稱之為一個「基因」。一個啟動子(讓一段下游DNA開始轉錄成RNA再翻譯成一個蛋白的DNA序列,可以簡單看做是一個基因的開關 卧槽概念一不小心迭代了,也可以稱之為一個「基因」。甚至一整條幾百兆的染色體(有遺傳效應吧,是DNA片段吧,why not),或者甚至是一個只有6個鹼基的酶切位點(比如在細菌里,吃他們的噬菌體會識別這些位點把細菌的基因組幹掉),都可以稱之為一個「基因」。
然而這樣,「基因」就被我們玩兒壞了,因為它作為一個學術概念,變成了一個定義模糊、毫無門檻、能夠引起無限誤解的概念,一個連在強國論壇灌水轉基因威脅論的街邊象棋大爺都能隨意使用,且不用擔心任何概念和邏輯謬誤的東西。
【當我們談論基因,我們左手ATG,右手TGA】
但我們總不能這麼隨意,隨意是對不求甚解和傳播謬誤的縱容。而且我們總是在冥冥之中覺得,「基因」大概需要是一個什麼單位。為了避免造成誤解,一般工作中我習慣使用Operon(操縱子)、Transcription Unit(轉錄單元)、CDS(編碼序列)、ORF(開放讀碼框 尼瑪搜狗輸入法默認選項不是「開放」 )、Transcriptional Domain(轉錄區)等和「基因」相關卻又有更確切定義的概念 卧槽你說的這些都是什麼玩意兒 。然後想解釋這些概念在何時何地能夠在多大程度上扮演「基因」的概念,我們得先看看「基因」的結構。
很巧的是,BGI知名的zhuangbility水平遠在我至上的一個傢伙某次講課問「基因是什麼」,然後自答說「我也不知道」。然後第二次講課問「基因的結構是什麼」,沒人回答,丫很生氣。如果我在場一定會站起來問「既然你問基因的結構是什麼,請先告訴我基因是什麼」。哎呀好了我們不就這個死循環抬杠了。
好吧我們看看基因的結構(這裡只是蛋白質編碼基因的結構啦,還有tRNA基因啦,lincRNA基因啦,我們就先不提了)。
原核生物廣泛存在幾個獨立的蛋白質編碼序列公用一個或一組啟動子的情況,所以,一般提到原核生物的基因,啟動子和終止子這種很容易被好幾個「基因」共用的轉錄水平的元件,是常常不被納入「基因」的界限的。方便起見,多數情況下我們僅以蛋白質翻譯的起點和終點——也就是起始密碼子和終止密碼子——無比可信的界限,作為基因的邊界。
真核生物則不同,絕大部分編碼蛋白質的「基因」,都獨享一套轉錄調控元件(啟動子、終止子)。而且真核生物的非翻譯區(UTR),存在著更豐富的調控元件。所以在定義基因時,把UTR區和參與轉錄調控的啟動子和終止子也算作基因內,也是沒啥問題的。
但真核生物更加麻煩的是,調控序列區域可能很長很長,更加難以預測,不存在像起始密碼子和終止密碼子這麼明確的界限。所以其實,無論是原核生物或是真核生物,在多數情況下,我們談論「基因」,指的是「從起始密碼子到終止密碼子的部分」。有些時候,比如我們拿到的基因注釋信息里,基因還包括兩側UTR的部分,也就是完整的「轉錄區」,那是因為有足夠的轉錄組測序幫我們確定了這個沒那麼容易看清的「邊界」。並非我們不想讓啟動子到終止子這樣整個完整的功能區塊被納入「基因」的範疇,只是我們對於DNA這種上帝的語言的理解還太多有限,還沒發確切摸清這樣的邊界罷了。
【當我們談論基因,我們其實在談論遺傳】
還有一種情況,我們在談論「基因」,但實際上我們在討論「遺傳」。只是「基因」這個詞太好聽,太新潮,以至於我們都太愛使用它。
尤其是,「基因」被我們不經意地用作形容詞的時候。漢語的詞是看不出詞性的,但英語里可以。Gene是基因,而Gene的形容詞,Genetic,多數情況下翻譯成「遺傳的」而非「基因」,感覺會三觀正好多。但是翻譯成「遺傳的」,又很容易和 inherited 混在一起,真是頭疼呢。比如Genetic Engineering比較確切的翻譯應該是「遺傳工程」,而非「基因工程」;GM food翻譯成「遺傳改造食物」,要好於「基因改造食物」,而遠遠好於「轉基因食物」;Genetic Counselor是遺傳諮詢師而不叫基因諮詢師;相應的,大行其道的Genetic Testing也應該稱為遺傳檢測而非基因檢測。因為,「基因」的概念跨度太過奇葩,又有被大家玩兒壞的潛質。如果倔強地生活在狹隘的定義下,工程改造的對象未必是基因(比如有可能是調控元件),我們檢測的DNA也未必是基因(比如我們暫時還不知道怎麼解釋的非編碼區SNP)。不過比起「基因檢測」,貌似「遺傳檢測」聽起來賺不到什麼錢的樣子啊。
【當我談論基因,我其實是在裝逼】
我們越是喜歡用「基因」這個名詞做噱頭,就越有風險,招致很多人對「基因」這個肆意濫用的概念,以及因「基因」躺著也中槍的所有美好知識、技術和產品的反感。所以我的很不靠譜的建議是,專業一點兒,耐心一點兒,告訴大家什麼是DNA,什麼是遺傳,什麼是基因型,什麼是編碼序列,什麼是轉錄和翻譯。然後,我們少談「基因」。
为什么每个神经元都需要数千个突触?
「因為某個統計方法的問題可能會有數萬篇 fMRI 腦科學研究論文出錯」這種說法是否言過其實?
有哪些很有趣的仿生學研究成果?
到達一定高度的醫學是不是在一定程度上阻礙了人類的進化?
地磁極一直在變化嗎,怎麼理解磁鐵 S 極指南而地磁 S 極指北?
TAG:知乎 |
※為什麼科學家把人類當成了計算機?
※數量0基礎:幾何計算類
※科學、計算科學與數據科學
※古希臘數學家是如何計算地球周長的?
※人類的壽命極限是多少?科學家計算出了理論最大值
※計算機能超越人?科學家:不太可能
※科學家如何計算星星有多重
※科學家猜測:人類不過是一台計算機的程序?
※科學家如此聰慧,那麼地球年齡究竟是如何計算的?
※你知道科學家是如何計算出星球的體重嗎?
※科學家公布了一套「壽命計算題」,敢不敢測!
※美國計算機科學家周以真:使計算思維成為常識
※科學算式來計算蘭花賺錢概率
※減脂前,先學計算熱量!
※計算機科學、經濟學交叉的時代,不懂計算經濟學理論談何應用?
※陳立傑:我想成為一名理論計算機科學家,你呢?
※神經科學家能否理解計算機微處理器?
※三分鐘學會營養標籤——能量值的計算
※科學家公布一套「壽命計算題」,敢不敢來測下?