當前位置:
首頁 > 知識 > 數據科學的積累:海平面下的冰山

數據科學的積累:海平面下的冰山

清華大學語音和語言技術中心主任鄭方

鄭方,清華大學語音和語言技術中心主任、研究員,博士生導師,清華大學信息技術研究院副院長,博士。從1988年開始,從事語音和語言處理方面研究,在國內外知名刊物和學術會議上發表了210餘篇學術論文,出版專著11本,擁有9項發明專利和1項實用新型專利。

人工智慧、大數據、雲計算是技術發展的新趨勢。這三者既有相互的聯繫,也有相互的支撐。人工智慧研究的是如何用計算機對人的智能進行模擬、延伸和擴展,進而讓機器幫助人類做更加複雜的工作。大數據關心的則是如何從海量數據中挖掘出有價值的知識,而這些數據用傳統方法難以找到規律,需要用新方法來分析,比如通過例子學習(learning by examples),就像人小時候學習語言,雖然不會語法,但能通過一個個例子學會說話。

通俗地講,大數據提供「訓練的數據」;人工智慧提供「訓練的技術」;雲計算提供「訓練的平台」,既提供底層技術的支持,也有超算的能力,還提供安全的存儲。

從AlphaGo出現之後,人工智慧和數據科學變得非常熱,然而現在的「熱」屬於外部的熱。其實在很早的時候,內部(學術研究者們)就一直在積累,一直在發熱。以前,人們在懷疑AI為何研究了六十多年,一直沒有成果;AlphaGo出現之後,人們又覺得AI無所不能,這是從一個極端走到了另一個極端。其實現在AI的發展水平,一直都在按照科學的規律在螺旋式地逐步發展,一點一點積累,AlphaGo並沒有使其在技術層面出現突變,其貢獻在於把AI拉進人們的視野。

人工智慧有很多不同的分支,諸如自然語言處理、計算機視覺,還有我的研究方向語音信號處理,每個分支都有不同的特點,規律並不完全相同。然而現階段並沒有一個能夠解決所有問題的通用的理論和工具,因此比較理性的做法,是具體問題具體分析,以應用為驅動,從問題出發,用合適的理論、模型、方法等,才能找出比較好的解決辦法。

在人工智慧和數據科學前進的路上,我認為清華人一直是一個開拓者的形象。清華人做事有一種情懷,為了解決一個實際問題,可以十年如一日、非常專註地做研究,而不受外界的誘惑和影響。人工智慧的很多問題,靠大量的資金不一定能解決,靠市場上的經驗積累也不一定能解決。

那麼憑藉什麼?從根源上講,無論是數據科學還是人工智慧,其發展必須有深厚的基礎研究作為支撐,而清華在這一點很有優勢,有很多老師在基礎研究方面耕耘了至少二三十年。市面上的一些產品和應用,背後是清華這座「海平面下更巨大的冰山」,不斷地為這些應用提供原動力和技術積累。

而在這個過程中,數據科學研究院則處在一個紐帶的角色,連接校內研究者和校外產業界的紐帶。數據院既了解老師們的輸出,也知道社會的需求,既能為老師創造成果轉化的條件,又能幫助企業和社會解決實際的問題。這就是產學研的融合,不僅僅局限在表層的合作,而是更緊密的耦合,我把它稱作「化合態」的「產學研」。

剛才講到清華人的情懷,老師們在這個研究方向深扎幾十年,無問西東,所以才有很多的成果、有很多的輸出。我們需要給他們一個契機、一個平台、一個機制把它們成功地轉化出來,落地到社會服務上面。「得意音通」就是一個例子,為什麼它在語音這個領域競爭力特彆強?這跟資金沒關係。很多國際公司包括國內的上市公司,遠遠比它有錢。「得意音通」的競爭力就體現在「技術積累」方面,這個不是僅僅靠錢能砸出來的。這個才是關鍵。

說到技術積累,我想談一談「實踐教學」,教學中很重要的環節,當然這也是數據科學研究院在人才培養方面的一大特色。實踐課我也認為很有必要。信息社會發展迅速,一定不能關在象牙塔中不接觸外界,要適當地進行實踐,從而更深入地理解所學的知識,從而進一步理解和體會學習的目的。把基礎打牢,有紮實的能力,畢業後即便做新東西也得心應手,後勁非常強。諸如人工智慧發展的新技術、大數據發展的新技術,其中很多技術的基本原理是一樣的,數學、物理、信息領域等很多基礎都會用上。

隨著大數據和人工智慧等技術的發展,相信清華將在行業中扮演越來越重要的角色。肩負著責任感和使命感,師生們也將共同在學科交叉、技術融合的舞台專註耕耘,解決新時代的問題,更好地服務社會。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 數據派THU 的精彩文章:

開放數據平台、助力國家實驗室:盤點默默耕耘在數據科學領域的清華力量
手把手教你用R處理常見的數據清洗問題

TAG:數據派THU |