Is Data Science Science?數據科學能否作為一門學科?
1、引子
在計算機科學領域探討學科屬性的時候,Peter J. Denning於2005年在Communications of the ACM雜誌上寫過一篇非常著名的文章:IsComputer ScienceScience?拉開了計算機科學作為一門學科的路程。十多年後的今天,計算機科學已經取得了令人矚目的成績,在各行各業中開花結果,應該已經沒有什麼人再去質疑計算機作為一門學科的合理性了。Peter J. Denning本人也在2015年用一本叫做「Great Principles of Computing」的書籍為這個偉大的時代做了一個最好的註解,並且計算機學科的外延早已擴大為「計算學科」(Computing Discipline)。
現在輪到數據科學了,IsData ScienceScience?
這問題的確很重要。就像計算機科學一樣,它不但牽涉到數據科學可持續發展的問題,而且牽涉到青年學生是否能源源不斷地加入到數據科學研究隊伍中來。
大數據的興起,催生了一門新的學科,即數據科學(Data Science)或數據學(Dataology),也有人稱為數據分析學(Data Analytics)。數據科學是關於數據的科學。
數據科學作為一個相對年輕的學科,定義本身就是模糊的,部分人甚至認為數據科學本身就是一個偽概念,可以把它看做傳統統計學,現代計算機科學等學科的結合。
2、什麼是數據科學?
可以認為,數據科學是研究數據的產生、獲取、存儲、傳輸、處理、可視化、利用及其相互關係的學科,它是當代科學的前沿學科,對幾乎所有其他學科都有很強的協同性和滲透性,生動地體現出整個基礎學科在大數據時代科技進步中的先導作用。
今天,人類處於一個科學高度分化又高度綜合的時代,數據科學和之前的信息技術在整個科學體系之中,將是發展最迅速的領域,充當著人類發展最強大的引擎,成為支撐學科交叉、技術創新、經濟發展的主導力量,向全社會全方位滲透,並推動人類社會不斷轉型。
人類賴以生存的、原以為資源及其豐富的地球,已成為物質和能量有限的「地球村」,通過數據科學和信息技術調控物質和能量,提升生產力,將使人與自然可和諧、可持續、科學發展。通過網路感知世界,讓地球變成數字地球、信息地球、智慧地球,推進整個社會信息化。
近半個世紀以來,圖靈獎、香農獎和計算機領域相關的諾貝爾獎等獲得者的貢獻和其對人類社會科技進步的重大影響,以及計算機科學的發展歷史都說明數據科學領域的發展將具有以下規律:
數據科學具有前沿性、探索性和交叉性;
數據科學需要長遠的努力研究,甚至沒有窮盡;
數據科學研究的深度(里程碑指標)難以預先明確地確定和精確量化;
科學的發現和技術的發明常常相互依賴,在數據科學發展過程中,又是發現在先,有時發明在前,並不總是先有發現後有發明;
基礎研究通常是應用研究或者技術創新的先導,但技術發展也可以成為科學研究的源泉,在某些情況下科學存在於技術當中,當前活躍的計算機和信息技術也可以成為數據科學的先導。
進入21世紀,從國際、國內發展角度來看,數據科學將呈現以下態勢及發展趨勢:
數據科學繼續向縱深方向發展,微觀的更微觀,宏觀的更宏觀,並展現出多尺度的豐富景象;
數據科學中,研究數據的產生、獲取、存儲、傳輸、處理、可視化、利用等要素時,難以簡當分割,常常表現出交叉、交織、膠著的狀態;
橫向發展催生更多的邊緣學科和交叉學科,成為科學進步和技術創新的主要源泉。
數據科學協同信息技術與其他學科和相關技術發展主要集中在兩個方面:一方面,作為高新技術產業的支柱,數據科學與信息技術在材料、器件等方面的需求帶動了物理、生物等學科的發展;另一方面,數據處理、存儲、檢索等技術推動了物理、生物、地球科學等現代科學進行更為複雜和全面的深入研究。
從經濟學和創新理論角度看,數據技術(DT)將成為一種通用技術,與很多學科相關,同時也支持幾乎所有的其它學科。數據科學領域尤如能源領域,其發展對推動其它學科和相關技術,乃至整個經濟社會發展,都起著深刻而廣泛的作用。個人計算機、高性能計算機、網際網路、萬維網、互聯網服務、數據挖據、機器學習、多媒體處理技術等都是例子。
歷史上,激光的發明是光纖通信、CD存儲和其他所有激光光學技術的基礎。晶體管對我們所有的電子設備發展起到了決定性作用,沒有晶體管和其他半導體器件及其在大規模集成電路中的超小型化,就不會有計算技術,也不會有控制電子設備技術和現代電子通訊技術的發展。2000年的諾貝爾物理學獎授予Z. I. Alferov、H. Kroemer和J. S. Kibly三位科學家,正是為了表彰他們發明了快速晶體管、激光二級管和集成電路,從而奠定了現代計算機技術的貢獻。
現代物理對量子的深入研究極有可能形成新的數據科學基礎。近10年來的研究表明,量子計算的實現不存在原理性的困難,僅在於物理實現。谷歌從2014年起一直致力於利用超導量子電路實現量子計算方法。微軟也當仁不讓,把賭注押在一個有趣但未經證實的概念——拓撲量子計算,希望在今年對該技術實施第一次示範。2015年開始英特爾公司與荷蘭的研究機構合作,他們在超純矽片上構建了多位的量子比特模塊。量子計算機正在悄悄向我們走來,2017將是關鍵性的一年。現在的問題已經不是懷疑量子計算機能不能做成,而應該是關注如何構建大型量子計算機和如何使用它們。另外,在生物領域,DNA計算機由於能處理數量龐大的計算並且具有強大的並行運算能力,因而具有解決數學難題的潛力。
在物理學領域,現代實驗要求十分高的探測精度和非常快的數據處理能力,沒有數據科學的高度發展,許多重要的實驗都將無法進行。從高能物理領域更深層次物質結構的研究到哈勃望遠鏡所獲取的大量宇宙數據都離不開大數據技術。新型加速器大型質子對撞機(LHC)在探索基本粒子過程中面臨巨大的信息處理。當LHC在設計高亮度下運行時,兩個質子束團相遇,將產生大約20次對撞事例。兩次束團相遇的時間間隔僅為25納秒。每個事例都將產生大約1 MB的數據,2秒就是1 PB,這些數據流將通過上百萬條通信信道傳送給LHC的全球計算資源網路。
在生物領域,生物信息學包含生物數據的獲取、處理、存儲、分發、分析和解釋,它需要利用現代大數據技術來闡明和解釋大量數據所包含的生物學意義。生物數據,如核酸序列、生物大分子空間結構等飛速增長,要求數據存儲與獲取必須提升性能。同時序列對比、測序與拼接等都需要大數據技術新的發展。
地球科學的發展支撐著人類利用自然資源、保護自然環境,對現代社會可持續發展起著重要的作用。大數據技術的進步為地球信息科學的發展創造了非常有利的工作環境,也提出了非常迫切的社會需求。豐富的地球科學大數據資源,需要設計出新一代的計算系統和基於高解析度遙感圖像的格網大數據系統,方便自然與數據要素的結合和多源數據的集成,提高時空分析能力,深度挖掘數據中蘊藏的內在規律,提煉其中有效的信息。全面系統地認識自然、資源、環境、人口、社會經濟諸多問題,形成地球信息圖譜,不僅為綜合國力評測和社會經濟可持續發展能力建設提供信息服務和決策支持,同時是國防現代化建設不可缺少的高新技術系統。
大數據與其它信息技術共同通過研究物質、能量和智能的本質,通過機器對物質和能量的利用與控制、通過對數據的理解和對智能的模擬,不僅大大延伸了人類的體力和智力,帶動工業生產和經濟水平的發展,而且也對其他學科的發展起到明顯的推動作用。
大數據技術作為一門工具用於其他學科的研究,到來研究方式的革命性改變。例如,在生物領域,越來越普遍地採用感測器技術和計算機處理技術後,對基於和蛋白質分析的研究效率成指數級增長,現在幾年就可以完成過去幾十年甚至上百年才能完成的生物數據分析採集和分析工作。
當前,大數據已經從TB時代邁入PB時代,對數據獲取、傳輸、處理和應用的性能要求越來越高;同時,數據產業自身的高速發展也為社會創造了巨大的財富,促進了相關學科的發展,將研製高性能的存儲、通訊材料、以及新的數據處理模式作為學科的重要目標。
數據科學與其他學科交叉甚廣,其與生命科學、數學、物理、化學、地理、機械學及管理科學等學科的交叉研究(甚至從文學史(Art history)到動物學(Zoology)),孕育著眾多新概念、新理論、新方法和新技術,必將促進數據科學與其他相關學科的共同發展。
3、數據科學作為一門學科
學科是人類知識體系中的基本組成部分,是知是體系不斷發展和分科深化的結果。它既指知識的某個門類,又指知識創造過程中某個專門的研究領域。在研究某類對象和傳承知識的過程中,相應的知識被創造並逐步發展成系統化的理論與方法,成長為一個有特定範式的學科。任何一個學科都經歷萌生、形成、成長、成熟的過程,一個學科成熟之後還可能發生一定程度的知識增長、更替或分化,乃至變革或螺旋式上升。
評判一個知識體系是否能成為一門學科,還是有些線索可以尋覓的。比如,看這門科學是否有某篇奠基性的學術論文或書籍被發表和承認?是否有代表性的人物出現?是否有與商業脫鉤的理論研究者?是否有大學課程?是否有一個公認的,約定俗成的內涵和外延?等等。
數據科學如果作為一門學科,目前所依賴的因素可以有兩個:數據的廣泛性和多樣性,以及數據研究的共性。因此,如果把「數據科學」這個名詞拆開來看,數據科學可以包括兩個方面的內容:用數據的方法來研究科學和用科學的方法來研究數據。前者的包含面很廣,囊括了地理信息學、生物信息學、神經信息學、網路信息學、天體信息學、數字地球、社會計算與商務智能等領域。而後者則包括了統計學、機器學習、模式識別、數據挖掘、資料庫、數據可視化、信息管理等領域。這些學科都是數據科學的重要組成部分。但只有把它們有機地放在一起,才能形成整個數據科學的全貌。
數據科學是在大數據的背景下發展壯大的,因此,研究大數據的方法可以稱作數據科學,而統計的研究方法就更可以算作是數據科學了。它不僅包括大數據的研究方法和研究背景,更包括對於數據軟體的使用、對於資料庫的理解、以及包括對於演算法的理解等。
大數據是未來數據分析和存儲的新趨勢。面對這個信息爆炸的時代,數據的高數量、高維度、高更新速度以及背後的高商業價值,都對傳統的硬體存儲、數據管理和統計分析方法提出了更高的要求。
原先的統計大多都是適用於小樣本的情況,而面對這樣的大數據往往顯得無能為力。因此,目前的統計學既是數據科學的基礎,也是建立在統計基礎上的一個科學。
因此,數據科學包含的內容更全面、更綜合,它更像是一個對於實際數據問題所需要具備的一些基本和專業的知識。而大數據,則只是一個概念,是對於現在這個數據泛濫時代的統稱,而它的研究方法應該包括在數據科學之中。
鄂維南教授認為,數據解析本質上都是在求解反問題,而且是隨機模型的反問題。所以對它們的研究有著很多的共性。例如自然語言處理和生物大分子模型里都用到隱馬爾科夫過程和動態規劃方法。其最根本的原因是它們處理的都是一維的隨機信號。再如圖像處理和統計學習中都用到的正則化方法,也是處理反問題的數學模型中最常用的一種手段。所以用於圖像處理的演算法和用於壓縮感知的演算法有著許多共同之處。
另外,數據科學涉及到如何從數據過渡到模型,再過渡到應用程序。因此,數據科學學科需要的不同的角色和技能,包括:統計學家、計算機科學家和軟體工程師等,其中不同的角色所交付的成果也不同,包括:
統計學家:洞察、預測、可視化表達;
計算機科學家:演算法、函數庫、計算/存儲/網路性能;
軟體工程師:數據軟體、數據應用程序、數據服務;
因此,數據科學是系統的、跨學科的研究領域,用於從各種不同形式的數據中獲取知識和洞察。它就像粘合劑一樣,把不同領域的知識和不同人的想法融合到一起,共同來解決關於數據的問題,把信息轉換成知識,以及可以採取行動的洞察。合作將成為數據科學領域的常態。
4、結束語
任何領域的研究,若要成為一門科學,一定是研究共性的問題。針對非常狹窄領域的某個具體問題,主要依靠該問題涉及的特殊條件和專門知識做數據挖掘,不大可能使大數據成為一門科學。數據科學的研究需要在一個領域發現的數據相互關係和規律具有可推廣到其他領域的普適性。抽象出一個領域的共性科學問題往往需要較長的時間,提煉「數據界」的共性科學問題還需要一段時間的實踐積累。至少未來5至10年內計算機界的學者還需多花精力協助其他領域的學者解決大數據帶來的技術挑戰問題。通過分層次的不斷抽象,大數據的共性科學問題才會逐步清晰明朗。
有人也許會問:數學算哪一類?數學不應該算在科學裡,它是藝術。而藝術和科學又是始終連接在一起的。所以,美國把科技發展水平常常說成State of the art。
那麼與數據和信息相關的這些新興學科呢?計算學科、數據科學學科……
TAG:Hadoop大數據應用 |
※Taylor Swift歸來,《Despacito》能否衛冕冠軍寶座?
※你能否駕馭的了?Reebok Sock Runner Ultraknit新色登場!
※Essential Phone跳票 能否上市令人擔憂
※Chanel 與 adidas 聯名或將改變球鞋文化,庫里能否憑藉 Curry 4「反擊」杜蘭特「Diss」? | 每周鞋評
※陳冠希死黨 A$AP Rocky 簽約 Under Armour!能否帶來侃爺效應?
※Burberry二月系列:能否解構Henry Moore雕塑的空寂?
※Essential Phone銷量事與願違,再推白色版能否翻盤?
※Steam能否變成下一個App Store?
※索尼Xperia XZ Premium國行評測 能否守護姨夫的微笑
※Air Jordan 1全新Flyknit版本再度曝光,經典重塑能否得人心?
※iPhone8的爆冷,能否靠iPhoneX來拯救?
※iPhone 8能否用上量產OLED屏:全看Canon Tokki的機器產能
※侃爺的小姨子加入 adidas Originals 家庭!能否帶來名模效應!
※Seven時隔5年出演《Happy Together》,能否撼動大眾的內心
※Running Man加新成員能否挽救收視率?新成員資料解密?Running Man動蕩史
※adidas 新作品!Laceless 無鞋帶設計能否掀起一番風潮?
※FateApocrypha動畫能否提升命運冠位指定的人氣呢
※iPhone X上的Face ID 能否繼續引領未來
※Azure Stack問世能否終結AWS、VMware和超融合設備的發展勢頭