大數據技術發展現狀與未來發展趨勢
信息科技經過60餘年的發展,已經滲透到國家治理、經濟運行的方方面面,政治、經濟中很大一部分的活動都與數據的創造、採集、傳輸和使用相關。隨著網路應用日益深化,大數據應用的影響日益擴大。根據IDC(國際數據公司)的監測統計,2011年全球數據總量已經達到1.8 ZB,而這個數值還在以每2 年翻一番的速度增長,預計到2020年,全球將總共擁有35 ZB的數據量,比2011年增長了近20倍。換句話說,近2年產生的數據總量相當於人類有史以來所有數據量的總和[1,2]。在這個大背景下,從公司戰略到產業生態,從學術研究到生產實踐,從城鎮管理乃至國家治理,都將發生本質的變化。國家競爭力將部分體現為一國擁有數據的規模、活性以及解釋、運用數據的能力。
大數據時代的2個特點非常有利於中國信息產業跨越式發展[3]。第一,大數據技術以開源為主,迄今為止,尚未形成絕對技術壟斷,即便是IBM、甲骨文等行業巨擘,也同樣是集成了開源技術和該公司已有產品而已。開源技術對任何一個國家都是開放的,中國公司同樣可以分享開源的蛋糕,但是需要以更加開放的心態、更加開明的思想正確地對待開源社區。第二,中國的人口和經濟規模決定了中國的數據資產規模冠於全球。這在客觀上為大數據技術的發展提供了演練場,也亟待政府、學術界、產業界、資本市場四方通力合作,在確保國家數據安全的前提下,最大程度地開放數據資產,促進數據關聯應用,釋放大數據的巨大價值。大數據超越信息技術,使人們重新界定國家競爭的主戰場,重新審視政府治理水平,重新認識科學研究的新範式,重新審視產業變遷的驅動因素,重新理解投資的決策依據,重新思考公司的戰略和組織結構。
一
國內外大數據發展動態
1)國際大數據戰略決策
縱觀世界各國的大數據策略,存在3個共同點:一是推動大數據全產業鏈的應用;二是數據開放與信息安全並重;三是政府與社會力量共同推動大數據應用[4]。本文以美國、英國、日本、德國4個國家為例具體說明。
(1)美國。2009年,美國政府推出公共服務平台(data.gov),全面開放了40萬聯邦政府原始數據和地理數據。2012年3月,美國白宮科技政策辦公室發布《大數據研究和發展計劃》,成立「大數據高級指導小組」。通過對海量數據分析萃取信息,提升對社會經濟發展的預測能力。美國國家科學基金會、國家衛生研究院、國防部、能源部、國防部高級研究局、地質勘探局6個聯邦部門和機構宣布投資2億美元,共同提高收集、儲存、保留、管理、分析和共享海量數據所需核心技術的先進性,並形成合力;加強對信息技術研發投入以推動超級計算和互聯網的發展。2013 年,美國發布《政府信息公開和機器可讀行政命令》,要求公開教育、健康等七大關鍵領域數據,並對各政府機構數據開放時間提出了明確要求。2013年11月,美國信息技術與創新基金會發布《支持數據驅動型創新的技術與政策》指出,政府不僅要大力培養所需技能勞動力和推動數據相關技術研發,還要制定推動數據共享的法律框架,並提高公眾對數據共享重大意義的認識。2014年5月,美國發布《大數據:把握機遇,守護價值》白皮書,對美國大數據應用與管理的現狀,政策框架和改進建議進行集中闡述。2016年4月,麻省理工學院推出了「數據美國」在線大數據可視化工具,可以實時分析展示美國政府公開資料庫(Open Data)。
(2)英國。2011年11月,英國政府發布了對公開數據進行研究的戰略決策,建立了有「英國數據銀行」之稱的data.gov.uk網站,希望通過完全公布政府數據,進一步支持和開發大數據技術在科技、商業、農業等領域的發展。2012年5月,英國政府注資10萬英鎊,支持建立了世界上首個開放數據研究所ODI(Open Data Institute)。ODI研究所將為那些對公眾有益的商業企業活動提供數據背景支持,不但釋放了新的商業潛力,還推動了經濟發展以及個人收入增長的新形式。2013 年5 月,英國政府和李嘉誠基金會聯合投資9000萬英鎊,在牛津大學成立全球首個綜合運用大數據技術的醫藥衛生科研中心。中心將通過搜集、存儲和分析大量生物醫療數據,與業界共同界定新藥物研發方向,處理新葯研發過程中的瓶頸,並為發現新的治療手段提供線索。2013 年8月,英國政府發布《英國農業技術戰略》。該戰略指出,英國今後對農業技術的投資將集中在大數據上,目標是將英國的農業科技商業化。2014年,英國政府投入7300萬英鎊進行大數據技術的開發,包括在55個政府數據分析項目中展開大數據技術的應用;以高等學府為依託投資興辦大數據研究中心,如圖靈大數據研究院。2015年,英國政府承諾將開放有關交通運輸、天氣和健康方面的核心公共資料庫。
(3)日本。2012年6月,日本IT戰略本部發布電子政務開放數據戰略草案,邁出了政府數據公開的關鍵一步。2012年7月,日本總務省ICT基本戰略委員會發布了《面向2020年的ICT綜合戰略》,提出「活躍在ICT領域的日本」的目標,將重點關注大數據應用所需的社會化媒體等智能技術開發、傳統產業IT創新、新醫療技術開發、緩解交通擁堵等公共領域應用等。2013年6月,日本正式公布新IT戰略-創建最尖端IT國家宣言。全面闡述2013—2020年期間以發展開放公共數據和大數據為核心的日本新IT國家戰略,提出要把日本建設成為具有世界最高水準的廣泛運用信息產業技術的社會。為此,日本政府推出數據分類網站(data.go.jp),目的是提供不同政府部門和機構的數據供使用,向數據提供者和數據使用者開放數據。數據涉及各類白皮書、地理空間信息、人群運動信息、預算、年終財務和流程數據等。2013年7月,日本三菱綜合研究所牽頭成立了「開放數據流通推進聯盟」,旨在由產官學聯合,促進日本公共數據的開放應用。2014年8月,日本內閣府決定在每月公布的月度經濟報告中採用互聯網上累積的「大數據」作為新的經濟判斷指標。內閣府將根據網路用戶對產品和服務的搜索情況和推特網站上所發帖子來分析實時消費動向。日本防衛省也將從2015年開始正式研討將「大數據」運用于海外局勢的分析。這一舉措作為自衛隊海外活動擴大背景下的新方案,旨在強化情報收集能力。
(4)德國。2010年,德國制定「數字德國2015的ICT 戰略」,在能源、交通、保健、教育、休閑、旅遊和管理等傳統行業採用現代ICT 技術實現智能網路化。2013年4月,德國政府提出了「工業4.0」的概念。該項目德國聯邦政府投入2億歐元,由德國聯邦教研部與聯邦經濟技術部聯手資助,在德國工程院、弗勞恩霍夫協會、西門子公司等德國學術界和產業界的建議和推動下形成,並已上升為國家級戰略。德國IT行業協會BITKOM 於2014年初發表報告稱,大數據業務在德國發展迅速,到2016年有望達到136億歐元。2014年8月20日,德國聯邦政府內閣通過了由德國聯邦經濟和能源部、內政部、交通與數字基礎設施建設部聯合推出的《2014—2017 年數字議程》,提出在變革中推動「網路普及」「網路安全」「數字經濟發展」3個重要進程,希望以此打造具有國際競爭力的「數字強國」。
由此可見,大數據超越信息技術、使人們重新界定國家競爭的主戰場,重新審視政府治理水平,重新認識科學研究的新範式,重新審視產業變遷的驅動因素,重新理解投資的決策依據,重新思考公司的戰略和組織結構。
2)國際大數據產業變革
2013年6月,美國中央情報局前僱員斯諾登揭開了「數據戰爭」的冰山一角。美國的「稜鏡計劃」事實上把所有國家、個人都納在美國國家安全局(NSA)的監控之下。參與稜鏡計劃的公司包括谷歌、雅虎、Facebook、微軟、蘋果、思科、Oracle、IBM 等科技巨頭。由此可見,在大數據時代,IT產業的強大已經成為直接決定一個大國是否成為強國的最為關鍵的因素之一。
產業需要變革,行業需要互通互融。所謂「大數據+」,就是將大數據思維嫁接到不同的產業中,推動大數據在各行各業落地。大數據不僅只關係到IT行業,而且眾多行業龍頭公司都已經意識到了大數據新思維的巨大衝擊。互聯網、金融、電信、醫療、政府等是大數據運營的重點領域。而大多數領域的大數據發展應用仍處在初級階段,在大數據應用的實踐過程中也遇到了數據資產不明、應用需求不定、平台建設、技術路線、安全隱私問題等方面的挑戰,但是大數據應用在各領域還是做出了一些有益的探索,並取得了一定的成績。
在電信行業,一些發達國家電信運營商對大數據的利用,一方面提升服務質量,改善內部管理,包括客戶維繫、精準營銷和網路運營與管理,代表企業分別為法國電信、英國O2、NTT DoCoMo和沃達豐。法國電信開展針對用戶消費的大數據分析評估,藉助大數據改善服務水平,提升用戶體驗;英國O2在英國推出了免費WiFi 服務,以積累更多的用戶,從而收集到更多的用戶數據,用在精準的媒體廣告和營銷服務方面;NTT DoCoMo通過製作精細化表格,收集用戶詳細信息,大大加強了CRM系統和知識庫,準確定位目標客戶,提高了業務辦理的成功性;沃達豐愛爾蘭公司的Tellabs「洞察力分析」服務是將通信網路中的大數據轉化為可利用的情報。另一方面確立商業模式,創造外部收益,包括直接出售數據獲取收益,以及與第三方公司合作項目給運營商創造盈利,代表企業有AT&T、西班牙電信、Dynamic Insights、Verizon、德國電信和沃達豐。AT&T 將與用戶相關的數據出售給政府和企業以獲利;西班牙電信成立了動態洞察部門;Dynamic Insights 開展大數據業務,為客戶提供數據分析打包服務,與市場研究機構GFK進行合作,在英國、巴西推出了首款產品名為智慧足跡(Smart Steps);Verizon成立了精準營銷部門Precision Marketing Division,提供了精準營銷洞察、精準營銷、移動商務等服務,包括聯合第三方機構對其用戶群進行大數據分析,再將有價值的信息提供給政府或企業獲取額外價值,數據業務的盈利在其整個業務中佔比非常高;德國電信和沃達豐主要嘗試通過開放API 向數據挖掘公司等合作方提供部分用戶匿名地理位置數據,以掌握人群出行規律,有效地與一些LBS應用服務對接。
在連鎖零售業中,英國最大的連鎖超市特易購(TESCO)已經開始運用大數據技術採集並分析其客戶行為信息數據集。特易購首先在大數據系統內給每個顧客確定一個編號,然後通過顧客的刷卡消費、填寫調查問卷、打客服電話等行為採集他們的相關數據,再用計算機系統建立特定模型,對每個顧客的海量數據進行分析,得出特定顧客的消費習慣、近期可能的消費需求等結論,以此來制定有針對性的促銷計劃並調整商品價格。這種「有的放矢」的營銷和定價模式為特易購提供了更加高效的盈利方法。
在交通運輸方面,美國Inrix 公司和新澤西州運輸部達成合作夥伴關係。Inrix 公司通過汽車和行動電話GPS 裝置上的信號和數據,採集主幹道上的車速數據,然後實時向新澤西州運輸部警示任意主幹道上的路況險情,同時向司機的車載GPS裝置或行動電話發送警示提醒司機注意路況險情。這個項目現已擴展為跨州服務,覆蓋範圍包括馬里蘭州和北卡羅來納州。
在農業方面,美國天氣保險公司(Climate Corporation)可以為美國的農民提供天氣意外保險,農民朋友可以在電腦上模擬未來可能破壞農業生產的天氣,然後選擇合適的保險進行投保,這樣在未來發生災害時損失可以降低到最少。該公司通過龐大的感測器網路分析和預測2000 萬美國農田的氣溫、降水、土壤濕度和產量。在知曉高溫天的天數以及土壤濕度數據後,建立模型幫助其預判農民需要的天氣保險金額以及公司需要支付的保費。
在氣候方面,美國紐約州能源研究和發展管理局運用一系列的大數據技術來評估氣候變化對紐約州的影響,並為農業、公共衛生、能源和交通運輸等領域提供應對氣候變化的策略。這一應用也被引入美國疾病控制中心,正與美國其他10個州和城市一起開展「閱讀州和城市計劃」,共同研究和應對氣候變化,而大數據技術是其中一個非常重要的組成部分。
在外包領域,大數據技術也已成為信息技術行業的「下一個大事件」。目前,一些外包行業巨頭也開始進軍大數據市場,試圖瓜分這一塊大蛋糕。印度全國軟體與服務企業協會預計,印度大數據行業規模在3年內將達到12億美元,是目前規模的6倍,同時還是全球大數據行業平均增長速度的2倍。
在信息安全行業,FireEye 和Splunk這類國際企業在大數據安全方面發展迅速,他們在大數據安全方面的技術也值得國內企業借鑒。專做DLP產品的Websense 公司,他們基於數據流的分析技術十分有利於大數據的分析、挖掘。
在人與機器的圍棋大戰中,AlphaGo 擊敗李世石的事實再次展示了大數據應用產業的巨大潛力。通過大數據掌握消費習慣,摸准產業發展脈絡,提供有效供給,已成為當前產業轉型升級的方式之一。
綜上所述,數據資產可以成為任何產業的最核心競爭力。未來幾年,隨著數據中心等基礎設施建設的落地,大數據市場將進一步向軟體和服務端拓展,深度融合多個產業。對大數據的價值挖掘也將進入快速發展期,為不同行業的需求提供差異化的服務。
3)中國大數據發展態勢
(1)中國政府促進大數據發展的措施
隨著信息技術的高速發展,世界範圍內各行各業都在進行信息化變革,幾乎每個行業都在努力發現和利用大數據的價值。為了充分利用大數據帶來的機遇,同時有效應對大數據帶來的挑戰,中國產業界、科技界和政府部門也在積極布局、制定戰略規劃。
2012年8月,國務院制定了促進信息消費擴大內需的文件,推動商業企業加快信息基礎設施演進升級,增強信息產品供給能力,形成行業聯盟,制定行業標準,構建大數據產業鏈,促進創新鏈與產業鏈有效嫁接。同時,構建大數據研究平台,整合創新資源,實施「專項計劃」,突破關鍵技術。工業和信息化部為鼓勵和推進大數據產業發展也制定了3大措施:一是在已通過促進信息消費擴大內需的意見、軟體和信息技術服務業「十二五」規劃等政策規劃中,對大數據發展進行了部署;二是推動全國信息技術標準化技術委員會開展了大數據標準化的需求分析、標準體系框架研究及相關標準研製工作,並向相關國際標準化組織提交了大數據研究提案;三是利用項目資金等手段進行了前沿部署,支持關鍵技術產品的研發和產業化。
2015年8月,國務院發布《促進大數據發展行動綱要》(以下簡稱為《綱要》),這是指導中國大數據發展的國家頂層設計和總體部署。《綱要》明確指出了大數據的重要意義,大數據成為推動經濟轉型發展的新動力、重塑國家競爭優勢的新機遇、提升政府治理能力的新途徑。《綱要》清晰地提出了大數據發展的主要任務:加快政府數據開放共享,推動資源整合,提升治理能力;推動產業創新發展,培育新興業態,助力經濟轉型;強化安全保障,提高管理水平,促進健康發展。《綱要》還提出了組織、法規、市場、標準、財政、人才、國際交流等幾方面的政策機制要求。《綱要》的出台,進一步凸顯大數據在提升政府治理能力、推動經濟轉型升級中的關鍵作用。「數據興國」和「數據治國」已上升為國家戰略,將成為中國今後相當長時期的國策。未來,大數據將在穩增長、促改革、調結構、惠民生中發揮越來越重要的作用。
(2) 大數據基礎研究列為中國戰略研究主題
2012 年,國家重點基礎研究發展計劃(973 計劃)專家顧問組在前期項目部署的基礎上,將大數據基礎研究列為信息科學領域4個戰略研究主題之一。2013年,973計劃將「面向網路信息空間大數據計算的基礎研究」列為指南的重要支持方向。2014 年,科技部基礎研究司在北京組織召開「大數據科學問題」研討會,邀請有關專家圍繞973計劃大數據研究布局、中國大數據發展戰略、國外大數據研究框架與重點、大數據研究關鍵科學問題、重要研究內容和組織實施路線圖等展開研討,並對數據挖掘與管理、深度學習、大數據智能、大數據與其他學科的交叉等進行了深入交流。大數據對國家科技、經濟、社會發展意義重大,應加強頂層設計,研究制定大數據研究的戰略布局和實施路線圖,推動學科交叉,拓展並提升我國大數據科學的研究能力和應用水平。
近兩年,國家重點基礎研究和高技術發展計劃大力支持大數據重大建設項目,由北京航空航天大學承擔的「網路信息空間大數據計算理論」、中國科學院計算技術研究所承擔的「網路大數據計算的基礎理論及其應用研究」、清華大學承擔的「面向城市管理的三元空間大數據計算理論與方法」「大數據群體計算的基礎理論與關鍵技術」、上海交通大學承擔的「城市大數據三元空間協同計算理論與方法」、山東大學承擔的「城市大數據計算理論和方法」等項目獲得973計劃支持。由上海交通大學承擔的「面向大數據的內存計算關鍵技術與系統」、電子科技大學承擔的「初等數學問題求解關鍵技術及系統」、科大訊飛承擔的「基於大數據的類人智能關鍵技術與系統」、國網上海電力公司承擔的「智能配用電大數據應用關鍵技術」、哈爾濱工業大學承擔的「生物大數據開發與利用關鍵技術研究」、中山大學腫瘤防治中心承擔的「常見惡性腫瘤大數據處理分析與應用研究」等項目獲得國家高技術研究發展計劃(863 計劃)支持。2014 年獲批的國家自然科學基金立項項目,「項目主題詞」含「大數據」共144條,其中200萬以上經費的項目有18個。
2016年,國家發改委正式印發《關於組織實施促進大數據發展重大工程的通知》(以下簡稱《通知》)。《通知》稱,將重點支持大數據示範應用、共享開放、基礎設施統籌發展,以及數據要素流通。同時將擇優推薦項目進入國家重大建設項目庫審核區,並根據資金總體情況予以支持。國家重點支持的項目,包括社會治理大數據應用、公共服務大數據應用,以及產業發展大數據應用、創業創新大數據應用等。《通知》還提到,將組織大數據開放計劃,開展大數據全民創新競賽。建立統一的公共數據共享開放平台體系,以及整合分散的政務數據中心,並首次提到了探索構建國家數據中心體系開展綠色數據中心試點。同時,在最受業界關注的大數據交易方面,《通知》也提到,將重點支持數據要素流通,建立完善國家大數據標準體系,依託已建的大數據交易所,探索建立大數據交易平台,提供豐富的數據產品、交易模式等方面的規範制度[5]。
(3)中國大數據產業強勢增長
中國移動提出了大數據時代全新的移動互聯網戰略,即:構築「智能管道」、搭建「開放平台」、打造「特色業務」與提供「友好界面」,這體現了中國移動在移動互聯網時代全面開啟之際的全新戰略定位。中國移動成立了蘇州研發中心,計劃構建3000~4000人的研發團隊和運營團隊,宗旨是進一步完善雲計算和大數據產品體系,儘快形成國際一流的雲計算和大數據服務能力。
百度、阿里巴巴、奇虎360、京東等互聯網企業依靠自身的數據優勢,均已將大數據作為公司的重要戰略。大數據正在從理論走向實踐,從專業領域走向全民應用的階段。百度在大數據方面讓人印象深刻的有百度遷徙這樣的公益項目,應用在民生和新聞等領域。百度網盟利用基於大數據的CTR(廣告內容匹配)數據使站長的平均收入提升70%。阿里巴巴集團宣布無線開放戰略,啟動百川計劃。該計劃將全面分享阿里無線資源,為移動開發者提供技術、數據、商業等全鏈條基礎設施服務。其中,大數據層面則將聯合移動應用統計分析平台友盟,幫助開發者完善數據精準挖掘分析及完善個性化推送體系。
奇虎360舉辦首屆數字世界大會,並發布實效平台、聚效平台和來店通等3款產品,把集合了數10億用戶信息的數據免費分享給廣告主,幫助廣告商利用大數據做更有效的營銷。 京東也在積極通過大數據技術挖掘用戶需求,提供更精準的服務。藉助微信能夠帶來巨大流量的優勢,舉行京東微信購物的眾籌活動,一個月參與人數就達到40萬人次。
綜上所述,國內大數據產業起步較晚,同時由於互聯網技術也有所滯後,使得中國的大數據發展較領先國家還尚有一段距離。但是,中國又有得天獨厚的優勢——龐大的用戶群,每日有龐大的數據量不斷生成,同時受惠用戶量也極為眾多。中國電子信息產業發展研究院賽迪顧問預測,2016年,中國大數據產業還將保持強勢增長態勢,大數據市場年複合增長率有望達到30%以上。對大數據的價值挖掘將快速滲透到產業的方方面面。從政策環境上看,中國在數據開放的過程中仍然存在安全隱患,需要健全的法律法規以及先進的數據安全技術作保障。研究機構提醒有關部門研究制定網路數據採集、傳輸、存儲、使用管理的標準規範,加大對隱私信息保護、網路安全保障、跨境數據流動的管理等。在政府數據開放方面也亟需進一步加強。
二
大數據技術進展
目前,大數據領域每年都會湧現出大量新的技術,成為大數據獲取、存儲、處理分析或可視化的有效手段。大數據技術能夠將大規模數據中隱藏的信息和知識挖掘出來,為人類社會經濟活動提供依據,提高各個領域的運行效率,甚至整個社會經濟的集約化程度。
1)大數據生命周期
圖1展示了一個典型的大數據技術棧。底層是基礎設施,涵蓋計算資源、內存與存儲和網路互聯,具體表現為計算節點、集群、機櫃和數據中心。在此之上是數據存儲和管理,包括文件系統、資料庫和類似YARN的資源管理系統。然後是計算處理層,如Hadoop[6]、MapReduce[7] 和Spark[8],以及在此之上的各種不同計算範式,如批處理、流處理和圖計算等,包括衍生出編程模型的計算模型,如BSP、GAS 等。數據分析和可視化基於計算處理層。分析包括簡單的查詢分析、流分析以及更複雜的分析(如機器學習、圖計算等)。查詢分析多基於表結構和關係函數,流分析基於數據、事件流以及簡單的統計分析,而複雜分析則基於更複雜的數據結構與方法,如圖、矩陣、迭代計算和線性代數。一般意義的可視化是對分析結果的展示。但是通過互動式可視化,還可以探索性地提問,使分析獲得新的線索,形成迭代的分析和可視化。基於大規模數據的實時交互可視化分析以及在這個過程中引入自動化的因素是目前研究的熱點。
圖1 大數據技術棧
有2個領域垂直打通了上述的各層,需要整體、協同地看待。一是編程和管理工具,方向是機器通過學習實現自動最優化、盡量無需編程、無需複雜的配置。另一個領域是數據安全,也是貫穿整個技術棧。除了這兩個領域垂直打通各層,還有一些技術方向是跨了多層的,例如「內存計算」事實上覆蓋了整個技術棧。
2)大數據技術生態
大數據的基本處理流程與傳統數據處理流程並無太大差異,主要區別在於:由於大數據要處理大量、非結構化的數據,所以在各處理環節中都可以採用並行處理。目前,Hadoop[6]、MapReduce[7]和Spark[8]等分散式處理方式已經成為大數據處理各環節的通用處理方法。
Hadoop是一個由Apache基金會開發的大數據分散式系統基礎架構。用戶可以在不了解分散式底層細節的情況下,輕鬆地在Hadoop上開發和運行處理大規模數據的分散式程序,充分利用集群的威力高速運算和存儲。Hadoop 是一個數據管理系統,作為數據分析的核心,彙集了結構化和非結構化的數據,這些數據分布在傳統的企業數據棧的每一層。Hadoop也是一個大規模並行處理框架,擁有超級計算能力,定位於推動企業級應用的執行。Hadoop又是一個開源社區,主要為解決大數據的問題提供工具和軟體。雖然Hadoop提供了很多功能,但仍然應該把它歸類為多個組件組成的Hadoop生態圈,這些組件包括數據存儲、數據集成、數據處理和其他進行數據分析的專門工具。圖2 展示了Hadoop 的生態系統,主要由HDFS、MapReduce、Hbase、Zookeeper、Oozie、Pig、Hive等核心組件構成,另外還包括Sqoop、Flume等框架,用來與其他企業融合。同時,Hadoop 生態系統也在不斷增長,新增Mahout、Ambari、Whirr、BigTop 等內容,以提供更新功能[9]。
圖2 Hadoop生態系統
低成本、高可靠、高擴展、高有效、高容錯等特性讓Hadoop成為最流行的大數據分析系統,然而其賴以生存的HDFS 和MapReduce 組件卻讓其一度陷入困境——批處理的工作方式讓其只適用於離線數據處理,在要求實時性的場景下毫無用武之地。因此,各種基於Hadoop的工具應運而生。為了減少管理成本,提升資源的利用率,有當下眾多的資源統一管理調度系統,例如Twitter 的Apache Mesos、Apache 的YARN、Google 的Borg、騰訊搜搜的Torca、Facebook Corona(開源)等。Apache Mesos是Apache孵化器中的一個開源項目,使用ZooKeeper實現容錯複製,使用Linux Containers 來隔離任務,支持多種資源計劃分配(內存和CPU)。提供高效、跨分散式應用程序和框架的資源隔離和共享,支持Hadoop、MPI、Hypertable、Spark 等。YARN 又被稱為MapReduce 2.0,借鑒Mesos,YARN 提出了資源隔離解決方案Container,提供Java 虛擬機內存的隔離。對比MapReduce 1.0,開發人員使用ResourceManager、ApplicationMaster與NodeManager代替了原框架中核心的JobTracker 和TaskTracker。在YARN平台上可以運行多個計算框架,如MR、Tez、Storm、Spark等。
基於業務對實時的需求,有支持在線處理的Storm、Cloudar Impala、支持迭代計算的Spark 及流處理框架S4。Storm是一個分散式的、容錯的實時計算系統,由BackType開發,後被Twitter捕獲。Storm屬於流處理平台,多用於實時計算並更新資料庫。Storm也可被用於「連續計算」(Continuous Computation),對數據流做連續查詢,在計算時就將結果以流的形式輸出給用戶。它還可被用於「分散式RPC」,以並行的方式運行昂貴的運算。Cloudera Impala是由Cloudera開發,一個開源的Massively Parallel Processing(MPP)查詢引擎。與Hive 相同的元數據、SQL語法、ODBC 驅動程序和用戶介面(HueBeeswax),可以直接在HDFS 或HBase 上提供快速、互動式SQL 查詢。Impala是在Dremel的啟發下開發的,不再使用緩慢的Hive+MapReduce 批處理,而是通過與商用並行關係資料庫中類似的分散式查詢引擎(由Query Planner、Query Coordinator 和Query Exec Engine這3部分組成),可以直接從HDFS 或者HBase 中用SELECT、JOIN 和統計函數查詢數據,從而大大降低了延遲。
Hadoop社區正努力擴展現有的計算模式框架和平台,以便解決現有版本在計算性能、計算模式、系統構架和處理能力上的諸多不足,這正是Hadoop2.0 版本「 YARN」的努力目標。各種計算模式還可以與內存計算模式混合,實現高實時性的大數據查詢和計算分析。混合計算模式之集大成者當屬UC Berkeley AMP Lab 開發的Spark生態系統,如圖3所示。Spark 是開源的類Hadoop MapReduce的通用的數據分析集群計算框架,用於構建大規模、低延時的數據分析應用,建立於HDFS之上。Spark提供強大的內存計算引擎,幾乎涵蓋了所有典型的大數據計算模式,包括迭代計算、批處理計算、內存計算、流式計算(Spark Streaming)、數據查詢分析計算(Shark)以及圖計算(GraphX)。Spark 使用Scala 作為應用框架,採用基於內存的分散式數據集,優化了迭代式的工作負載以及互動式查詢。與Hadoop 不同的是,Spark 和Scala 緊密集成,Scala 像管理本地collective 對象那樣管理分散式數據集。Spark支持分散式數據集上的迭代式任務,實際上可以在Hadoop文件系統上與Hadoop一起運行(通過YARN、Mesos等實現)。另外,基於性能、兼容性、數據類型的研究,還有Shark、Phoenix、Apache Accumulo、Apache Drill、Apache Giraph、Apache Hama、Apache Tez、Apache Ambari 等其他開源解決方案。預計未來相當長一段時間內,主流的Hadoop平台改進後將與各種新的計算模式和系統共存,並相互融合,形成新一代的大數據處理系統和平台。
圖3 Spark生態系統
3)大數據採集與預處理
在大數據的生命周期中,數據採集處於第一個環節。根據MapReduce產生數據的應用系統分類,大數據的採集主要有4種來源:管理信息系統、Web信息系統、物理信息系統、科學實驗系統。對於不同的數據集,可能存在不同的結構和模式,如文件、XML 樹、關係表等,表現為數據的異構性。對多個異構的數據集,需要做進一步集成處理或整合處理,將來自不同數據集的數據收集、整理、清洗、轉換後,生成到一個新的數據集,為後續查詢和分析處理提供統一的數據視圖。針對管理信息系統中異構資料庫集成技術、Web 信息系統中的實體識別技術和DeepWeb集成技術、感測器網路數據融合技術已經有很多研究工作,取得了較大的進展,已經推出了多種數據清洗和質量控制工具[10],例如,美國SAS公司的Data Flux、美國IBM 公司的Data Stage、美國Informatica 公司的Informatica Power Center。
4)大數據存儲與管理
傳統的數據存儲和管理以結構化數據為主,因此關係資料庫系統(RDBMS)可以一統天下滿足各類應用需求。大數據往往是半結構化和非結構化數據為主,結構化數據為輔,而且各種大數據應用通常是對不同類型的數據內容檢索、交叉比對、深度挖掘與綜合分析。面對這類應用需求,傳統資料庫無論在技術上還是功能上都難以為繼。因此,近幾年出現了oldSQL、NoSQL 與NewSQL 並存的局面。總體上,按數據類型的不同,大數據的存儲和管理採用不同的技術路線,大致可以分為3類。第1類主要面對的是大規模的結構化數據。針對這類大數據,通常採用新型資料庫集群。它們通過列存儲或行列混合存儲以及粗粒度索引等技術,結合MPP(Massive Parallel Processing)架構高效的分散式計算模式,實現對PB 量級數據的存儲和管理。這類集群具有高性能和高擴展性特點,在企業分析類應用領域已獲得廣泛應用;第2類主要面對的是半結構化和非結構化數據。應對這類應用場景,基於Hadoop開源體系的系統平台更為擅長。它們通過對Hadoop生態體系的技術擴展和封裝,實現對半結構化和非結構化數據的存儲和管理;第3類面對的是結構化和非結構化混合的大數據,因此採用MPP 並行資料庫集群與Hadoop 集群的混合來實現對百PB 量級、EB量級數據的存儲和管理。一方面,用MPP 來管理計算高質量的結構化數據,提供強大的SQL和OLTP型服務;另一方面,用Hadoop實現對半結構化和非結構化數據的處理,以支持諸如內容檢索、深度挖掘與綜合分析等新型應用。這類混合模式將是大數據存儲和管理未來發展的趨勢。
5)大數據計算模式與系統
計算模式的出現有力推動了大數據技術和應用的發展,使其成為目前大數據處理最為成功、最廣為接受使用的主流大數據計算模式。然而,現實世界中的大數據處理問題複雜多樣,難以有一種單一的計算模式能涵蓋所有不同的大數據計算需求。研究和實際應用中發現,由於MapReduce主要適合於進行大數據線下批處理,在面向低延遲和具有複雜數據關係和複雜計算的大數據問題時有很大的不適應性。因此,近幾年來學術界和業界在不斷研究並推出多種不同的大數據計算模式。
所謂大數據計算模式,即根據大數據的不同數據特徵和計算特徵,從多樣性的大數據計算問題和需求中提煉並建立的各種高層抽象(abstraction)或模型(model)。例如,MapReduce 是一個並行計算抽象[7],加州大學伯克利分校著名的Spark系統中的「分布內存抽象RDD」[8],CMU 著名的圖計算系統GraphLab 中的「圖並行抽象」(Graph Parallel Abstraction[11])等。傳統的並行計算方法,主要從體系結構和編程語言的層面定義了一些較為底層的並行計算抽象和模型,但由於大數據處理問題具有很多高層的數據特徵和計算特徵,因此大數據處理需要更多地結合這些高層特徵考慮更為高層的計算模式。
根據大數據處理多樣性的需求和以上不同的特徵維度,目前出現了多種典型和重要的大數據計算模式。與這些計算模式相適應,出現了很多對應的大數據計算系統和工具[12]。由於單純描述計算模式比較抽象和空洞,因此在描述不同計算模式時,將同時給出相應的典型計算系統和工具,如表1[13~22]所示,這將有助於對計算模式的理解以及對技術發展現狀的把握,並進一步有利於在實際大數據處理應用中對合適的計算技術和系統工具的選擇使用[23]。
6)大數據分析與可視化
在大數據時代,人們迫切希望在由普通機器組成的大規模集群上實現高性能的以機器學習演算法為核心的數據分析,為實際業務提供服務和指導,進而實現數據的最終變現。與傳統的在線聯機分析處理OLAP不同,對大數據的深度分析主要基於大規模的機器學習技術,一般而言,機器學習模型的訓練過程可以歸結為最優化定義於大規模訓練數據上的目標函數並且通過一個循環迭代的演算法實現,如圖4所示。因而與傳統的OLAP相比較,基於機器學習的大數據分析具有自己獨特的特點[24]。
圖4 基於機器學習的大數據分析演算法目標函數和迭代優化過程
(1)迭代性:由於用於優化問題通常沒有閉式解,因而對模型參數確定並非一次能夠完成,需要循環迭代多次逐步逼近最優值點。
(2)容錯性:機器學習的演算法設計和模型評價容忍非最優值點的存在,同時多次迭代的特性也允許在循環的過程中產生一些錯誤,模型的最終收斂不受影響。
(3)參數收斂的非均勻性:模型中一些參數經過少數幾輪迭代後便不再改變,而有些參數則需要很長時間才能達到收斂。
這些特點決定了理想的大數據分析系統的設計和其他計算系統的設計有很大不同,直接應用傳統的分散式計算系統應用於大數據分析,很大比例的資源都浪費在通信、等待、協調等非有效的計算上。
傳統的分散式計算框架MPI(message passing interface,信息傳遞介面)[25]雖然編程介面靈活功能強大,但由於編程介面複雜且對容錯性支持不高,無法支撐在大規模數據上的複雜操作,研究人員轉而開發了一系列介面簡單容錯性強的分散式計算框架服務於大數據分析演算法,以MapReduce[7]、Spark[8]和參數伺服器ParameterServer[26]等為代表。
分散式計算框架MapReduce[7]將對數據的處理歸結為Map和Reduce兩大類操作,從而簡化了編程介面並且提高了系統的容錯性。但是MapReduce受制於過於簡化的數據操作抽象,而且不支持循環迭代,因而對複雜的機器學習演算法支持較差,基於MapReduce的分散式機器學習庫Mahout需要將迭代運算分解為多個連續的Map 和Reduce 操作,通過讀寫HDFS文件方式將上一輪次循環的運算結果傳入下一輪完成數據交換。在此過程中,大量的訓練時間被用於磁碟的讀寫操作,訓練效率非常低效。為了解決MapReduce上述問題,Spark[8] 基於RDD 定義了包括Map 和Reduce在內的更加豐富的數據操作介面。不同於MapReduce 的是Job 中間輸出和結果可以保存在內存中,從而不再需要讀寫HDFS,這些特性使得Spark能更好地適用於數據挖掘與機器學習等需要迭代的大數據分析演算法。基於Spark實現的機器學習演算法庫MLLIB已經顯示出了其相對於Mahout 的優勢,在實際應用系統中得到了廣泛的使用。
近年來,隨著待分析數據規模的迅速擴張,分析模型參數也快速增長,對已有的大數據分析模式提出了挑戰。例如在大規模話題模型LDA 中,人們期望訓練得到百萬個以上的話題,因而在訓練過程中可能需要對上百億甚至千億的模型參數進行更新,其規模遠遠超出了單個節點的處理能力。為了解決上述問題,研究人員提出了參數伺服器(Parameter Server)的概念[26],如圖5所示。在參數伺服器系統中,大規模的模型參數被集中存儲在一個分散式的伺服器集群中,大規模的訓練數據則分布在不同的工作節點(worker)上,這樣每個工作節點只需要保存它計算時所依賴的少部分參數即可,從而有效解決了超大規模大數據分析模型的訓練問題。目前參數伺服器的實現主要有卡內基梅隆大學的Petuum[27]、PSLit[28]等。
圖5 參數伺服器工作原理
在大數據分析的應用過程中,可視化通過互動式視覺表現的方式來幫助人們探索和理解複雜的數據。可視化與可視分析能夠迅速和有效地簡化與提煉數據流,幫助用戶交互篩選大量的數據,有助於使用者更快更好地從複雜數據中得到新的發現,成為用戶了解複雜數據、開展深入分析不可或缺的手段。大規模數據的可視化主要是基於並行演算法設計的技術,合理利用有限的計算資源,高效地處理和分析特定數據集的特性。通常情況下,大規模數據可視化的技術會結合多解析度表示等方法,以獲得足夠的互動性能。在科學大規模數據的並行可視化工作中,主要涉及數據流線化、任務並行化、管道並行化和數據並行化4 種基本技術[29]。微軟公司在其雲計算平台Azure 上開發了大規模機器學習可視化平台(Azure Machine Learning),將大數據分析任務形式為有向無環圖並以數據流圖的方式向用戶展示,取得了比較好的效果。在國內,阿里巴巴旗下的大數據分析平台御膳房也採用了類似的方式,為業務人員提供的互動式大數據分析平台。
三
大數據技術發展趨勢
隨著對大數據技術的不斷發展和研究,其各個環節的技術發展呈現出新的發展趨勢和挑戰。2015年12月,中國計算機學會(CCF)大數據專家委員會發布了中國大數據技術與產業發展報告[30],並對中國大數據發展趨勢進行了展望,主要包含以下6個方面。
1)可視化推動大數據平民化
近幾年大數據概念迅速深入人心,大眾直接看到的大數據更多是以可視化的方式體現。可視化是通過把複雜的數據轉化為可以交互的圖形,幫助用戶更好地理解分析數據對象,發現、洞察其內在規律。可視化實際上已經極大拉近了大數據和普通民眾的距離,即使對IT技術不了解的普通民眾和非技術專業的常規決策者也能夠更好地理解大數據及其分析的效果和價值,從而可以從國計、民生兩方面都充分發揮大數據的價值。建議在大數據相關的研究、開發和應用中,保持相應的比例用於可視化和可視分析。
2)多學科融合與數據科學的興起
大數據技術是多學科多技術領域的融合,數學和統計學、計算機類技術、管理類等都有涉及,大數據應用更是與多領域產生交叉。這種多學科之間的交叉融合,呼喚並催生了專門的基礎性學科——數據學科。基礎性學科的夯實,將讓學科的交叉融合更趨完美。在大數據領域,許多相關學科從表面上看,研究的方向大不相同,但是從數據的視角看,其實是相通的。隨著社會的數字化程度逐步加深,越來越多的學科在數據層面趨於一致,可以採用相似的思想進行統一研究。從事大數據研究的人不僅包括計算機領域的科學家,也包括數學等方面的科學家。希望業界對於大數據的邊界採取一個更寬泛、更包容的姿態,包容所謂的「小數據」,甚至將領域的邊界泛化到「數據科學」所對應的整個數據領域和數據產業。建議共同支持「數據科學」的基礎研究,並努力將基礎研究的成果導入技術研究和應用的範疇中。
3)大數據安全與隱私令人憂慮
大數據帶來的安全與隱私問題主要包括以下3個方面:第一,大數據所受到的威脅也就是常說的安全問題,當大數據技術、系統和應用聚集了大量價值時,必然成為被攻擊的目標;第二,大數據的過度濫用所帶來的問題和副作用,比較典型的就是個人隱私泄露,還包括大數據分析能力帶來的商業秘密泄露和國家機密泄露;第三,心智和意識上的安全問題。對大數據的威脅、大數據的副作用、對大數據的極端心智都會阻礙和破壞大數據的發展。建議在大數據相關的研究和開發中,保持一個基礎的比例用於相對應的安全研究,而讓安全方面產生實質性進步的驅動力可能是對於大數據的攻擊和濫用的負面研究。
4)新熱點融入大數據多樣化處理模式
大數據的處理模式更加多樣化,Hadoop不再成為構建大數據平台的必然選擇。在應用模式上,大數據處理模式持續豐富,批量處理、流式計算、互動式計算等技術面向不同的需求場景,將持續豐富和發展;在實現技術上,內存計算將繼續成為提高大數據處理性能的主要手段,相對傳統的硬碟處理方式,在性能上有了顯著提升。特別是開源項目Spark,目前已經被大規模應用於實際業務環境中,並發展成為大數據領域最大的開源社區。Spark擁有流計算、交互查詢、機器學習、圖計算等多種計算框架,支持Java、Scala、Python、R等語言介面,使得數據使用效率大大提高,吸引了眾多開發者和應用廠商的關注。值得說明的是,Spark系統可以基於Hadoop 平台構建,也可以不依賴Hadoop平台獨立運行。
很多新的技術熱點持續地融入大數據的多樣化模式中,形成一個更加多樣、平衡的發展路徑,也滿足大數據的多樣化需求。建議將大數據研究和開發有意識地鏈接和融入大數據技術生態中,或者利用技術生態的成果,或者回饋技術生態。
5)深度分析推動大數據智能應用
在學術技術方面,深度分析會繼續成為一個代表,推動整個大數據智能的應用。這裡談到的智能,尤其強調是涉及人的相關能力延伸,比如決策預測、精準推薦等。這些涉及人的思維、影響、理解的延展,都將成為大數據深度分析的關鍵應用方向。
相比於傳統機器學習演算法,深度學習提出了一種讓計算機自動學習產生特徵的方法,並將特徵學習融入建立模型的過程中,從而減少了人為設計特徵引發的不完備。深度學習藉助深層次神經網路模型,能夠更加智能地提取數據不同層次的特徵,對數據進行更加準確、有效的表達。而且訓練樣本數量越大,深度學習演算法相對傳統機器學習演算法就越有優勢。
目前,深度學習已經在容易積累訓練樣本數據的領域,如圖像分類、語音識別、問答系統等應用中獲得了重大突破,並取得了成功的商業應用。預測隨著越來越多的行業和領域逐步完善數據的採集和存儲,深度學習的應用會更加廣泛。由於大數據應用的複雜性,多種方法的融合將是一個持續的常態。建議保持對於智能技術發展的持續關注。在各自的分析領域(如在策劃階段、技術層面、實踐環節等)嘗試深度學習。
6)開源、測評、大賽催生良性人才與技術生態
大數據是應用驅動,技術發力,技術與應用一樣至關重要。決定技術的是人才及其技術生產方式。開源系統將成為大數據領域的主流技術和系統選擇。以Hadoop為代表的開源技術拉開了大數據技術的序幕,大數據應用的發展又促進了開源技術的進一步發展。開源技術的發展降低了數據處理的成本,引領了大數據生態系統的蓬勃發展,同時也給傳統資料庫廠商帶來了挑戰。新的替代性技術,都是新技術生態對於舊技術生態的侵蝕、拓展和進化。
對數據處理的能力、性能等進行測試、評估、標杆比對的第三方形態出現,並逐步成為熱點。相對公正的技術評價有利於優秀技術佔領市場,驅動優秀技術的研發生態。各類創業創新大賽紛紛舉辦,為人才的培養和選拔提供了新模式。大數據技術生態是一個複雜環境。2016年,「開源」會一如既往佔據主流,而測評和大賽將形成突破性發展。建議不要閉門搞大數據技術和系統,要開門融入世界性的技術生態中。
四
結論
大數據技術的興起正完成對各傳統領域的顛覆。全球範圍內,運用大數據推動經濟發展、完善社會治理、提升政府服務和監管能力正成為趨勢。各國已相繼制定實施大數據戰略性文件,大力推動大數據發展和應用。從全球大數據發展的趨勢來看,大數據產業推動社會生產要素的網路化共享、集約化整合、協作開發和高效利用,改變了傳統的生產方式和經濟運行機制,可顯著提升經濟運行水平和效率。中國是數據生產大國。目前,中國互聯網、移動互聯網用戶規模居全球第一,擁有豐富的數據資源和應用市場優勢。如果能在大數據管理和分析技術的研發與應用方面取得突破,可持續推動互聯網創新企業和創新應用的高速成長。
來源:科技導報
作者:程學旗 靳小龍 楊婧
產品簡介
政務大數據基因系統是按照國家、行業和地方標準,通過政務數據元、元數據標準化和數據模板化實現數據規範編輯、智能管理、關聯應用和共享開放,以提升全域或行業的數據資源活化和管理能級。它是實現數據跨系統共享交換、創新應用的底層邏輯和關鍵規則體系,是解決(大)數據混雜、提升數據質量、促進數據創新應用的前提,也是集成信息資源目錄體系、交換體系和開放體系三合一的管理平台,為優化政務數據體系、探索數據關係、驅動數據服務奠定基礎。是城市和行業數據中心的必備管理工具,實現從管網路、系統到管用數據的躍遷。
大數據價值構建師
DT時代組織轉型的方案服務商
點擊展開全文
TAG:數邦客 |