當前位置:
首頁 > 科技 > Intel研究院院長吳甘沙:大數據分析師的卓越之道

Intel研究院院長吳甘沙:大數據分析師的卓越之道

來源: 大數據文摘

演講人:吳甘沙 英特爾中國研究院院長兼首席工程師

親愛的各位同仁,各位同學,早上好。大數據時代數據分析師應該做什麼改變?我今天的標題是大數據分析師的卓越之道。這個演講信息量比較大,我講的不一定對,即使對的我也不一定真懂了,所以請大家以批判的方式去理解。

這是一個典型的數據分析的場景,下面是基礎設施,數據採集、存儲到處理,左邊是數據處理,右邊價值輸出。連接數據和價值之間的是知識發現,用專業辭彙講,知識就是模型,知識發現就是建模和學習的過程。問題來了,大數據時代帶來怎樣的變化?首先數據變得非常大,數據是新的原材料,是資產、貨幣,所以大家對價值輸出的希望值也非常高。但是大數據洪流過來,我們原有基礎設施都被沖的七零八落。

所以過去十幾年事實上業界都在做大數據基礎設施,做大規模水平擴展,PC級伺服器的容錯,MapReduce簡化編程模型,對數據密集型應用提高吞吐量,因此有了分布式操作性能,磁碟快閃記憶體化,接著內存計算,內存需要越來越大,呼喚快閃記憶體內存化,更靈活的編程模型,最近又有了像深度學習那樣的計算密集型應用,所有這些都需要基礎設施的升級。

改變思維方式

基礎設施升級了,知識發現的過程是不是能自然升級?我跟大家說天下沒有免費的午餐。今天的主題是基礎設施已經改朝換代了,我們分析師也應該與時俱進,體現在三個方面:第一、思維方式要改變;第二、技術要提升;第三,分析的能力要豐富起來。

首先,說一下思維方式。改變思維方式最重要的就是改變世界觀,這個就是牛頓機械論、確定論的世界。有個所謂拉普拉斯惡魔的說法,如果在這個時刻宇宙當中所有原子的狀態都是可確定的話,就可以推知過去任何一個時刻和未來任何一個時刻的宇宙狀態。雖然愛因斯坦發展了經典物理,但本質還是確定論,決定論,他的經典說法是「上帝不擲骰子」。但是今天的世界事實上是不確定的,世界是基於概率的。大家都知道薛定諤的貓,貓在盒子里可能同時是死的,也同時是活的。但是一旦打開這個盒子,它就變成確定了,要麼就是真的死了,要麼確實活著。所謂」好奇心害死貓「,打開盒子,有一半的概率殺死這隻貓。

這就是海森堡的測不準理論,你的觀測行為會改變被觀測的現象。很多大數據事實上也是測不準的,像Google流感的預測,大家可以看在2013年1月份的階段,Google預計的流感情況遠高於疾控中心實際測到的數目。所以《科學》和《自然》就發話了,《自然》認為是大數據測不準,《科學》說這是大數據的傲慢。我們常常說舍恩伯格的大數據三大理念,要全集不要採樣,擁抱混雜性、無需精確性,要相關性、不必有因果性。

我提醒大家,這些理念是適合吹牛用的,分析師千萬不能把這個當作絕對真理。在這個案例來,即使Google那麼牛也拿不到全量的數據。縱然考慮了混雜性,Google融合了關鍵詞和疾控中心的數據來調整模型,數據還是不精確。另外,相關性對於商品推薦確實夠用了,但涉及健康的問題還是要究其原因,要有因果性。大家看這個預測的過量就導致了局部時間和地區內流感疫苗準備過量,而其他時間/地區形成了短缺。

所以數據的方法論需要升級。

這是一個典型的數據分析的流程,可以先由假設採集數據,也可以先採集了各種數據,然後從中發現假設。有了數據以後下一步就要做數據的準備,數據準備往往是最花時間的。然後分析,分析完了要考慮怎麼解釋這個結果。大家知道,數據分析有兩種目的,一種是把結果給機器看,像精準營銷、商品推薦等,不需很高的可解釋性。另一種是給人看,需要可解釋性,有時甚至為了可解釋性可以損失一些精確性,比如美國的FICO積分計算模型,只有五六個參數,一目了然,具有可解釋性。對分析結果的另外一個處理就是驗證,從隨機對照實驗到現在的A/B測試。

到了大數據時代這個方法論要怎麼改變呢,首先我們說測不準,所以需要加一個反饋循環,我們循環反覆地驗證假設、收集數據。數據7天24小時進來,裡面有很多雜訊,有些隨機雜訊是可處理的,還有一些是系統雜訊,可能因為污染的數據源,就要特別的數據準備階段。接著我們做數據分析需要實時,交互,要快,這樣才能趕得及世界的變化,最後的解釋和驗證同樣需要升級。所以,下面我一一來做闡述。

一、假設

首先看假設。大數據思維需要我們先有很多數據,然後通過機械的方法發現其中的相關性,將其變成假設。但有時候相關性確實太多了,弱水三千只取一瓢飲,這裡面就需要我們的直覺。直覺就是不動腦筋、在潛意識裡完成的邏輯推理。怎麼訓練直覺?就是像讀偵探小說和懸疑小說裡面的推理過程。如果說這樣的推理過程只是模型,也還需要數據,需要很多先驗的知識。這個知識怎麼來呢?首先就是廣泛的閱讀。第二個,跨界思想的碰撞,跟很多人聊。這兩個是背景知識,還有一個前景知識,就是上下文的知識、融入到業務部門。我們希望把數據分析師放到業務部門,和業務人員融入到一起,這才能防止數據採集和分析脫鉤,數據分析和業務應用的脫節。

二、數據採集

第二個,數據採集,這裡我非常誇張地強調「數據!數據!數據!」為什麼?因為大數據碰到的第一個問題就是數據饑渴症。我們有一次跟阿里聊,他們說也缺數據,只有網上的銷售記錄,而缺乏無線的數據。所謂無線的數據就是物理世界的行為,你在網上買了一個東西,前面發生了什麼?用戶的意圖是什麼?怎麼形成的?他們也沒有。所以我們強調全量數據,而不是採樣的、片面的數據。

同時現在我們企業已經從小數據到大數據,從數據倉庫轉為Enterprise Data Hub或Data Lake,意味著什麼?有人說傳統數據倉庫的缺點是數據結構變化太困難,太貴了,其實更本質的是對於數據倉庫來說,是有問題,然後根據這個問題搜集和組織數據,數據結構是確定的。從現在的EDH來說,需要先把各種原始數據送進來,然後不斷的提問題,相應地改變數據表示,這就是一種新的思維。

我們需要大量的外部數據源,從social media,到開放數據,到從data broker/aggregator那兒買。處理的數據從傳統的結構化數據到半結構化、非結構化數據。傳統結構化數據是什麼,交易數據。而現在我們企業裡面經常面對的是兩種非結構化數據

第一個就是日誌分析,大家知道大數據第一家上市公司Splunk就是從事這一業務。

第二個就是文本數據,現在我們經常聽說情感分析,topic modeling,呼叫中心需要的問答系統,甚至是最新的互動式對話系統,都需要文本分析。

第三個是從文本到圖片再到視頻,需要計算機視覺、模式匹配、語義分析。

第四個是很多數據都是有時間和空間的標籤,比如微博,物聯網數據,怎麼保證數據的時空一致性,怎麼能夠實時、流式地處理這些新的數據。

最後,還有很多數據是網路數據和圖數據,比如說社交網路,我們怎麼來通過PageRank這樣的方式判斷個人的影響力,怎麼來判斷網路的控制中心在哪裡,都需要一些新的處理方式。

是不是前面說的這些都是合理的?我這裡連用了三個問號。

比如說要n=all全量,事實上是不可能採集到數據,有時候你也不必要有全量數據。

首先,是不是數據更多就越好呢?未必。我們拿中國作為一個例子,新疆、青海、西藏、內蒙古占的面積是我們國土面積的一半,我們採集這四個地方的數據,是不是比採樣更能代表中國呢?未必!

第二個是「原始數據」是不是一個矛盾修辭。因為原始數據可能並不原始、客觀,它受到採集人文化、背景、價值取向的影響。

第三,大數據裡面的雜訊很多,但是有時候在數據裡面信號看上去是雜訊。比如說大數據要求傾聽每一個個體的聲音,提供個性化服務,但有一些個體的聲音是非常少的,他們在長長的尾部裡面,但是你不能忽略它。

還有,採樣本身是有偏差的。有一個經典的故事,二戰的時候對飛回來的戰機進行分析,相應地對要害部位加固。人們發現機翼上有很多彈孔,那是不是加固這個地方很重要?人們沒有想到的是那些沒能飛回來的戰機並沒有採樣到,因為擊中座艙的都墜毀了。因此加固座艙才是最緊要的。大數據的採樣偏差尤其體現在它有各種子數據集,而每一個數據集都採取不同的抽樣規範,缺乏全局的控制,這樣就有採樣偏差。

同時你要考慮數據權利的問題,這些數據是屬於誰的,有沒有隱私問題,使用許可是不是有範圍,是不是按照許可的範圍做了,我能不能審計,知情,這些都是數據的權利。未來數據交易的話還要解決數據的定價問題,這是非常困難的。

當我有了數據以後,需要生命周期的管理,大數據生命周期管理非常重要。一是provenance,英語原意是出處或者是來源,但現在把它譯為世系,或數據的的家族譜系,它最早是哪裡來的,它又移動到什麼地方,經過什麼樣的處理,又產生了什麼樣新的子後代。

另外,現在我們強調數據永不刪除,是不是有這個必要?我們發現其實很多數據沒用以後,就應該刪除。例如,有個互聯網公司用用Cookie採集了滑鼠移動蹤跡的數據,來了解用戶的瀏覽行為。但是過一段時間網頁的格局和內容都變化了,這些數據還有什麼用呢?應該刪除掉。所以並不是說數據永遠都要保存。但是,另一方面反映了,數據來了一周之內,一個月之內必需要分析,不然就永遠不會再碰它了,失去意義了。

三、數據的準備

下面講數據的準備,大數據的質量非常重要。要混雜性、不要精確性是有問題的。一個非常著名的研究機構做了統計,詢問大數據分析師什麼是你single biggest problem,回答「數據質量」的人數是「數據大」人數的兩倍。

面對大數據,要有「有罪推定」,認識到大數據本身就是有雜訊的,有偏差的,也是有污染的數據源。你的目標是建立一個模型,一方面對雜訊建模,另一方面對信號建模,這個模型恰到好處得複雜,太複雜了模型會「造出」數據當中並不存在的結構。

一般的處理方法有兩類:一是數據清洗和數據驗證,二是data curation數據治理,和wrangling

前者關注的是數據是否錯的,數據有些是丟失的或者有些數據是相互矛盾的。我通過清洗、驗證的方式把它做出來,大數據非常大怎麼做清洗呢?有沒有可能從一小部分子數據集開始做清洗,進而推至全部?有沒有可能把整個過程自動化,這是研究的前沿。另外一個前沿是數據的清洗能不能跟可視化結合起來,通過可視化一下子發現了那些不正常的地方,outliers。通過機器學習的方式來推理不正常現象的原因,是哪些欄位出了問題。

對data curation和wrangling,它的目的是把數據轉化為合理的表示、以便分析。我覺得現在最熱的研究課題是,你怎麼能夠通過自動學習的方式來發現非結構化數據當中的結構,把entities解析出來,並且對數據做必要的規整和轉換。比如你怎麼能夠把哪些看似不同、實則相同的數據normalize。比如說有些的欄位是IBM,有的是國際商業機器公司,有的是藍色巨人,你能不能將其歸為同一個值。

大數據的特點是大,稀疏,高維,異構,長尾。數據準備最重要的是把大數據轉變為合理的數據表示,使得它便於分析。

數據表示首先考慮怎麼能夠降低計算通訊的代價。

大家看我們大數據經常是稀疏的,所以可以採用稀疏數據結構。大數據太大了我們有沒有可能壓縮?大家知道我們原來的數據倉庫,一個表可能有成千上萬個列,最大、最麻煩的問題就是我要給數據表增加列。而通過列存儲的方式可以使增加列變得非常簡單,而且計算更有局部性。

還有一種降低計算代價的方式就是近似計算,比如Bloom filter、hyperloglog,通過降低時空複雜性,雖然誤差稍微增加幾個百分點,但是計算量和內存佔用下降幾個數量級。

下一個是怎麼能夠降低統計的複雜性?大數據經常是高維度數據,怎麼辦?通過降維和聚類等方式能夠降低它的複雜性。

另外大數據還是需要採樣的,大家知道隨機性採樣,並不代表用一個均衡的概率採樣,可以對不同的組採用不同的權重採樣。但大數據常常要非隨機採樣。因為有些個體你根本不知道在哪個組裡,如果有人吸毒,ta肯定不會說;人們的技能也沒有確定的分組。你可能需要一種新的採樣的方式,比如說雪球採樣,你先從隱藏組找到一些種子,然後再慢慢的擴大,像滾雪球那樣,這是非隨機抽樣。另外,對於信號稀疏的數據集,可以採用compressive sampling,你能壓縮得很小,但還是可以恢復原始數據。

我想請大家注意,數據分析師不能只考慮數據表示、模型的問題,最終還是要考慮計算是怎麼實現的,響應地選擇最好的表示。比如說數據並行的計算就用表或者是矩陣,如果是圖並行,我就要選擇網路和圖的格式。

最後,我想請大家關注UIMA(Unstructured Information Management Architecture),這個框架能夠幫助你來保存各種各樣數據表示,以及跟數據分析對接。IBM的沃森在人機知識競賽中獲勝,它就是採用了這個框架。

四、數據分析

我們再看分析階段。

數據分析師真是越來越不容易。最早只要懂資料庫就行了,數據分析就是查詢,接著要學統計學了,比如做參數的估計、假設的驗證、模型評估等。接著要學機器學習,所以我們說數據挖掘是這三個學科的交叉。機器學習和模式識別是從人工智慧脫胎出來,隨著處理非結構化數據的要求,這兩樣也要學了。慢慢的在數據挖掘外面又包了一層KDD,knowledge discovery和data mining。現在又有最新的神經計算,比如神經網路形式的類腦計算演算法,sparse coding等。尤其重要的是,這些工具都要跟相關的計算的模型和架構對接起來。數據分析師必須是持續學習的。

我們數據分析師還是有些裝備的,這是現在最流行的四種分析的語言,SAS,R,SQL,還有python。學會這些基本可以覆蓋兩類分析任務,簡單的基於SQL的查詢分析,以及複雜的、往往是基於線性代數的分析計算。當然,hard core的分析師可能還需要學習JAVA、Scala這樣的語言。這個可能還不夠,現在你用D3這樣的可視化庫,必須學習JAVAScript,所以需要來更新我們的裝備。但是有人質疑這些裝備都是為傳統的數據分析師準備的,大家不要擔心,因為在這些語言下面都已經有了大數據的基礎設施,比如SQL,各種SQL over Hadoop,另外R、SAS都可以跑在MapReduce和Spark的大數據基礎設施上,就連Python也與Spark能夠很好地接起來。

更方便的是現在所有做基礎設施的人都在考慮一個詞,Machine Learning Pipeliine,最早是scikit-learn里出現的,現在Spark都在往這個方向發展,把機器學習的整個流程在pipeline上一站式完成。而且現在更多的東西都可以放到雲里做了。07/08年的時候Cloudera其實就在考慮是不是能把大數據在雲里做,你看它的名字就是這個意思。但那時條件還不成熟,現在很多中小企業都願意用基於雲的大數據基礎設施了。原來on premise的大數據基礎設施像上面這樣,各種工具,很多都是拿動物做吉祥物的,我們開玩笑說要開整個動物園,太麻煩。現在所有的這些模塊都部署在雲里,所以這給我們帶來了很多方便。

說完了工具,再說分析模型。

統計學大師George Box說,所有模型都是錯的,但是有些是有用的,關鍵是選擇什麼樣的模型。

以賽亞柏林有個比喻,有一種人是刺蝟,一招鮮吃遍天,還有一種是狐狸,一把鑰匙開一把鎖,以更開放的態度處理分析、選擇最合適的模型。一個技術用到極致是非常厲害的,像貝葉斯,有個很著名的分析師叫Nathan Silver,寫《信號與雜訊》那個書的,成功地預測美國大選、奧斯卡,就是把貝葉斯用得滾瓜爛熟。但是,還是需要根據問題,選擇合適的模型和方法。

模型的複雜度必須與問題匹配的。這就是所謂的奧卡姆剃刀原理,有多種模型能解釋數據的時候,就選擇最簡單的一個。

我們現在做數據分析碰到兩個問題:一個是過擬合,還有一個是數據量大了以後,模型沒辦法提升。所以大數據的模型必須在數據增多時獲得更大的邊際效益。

有一個很著名的科學家,叫Peter Norvig,他寫《人工智慧現代方法》一書,好像是吳軍博士在Google的老闆。他說,簡單模型加上大數據,比複雜模型加小數據更好,這個對不對?這個在很多情況下是對的,但是並不完全對。他的所謂簡單模型n-gram,其實特徵是非常多的,每個單詞就是一個特徵,所以這個模型其實不簡單,所以大數據能夠帶來不可名狀的提升效果。

Ensemble是另一種解決單個模型與數據量不能匹配的辦法,做模型的組合。沃森電腦採用了這種方法,在很多數據競賽中大量使用了ensemble,大家可以參考Kaggle和Netflix競賽里的博客和討論,了解一些技巧。

一般來說線性模型適用小數據,非線性模型適用大數據;帶參模型適用小數據,無參模型適用大數據;discriminative模型適用小數據,generative模型適用大數據。但是有個問題,那些非線性模型、無參模型等計算複雜度可能比較高,怎麼辦呢?針對高維、稀疏的數據,可以考慮混合模型:把線性和非線性,帶參和無參結合起來,分別應用於不同的維度,這樣又能夠提升大數據的效用,又能夠解決計算量的問題。

我剛才講到長尾信號非常非常重要,我們現在不能忽略長尾信號。傳統的分析很多都是基於指數模型、指數分布假設,就是割尾巴,低頻的信號都被過濾掉了。那怎麼能保持長尾上的信號呢,可能需要通過分級訓練、做模型組合、採用一些新的概率圖模型、基於神經網路的模型。

分析要快,對於交互查詢,60秒完成跟6分鐘完成難道只差幾倍?不是的,一旦延遲超過某個閾值,數據科學家會改變行為,他們失去一些創造力。

針對時空的數據,需要流計算,數據流過的時候完成分析,甚至未必要存下來。

現在機器學習強調的在線學習,增量的學習,流式的學習,數據一邊進來一邊學習,一邊更改模型,一邊生產部署。

最後當你的數據又大,又需要快的時候,你不懂系統是不行的,你必須懂系統,要考慮並行化,數據並行,模型並行,任務並行,並行要考慮一致性,如果數據直接有依賴、不能很好並行的話,考慮採用陳舊的數據,雖然損失精度,但可以加大並行度,靠更多的數據把精度補回來,這裡的副作用是收斂變慢,因此要考慮是否合算。

你必須與基礎設施的人合作,做系統調優。前一段時間與Databricks的Reynold討論,講到現在分析任務優化到極致,應該把所有的隨機訪問都放到CPU的cache里,磁碟上只有順序訪問。又比如現在大數據棧都基於Java,內存大了有garbage collection的問題,所以要考慮怎麼減少單個任務heap的大小,把不大改變的數據放到內存文件系統里。

深度學習已經進入了數據分析師的兵器庫。它最早是語音識別DNN,到圖像理解CNN,再到向量化表示的自然語言理解,現在RNN、LSTM很火。下面是特化到不同的領域裡,比如醫學的圖像分析。

以前深度學習完成的是人可以做的認知任務,下一步會進入非認知任務,像百度用來做搜索廣告,Netflix做深度學習推薦,以後做藥物的發現,甚至我們現在做機器人,都有深度學習的應用,比如深度的reinforcement learning。

大家的福音是現在深度學習很多的代碼都是開源的,我們去年的時候雖然有Caffe,但還是花了很多力氣去做各種各樣的模型,像AlexNet、VGG和GoogLeNet,今年所有這些模型全部都開源。下一步的發展趨勢是開放協作的計算機科學,值得關注GitXiv,這時各種開發、協作工具集於一身,論文在arXiv上,開源代碼在GitHub,還有各種鏈接和討論,這種開放極大降低了技術的門檻,讓知識更快傳播。有了Pylearn2, Theano和Caffe,現在哪個分析師說不會深度學習都不好意思。

還沒有學Sparse coding的話大家可以看一下,這個是我從哈佛的孔祥重教授,HT Kung,那裡拿來的。它跟深度學習有點沾親帶故,本質上還是一個數據表示的問題,與特定的分類器結合,展現了極大的能量,這裡列出了很多的應用。

還有數據標註的問題,這張PPT是基於吳恩達的文章,列出了幾種新的思路。大家注意橙色背景的都是標註數據,最上面是監督學習,你要分別有大象和犀牛的標註數據,才能認大象和犀牛。接著是半監督學習,一部分標註的大象/犀牛數據和一部分非標註的大象/犀牛數據結合起來學習。第三章是transfer learning,就是在其他地方學到的東西,能夠在這裡舉一反三,你看這裡試圖利用羊和馬的標註數據來幫助識別大象和犀牛。最後是self taught learning,比較神,一部分標註數據,加上另一部分完全不相關的數據,號稱也能幫助學習,但這塊最近不大說了。

在機器和工具不斷進化的過程中,人的角色在變化,前一段時間王煜全老師提出一個概念叫human machine intelligence,就是人利用機器和工具來提升智能的能力。數據分析師要懂機器,懂工具,要跟工具更好的配合,而不是一味的此消彼長。

原來機器學習最重要的就是特徵學習,很多人做特徵工程,但一段時間以後邊際效益就不行了。現在無監督學習,深度學習,可以幫助你學習特徵,而且很多分析和可視化工具開始自動化了。那麼你怎麼跟它工作搭配,能夠獲得最好的效率呢?exploratory anlaytics/可視化是一種方式,你一邊在利用工具獲得一些結論,一邊又據此重新提出問題,循環往複,這是純機器完成不了的。

另外一個趨勢是大規模的人跟人,人跟機器協同配合。

比如演算法可以外包,Kaggle上讓其他人替你完成。

你可以眾包,比如現在大量數據標註都通過眾包方式完成,CrowdDB通過眾包解決數據歸一性這個DB-hard的問題。

還有協作分析,現在開放數據,光開放還不行,還要允許在這個數據上進行多人協作分析,所以要對數據進行版本的管理,對多種語言序列化支持,比如DataHub。

還有現在所謂的人類計算,現在最有名的是Duolingo,這是一個大眾學習外語的平台,有趣的是,你在學語言的過程,也是對互聯網進行翻譯的過程,100萬個用戶學習80個小時,就將wikipedia從英文翻成了西班牙文,大家可以想像這種力量有多強大。

五、解釋和驗證

最後,就是解釋和驗證。現在分析師所學要從STEM到STEAM,STEM是Science, Technology, Engineering, Mathematics, STEAM多出的這個A是art。今天的大會標題是要懂技術,也要懂藝術。

藝術不只是這種優雅美觀的可視化,還有一個很重要的就是講故事,你有了分析結果之後怎麼講出來。

比如說啤酒加尿布,它就符合了講故事的3D:戲劇性Drama、細節Details、參與這個對話的感覺Dialogue。當然啤酒加尿布,這個案例是編出來的,但是它包含了這個story telling的精髓,所以它馬上傳播出去了,它的啟發性使得更多人願意去投入數據分析。

魔球(電影Money ball)也是這樣,用一個精彩的、抑揚起伏的故事講述數據分析怎麼來改變棒球運動,但是它也沒有說出來的是,其實很多分析工作是球探做的,有些非客觀的因素,像意志力,像抗壓力,在當時的情況下由人做更合適。所以,故事要做適當的加工,源於生活高於生活。

講故事的唯一目的就是像TED倡導的,發現一個值得傳播的idea。作為分析師,你還要清楚你的idea是不是真正值得分享。比如Target發現未婚少女懷孕的事情,確實是一個不錯的數據分析案例,但是從隱私和倫理的角度有點cross the line了,傳播未必是好的選擇。還有像Facebook做控制情緒的實驗,還有Uber從午夜叫車的數據分析一夜情,都不是好的故事,值得分享的故事。

無論如何,我還是想強調好的講故事能夠使分析事半功倍。

最後,我認為數據分析流程需要更加豐富。首先,我們希望能夠把大量的分析案例和方法文檔化,能夠做一個開放的資料庫。光開放數據還不行,要開放數據分析的方法和實踐,這樣知識能夠更快、更廣泛地傳播。

另外,我們前面講的很多是歸納推理,其實實際工作中還有演繹推理,典型的方式是模擬和模擬。根據已經存在的模型,加以一些假設和初始數據,就可以通過模擬來預測和處理沒有發生過的事情,比如災難發生時的疏散,特定事件下的交通情況等。

這是最後的總結,現在我們的大數據基礎設施已經改朝換代了,我們的數據分析師,我們怎麼來改變我們的思維方式,怎麼來提高我們的技術,怎麼來豐富我們的分析能力?這是需要我們不斷思考的問題,謝謝大家。

股市低迷,這裡風景獨好——股票與股指期貨日內交易訓練營(第七期)

股指期貨及股票日內交易基礎

個股交易策略

板塊聯動的標準策略及兩種典型入場點

如何精選高利潤的刷單

大盤及股指期貨交易策略

下單指法訓練、止損練習……

上課地點:上海

上課時間:6月上中旬

點擊展開全文

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 大數據實驗室 的精彩文章:

讀完這100篇論文,你也是大數據高手!
微積分的發現是人類精神的最高勝利
人類戰勝人工智慧的概率為零?
柯潔今天對決阿爾法狗,抱必死之決心
數學與愛情

TAG:大數據實驗室 |

您可能感興趣

清華大學 AI 研究院成立:張鈸擔任院長,Jeff Dean 被聘顧問委員
韓國JK整形外科裴俊晟院長 發表Elasticum面部提升演講
西班牙AI研究院副院長:AI+教育的終極奧義是「個人助理」
INT#14就在明天:寒武紀研究院院長杜子東講解分形馮諾依曼機器
CMU計算機學院院長Andrew Moore宣布即將離職
INT#14 寒武紀研究院院長杜子東:分形馮諾依曼機器學習計算機
前微軟副院長李世鵬加入科大訊飛,任訊飛 AI 研究院聯席院長
前硬蛋科技 CTO、微軟亞洲研究院創始人加盟科大訊飛任研究院聯席院長
科大訊飛研究院又收一員大將!前微軟亞洲研究院院長李世鵬博士
重磅|李世鵬博士加盟科大訊飛,擔任訊飛 AI 研究院聯席院長
優客工場成立區塊鏈研究院,Astar 合伙人馬治宇擔任院長
斯坦福大學成立以人為本AI研究院 計算機科學教授李飛飛任院長
斯坦福大學成立以人為本AI研究院 李飛飛任院長
傅瑩受聘清華大學兼職教授、國際關係研究院名譽院長
蘇寧零售技術研究院院長王俊傑:蘇寧智慧零售的奧義丨CCF-GAIR 2019
清華大學國家金融研究院院長朱民:人工智慧是科技的最終未來
「教育時評」北京大學考試研究院院長秦春華:別把學校當企業管
華西醫院副院長龔啟勇:腦醫學與人工智慧發展前沿丨CMAI 2018
北京大學考試研究院院長秦春華:別把學校當企業管
我在西西里教中文——恩納科雷大學孔子學院院長孫傲的一天