【問01】分享與交流
趙瑋佳:
數據科學與大數據的關係:數據科學包括了統計學,數據挖掘等,而大數據則是個專有名詞,指的是所涉及的數據量規模大到無法通過人工,在合理的時間內達到截取,管理,處理並整理成為人類所能解讀的信息,這是面對這些大數據,就需要數據科學使他們變得有價值,所以我覺得他們兩個關係很微妙,數據科學是依託在大數據基礎上對這些數據進行分析然後顯現出各種看似神通廣大的功能:如支持商務決策,預測目標對象的行為,以及通過分析數據來找出最佳措施,取得最優化的結果。我認為,在大數據依託下迅速發展的數據科學和它在我們日常生活中的應用一方面可以更好的為每個人提供個性化的服務,對於商家,也有利於他們對每一個客戶進行"精準管理"從而實現自己收益的最大化和留住客戶。甚至有人曾說,Marketing是下一個利用數據科學技術賺取big money的土壤。我們的行為在被記錄下來的同時背後通過數據科學家分析設計各種實驗模型來幫助商家獲利或者實現他們想要達到的目的。總而言之,數據科學作為一門學科,它所依賴的兩個因素是數據的廣泛性和多樣性,其主要包括兩個方面:用數據的方法來研究科學和用科學的方法來研究數據。
佟震宇:
加緊看完《大數據時代》來討論了!個人理解書中最重要的觀點之一就是大數據是一種思維方式,並且在一些方面顯著區別於傳統意義上的思考方式(諸如追求數據精度,追求建立在嚴密的邏輯之上的因果關係的探求等)。那麼,大數據的本質特徵是什麼?當然數據量巨大是一個方面,但或許因為量而體現出來的非結構性和隱藏在這種非結構性下的相關關係才是對於我們更好理解大數據的一個方面。正如書中的另一個觀點所言,因為對大數據結果分析我們就能獲得很多通過因果推斷完全無法或是很難聯繫起來的兩件事物的有價值的關係:「沃爾瑪,請把蛋撻和颶風用品擺在一起」就是一個很好的例子。在大數據的背景下,我們可以獲取一個全新的研究事物的角度,即通過大數據技術的分析獲取相關關係直接應用並能反過來輔助我們正向的邏輯推理。至於第二個問題,數據本身就存在,但是「大」這個屬性賦予了數據在其表面價值之下第二層第三層甚至更多層之下價值被發現的可能。當然,「大」也為我們利用數據帶來了很多技術上的難題,包括數據的數字化、數據的非結構性等等,但也正是對這些難題的一一解決和解決方案的探索推動了技術的前進和更多理論的出現。大數據時代,一個人應該有一種大數據的思維,作為理工科的學生更應該跳進技術的黑盒子細細研究,那麼就從此節課開始吧!
耿芸:
主流的觀點認為大數據是以4V為主要特徵,即volume、variety、velocity、value,而大數據中的「量大」往往最先被人們所關注,「大」到傳統的數據處理系統很難對它進行管理和處理,「大」到開始使用ZB單位進行計量,「大」到每秒就產生了海量數據,但是大數據的最大意義並不僅僅在於它的「大」,而是人們能夠在海量的數據中找到自己所需要的,通過分析來得到「信息」,「有用」的數據比「大量」數據更有價值。很多人只是熱衷於大量數據的積累,不知道該怎麼去利用它,那這堆數據只是佔用內存的數據垃圾,快速定位到有用的數據並有效利用才能在當今信息時代下贏得競爭。所以,大數據的大不僅僅是量大,也是其潛在的價值巨大,最後實現的效益巨大,「量大」是大數據的基礎,而大量數據中有用的數據才是關鍵。
范冬陽:
關於大數據,其實近期剛好有一些體會,最近在做一個用真實駕駛換道軌跡數據通過機器學習,來預測換道軌跡的項目,通過大數據學習得出的預測軌跡有的時候會與真實的軌跡相反,儘管軌跡十分合理。因為自由換道行為中駕駛員的換道選擇其實是十分隨機的決策,而機器學習其實比較難模擬人換道決策的隨機性。最近也看了很多相關的討論,究竟人工智慧能不能學習人類的直覺,幻想,情感或者想像力?有價值的數據是能夠反映規律的,但是規律之外的一些隨機性,數據量夠大的話,人工智慧是否也可習得?另外的一個深刻感受是:大數據確實是一門多學科交叉的存在。還是拿駕駛員的換道行為舉例,提取有效軌跡數據需要結合駕駛員的心理行為以及換道軌跡特徵,數據來源於不同領域也存在著『好壞』之分,需要輔以各種領域的專業知識背景,用有效的數據去反映需要的特徵。
宋建波:
對於大數據的本質特徵以及「大」和「數據」辯證關係的思考: 其一,大數據的特點是很多的,習慣上以4v或者多v來刻畫其特點,包括其體量大、類型多(包括各種信息格式,如圖片、音頻、文本等等)、產生速度快、價值密度低這四個方面。當然特徵應當更具概括性以及本質性,首先大數據必然具有多維度,在各個領域以及行業都有他的身影,類如人工智慧、航空、農業等等。大數據對於生產生活規律的總結以及預見性是極其重要的,這引出了其第二個特徵,即數據的關聯性,同一數據在時間上的關聯,不同數據對同一事物的刻畫以及不同領域的數據結合都能讓數據產生價值。同時,也順帶產生一個問題,所有數據都是真實有效的嗎?第三個特徵――數據不確定性。其二,在大數據這個辭彙的含義中有一屬性是很有意思的,龐大而駁雜與精鍊且準確確實是相對的東西,在大數據一詞中,「大」體現的多是維度廣、體量大,而「數據」應當更偏向於準確有效,結合之後所產生的結果是有了方法,結合二者的特點,對大量數據收集提煉分析得到有用且豐富的信息。寫在最後,對於人工智慧解決問題採用大數據使機器深度學習的辦法,是否會有一些局限性。一開始想到如果航空探索採用人工智慧,那在未知星域人工智慧就會不再智能,因為如果沒有事先的學習,那麼機器能否有「獨立邏輯思考」的能力?後面再思考下如果Alpha Dog只會下圍棋,或者說小米的「小愛同學」等只有一技之長的智能產物是不是「智能」的不太夠,畢竟智能生物的智能更加全面。
付旭煒:
我認為大數據的本質特點在於1. 需要對海量的,TB甚至PB級別的數據存儲分析 2. 數據不一定有著比較良好的結構 3. 由於數據量過大,計算存儲等需要採用全新的策略「大」和「數據」我認為大比較簡單來說是生產的數據規模的大。在自媒體時代,人們可以輕鬆在微信朋友圈、微博、推特產生巨量信息。而且以現代的水平,我們甚至可以很有效存儲很大一部分的數據。這種巨大的產生量與收集量,需要我們有應對「大數據」的能力。大數據發展的趨勢: 1. 技術的應用層面上,產生了Hadoop, Spark等多個分散式計算的產品;也有HDFS,HIVE等存儲產品 2. 平台層面上,催生了雲計算等全新的便於人們利用的服務 3. 需要更好的數據處理能力與可視化分析等能力,讓數據挖掘等行業飛速發展以課件而言,就有大數據的感知獲取、存儲、管理、計算、分析、可視化。
數據科學需要結合各個領域的知識, 需要結合思維、計算機科學、統計與應用;它有數據學、分析學、演算法學三大支柱。數據科學中,我們用統計在數據中查找事物的關聯,用演算法完成底層設計、頂層應用。
楊士玄:
關於大數據的特徵,首先大數據指的是無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的數據集合,量大(Volume)是其最顯著的特徵;其次這個數據集合的數據來源多種多樣,比如感測器、日誌文件、瀏覽記錄等等,具有多樣性(Varity)的特徵;並且大數據的數據創建和移動速度很快,目前,通過基於實現軟體性能優化的高速電腦處理器和伺服器,創建實時數據流已成為流行趨勢。企業不僅需要了解如何快速創建數據,還必須知道如何快速處理、分析並返回給用戶,以滿足他們的實時需求,是其高速性(Velocity);價值密度低(Value),儘管大數據里有很多高價值數據,但是也有很多無用的數據,比如要根據人的消費習慣向他推薦商品,那麼消費記錄、搜索記錄就是十分重要的數據,而其他諸如身高體重出生日期家裡幾畝地幾頭豬就沒那麼重要,是要被過濾掉的,相比之下大數據的價值密度就很低。關於什麼是數據科學,隨著科技的發展,人類社會擁有數據規模增長很快,每時每刻、從天到地都有大量數據被產生和存儲下來,這個體量超乎想像的數據集合就是「大數據」,而數據科學就是研究這些數據,並設法從中提取、分析出有價值的信息和規律的一門學科。這門學科涉及範圍極廣,與很多領域都有交叉。比如經濟學,可以通過分析大數據判斷民眾的消費水平和消費趨勢,商品提供商可依此給商品合理定價或增減產量;醫學上,可以分析病人接受某種治療(藥物、手術等等)後的身體狀況等信息來評估該治療對病人的影響;對現代心理學的發展尤為重要,數據科學使得心理學家有了處理、分析大量樣本的手段,極大縮短了採集樣本後分析的時間;對其他所有要處理大量樣本的學科同理。
陳思曲:
大數據技術的發展趨勢應該集中在數據採集、存儲處理、傳輸、發布展示應用這四個方面。依據:以交通領域為例,目前智能交通系統(ITS)正受到國內外越來越廣泛的重視。在此系統中,舉足輕重的一部分是先進的出行者信息系統,通過該部分系統使得出行者更準確的掌握出行信息,使得出行行為和駕駛行為更加合理,進而提高整個路網運行效率和安全。而在其中充分涉及大數據技術:交通信息採集部分:通過GPS、藍牙、視頻、IC卡、手機信令等方式能夠得到海量數據,結合交通數據預處理技術進行初步處理;交通信息存儲處理部分:分散式存儲、計算、地理信息系統、資料庫的使用為交通信息的融合挖掘、交通狀態的估計與預測提供了方法;交通信息傳輸部分涉及有線、無線、通信傳輸技術;交通信息的發布應用部分:涉及資訊理論與編碼技術,為交通出行動態路徑劃分等方面提供了新的思路。
翟雨晨 :
談起大數據首先即是其數據的「大」量,但也正因為其大,導致這些數據很難被處理,但是其中數據之間內部關聯特性致使隱含著巨大的價值可被加以利用,在現實社會,他同時亦被賦予了高速性,時效性等特性。我覺得大是對數據的一種顛覆,它完全改變了我們的思維方式和對於數據的處理方式,應用方式等等,比如:對於大數據我們更多注重效率而非對於單個數據的精確。在未來,隨著數據量的指數增長,對於數據的分析和挖掘會成為大數據技術的核心,基於雲的數據分析平台將更加完善,大數據成為我們日常生活中分析工具。數據科學主要包括兩個方面:用數據的方法來研究科學和用科學的方法來研究數據。前者的包含面很廣,囊括了生物信息學、天體信息學、等領域。而後者包括統計學、CS、數據挖掘、資料庫等領域。是一門在大數據時代興起的交叉學科,是為了研究大數據而從工程實踐中提煉出的共性的思路,方法,工具。
郝前秀:
我覺得大數據的本質特徵有:首先,數據不再是抽樣的、有代表性的、精確的數據,而可能是全體的、魚龍混雜的數據。其次,數據的來源廣泛,種類繁多,包含結構化,半結構化,非結構化的數據,儘可能將一切都數據化。大數據與以往數據的不同指出就在於其「大」,「大」既是指體量大,來源範圍大,價值大,也指其給人類帶來的影響大,重要性大,這是一種思維上的改變。而「數據」突出了分析處理的對象――是數據,而不是理論方法也不是經驗,強調數據以及數據科學的重要性。沒有「大」帶來的從量變到質變的思維變革,人們不會如此關注大數據;沒有與大數據相適應的數據採集、存儲、分析處理、應用技術,即「數據」科學的支撐,人們對大數據也無能為力。數據科學涉及到數據的存儲、分析挖掘、計算、數據可視化、數據應用,覆蓋數學、計算機、以及各學科領域、行業領域,因此,數據科學是門交叉學科。數據科學處理海量數據的技術手段,是工具,而大數據既可以指海量的數據,也可以涵蓋大數據相關的技術,或是指大數據的思維,是一個模糊的概念,從技術到思維再到管理,更像是一場深刻廣泛的時代變革。
魏安琪:
數據科學本來就是一門在大數據應用技術需求推動下產生的學科。由於目前各項學科專業都在朝著數據密集型方向發展,而研究人員卻缺乏相應的工具技術去分析、存儲以及共享其研究過程中所獲取的數據,因而逐步產生了數據科學來解決這一問題。數據科學中涉及到的主要內容有數據獲取、數據存儲、數據管理、數據計算、數據分析以及數據可視化。數據獲取需要藉助各項專業領域的特殊儀器設備,去實驗檢測獲得數據並導入計算機內,而數據存儲及計算則需要藉助計算機的演算法設計、構建數據結構等相關知識去實現對於大量數據的有效存儲並去除冗餘數據實現數據共享,同時從這些大量數據中尋找相互間的關聯性,提取有效信息。而在提取關鍵信息之後對於這些信息的分析則又涉及到數理統計方面的思想知識,去構建合適的數學模型,分析其數據特徵,對數據進行建模與評估。在得到上述有效數據信息後,對這些信息的利用則又回歸到各個學科領域,結合相關專業知識,解決實際問題。因此,可以看出,數據科學是一門結合統計學知識、計算機技術、各專業領域學科等的交叉學科。
TAG:嘉數匯 |