當前位置:
首頁 > 最新 > 如果朕是一位數據科學家……

如果朕是一位數據科學家……

本文轉自大數據應用 ID:Datalaus

古裝劇似乎是我們每個人從小到大都會或多或少看過的故事題材。

你懷念還珠格格么?記得漢武大帝么?看過甄嬛傳么?聽說過各種以「宮」字命名的古裝劇么?最近在追延禧攻略么?和我一樣盼望著如懿傳的出現么?

哈哈哈哈哈哈哈哈哈哈,相信你和我一樣,對和自己完全沒關係的古代皇室都有著或多或少的了解。

好了好了,我知道有人要吐槽這些宮斗劇無聊了,沒有營養,影響學習,耽誤工作時間。。。blah blah blah。。。

那如果我問你,「你有沒有想過如果皇帝是一位數據科學家/數據分析師,他會將身邊的哪些資源當作數據來研究分析?」

沒錯!今天,我們就一起來看看我們常常提到的一些常有數據的分類?順便來開開腦洞,想想他們都是聖上的誰?

## Spatiotemporal Data 地理時空數據 ##

說到地理時空數據,這種數據的意思其實......就是字面意思啦。我們將 spatiotemporal 這個詞分開看,分別是 spatio -- 空間的 和 temporal -- 當時的/實時的。

所謂空間數據,就是通過描述很多複雜的多線路因素來定義出一個大的個體,舉個栗子,我們可以通過空間數據所記錄的車輛軌跡來描繪出一個城市的大致形狀。

所謂實時數據,他肯定是記錄了一個時戳日期和時間的數據;在記錄時間的時候,有兩種時間,一種叫做 Valid Time 真實時間,就是我們日常生活中用到的時間;另一種叫做 Transaction Time 事務處理時間,這個具體是指這個數據被記錄入相應資料庫的時間。

所以這個 Spatiotemporal Data 主要是描述了同一個事件的時間和地點,並且這個事件可以展示出在同一個物理地點經過時間的變化一些現象所發生的變化。

那麼一般可以被當作這個數據的角色會是誰呢?

太皇太后!

這樣一個人物,她經歷了朝代更替,擁有了身份變化。從她身上可以看到同一個物理地點經過時間長河洗禮後發生的變化。這是別的角色無法代替的。在時間點上,所以真實時間,就是我們說的公元多少多少年,沿用至今,大家都懂;而所謂的事務處理時間,其實就是我們說的某某皇帝年間多少多少年。

代表人物:竇太后 --漢文帝的夫人,漢景帝的母親,漢武帝的祖母。

## Dark Data 黑暗數據 ##

黑暗數據,並不是說這個數據會毒害你的系統。只是它們是一些永不見天日的數據。它們是不會被用到的一些數據。這些數據通常是和別的數據一樣被收集,處理和儲存的,只是由於某些原因,它們從未被調用。

那麼一般可以被當作這個數據的角色會是誰呢?

被打入冷宮的妃子!

她們和別的妃子一樣,被選入宮,伺候皇上,因為某些或許你知道或許你不知道的原因,她們被打入冷宮後,一輩子都可能不會再見天日。

代表人物:祺貴人(來自後宮·甄嬛傳)

收入資料庫時:

不被調用後:

## Real Time Data 實時數據 ##

實時數據是現階段數據分析里最被人關注的一類。很多數據學家都在圍繞實時數據做出自己的分析和技術的研究。

有些人說 real time 這個形容詞其實是不恰當的,因為數據最快的速度是趕上在交流它的速度,而它永遠無法超越自己。(我知道這句話聽上去像一個哲學定義,但你懂我的意思吧?舉個類比的栗子,比如我們說在看世界盃實時直播,這個定義是不準確的,因為即便是實時直播,這個實時是要加上中間的傳播時間的,不可能和真實世界一樣快。)

不過!這並不能影響它是很有價值的數據的至尊地位。業內都認定實時數據是最能發現客戶與品牌之間關聯的致命法寶。

那麼一般可以被當作這個數據的角色會是誰呢?

寵妃!

所謂寵妃,自然就是皇上最寵愛的妃子了。

這個「寵」字,你可以說它是不恰當的,因為皇帝作為擁有後宮佳麗三千萬有無數子民的一國之君,在遇到很危機的情況下肯定還是會更優先考慮自己的情況。換句話說,即便你是聖上的寵妃,他「寵」自己勝過寵你,所以寵字不一定恰當。

然後通常呢,通過寵妃,我們能分析出 顧客 -- 子民 與 品牌 -- 皇室口碑 之間的聯繫。為什麼呢?因為作為天下蒼生百姓,不可能接觸的到後宮的這些佳麗寵妃。那他們如何判斷這個妃子好不好?如果皇室在他們心中心系蒼生,負責任,很博愛,那麼這位寵妃,哪怕獨吞皇上一人寵愛,輿論導向也會偏向好的一邊。相反,即便這位寵妃很愛這位皇帝,皇帝也很愛她。但是如果皇室形象就是很差,民不聊生,那抱歉,這位紅顏禍水,我們就要在心裡暗自詛咒你。

代表人物

楊貴妃 【楊玉環】

熹貴妃 【甄嬛】

## Genomics Data 基因數據 ##

聽這個名字,你就想到了生物醫藥吧?所謂基因數據,就是通過分析人的基因來產生的數據。這一類數據其實非常非常有用,未開發的部分其實很多,研究表明,到2020年基因數據的量會比 twitter 和 youtube 所產生的數據都要多。

然而,這類數據並不好開發,為什麼?

一來是因為我們沒有足夠的技術去在不損害原資料庫並且做好一切隱私保護的情況下開發這一類數據。二來是這一些數據比我們想像的要複雜。所以路漫漫其修遠兮,數據的路還有很遠要走

那麼一般可以被當作這個數據的角色會是誰呢?

異域來的妃子!

她們是很重要的人,一般都身負著一些政治使命。你從她身上能夠獲得的信息或許可以左右政局。然而,她不像普通的妃子那麼好控制。由於一些原因,或許她會讓你琢磨不透。

代表人物

香妃 【含香】

比如你作為皇帝,你可能也難以分析出她為什麼可以吸引 3D蝴蝶 。。。

## Operational Data 運營數據 ##

這個數據就非常厲害了。很無敵的數據。任何公司,組織,企業,都有大數據,都有自己的指標,有具體某些事件的數據,也有一些程序或者第三方得到的數據。那麼要如何把這些數據變成有意義,各部門都能理解,並且能給決策者高質量意見的商業決策呢?這時候,我們就需要運營數據來大展身手了。通常運營數據是拿來定義現有政策與商業目標是否匹配的一個重要信息。

你可能要問我到底何為運營數據?狹義的來說,就是影響這個團體/組織(organization)實際運營,各部門都參與並看得懂的數據。廣義的來說,運營數據是一種思維模式,將各種數據轉變為推動組織發展的可被理解的數據,讓各部門發現自己在驅動業務增長上可以參考的一些數據。

說到這,我想你大概也明白了。運營數據的存在像一個貫穿整個企業的關鍵人物,舉一個栗子,它像是狼人殺中的預言家,所有人都知道自己基於預言家要做的事情,好人知道要保護他,壞人知道要弄死他,各個組織都找到了自己運營的關鍵信息。

那麼一般可以被當作這個數據的角色會是誰呢?

太子!

太子這個人的身份非常神奇,她是後宮皇后/重要妃子的兒子,是皇上的最重用的兒子,有一個太傅通常是重要的文官,有一個發小自小陪他保護他,通常長大以後會是很重要的武官。他使整個政治中可以讓所有人理解的一個重要人物。從他身上,各方人物都能看到自己所需要的動向與指導方向。

代表人物就不列舉了

他們

要麼因為太背早逝,

要麼因為太蠢被廢,

要沒因為兄弟太厲害被殺,

要麼成為了皇帝。

## Open Data 開源數據 ##

何為開源數據?其實很好理解,就是向所有人免費開放的數據,並且對於翻版翻用此數據沒有版權,專利或者其他限制。這種數據在什麼時候有用呢?在它以一種人可以理解的格式被放出來的時候才有用。這就要求開源數據通常得以一個固定的形式來分享,從而讓大家更方便追溯會數據的源頭。

那麼一般可以被當作這個數據的角色會是誰呢?

我想了很久。

我實在想不出古代皇室有任何東西是以這種形式存在的。

但是,我想出了合理使用這類數據的一個人。

在歷史的一切灰飛煙滅以後,君主妃子大臣都百年之後,這一切的故事傳說都變成了開源數據。現代的編劇啊,導演啊,都開始了一些深刻的「數據挖掘與數據分析」。反正,乾隆也不會去敲於正大哥的門問他憑什麼覺得會自己不會殺掉那個伶牙俐齒口無遮攔顛倒黑白叫魏瓔珞的奇怪宮女,並且讓她活到成為一代寵妃的那一天?

## Unverified Outdated Data

未經證實年久失修的數據 ##

這個數據應該是本篇文章中,最好理解的數據了。所謂「未經證實年久失修的數據」是什麼呢?他們是一群未經證實年久失修的數據。是不是很!好!理!解!這些數據被收集過後,沒有人知道它到底是否可用,也不知道到底是不是對的人,然後過了很久很久,也失去了實效性。這樣的數據在業內是不受待見的。通過它們分析出來的結果和商業決策通常不會被採納,也不應該被認可。

那麼一般可以被當作這個數據的角色會是誰呢?

我想不到一類人。

但我想到了一個人。

大明湖畔夏雨荷的女兒。

無法判斷出身,數年後突然出現,你說,連張鐵林都錯將本應是林心如的這個頭銜給了欺騙他的趙薇,這個數據可信么?不可信。

## Translytic Data 交易分析數據 ##

這個詞你可能沒有見過,有道詞典也查不出來,因為它是兩個詞的結合: Transact 和 Analytic。什麼意思呢,它是一個集交易/事務處理與分析為一體的數據。在以前,所有的分析都是基於交易/事務處理數據的;但是現在,隨著內存計算(in-memory computing)的普及,這種在交易/事務處理過程中直接分析的數據也出現了。高效,高質,高能,一體化的一種技術。。這種數據確實是很厲害的一個存在。它絕對地強調了實時性,為戰略策劃的分析提供了更有效的支持。

那麼一般可以被當作這個數據的角色會是誰呢?

同樣的,我想不到一類人

因為我覺得歷史上能做到如此的,

大概就是

武則天了吧。

她在自己的前半生,做一個數據;

在自己的後半生,做一個數據科學家。

她本人就是一個可以做內核計算的數據。

其實數據除了我們以上提到的這幾種以外,

還有很多,比如我們常見的## Structured Data, Unstructured Data, Semi-Structured Data 結構化數據、非結構化數據、半結構化數據 ##,這些數據,其實是很籠統的定義,像是我們提到的別的分類的一個母級分類。除此之外還有和今天談到的這些數據平級的,比如 ## Time-stamped Data 時戳數據 ##,根據時間節點記錄;## Machine Data 機器數據 ##,它是「機器」自動吐露的數據,很多時候我們外接 API 所得到的數據都是機器數據;又或是High Dimensional Data 高維度數據,這個是很新的一個概念,通過一些高維度的標籤,給數據來源的產品高精準畫像,讓生產者更知道問題所在。

等等等等。。。數據的世界奇幻無窮,等待我們去探索,只是,我們在這篇文章就不過多的去贅述啦,衷心祝願大家閱讀愉快。雙手奉上參考資料,供大家參考!

https://www.forbes.com/sites/adrianbridgwater/2018/07/05/the-13-types-of-data/#430fbb093362


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 德塔大數據研究院 的精彩文章:

TAG:德塔大數據研究院 |