Google 科學家最新整理,給新手的十篇最佳數據科學文章
作為數據科學的初學者,一些好的文章能夠快速帶我們入門這一充滿了未知和挑戰的領域。近日,google 決策智庫的主管 Cassie Kozyrkov 整理了十篇給學生們推薦的最好的文章。下面這些文章幾乎都來自於相同的博客。讓我們來看看是哪些文章吧~
#1 理解數據
文章地址:https://towardsdatascience.com/what-is-data-8f94ae3a56b4
如果你從網上購買數據集開始你的學習旅程,你就有可能忘記它們從何而來。
上面這張照片就是數據,它被存儲為信息,你的設備用這些數據來顯示漂亮的顏色。
我們有無限的選擇去關注和記住什麼。這是我看食物時看到的東西:
如何表示這些並沒有一個普遍的規律,食物的重量單位是克,是最好注意的。我們可以選擇數量、價格、原產國或其他適合我們要求的商品。
如果你閉上眼睛,你還記得剛才看到的每一個細節嗎?我反正不記得了。這就是我們收集數據的原因。如果我們能在頭腦中完美地記憶和處理它,就沒有必要了。
當我們分析數據時,我們正在訪問別人的記憶。
雖然,用手在紙上打草稿也可以,但是當數據量很大的時候,我們最好還是用電腦吧。
我們可以用 excel 處理很多數據。
當然,你還可以選擇 python。
為了加速你的訓練,不要只是粘貼魔法單詞-嘗試改變它們,看看會發生什麼。例如,如果您在上面的代碼片段中將「真」變為「假」,會發生什麼變化?
編程是魔法和樂高之間的交叉點。如果你希望自己能變魔術,那就學著寫代碼吧。
簡而言之,這是一個程序設計:詢問互聯網如何做一些事情,用你剛學過的神奇單詞,看看當你調整它們時會發生什麼,然後把它們像樂高積木一樣放在一起來完成你的出價。
我們需要進行分析和總結。為此,你還需要了解很多數學知識,如中位數、眾數等。這些知識被稱為統計學。
你還需要學習繪圖和可視化。通常,直方圖和條形圖被使用的比較多。
數據沒有什麼神奇之處,它只是在記錄上比大腦更可靠。一些信息是有用的,有些是誤導性的。我們都是數據分析師,一直都是。
#2 向孩子(或你的老闆)解釋監督學習
文章地址:https://towardsdatascience.com/explaining-supervised-learning-to-a-kid-c2236f423e0f
既然你知道什麼是機器學習,讓我們來看看最簡單的那種。我的目標是讓所有人(幾乎)所有年齡段的人都能適應它的基本術語:實例、標籤、特性、模型、演算法和有監督的學習。
實例
看下面四個例子!
實例也稱為「示例」或「觀察」。
數據表
當我們把這些例子放在一張表格上時,它們是什麼樣子的?每一行都是一個例子。
這次我們很幸運,每個實例都有一個標籤。
標籤
標籤是正確的答案。這就是我們希望計算機在顯示像這樣的照片時學會輸出的東西,這就是為什麼有些人喜歡使用「目標」、「輸出」或「響應」這個詞的原因。
特徵
其他列有什麼?像素顏色。與你不同的是,電腦看到的圖像都是數字,而不是漂亮的妹子。你看到的是紅綠藍這三種顏色。不相信?嘗試將「我的數據表」中的值輸入到這個 RGB 顏色控制盤中,看看它給你顯示什麼顏色。想知道如何從照片中獲取像素值嗎?看看這個代碼。
你知道什麼很酷嗎?每次你看一張數碼照片,你分析數據,弄清楚存儲在一堆數字中的東西。不管你是誰,你已經是一個數據分析師了!
模型與演算法
我們的特徵將構成模型的基礎,計算機將使用它們把像素顏色變成標籤。
模型只是「配方」的一個花哨的詞。
具體如何做?這就是機器學習演算法的工作。
監督學習
我想讓你成為我的機器學習系統。使用你的大腦,再看一眼實例,做一些學習,你覺得這是什麼?
使用你從上面的示例中學習到的內容對該圖像進行分類。
「金髮」?是的。你明白了!你剛才做的是監督學習,太棒了!你現在經歷了最簡單的學習方式。如果你能把你的問題定義為有監督的學習,那是個好主意。其它的更難……所以我們需要使用無監督學習。
總結:如果演算法在每個實例中都有正確的標籤,那麼這將是有監督的學習。稍後,它將使用模型或配方來標記新實例,就像你所做的那樣。
#3 無監督學習
文章地址:https://hackernoon.com/unsupervised-learning-demystified-4060eecedeaf
無監督學習聽起來像是一種奇特的表達方式,「讓孩子們自己學習,不要觸摸熱烤箱」,但它實際上是一種從你的數據中挖掘靈感和模式的技術。
什麼是無監督學習?
你的任務是把這六張圖片分成兩組。查看上面的六個實例,缺少了什麼?顯然,這些照片沒有標籤。不用擔心,你的大腦很擅長無監督學習,想想你如何將這些圖片分成兩組,讓我們試試看。
聚類數據
在實況課堂上,谷歌用戶會大聲回答「坐著還是站著」、「能看到木地板還是不能看到」、「貓自拍還是不貓自拍」等等,讓我們檢查一下第一個答案。
將圖像分成兩組的一種方法是:坐著和站著。好吧,「坐」對「站」。
無監督學習的秘密標籤
如果你認為「坐著還是站著」是標籤,那就再想想吧!這就是您用來創建集群的方法(模型)。在無監督的學習中,標籤更為乏味:比如「第 1 組和第 2 組」或「A 或 B」或「0 或 1」。它們只是表示群體成員,沒有額外的人類可解釋(或詩意)的含義。
無監督學習的標籤只表示集群成員。他們沒有更高的人類可解釋的意義,可能會感到令人失望的無聊。
這裡所發生的一切就是演算法通過相似性對事物進行分組。相似性度量是由演算法的選擇來指定的,但是為什麼不儘可能多地嘗試呢?畢竟,你不知道自己在找什麼。
經驗教訓:
把無監督學習看作是「物以類聚」的數學版本。
結果就像一張卡羅牌,幫助你實現夢想。任何事情都有可能發生,把這個過程當做一次冒險,並努力享受吧!
總結:無監督學習通過將相似的東西分組在一起,幫助你從數據中找到靈感。定義相似度有很多不同的方法,所以繼續嘗試演算法和設置,直到一個很酷的模式吸引你的眼球。
#4 數據科學簡史
文章地址:https://www.forbes.com/sites/insights-intelai/2019/05/22/automated-inspiration/#78a3aeb1c44f
在 19 世紀,醫生可能給情緒波動開含有汞的處方,給哮喘開含有砷的處方。他們可能不會在你手術前洗手。他們不是想殺害你,只是不知道這樣做更好。
這些早期的醫生在他們的筆記本上記錄著有價值的數據,但就像一個巨大的拼圖遊戲,每個人都只拿了一小塊。如果沒有共享和分析信息的現代工具以及理解這些數據的科學,那麼就沒有多少東西可以阻止迷信通過可觀察到的表面事實來進行判斷的方法。
從那時起,人類在技術上取得了長足的進步,但今天機器學習(ML)和人工智慧(AI)的蓬勃發展並沒有真正打破過去的局面。
後來,人們發明了第一個數據存儲和共享技術。存儲數據集的能力代表了通往更高智能道路上突破性的第一步。
不幸的是,獲取信息是一件痛苦的事情。你必須把每一個單詞上傳到你的大腦來處理它。這使得早期的數據分析非常耗時,因此最初的研究一直止步不前。
幸運的是,有一些令人難以置信的先驅。例如,JohnSnow 在 1858 年倫敦霍亂爆發期間繪製的死亡地圖,激發了醫學界重新考慮了這種疾病是由毒氣引起的迷信,並開始仔細觀察飲用水。「拿著燈的女士」,弗洛倫斯南丁格爾在克里米亞戰爭期間創造性的用信息圖表分析出醫院死亡的主要原因,挽救了許多人的生命。
數據的美妙之處在於它能讓你從中形成一種觀點。通過查看信息,你會受到啟發提出新的問題,。這就是分析學科所要做的:通過探索來激勵模型和假設。
從數據集到數據分割
在 20 世紀初,在不確定的情況下做出更好決定的願望導致了一個平行的職業的誕生:統計學。
分析和統計有一個主要的弱點:如果你在假設生成和假設測試中使用相同的數據點,那你就是在作弊。統計的嚴謹性要求你在採取行動之前先做出決定;分析更像是一場事後諸葛亮的遊戲。他們幾乎是悲劇性的不相容,直到下一次重大革命,數據分割改變了一切。
數據分割是一個簡單的想法,但對於像我這樣的數據科學家來說,這是最深刻的想法之一。
後來,機器學習出現了。
使用數據集會破壞其作為統計嚴格性來源的純度。如果你有第三個數據集,你可以用它來獲得靈感。這個篩選過程被稱為驗證,它是機器學習的核心。
一旦你可以把所有的東西都扔到一起上,你就可以讓每個人都有機會想出一個解決方案:經驗豐富的分析師、實習生、茶葉,甚至演算法,而不必考慮你的業務問題。無論哪種解決方案在驗證中效果最好,都將成為適當統計測試的候選者。你只是讓自己自動激發靈感!這就是為什麼機器學習是數據集的革命,而不僅僅是數據。
用深度神經網路進行機器學習在技術上被稱為深度學習,但它還有一個綽號:人工智慧。雖然人工智慧曾經有不同的含義,但今天你很可能會發現它被用作深度學習的同義詞。
深度神經網路由於在許多複雜的任務上比不太複雜的 ML 演算法更容易分類,因此贏得了他們的讚譽。但它們需要更多的數據來訓練它們,並且處理要求超過了典型的筆記本電腦。
#5 機器學習——皇帝的新衣?
文章地址:https://medium.com/@kozyrkov/machine-learning-is-the-emperor-wearing-clothes-928fe406fe09
機器學習使用數據中的模式來標記事物。聽起來很神奇?核心概念實際上非常簡單。如果有人讓你覺得這是神秘的,他們應該感到尷尬。
核心概念非常簡單
我們的標籤例子將涉及到將茶分類為美味或不美味,所有的想法在數學或代碼所需技能上都超級簡單!
原理是什麼
數據
讓我們想像一下,我品嘗了 50 杯茶,並將它們的信息直觀地呈現在下面。每一杯都有糖和釀造時間信息,Y 代表美味,N 代表不那麼美味。
在我品嘗了這些茶並將它們的數據記錄在電子表格中之後(左圖),在右圖中我以更友好的格式展示了這些信息。
演算法
通過選擇要使用的機器學習演算法,我們將選擇我們將要得到的配方類型。機器學習演算法的目的是選擇一個最合理的地方來在數據中設置一個圍欄。
如果你想畫一條線,祝賀你!你剛剛發明了一種機器學習演算法,它的名字是……感知器。是啊,這麼簡單的東西居然有這麼一個科幻名字!請不要被機器學習中的行話嚇倒,它通常不應該受到這個名字所激發的震驚和敬畏。
機器學習演算法的目的是選擇最合理的位置來放置圍欄,它根據數據點到達的位置來決定這一點。它是怎麼做到的?通過優化目標函數。
優化
目標函數(損失函數)類似於棋盤遊戲的點系統。目標函數就像一個棋盤遊戲的得分規則,優化就是找出如何玩,這樣你就可以獲得最好的分數。
ML 中的目標函數傾向於稱為「損失函數」,目標是最小化損失。
損失函數就像一個棋盤遊戲的得分規則,優化它就是找出如何玩,這樣你就可以得到最好的分數。
你希望得到的解決方案是這樣的:
模型
一旦圍欄就位,演算法就完成了,你從中得到的就是你想要的——一個模型,它只是配方的一個花哨的詞。
標籤
一旦你把你剛鑄造的模型投入生產,你就可以通過給計算機輸入年齡和分數來使用它。系統會查找對應的區域並輸出標籤。
當我得到四杯新茶時,我只需將它們的輸入數據模型進行匹配,並相應地標記它們。看到了嗎?很簡單!
如果你期待魔法,那麼,你越早失越好。機器學習可能是平淡無奇的,但你能用它做一些不可思議的事情!它可以幫助你編寫自己無法想到的代碼,能夠自動處理無法表達的代碼。不要因為簡單而討厭它。槓桿也很簡單,但它們可以翹起地球。
#6 一句話的推斷統計
文章地址:https://hackernoon.com/statistical-inference-in-one-sentence-33a4683a6424
20 世紀 20 年代的深刻見解催生了你今天遇到的大多數統計研究。
我們收集的證據使我們的無效假設看起來荒謬?不是開玩笑,這就是一切。經典假設檢驗就是這樣。
這裡來舉個例子:假設檢驗與外星人。
你剛剛被選入參加終極冒險:尋找行星尋找外星生命。不幸的是,你的經理給了你一個微不足道的用戶界面。它只有兩個按鈕:是和否。
這是整個控制面板。是表示這裡有外星人,否表示這裡沒有外星人,無法輸入評論。
更糟糕的是,你的經理沒有給你預算去搜索整個星球。你所能做的就是著陸,選擇一個方向,開始行走直到你的氧氣供應變得不穩定,然後回頭按這兩個按鈕中的一個。你將面臨不確定性:你可能最終不知道真正的答案是什麼。
在這個例子中,你需要進行收集數據,統計、分析以解決問題。分析關注的是存在的情況,而統計關注的是不存在的情況。
我們在行走中沒有看到外星人,我們的無效假設是地球上沒有外星人。我們對這個大測試問題的答案是什麼?證據會讓我們的無效看起來很荒謬嗎?怎麼可能?樣本中沒有一個外星人。
現在想像一下,如果我們不是在路上看到外星人,而是看到這個綠色的小傢伙。
假設那是外星人(而不是泡菜),我們學到了什麼?如果我告訴你我觀察過這個外星人,我還在考慮這個星球上沒有外星人生命的可能性,你會告訴我你觀察過一個白痴。
這個證據讓我的無效假設看起來很荒謬!當證據使假設看起來荒謬時,我們該怎麼做?我們不應該固執己見。把它扔掉!
我們總是巧妙地設計我們的兩個假設,使它們跨越所有的可能性,拒絕一個接受另一個。
如果我們的證據讓我們的回答是「是」,我們就拒絕這個荒謬的假設,並作出有利於選擇的結論。我們現在對執行默認操作感到可笑,所以我們切換到另一個操作並按 Yes。所以我們已經從整體上了解了這個星球:它上面有生命!
總而言之,假設檢驗的遊戲就是確定我們收集的證據是否會讓我們的無效假設看起來荒謬。一切都取決於我們如何根據證據改變主意。
#7 TensorFlow 死了,TensorFlow 萬歲!
文章地址:https://hackernoon.com/tensorflow-is-dead-long-live-tensorflow-49d3e975cf04
歡迎使用TensorFlow 2.0,這是一場革命!
這是一次徹底的改頭換面。如果你是 2019 年年中的一個 TF 初學者,你就非常幸運了,因為你選擇了進入人工智慧的最佳時間。
我懷疑很多人抱怨 TensorFlow 1.x 很容易讓人上癮。它是人工智慧的溫床,而且非常人性化。充其量,你可能會為能夠以令人難以置信的規模完成你的人工智慧任務而感到感激。
可愛的 Keras
Keras 是一種可與多個機器學習框架逐層構建模型的規範,它不是 tf,但你可能知道它是從TensorFlow中作為 tf.keras 訪問的高級API。
Keras 從一開始就被建造成 python 使用,它一直以人為本,具有吸引力和靈活性,且簡單易學。
TensorFlow 已經死了,TensorFlow 2.0 萬歲!
TensorFlow 現在很可愛,這是一個遊戲規則的改變者,因為它意味著我們這個時代最有力的工具之一剛剛擺脫了大部分人使用的障礙。來自各行各業的技術愛好者最終都有權加入進來,新版本使研究人員和其他積極性很高的人能夠接觸到他們。
在 TensorFlow 2.0 中,現在默認情況下是預先執行。你甚至可以在上下文中利用圖形,這使得調試和原型設計變得容易,而 TensorFlow 運行時則負責性能和擴展。
視頻地址:https://youtu.be/TTQQiJ-mHYA
這是人工智慧偉大的一步!升級到新版本是一項艱苦的工作。如果你即將開始將代碼庫遷移到 2.0,那麼你並不孤單——接下來在 Google 上將會有遷移指南,歡迎關注。
#8 統計學家證明統計數據很無聊
文章地址:https://towardsdatascience.com/statistician-proves-that-statistics-are-boring-4fc22c95031b
這位統計學家即將證明統計數據很無聊。
人口
當你想到「人口」這個詞時會想到什麼?人,對吧?在我們的訓練中,它更像所有的事情。一個群體可以是人、像素、南瓜,或者任何你喜歡的東西。
下面圖片中的樹是我們這篇文章感興趣的讀者群。
因為這是我的人口,我的發現充其量也適用於這些樹。
這裡有你看不到的樹嗎?你死定了,這實在太無聊了,它不是我們人口的一部分。挑一棵樹?你也死定了,因為這一樣地無聊。
樣本
樣本是你擁有的數據,總體是你希望擁有的數據。
觀測
觀測是對一個樣本中的一個項目進行的測量。
統計
統計數據是一種將樣本數據拼湊起來的方法。
那麼…什麼是統計數據?這只是一種將我們現有的數據搞得一團糟的方法。真讓人失望!統計和統計的規律是不同的。
統計數據令人厭煩的證據
假設我們對平均樹高感興趣,這個樣本正好是 22.5 米。這個數字對我們有意義嗎?
讓我們回顧一下我們定下的規則:只有人口才有意義。這個樣本是人口嗎?不是!因此,我們不感興趣。我們從一些無聊的樹上做了一些無聊的測量,然後我們把這些無聊的測量搞得一團糟……從這個過程中產生的東西也很無聊。
所以我一直在向你們證明你們心裡所知道的:統計數據很無聊!
當然,你還要考慮參數、假設等等,進行估算。
你總是需要統計數據其實是一個謊言,實際上你不需要。如果你只是想做出最好的猜測來獲得靈感,分析是你最好的選擇。拋開這些 P 值,你不需要不必要的壓力。
相反,你可以選擇遵循以下原則:越多(相關的)數據就越好,你的直覺可以很好地做出最好的猜測,但你不知道這些猜測有多好……所以保持謙虛。
不過,別以為我在刻苦訓練。我花了十多年的時間研究統計學,我常常認為我不是完全瘋了。
採用統計方法是有用的,它是非常有用的。
你什麼時候真正需要它?
#9 用小狗解釋 P 值
文章地址:https://hackernoon.com/explaining-p-values-with-puppies-af63d68005d0
你可能聽到的對 P 值的解釋是這樣的:p值是觀察統計數據的概率,前提是假設為空。有點費解吧,讓我們用小狗來解釋它。
設置(犯罪)現場
你有一隻小狗叫 fido,想像一下回到家,你在廚房裡發現了這個:
讓我們開始審判這個把頭伸進垃圾桶的嫌疑犯吧!
我們定下一個規則,即不要對 fido 大喊大叫,而相應的無效假設「fido 是無辜的」。如果你對這些概念還是不確定如何建立假設,請閱讀本文。
描述空假設世界
計算 p 值的第一步是深呼吸,然後說,「好吧,fido,我會認為你是無辜的。」
我們在這裡所做的是可視化空假設世界,並弄清楚事情在那裡是如何工作的,這樣我們就可以為它製作一個玩具模型。這就是計算的全部內容。
這個證據讓你吃驚嗎?
如果 fido 現在不去追垃圾,你會剛剛為它想好了完美的無罪理由。
「如果 fido 是無辜的,這個證據會有多奇怪?」
現在是時候問一個大問題了:這個世界有多大可能會像我們在現實生活中看到的那樣,至少會看到一些該死的證據?
當你用數字回答這個可能性時,這個數字就是 P 值本身!
P 值不能證明任何東西,這只是一種利用概率作為做出合理決定的基礎的方法。
很可能你得出了錯誤的結論,不確定性就是一個混蛋。在為時已晚之前,你不會知道你是否正確。這就是生活。我們只能在一個不確定的世界裡努力做到最好。P 值只是一種使用概率作為做出合理決策的基礎的方法。如果你開始期待它為你做些別的事情,你將受到互聯網對 P 值濫用者的所有嘲笑。
P 值越高,我對堅持我計劃的行動的感覺就越堅定。如果 P 值足夠低,我會改變主意,做點別的。
#10 什麼是決策智能?
文章地址:https://towardsdatascience.com/introduction-to-decision-intelligence-5d147ddab767
很想知道在大草原上避免遇到獅子的心理活動與人工智慧領導和設計數據倉庫的挑戰有什麼共同之處?歡迎了解決策智能!
決策智能是一門涉及各個方面選擇的新學科。它將應用數據科學、社會科學和管理科學彙集到一個統一的領域,幫助人們使用數據改善他們的生活、業務和周圍的世界。它是人工智慧時代的一門重要科學,涵蓋負責領導人工智慧項目所需的技能。
決策智能是將信息在任何程度上轉化為更好的行動的學科。
我們將「決策」一詞定義為任何實體在選擇方案之間做出的任何選擇。正是通過我們的決定——我們的行動——我們影響了我們周圍的世界。
決策智能分類
學習決策智能的一種方法是沿著傳統路線將其分為定量方面(主要與應用數據科學重疊)和定性方面(主要由社會科學和管理科學的研究人員開發)。
定性方面:決策科學
構成定性方面的學科傳統上被稱為決策科學。
決策科學關注的問題包括:你應該如何設置決策標準和設計指標、你選擇的指標激勵是否兼容(經濟學)?情緒、啟發式和偏見如何影響決策(心理學)、在團隊環境下做決策時,你如何優化結果(實驗博弈論)?......
還有很多!這遠不是完整的相關學科列表。
把決策科學的一方看作是以更模糊的存儲形式(人腦)處理決策,而不是在紙上或電子上整齊地記錄下來。
基於純粹數學理性的策略,沒有對決策和人類行為的定性理解,相對於那些基於對定量和定性方面的共同掌握的策略,它們相對來說是幼稚的,而且往往表現不佳。人類不是優化器,我們是「滿足者」。
定量方面:數據科學
當你已經下了決定,並且使用搜索引擎或分析師(為你扮演人類搜索引擎的角色)查找所有需要的事實時,剩下的就是執行你的決定,不需要花哨的數據科學。
但如果,在所有工作之後,交付的事實不是你理想的決策所需事實呢?如果它們只是部分事實呢?也許你想要明天的事實,但你只能拿到過去的事實。那你就是在處理不確定性!你知道的不是你希望知道的。這個時候就需要數據科學了。
你可以利用部分事實,通過統計推斷做出一個重要的預先設定的決定,補充你所掌握的信息和假設,看看你是否應該改變你的行動。
你可以利用部分事實,合理地將決定更改得更為明智。
你的部分事實可能包含關於存在的事實,這意味著你可以事後利用它們來做出基於存在的決定。
你可以使用部分事實來自動化大量決策。
你可以利用部分事實來決定你如何處理未來的重要決策,這是分析。
......
對於所有這些用途,都有一些方法可以將以前孤立的各種信息中的智慧整合起來,從而更有效地進行決策。這就是決策智能的全部意義!它彙集了不同的決策觀點,使我們所有人更加堅強,團結一致,並給他們一個新的聲音,擺脫了傳統的限制。
via:https://towardsdatascience.com/10-best-data-science-reads-for-students-3bae97d9bb23
TAG:AI研習社 |