10000+谷歌員工學過的谷歌內部圖像分類課程公開了！

新聞 05-30

新智元今天

新智元報道

來源：Google AI

編譯：肖琴

【新智元導讀】今天，Google AI再次放出大招，推出一個專註於機器學習實踐的「互動式課程」，第一門是圖像分類機器學習實踐，已有超過10000名谷歌員工使用這個教程構建了自己的圖像分類器。內容簡明易上手，不妨來試。

地址：https://developers.google.com/machine-learning/practica/

10000+谷歌員工學過的谷歌內部圖像分類課程公開了！

幾個月前，Google AI教育項目放出大福利，將內部機器學習速成課程（MLCC）免費開放給所有人，以幫助更多開發人員學習和使用機器學習。

今天，Google AI再次放出大招，推出一個專註於機器學習實踐的「互動式課程」。公開的第一門課程是谷歌AI團隊與圖像模型方面的專家合作開發的圖像分類機器學習實踐。

這個動手實踐課程包含視頻、文檔和互動式編程練習，分步講解谷歌最先進的圖像分類模型是如何開發出來的。這一圖像分類模型已經在Google相冊的搜索功能中應用。迄今為止，已經有超過10000名谷歌員工使用這個實踐指南來訓練自己的圖像分類器，識別照片上的貓和狗。

在這個互動式課程中，首先，你將了解圖像分類是如何工作的，學習卷積神經網路的構建模塊。然後，你將從頭開始構建一個CNN，了解如何防止過擬合，並利用預訓練的模型進行特徵提取和微調。

機器學習實踐：圖像分類

學習本課程，你將了解谷歌state-of-the-art的圖像分類模型是如何開發出來的，該模型被用於在Google Photos中進行搜索。這是一個關於卷積神經網路（CNN）的速成課程，在學習過程中，你將自己構建一個圖像分類器來區分貓的照片和狗的照片。

預計完成時間：90~120 分鐘

先修要求

已學完谷歌機器學習速成課程，或有機器學習基本原理相關的經驗。
精通編程基礎知識，並有一些Python編程的經驗

在2013年5月，谷歌發布了對個人照片進行搜索的功能，用戶能夠根據照片中的對象在自己的相冊中檢索相應的照片。

10000+谷歌員工學過的谷歌內部圖像分類課程公開了！

在相冊中搜索包含暹邏貓的照片

這一功能後來在2015年被Google Photos中，被廣泛認為具有顛覆性的影響。這證明了計算機視覺軟體可以按照人類的標準對圖像進行分類，其價值包括：

用戶不再需要用「beach」之類的標籤手工地對照片內容進行分類，當需要管理幾千張圖片時，這一任務會變得非常繁瑣。

用戶可以用新的方式來探索他們的相冊，使用搜索詞來定位他們可能從未標記過的對象的照片。例如，他們可以搜索「棕櫚樹」，將所有背景中有棕櫚樹的度假照片放在一起。

軟體可能會「看到」用戶自己可能無法察覺的分類差別（例如，區分暹羅貓和阿比西尼亞貓），有效地增加了用戶的專業知識。

圖像分類是如何工作的

圖像分類是一個有監督的學習問題：定義一組目標類（即圖像中需要識別的對象），並使用已標記的示例照片來訓練一個模型來識別目標。早期的計算機視覺模型依賴於原始的像素數據作為模型的輸入。

然而，如下圖所示，僅原始的像素數據並不能提供足夠穩定的表示，以包含圖像中捕獲的無數個對象的細微變化。對象的位置、對象背後的背景、周圍的光線、相機的角度和相機的焦點在原始像素數據中都可能產生波動；這些差異是非常重要的，它們不能通過對像素RGB值的加權平均來校正。

10000+谷歌員工學過的谷歌內部圖像分類課程公開了！

左：不同姿勢、不同背景和光照條件的照片中，貓都可以被識別出來；右：用平均像素數據來解釋這種變化無法產

為了更靈活地對對象進行建模，經典的計算機視覺模型添加了來自像素數據的新特性，比如顏色直方圖、紋理和形狀。但這種方法的缺點是使特性工程變成了一種負擔，因為需要調整的輸入太多了。比如對於一個貓的分類器，哪種顏色最重要？形狀的定義靈活度應該多大？由於特徵需要非常精確地調整，構建一個穩定的模型非常具有挑戰性，而且模型精度也會受到影響。

卷積神經網路

構建圖像分類模型的一個突破是發現卷積神經網路（CNN）可以用來逐步地提取圖像內容的更高層的表示。CNN不是預先處理數據以獲得紋理、形狀等特徵，而是將圖像的原始像素數據作為輸入，並「學習」如何提取這些特徵，最終推斷它們構成的對象。

10000+谷歌員工學過的谷歌內部圖像分類課程公開了！