當前位置:
首頁 > 新聞 > 數據標註這份工作,也不是誰都能做的

數據標註這份工作,也不是誰都能做的

在一排一排的電腦前,這裡的年輕人們一邊瀏覽照片和視頻,一邊標記他們看到的每樣東西。有的是在為無人駕駛公司標註路上的汽車和紅綠燈,有的是在為無人售貨公司標註麵包牛奶巧克力。

河南省郟縣睿金科技公司總部的工人正在標註數據

據《紐約時報》的報道,在位於中原腹地的河南河北,數據標註正在漸漸成為最新的勞動密集型行業。

有多少人工,就有多少智能。目前的人工智慧在被投餵了大量數據之後,才能認出三歲小孩子都能認出的東西,學會「黑貓白貓都是貓」。

當然,狸花貓也是貓

然而,在人工成本更高以及對數據標註要求更複雜的矽谷,工程師們需要尋找其他出路來獲取大規模的高質量有標記數據。


眾包

在人工費用高昂的矽谷,工人的最低時薪約為 13 美元左右。對於很多創業公司和中小企業來說,僱工人標註數據實在承受不起。最經濟的方法就是把大量任務拆分成小任務,再以低廉的價格分發到用戶手中。

其中最有名的在線眾包平台就是亞馬遜旗下的 Amazon Mechanical Turk 了。

在 Mechanical Turk 上,發布者可以自行上傳標註任務,用戶只需要填寫簡單的個人信息就可以開始工作。為了搞清楚 Mechanical Turk 到底是怎麼工作的,硅星人也註冊了一個賬號。

在 Mechanical Turk 的開始頁面,有各種奇奇怪怪的任務。這其中包括「標註廚房裡的事物」,「找出電子郵件地址和發件人名字」,「給圖片中的物體勾線」等等。

每個任務中包含若干個被稱為 HIT(人類智能任務,Human Intelligence Task)的小任務,標註員每完成一個小任務可以獲得相應的報酬。

其中最便宜的一個是給圖片中的建築分類,判斷這個小樓是屬於拉丁裔、亞裔還是中東人。每完成一個可以獲得 1 美分(約 7 分人民幣)報酬。

而最貴的一個,是找一位中文母語者按要求錄 150 句中文,可以獲得 6 美元。

除了這些簡單易懂,點一下滑鼠就能完成的任務,在 Mechanical Turk 上還有更多高要求的標註工作。

比如,有一個任務要求標註者看 10 秒鐘視頻,並用一句話描述視頻里的內容。在描述時,不能出現拼寫和語法錯誤,也不能加以主觀臆斷,在囊括所有重要內容的同時又不能描述太多不重要的細節。

而實現這麼一個高要求的任務,發布者只需要付出 0.3 美元賞金。

建議家長拿這個玩意兒訓練小朋友寫英語短句

儘管任務複雜報酬低廉,Mechanical Turk 上的任務還是供不應求。一些低要求的工作被放出來不到十秒,就被搶光了。

截至2011年1月,Mechanical Turk 上的註冊工人數量已經達到了 50 萬,在這些人的幫助下,有無數資金不充裕的人工智慧研究得以實現。

此外,在網站輸入驗證碼時,其實我們也在順便做數據標註,只不過得不到報酬罷了。

比如這種標出路牌的驗證碼

而其實, Mechanical Turk(直譯為機械土耳其人)的名字早就劇透了人工智慧訓練的本質。

1769 年,初代 Mechanical Turk 的發明者——匈牙利機械師沃爾夫岡·馮·肯佩倫製造了一個「能戰敗人類」的下棋木偶。這個「智能」木偶在歐洲和美洲幾乎戰無不勝,連拿破崙一世和本傑明·富蘭克林都成了它的手下敗將。然而直到 1857 年,《國際象棋月刊》才揭露,其實傀儡里坐了一個象棋國手。

而電腦屏幕背後的人,又和機器里坐著的象棋國手有什麼區別呢?


和專業人士合作

眾包模式固然有種種優點,但它的缺點也是致命的。

當我向一位 Google 工程師朋友提起 Mechanical Turk 的時候,他表示「我們不敢用 Turk 標註」。

因為眾包模式,通過 Mechanical Turk 標註的數據良莠不齊,花錢標註已經花了大功夫,整理和「清洗」數據又要浪費很多時間。尤其對於很多專業領域來說,普通人根本無法完成數據標註。

比如這種,你能告訴我哪個是有病變的嗎?

2017 年,Google AI 公布了一項突破性研究成果:通過機器學習技術,AI 能夠從病人的視網膜眼底照片中自動診斷出潛在的病變情況,來提前發現糖尿病性視網膜病變,進行及時的治療和預防,讓患者保住視力。

但想要教會 AI 什麼是正常的眼底照片,什麼是有潛在病變的眼底,這個過程並不容易。

為了獲得高質量的標註圖片,真正讓 AI 的診斷水平達到執業醫師的同等標準,Google 與印度和美國的眼科醫生合作,創建了含有 12 萬張圖像的開發數據集,再由 3 到 7 名眼科醫生聯合評估圖片中的病變。

最終,共計 54 名醫生從這些視網膜眼底照片素材中標記出超過 88 萬個確診癥狀。這些圖片和標記全部被用來訓練深度卷積神經網路,最終使得 AI 的診斷準確率逼近甚至超越了醫生。

在 Google Brain 參與另一個與壽命預測相關的項目的工程師 Steven Zhan 告訴我,他們的數據集標註工作基本無法眾包,都是交給醫生來完成的。

雖然在未來,AI 很有可能發展到「自己教自己」這一步。但目前為止,大部分的數據標註工作都是由真人完成的。這個工作不像大家想像的那麼簡單,而是充滿了複雜的判定和繁瑣的重複。

而隨著人們對數據的需求越來越高,也有越來越多的人開始靠標註數據為生。

皮尤研究中心預測,這種零碎的數據標註工作將在未來幾年內成為美國經濟的重要組成部分。在 2016 年,有大約 5% 的美國人通過 Mechanical Turk 這樣的在線標註平台賺錢——這個數量已經超過了優步司機。

在可見的未來里,人類還將繼續為人工智慧打工。

在中國如此,在美國也一樣。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 pingwest中文網 的精彩文章:

虎牙直播CEO董榮傑:月活已破1億,將籌建電競公司
比特大陸否認裁員50%,回應:年末正常人員調整

TAG:pingwest中文網 |