當前位置:
首頁 > 新聞 > 107年之後,AI讓我們發現泰坦尼克沉沒的更多真相

107年之後,AI讓我們發現泰坦尼克沉沒的更多真相

泰坦尼克號沉沒已經過去107年,這場悲劇與可持續農業、人口遷移問題或者健康保險費率等現代問題能有什麼關係?這裡給大家一點提示:數據證明。

無論是好是壞,現代世界正越來越多地利用演算法識別數據中的模式,並根據這些模式做出預測。人們希望回答的問題是,「某個人能否在泰坦尼克號的沉沒中倖存下來?」而這個問題的基本分析方法,與「最有可能的人口遷移途徑是什麼?」完全一致。

107年之後,AI讓我們發現泰坦尼克沉沒的更多真相

打開今日頭條,查看更多圖片

▲ 圖:2007年5月16日星期三,英國倫敦南肯辛頓的拍賣行以5萬英鎊(約合9萬9300美元)的價格售出了倖存者Laura Mabel Francatelli曾使用過的泰坦尼克號救生圈。


歷史悠久的問題

基於泰坦尼克號數據集,以預測海上生存概率,一直是眾多胸懷抱負的數據科學家以及程序員的標準實踐問題。

這是一個基本的挑戰:將一部分泰坦尼克號乘客名單添加至演算法,其中描述每位乘客及其特性的一些基本變數。根據這些數據,演算法應能夠提出相關結論,說明哪些變數決定某個人在1912年4月那個寒冷的夜晚擁有更高的生存或者死亡機率。為了測試結果是否正確,你需要利用訓練完成的演算法處理名單中的其餘乘客信息,而後與實際結果進行比較。

Kaggle.com等在線社區曾經進行過這樣的競賽,看誰能夠開發出準確率最高的生存預測演算法。此外,這也是大學課程當中的常見問題。乘客名單大到足夠能反映出明確的趨勢,同時又小到能夠被初學者掌握。其結果也相對簡單——決定生死的變數可能只有十幾項,所以問題並不複雜,初學者也能夠解決;但其中的交互關係又足夠複雜,能吸引到技術人員的關注。另外,由於泰坦尼克號的故事非常有名,因此即使過去一個多世紀,仍能引發共鳴。

SparkBeyond公司正在將泰坦尼克號問題作為其AI平台的早期測試素材,並希望將其作為向潛在客戶展示技術能力的方式之一。該公司聯合創始人兼CEO Sagie Davidovich表示,「有趣的是,即使是在像泰坦尼克號這樣簡單的問題當中,我們仍能夠發掘出大量有價值的結論。」


生存結果可歸結為變數

如果大家對泰坦尼克號的故事比較熟悉,完全可以通過簡單的數字計算對乘客的命運做出合理的猜測。

其中女性的生存機率幾乎達到男性的兩倍,兒童的生存幾率則為成人的1.4倍。一等艙乘客的生存幾率為其他乘客的1.9倍。事實證明,中年女性與年輕女性之間,艙位等級對生存率的影響最大;而在中年男性與年輕男性之間,年齡差異則是決定生存率的關鍵。

雖然這些結果基本在人們的意料之中,但確實能夠做出非常準確的預測。除此之外,演算法也需要考慮到其它變數對於生存名單的影響,例如一個人的父母、孩子或者兄弟姐妹是否同在船上。正因為這些複雜性因素的存在,泰坦尼克號乘客名單才有長久以來一直成為數據科學家們關注的經典問題。

事實證明,以不同的方式查看數據有時也能帶來更快捷的分析結果。Davidovich指出,SparkBeyond的AI方案就通過查看船票上列出的乘客姓名前綴,發現了這樣一條分析「捷徑」。

Davidovich解釋道,「從數據當中可以看出,最簡單的高生存率預測指標就是,乘客的名字中不包含「先生」這一表述。這顯然涉及到乘客的性別成分,但深入解讀,這種現象實際上包含了上面談到的全部三種生存指標。」因為「先生」這一前綴,能夠快速確定最有可能在沉船事故中死亡的群體:中產階級及資產階級成年男性,這一群更有能力購買頭等艙船票的群體,往往(雖然並非全部)擁有「閣下」這類頭銜,而年輕的男孩則被稱為「少爺」(主要來自貴族階層)或者並無特別的稱謂。


現代應用

SparkBeyond公司的AI方案目前已經開始研究監獄暴力行為的原因、半導體製造質量控制以及人口遷移模式等問題。

Davidovich介紹稱,「機器智能可以確定的一項基本事實,在於自然災害與人口遷移之間的聯繫。美國人口遷移的大幅飆升與颶風哈維有關,這一點在某些高速公路及主要道路上體現得尤為明顯。」

當然,除了數據模式這一共同本質之外,泰坦尼克號數據集還有著另一大共通的特性——儘管人們在分析時很容易迷失在具體數據當中,但這些紛繁複雜的數字與變數背後仍是真實人生的反映。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 科技行者 的精彩文章:

英特爾不懼英偉達和AMD的幾個原因
一支NBA球隊的人工智慧之旅:從球探到球員的技術「魔術」

TAG:科技行者 |