當前位置:
首頁 > 最新 > 人工智慧與數據科學在汽車工業中的應用!

人工智慧與數據科學在汽車工業中的應用!

◎文丨中國汽車工程學會胡志強編譯

數據科學和機器學習對於未來的汽車工業來說,是非常關鍵的技術,因為這兩項技術正在被用於汽車產品、汽車工藝優化和自動學習。

本文作者:(德)Martin Hofmann (奧地利)Florian Neukart (德)Thomas B?ck,由中國汽車工程學會 胡志強編譯。

本文由「135編輯器」提供技術支持

2萬字深度好文

本篇只提供部分內容

下載全篇報告

即可彈出百度網盤鏈接

本文由「135編輯器」提供技術支持

在汽車工業研發、採購、物流、製造、市場運營、銷售和售後、客戶服務等環節,甚至更廣泛的領域,工程技術人員正在探索應用人工智慧技術的可能性。目前,已經可見的人工智慧和數據科學應用案例已經說明這些技術給汽車工業帶來的變革指日可待。

1

前言

數據科學和機器學習現在已經與人們的日常生活息息相關,這些技術已經被大量採用,隨處可見,如汽車和手機中的語音識別功能、人臉識別、交通信號燈識別等,再如戰勝了各國圍棋高手的阿爾法狗機器人。在模式識別、研究和學習演算法基礎上建立的大數據分析技術已經能夠洞察我們未知的領域,如各種生產工藝、系統、自然以及人類行為背後的動因,它打開了一扇大門,讓我們進入了一個存在無限可能性的新世界。比如現在已經成為熱點的無人駕駛汽車,對汽車駕駛者來說,通過汽車導航和巡航系統的幫助實現自動駕駛已經觸手可及。

早在2015年底,特斯拉的創始人Elon Musk和豐田汽車幾乎同時宣布,將投資十億美元用於人工智慧的研究和開發。在人工智慧領域,這不過是冰山一角,但汽車行業未來發展趨勢顯而易見。工業互聯、自動駕駛,以及不斷從數據中學習並能做出最優決策的人工智慧正在以顛覆性的革命性方式推進,這一趨勢對很多工業的發展來說起著至關重要的作用,尤其是汽車工業。對很多國家來說,汽車工業是國民經濟的支柱性產業之一。在不久的將來,汽車工業將融入這些新基因,即在數據科學和機器學習的幫助下,開發新的技術,提供新的服務,提升國際競爭力。

數據科學和人工智慧技術帶來的自動駕駛、智能工廠等汽車工業的願景能否成為現實還有待時間來印證,但不管怎麼樣,我們堅信,這些技術的快速發展將引導汽車工業創建全新的產品、流程和服務,其中很多場景我們今天就能憧憬。

2

數據挖掘

人工智慧和數據科學將數據應用分析分為四個層級(見圖1),從低到高依次為「描述性分析」(發生了什麼)、「診斷性分析」(為什麼發生)、「預測性分析」(會發生什麼)、「優化性分析」(應該怎麼做)。高德納公司之前使用「規範性分析」來表述最高層級,本文用「優化性分析」來替代,這樣做的原因是,一項技術可以「描述」很多東西,而在公司內部的實現過程中,目標總是追求在規範性標準或質量標準的基礎上做得「更優秀」。「優化」可以通過搜索演算法得到支持,例如非線性案例中的「進化演算法」和在更少見的線性案例下的運籌學方法。「優化性分析」獲得了應用程序專家的支持,他們從數據挖掘過程中獲取結果,並使用它們得出關於過程改進的結論。一個很好的例子是基於數據的決策樹,程序專家可以運用自己的專業知識來理解和修正,然後以適當的方式實現。應用程序也可以用於優化的目的,當然,人始終會參與其中。中間兩個級別也都是基於數據科學的技術,包括數據挖掘和統計,而「描述性分析」本質上是傳統的商務智能概念(如資料庫、聯機分析處理)。

圖1 數據分析的4個層級

有時候,數據挖掘需要相關應用程序對多個標準通同時進行優化,這意味著需要採用多標準優化方法,或者說多標準決策支持方法。這些方法用來在矛盾的目標之間找到最好的解決方案。例如成本與質量,或者風險與利潤,前後兩者經常發生矛盾,再舉一個更具有技術性的例子,如車身的重量和車輛安全性能之間的矛盾。

這四個層級構成了一個框架,在這個框架中,可以將一個公司的數據分析能力和潛在收益進行分類。

傳統的跨行業數據挖掘標準流程(CRISP-DM)不包括任何優化或決策支持(見圖2)。

2跨行業數據挖掘標準流程

基於商業理解、數據理解、數據準備、建模和評估等子步驟,CRISP在業務流程中直接給出了的部署結果。在此,本文附加了一個額外的優化步驟,該步驟將包括多個標準優化和決策支持(見圖3)。

3優化後的跨行業數據挖掘標準流程

值得注意的是,原始的CRISP模型是數據科學家用來進行手工分析數據的迭代方法,這反映在業務理解和數據理解以及數據準備和建模之間的迭代中。然而,在評估步驟中引入相關應用程序專家來評估建模結果也可能導致流程必須從商業理解子步驟重新啟動,如果需要合併其他數據的話,有必要執行部分或所有子步驟。

這一迭代流程背後的基本思想已經存在了20年,並且與時俱進,雖然只是部分兼容了大數據的策略,但仍適用於大多數應用。除了使用非線性建模方法(這種方法與通常來自統計建模的廣義線性模型不同)和從數據中提取知識外,事實上數據挖掘的基本思想是,模型可以在演算法的幫助下從數據中派生出來,而且這種建模過程大部分可以自動運行,因為演算法自己能有效工作。

在需要創建大量模型的應用程序中,如基於歷史數據對單個車型和市場的銷售進行預測,自動建模起著重要的作用。在線數據挖掘的情況同樣可以使用自動建模,如預測產品質量。自動建模不僅用於常規生產過程,還可用於某個單獨流程發生變化時,例如一個新原料批次使用時。

這種類型的應用需要數據挖掘演算法有自動生成數據,然後進行集成和處理的技術能力。此外,為更新模型並使它們作為創建在線應用最佳解決方案的基礎,數據挖掘演算法必須要能自動建模並自動優化。然後,這一建模和優化過程作為建議將被提供給過程專家參考,或者,尤其是在連續生產過程中,可直接用於控制各個過程。如果感測器系統也被直接集成到生產過程中用於實時收集數據,就會產生了一個自動學習的信息物理系統,這將幫助企業在生產過程中實現工業4.0的願景。

圖4 基於優化分析的工業4.0構架

如圖4所示,製造裝備的數據通過感測器獲得並歸集到數據管理系統中,然後依據系統相關變數,如質量、目標值偏差、過程方差等建立預測模型預測系統輸出結果。這一構架也可用於更多的機器學習選項,如預測性維護或者異常識別等。數據模型要被持續監測,如果發現過程漂移,則被自動修正。最後,多目標優化系統利用模型連續計算出系統控制的最佳設定值。構架中包含了人類過程專家,他們可以使用該系統推演出解決方案,在解決方案應用於原系統之前,過程專家也能夠使用模型對方案進行評估。

為了區別於傳統的數據挖掘,現在定義的大數據概念包含了三個基本特徵(有時是四個或五個基本特徵):量(Volume),即數據多少;速(Velocity),即資料輸入、輸出的速度;多樣性 (Variety),即數據類型繁多而且是異構化的。大數據不再被歸類於傳統的關係資料庫模式。此外還有準確性(Veracity),即數據中隱藏的巨大不確定性;價值密度(Value),即數據及其分析代表的公司業務流程價值。這兩個特徵通常作為附加特徵。所以,區分以前的數據與大數據分析方法並不是只考慮數據量一個特徵,而是要考慮其他技術特徵,因此要使用新的分析方法,如使用Hadoop和MapReduce軟體,並要調整數據分析演算法,以使數據能夠被保存和處理。此外,「內存資料庫」也使得用傳統的學習和建模演算法對大數據進行存儲處理成為可能。

可以看出,建立一個數據分析和建模方法的技術框架時,數據挖掘是大數據技術的一個子系統,而數據統計又是數據挖掘的一個子系統。並非每個應用程序都需要使用數據挖掘或大數據技術。但是,可以看到一個明顯的趨勢,隨著越來越多的數據被採集並與公司的業務流程和諸多部門關聯,使用數據挖掘和大數據的必要性顯得越來越重要。可喜的是,常規的硬體構架和儲存器空間已經足夠大,完全可以滿足大數據分析和存儲的需要。

3

人工智慧

國際神經網路協會委員會對人工智慧的早期定義是:人工智慧是研究如何使計算機去做過去只有人才能做得更好的智能工作。雖然這一觀點今天仍然適用,但目前的研究集中在如何讓軟體去做過去計算機才能做得更好的工作,如大數據分析軟體。數據是發展人工智慧軟體系統的基礎,數據技術不僅是收集信息,還包括自主學習、理解並解釋信息、自適應行為、規劃、推斷、解決問題、抽象思維、理解並解釋語言和思想。

1.機器學習

一般而言,機器學習演算法被分為兩類:監督學習和無監督學習,兩者區別取決於演算法的訓練樣本是否需要指定一個分類標籤。

(1)監督學習演算法

除了輸入變數之外,監督學習演算法還需要已知的解決問題目標值。如為了訓練一個機器學習模型來識別交通標誌,最好有各種不同配置,如使用照相機拍照、掃描交通標誌圖像等多種配置作為輸入變數。在這一案例中,光照條件、觀察角度、污漬等綜合在一起會使數據產生雜訊或失真。不管怎樣,在下雨條件下識別的交通標誌目標值的精確度應該與在光照充足條件下保證一樣。數據通常人為設定。正確的輸入變數及其正確的分類構成一組訓練數據。雖然每次訓練數據集中只有一個圖像,但仍然需要多個輸入變數,這有利於機器學習演算法在測試中找到相關特性,並利用這些特性進行分類,發現內在邏輯關係。監督學習主要用於預測(回歸)和分類,而相應的數據並不局限於特定的格式,機器學習演算法具有的能力遠遠超過處理圖像、音頻文件、視頻、數字數據和文本。分類示例包括對象識別(交通標誌、車輛前面障礙物等)、人臉識別、信用風險評估、語音識別和客戶流失等,現在能定義出來的只是一小部分。

回歸的例子包括在多個變數基礎上確定連續數值,有時是成百上千輸入變數,如無人駕駛汽車不僅要計算其理想速度、道路和環境條件,還要考慮財務指標,如當考慮國內生產總值是輸入變數也隨之發生改變,可使用開墾的土地、人口教育水平、工業生產等都是變數,然後再確定潛在的市場份額和推出的新車型。這些問題都是高度複雜的,不能用簡單的線性關係來表示。或者,換句話說,就是目前面臨的巨大挑戰是:必要的專業知識甚至並不存在。

(2)無監督學習演算法

無監督學習演算法不關注單個目標變數,而是關注數據集的總體特徵。無監督的機器學習演算法通常用於分組數據集,即識別單個數據點之間的關係,它包含任意數的屬性,把具有相同屬性的單個數據組成集群。在某些情況下,無監督機器學習演算法的輸出可以作為監督學習演算法的輸入。無監督學習的例子有根據消費者的購買行為或人口統計數據分類客戶群,或聚類時間序列,以便將數百萬來自感測器的時間序列進行分組,而以前這些分組並不明顯。

機器學習屬於人工智慧領域,它能讓計算機在沒有明確編程的情況下進行學習。機器學習的重點是在提供新數據的同時,開發和改變自己的程序。因此,可以用流程圖表示的過程不適合用機器學習,相反,所有需要動態的、不斷變化的解決方案,並且不能被限制為靜態規則的東西都有可能適合於用機器學習來解決。例如,在下列情況下可使用機器學習:?沒有相關的人類專業知識;?人們無法表達他們的專業知識;?解決方案隨著時間的推移而改變;④解決方案需要適應特定的情況。

機器學習是數據挖掘的工具,雖然兩者都是在數據中尋找模型,但機器學習和數據挖掘不是一回事。機器學習應用程序來提供自己對數據的理解,而不是提取人們能理解的現有數據。機器學習演算法軟體能夠識別數據模型,並根據模型進行動態的調整。例如自動駕駛,或者說擁有計算機視覺軟體的攝像機,在有行人出現啟動制動系統的訓練中,無論行人身材高低、胖瘦,穿的何種衣服,從哪個方向來,汽車都要啟動制動系統;而在路邊有固定垃圾桶的時候,車輛是不能啟動制動系統的。

現實世界往往比機器學習模型複雜得多,這就是為什麼大多數情況下要把一個問題細分為多個子問題,然後用相應的機器學習模型來解決這些子問題,然後對這些模型進行集成,以便在結構化或非結構化的環境中實現複雜的任務,自動駕駛汽車就是典型案例。

2.計算機視覺

計算機視覺大多數情況用英文縮寫CV表示,是一個涉及領域非常廣的研究課題,它起始於生物學、神經科學和心理學,然後又擴展到了計算機科學、數學、物理學等,是一個多領域交叉的學科。理解圖像的物理特性非常重要,光具有折射、散射、反射、被吸收等特性,計算機視覺利用了光的特性,二維陣列感光感測器通過測量圖像中每個像素的亮度、顏色等信息,來進行尺寸、形狀、顏色等判別。目前,計算機視覺關注三個焦點:?在圖像、圖像序列或視頻的基礎上重新構建場景,觀察場景上的要點;?模擬生物視覺,了解哪些物理過程和生物過程起作用,濕件(指動物腦)如何工作,以及相應地解釋和理解工作;?技術研究和開發的重點是高效的演算法解決方案,當涉及到計算機視覺軟體時,通常只研發與生物有機體的視覺感知有特定關聯的解決方案。

以上三個要素相互關聯相互影響。如在自動駕駛汽車項目中,關注的焦點是障礙物識別,行人出現在車輛之前時,汽車要啟動制動系統,最關鍵的事情是識別行人作為障礙物。在這個案例中不需要解釋整個場景,例如,在汽車行駛的方向上的田野里有一家人在野餐,在障礙物識別中要計算機視覺系統理解這個場景是沒有必要的。相比之下,如果周邊環境也被作為輸入,那麼理解場景就非常重要的先決條件,比如開發家用機器人時,家庭成員躺在地板上,機器人只是會避讓還遠遠不夠,還要理解該成員可能是出現了醫療緊急情況而不是在地板上睡覺。

生物有機體的視覺系統被認為是一個活躍的過程,感測器控制與動作的成功執行緊密相關,因此,計算機視覺系統並不是被動的,它必須:?通過感測器不斷提供數據流;?依據數據流執行動作。

但是,計算機視覺系統的目標並不是要理解圖像中的場景,而是要首先從場景中提取有關信息,這意味著它必須對圖像中的「感興趣區域」做出標識,並且在非常短的時間內做出響應,因為場景很有可能隨時變化,延遲過久會使操作失去預期的效果。目前,計算機視覺研究有很多不同的方法用於圖像目標識別(即尋找在場景的什麼位置有什麼特徵)。

(1)目標檢測

目標檢測器的鏡頭在圖像上移動,通過比較子圖像(窗口內容)和樣本的差異確定每個位置的濾波器響應。每個新目標需要單獨掃描並確定參數值。裝有多種複雜演算法的檢測器能使用多個學習了大量圖像的濾波器並可以同時基於多種尺度進行計算。

(2)分割方法

分割方法通過對圖像中不同區域內的像素進行分類獲得目標的幾何描述。在此基礎上,計算出圖像固定的特徵集,圖像即使進行各種變換,例如光條件變化,縮放或旋轉,特徵集仍然保持相同的性質。特徵集可以用於清晰地標識目標或目標類別,典型應用案例是識別交通標誌。

(3)對齊方法

對齊方法使用參數目標模型,這一模型已經經過數據訓練。演算法尋找適應圖像最佳特徵的參數,如縮放、平移、旋轉等,通過交互程序找到近似方案,即圖像的特徵,如輪廓、角度或其他能與圖像特徵相匹配的參數方案中的可選特徵。

在目標識別中,有必要決定演算法是解決目標的二維圖形還是三維圖形,因為二維圖形經常是準確率和可行性之間的折中選擇。目前的研究(深度學習)表明,甚至從不同點捕獲的兩個二維圖形上的兩個點之間的距離都可以被準確地確定為一個輸入。日光條件下有相當好的可見度,利用激光和雷達等設備獲取數據可以提高輸入精度。當然,一個攝像機也足以生成所需的數據。與三維圖形相比,二維圖形沒有形狀、深度或方向等直觀的編碼信息。深度可以用多種方式獲得編碼,如使用激光、立體相機(可模仿人類視覺)和結構光方法(例如Kinect技術)。目前,最精深的研究方向是用公式定義擁有幾何形狀的超二次曲面,它使用任意數量的指數來確定形狀,是圓柱體、立方體、圓椎體還是稜錐體。這允許用一小組參數來描述各種不同的基本形狀。如果使用立體照相機獲取三維圖形,則要使用統計方法(如生成立體點雲)代替上述方法,因為使用立體照相機獲得的數據質量比用激光掃描差很多。

其他計算機視覺研究方向還包括跟蹤技術、前後場景理解、監測研究等,不過這些方向目前對汽車工業來說不如前幾項那麼迫切。

3.推理和決策

這一研究領域被稱為「知識表示與推理」,用英文縮寫KRR表示,其專註於設計和開發數據結構和推理演算法。在需要與物理世界(如人類)進行交互的應用案例中,問題的解決方案通常會通過推理來獲得,如生成診斷、規劃、處理自然語言、回答問題等。KRR為人工智慧達到人類水平奠定了基礎。

KRR範疇中的推理是指在沒有人為干預或幫助的情況下,找到基於數據的答案,而數據在形式系統中呈現出確切而清晰的語義。自1980以來,人們一直認為數據是簡單與複雜結構的混合物。前者具有較低的計算複雜度,並形成大型資料庫的研究基礎;後者以一種表達能力更強的語言呈現,它需要更少的表達空間,它們對應的是泛化和細粒度信息。

如當智能機器人試圖像人一樣完成任務時,決策是在兩個或多個活動中解決取向問題的推理過程。在不斷變化的狀態下,要非常頻繁地做出決策,即要在瞬息萬變的時間裡做出決斷。非常典型的案例就是自動駕駛汽車需要對實時的交通變化做出反應。

邏輯與組合

數學邏輯是現實世界中許多應用的形式基礎,如計算理論、法律體系和相應的論證,以及在研究和發展領域中的理論發展和證據。最初的設想是用邏輯的形式來表示每種類型的知識,並用通用的演算法來進行推理,但也遇到了一些挑戰,例如並非所有類型的知識都可以簡單地表示出來。此外,編寫複雜應用程序所需的知識可能會非常複雜,而且要以一種邏輯性的、具有高度表達性的語言來學習這種知識並不容易。再者,使用具有高度表達性的語言來進行推斷也不容易。即使這兩個挑戰都已經克服了,這種情況也無法用計算實現。

目前,關於這個問題的爭論有三個。第一個爭論是邏輯無法代表許多概念,如空間、類比、形狀、不確定性等,因此它不能將人工智慧發展到人類的水平。相反的觀點認為,邏輯只是眾多工具中一種簡單的工具。目前,邏輯匯聚了表達性、靈活性和清晰性的優勢,其他任何方法或系統都無法替代。第二個爭論關注的焦點是:邏輯對於推理來說太慢,因此永遠不會在生產系統中發揮作用。相反的觀點認為,邏輯有近似推理過程的方法,因此可以在規定的時間限制內完成處理過程,並且邏輯在推理方面正在取得進展。第三個爭論的焦點是:基於邏輯原理開發出在現實世界中應用的系統是極其困難的,甚至是不可能的。反對觀點主要來自於當前從自然語言文本中學習邏輯原理方法的個人研究。

邏輯原則上有四種不同類型:?命題邏輯;?一階謂詞邏輯;?模態邏輯;④非單調邏輯。

自動決策也是基於邏輯的研究方向。自動決策與運用邏輯和自動化的專家決策過程緊密相關。自動決策要經常考慮周圍環境的動態變化,如工廠的運輸機器人常常需要避開另一個運輸機器人。當然,這也不是必要條件,如當對未來發展沒有清晰的計劃時,決策不用考慮環境變化,例如需要在特定地點以特定價格租用倉庫的決策。決策涉及多個研究領域,如計算機科學、心理學、經濟學和所有工程學科。

要實現自動化決策系統的開發,需要回答幾個基本問題:?域是動態的還是靜態的?動態是指在一定程度上需要做出一系列的決定,靜態是指需要做出一個決定或同時做出多個決定;?域是確定性的、非確定性的還是隨機的??是優化還是實現目標?④域是全部已知還是部分已知。

就規劃和衝突行為而言,邏輯決策問題本質上是非隨機的。兩者都要求初始狀態和中間狀態的可用信息是完整的,行為具有完全的確定性,效果已知,並且有特定的目標。這些問題類型通常應用於現實世界中,例如機器人控制、物流、互聯網中的複雜行為以及計算機和網路安全。

一般來說,規劃議題包括初始的已知情況、特定的目標和一組允許的操作或步驟之間的轉換。規劃的過程是一系列或一組動作,當執行正確時,執行實體將從初始狀態更改為滿足目標條件的狀態。但在計算上,即使使用簡單的問題規範語言,規劃也是一個難題。當規劃受到有關問題影響時,即使問題很簡單,定義域狀態的搜索量也是指數級的,搜索不能覆蓋到所有狀態空間表示。因此,我們的目標是開發出有效的子表示演算法,以便通過搜索來實現相關的目標。目前的研究主要集中在開發新的搜索演算法和新的動作和狀態表示,這將使規劃更容易。當多智能體相互作用時,在學習和決策之間找到平衡是至關重要的,為了學習而進行探索,做出決策則可能導致不滿意的結果。

在現實中,許多問題是隨機的、不確定的。比如如何買一款性價比非常好的汽車這件事,我們常常沒有任何頭緒。購買決策常常受到很多方面的影響,因此有必要考慮它的風險和不確定性。對於所有意圖和目的,在決策時隨機域更具挑戰性,但他們比近似值的確定域更加靈活。簡化掉假設條件使在實踐中進行自動化決策成為可能。大量的問題公式化可以用來表示隨機域中的多個層面和決策過程,最著名的是決策網路和馬爾可夫決策過程。

許多應用程序需要邏輯(非隨機)和隨機元素的組合,如機器人的控制需要高層次的邏輯規範與低級別的概率感測器模型表示組合。處理自然語言是另一個應用這一假設的領域,因為高層次的邏輯知識需要與低層次的文本和口頭信號進行組合。

.......

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 數字化企業 的精彩文章:

深耕智能服務,實現無憂製造!

TAG:數字化企業 |