鎖定高解析串流分析，清大開源HarDNet，圖片分類速度快30％

科技 12-18

自動駕駛汽車上路的關鍵是，得先快速、準確分辨出路上人、車和物體，能夠更快更準確地進行視頻的圖像語義分割(Semantic Segmentation)，決定了操控AI安全駕駛的反應能力，如何單靠車上AI主機提供到毫秒級識別推論，是自動駕駛汽車AI的一大挑戰。清大一個研究團隊，最近開源了自己改良的新CNN架構，找到了能加快推論速度的關鍵做法。

最近清大信息工程系教授林永隆帶領的研究團隊，以DenseNet為基礎，開發了一個低內存數據流（Low Memory Traffic）的CNN架構，稱為HarDNet。研究團隊指出，運用該架構訓練的模型進行圖片分類任務，推論時間比常用的ResNet-50架構縮短了30％，若是進行對象偵測與識別的任務，則比SSD-VGG縮短了45%。而這個架構在今年10月底的ICCV會議發布，且已在GitHub開源。

清大研究團隊成員阮郁善表示，Memory Traffic是指數據進出內存的次數。以DenseNet來說，會造成大量數據進出內存，是因為該架構中每一層都有捷徑（Shortcut）的連接，這也意味著，每一層截取的特徵值（Feature），都會保留到最後一層來運算，而且，保留下來的特徵值也會到下一層截取更細節的特徵值，如此一來，造成數據搬運次數多，就會耗費許多運算時間。

因此，研究團隊減少了DenseNet架構中，層數（layer）之間的捷徑，來降低數據搬運次數、加快運算時間，不過，捷徑減少後，由於截取的特徵值變少，模型準確率也會下降。於是，研究團隊也改變了DenseNet每一層的權重數，也就是針對捷徑連接更多的layer，來增加運算量、截取更多的特徵值，藉此維持模型準確率。而這個改良版的DenseNet模型，也被重命名為HarDNet。

如圖所示，由於DenseNet的捷徑連接多，造成數據搬運次數多，所以需要較長的運算時間，但改良後的HarDNet，減少了捷徑的同時，也調整了每一層的權重數，能在維持識別準確率的同時加快運算速度。

研究團隊也將U-HarDNet70模型運用在高解析度（1024*2048）的即時圖片分割工作上，來驗證該架構的高推論速度。比如在Nvidia GTX 1080ti的環境下，能達到53 fps（Frame per second，每秒幀數）的推論速度，且達到76%的準確率。阮郁善表示，儘管還有可以達到更高準確率的架構，但如果將運算速度也納入考量，「U-HarDNet70的綜合表現更好。」

與其他架構相比，U-HarDNet70能在53 fps的推論速度下，達到76%的準確率。

研究團隊也將HarDNet與一般常見CNN架構相比較，HarDNet可以在低錯誤率、高運算量的情況下，仍然保持快速的推論速度。阮郁善表示，「其他研究者可能想追求，運算量不要太大，模型推論可以跑更快，但我們是點出來說，一直追求較低的運算量不一定跑比較快，就像HarDNet的運算量高，但是因為數據搬運次數較少，所以推論速度比DenseNet快了三成以上。」

如圖所示，左側Top-1 Error是指識別錯誤率，數值越低越好；Inference Time是指推論時間，數值越低越快；而圖中圓圈的數值，是指運算量（單位：Giga MACs）。而HarDNet的表現，可以在低錯誤率、高運算量的情況下，保持快速的推論速度。

因此，HarDNet適合如高解析度、即時圖片分析等運算量大的應用，如自動駕駛、醫療診斷、安全識別、人機交互等。而該架構也已經在GitHub上開源。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

請您繼續閱讀更多來自 十輪網 的精彩文章:

※CIS缺貨嚴重，台積電、聯電、力積電拿下大單
※敢把決策權下放日本部屬！這個創辦人如何用「信任」，攻佔市場第一