數據存儲、人工智慧和IO模式
關鍵訊息,D1時間送達!
人工智慧,尤其是深度學習是一種正在改變人們生活的許多方面的計算技術。深度學習的演算法需要大量的數據。數量確實取決於演算法和生成的網路模型的目標,但對於一些複雜的模式來說,它可能會運行數億的輸入集合。
人工智慧是計算領域的熱門話題之一,並且有著充分的理由。深度學習(DL)中的新技術在某些問題上有能力創建比人類精確度更好的神經網路。圖像識別是深度學習(DL)模型如何在識別圖像中的對象(對象檢測和分類)方面實現比人類準確性更好的一個例子。
ImageNet競賽就是一個例子。自2010年以來,ImageNet大規模視覺識別挑戰(ILSVRC)已被用作圖像識別改進的衡量標準。在2011年,其錯誤率約為25%(該工具可以正確識別培訓數據集之外的75%的圖像)。2012年,深度神經網路(DNN)的錯誤率降低到16%。在接下來的幾年裡,其錯誤率將降至個位數。在2017年,36支參賽團隊中有29人的失誤率低於5%,這通常要比人類識別做的更好。
深度學習使用各種類型的神經網路,可應用於各種各樣的問題。創建深度學習模型通常有兩個主要步驟:第一步就是所謂的訓練。這是讓模型重複讀取輸入數據集,並調整模型參數以最小化錯誤(正確輸出與計算輸出之間的差異)的過程。這一步需要大量的輸入,需要極端大量的計算量。
第二步發生在模型訓練後,稱之為推理。這是訓練模型在生產中的部署。生產意味著該模型可用於讀取未用於培訓的數據。它產生用於某個任務的輸出,而不是訓練神經網路。這一步也有一個計算組件。它不需要大量計算,它需要實現諸如最小化延遲、最佳可能精度,最大化吞吐量,以及最大化能源效率等目標。
用於執行這兩個步驟的計算的軟體由框架完成。這些軟體工具和資料庫可以讀取通常用Python編寫的腳本,告訴框架需要什麼樣的操作以及神經網路是什麼樣的。該代碼然後由框架讀取,然後執行。框架的例子有Tensorflow、Caffe或PyTorch。
有關IO模式的問題
通過研究深度學習(DL)框架的功能,可以了解IO模式。人們不需要知道具體框架的細節,也不需要了解神經網路背後的數學知識。
深度學習(DL)框架中訓練步驟的基本流程非常簡單。神經網路需要相當多的輸入數據來正確訓練網路來執行任務。它可以是圖像、視頻、音量、數字或幾乎任何數據的組合。
人們需要大量的數據。此外,其數據必須非常多樣化,並為每個輸入提供廣泛的信息。例如,確定某人是男性還是女性的簡單面部識別需要超過1億張圖像。
輸入數據能夠以各種方式進行存儲,從簡單的csv文件中獲取真正少量的輸入數據,以便了解深度神經網路(DNN)的資料庫,以及包含圖像的資料庫。只要深度神經網路(DNN)可以訪問數據並理解輸入格式,數據也可以分布在不同的格式和工具中。它也可以是結構化和非結構化數據的組合,只要用戶知道數據和格式,並且可以在模型中表達這些數據和格式即可。
存儲介質上的數據大小可能會有所不同。在極端情況下,來自MNIST數據集的簡單圖像是28×28灰度圖像(值從0到255)。總共有784個像素,這格式非常小。如今人們擁有4K解析度的電視機和相機。這將是4,096 x 4,096像素,總共16,777,216個像素。
4K色彩表示通常以8位(256個選擇)開始,或者可以達到16位信息。這可能導致非常大的圖像。如果將一個4K圖像製作為解析度為4520 x 2540和8位的單個未壓縮的tiff文件,則其大小為45.9 MB。而對於16位色的圖像來說,其大小為91.8 MB。
如果組織擁有1億張圖片,對於一些面部識別演算法來說是合理的,組織擁有這麼多文件,這對當今的文件系統來說並不算太壞。在8點陣圖像情況下使用的總空間是4.59 PB。對於使用大型高解析度圖像的單個神經網路(NN)來說,這是相當大的空間。
一般來說,神經網路在訓練網路時有兩個階段。第一階段稱為前饋。它接受輸入並通過網路進行處理。輸出與正確的輸出進行比較以產生錯誤。然後通過網路傳播這個錯誤(反向傳播)來調整網路的參數,以便希望減少網路產生的錯誤。
這個過程繼續進行,以便所有圖像通過網路進行處理。這被稱為epoch(迭代次數,1個epoch等於使用訓練集中的全部樣本訓練一次)。培訓一個網路達到所需的性能水平可能需要數百、數千或數萬個epoch。深度學習框架(例如Tensorflow或Caffe或PyTorch)負責用戶創建的網路模型的整個過程。
整體IO進程
深度學習的IO模式的簡要概述是數據一次又一次地被讀取。深度學習經常重複讀取(重讀)。請注意讀取一些文字,但與閱讀相比,它的工作量是很小的,因為它主要是在神經網路訓練期間檢查指向。但是,為了改進神經網路訓練,可以使用一些影響IO模式的選項。
作為讀取或寫入數據量的示例,在此假設網路需要1億張圖像,其中每張圖像為45.9 MB。此外,假設網路模型需要大約40MB來保存,並且每100個epoch保存一次,並且需要5000個epoch來訓練模型。
如前所述,一個epoch需要讀取4.59 PB的數據。這需要重複5000次。這總共需要讀取22.95EB的數據。如果每個圖像是單個文件,它還需要讀取500億個文件。
對於寫入IO,模型需要寫入50次。這是總共2 GB和50個寫入。與讀取相比,其工作量是非常小的。
對於這個例子,總共有459個PB執行了100億個讀取IO。隨後是40MB的寫入IO。整個IO模式總共重複50次。
這是面向識別應用的深度神經網路(DNN)的基本IO模式。為了減少訓練時間,可以使用幾種技術。以下的主題是從IO角度對這些技術進行快速概述。
訓練技巧
神經網路(NN)訓練中使用的第一種技術是輸入數據的隨機混洗。幾乎所有的時間都用它來減少所需的曆元(參考的時刻點)並防止過擬合(優化模型到數據集,但是模型在現實世界的數據上表現不佳)。
在新的epoch開始之前,數據讀取的順序是隨機的。這意味著讀取的IO模式是基於每個圖像的隨機數。在閱讀個人圖像時是連續的,但在圖像之間是隨機的。因此,由於隨機性,將模式表徵為「重讀」而非「讀取」是困難的。
也有可以從資料庫中讀取數據的框架。IO模式的讀取仍然非常繁重,可能會隨機對數據進行混洗。這可能會使IO模式的細節更加複雜化,因為資料庫位於內存和框架之間。
有時框架也會使用IO的mmap()函數。這是一個將文件或設備映射到內存的系統調用。當將虛擬內存區域映射到文件時,它被稱為「基於文件的映射」。讀取某些內存區域將會讀取文件。這是默認行為。
無論是否使用mmap(),IO模式仍然是重讀的,遵循以上討論的模式。然而,使用mmap()會使分析複雜化,因為IO直接從文件到內存。
另一種常用的提高訓練性能的技術稱為批處理。在每個輸入圖像(包括向前和向後傳播)之後更新網路,而不是在輸入「批量」圖像之後更新網路。網路的反向傳播部分對錯誤進行操作,例如對它們進行平均,以更新網路參數。這通常不會改變IO模式,因為圖像仍然需要被讀取,但它可能會影響收斂速度。一般來說,它可以減緩收斂速度,但後向傳播的發生較少,提高了計算速度。
在使用GPU(圖形處理單元)進行訓練時,使用批處理還有助於提高性能。批處理不是將文件從CPU移動到GPU,而是允許用戶將多個文件複製到GPU。這可以提高從CPU到GPU的吞吐量,並減少數據傳輸時間。以這個例子為例,批處理大小為32將減少數據傳輸到3125000個傳輸的數量。
批處理確實有助於收斂,但不會真正影響IO模式。該模式仍然是隨機讀取,寫入很少。但它可以改變框架創建的輸出量。
數據存儲與深度學習
人工智慧,尤其是深度學習是一種正在改變人們生活的許多方面的計算技術。深度學習的演算法需要大量的數據。數量確實取決於演算法和生成的網路模型的目標,但對於一些複雜的模式來說,它可能會運行數億的輸入集合。通常,用於訓練模型的數據越多,數據越多樣化,最終訓練的模型就越好。這指向非常大的數據集。
在以往,有人討論數據將變得越來越冷。這意味著在創建數據後,很少再次使用它。而人們通過檢查數據,包括工程和企業數據,並發現了一些非常有趣的趨勢:
?這兩種工作負載都更加面向寫入。讀寫位元組比率已顯著下降(從4:1到2:1)
?相對於只讀和只寫訪問模式,讀寫訪問模式增加了30倍。
?文件很少重新打開。超過66%只重開一次,95%少於五次。
?文件很少重新打開。
?研究期間超過90%的活動存儲空間未被使用。
?一小部分客戶占文件活動的很大一部分。不到1%的客戶占文件請求的50%。
而總結數據的總體使用非常容易。
?IO模式非常重視寫入。
?數據很少被重複使用,但仍然存在。
比較深入學習演算法的IO模式,可以發現它與傳統工程師、HPC和企業應用程序的做法幾乎完全相反。深度學習非常重讀IO導向,數據在設計和訓練模型時被重複使用。即使在模型被訓練之後,仍然需要用新數據來增加現有的訓練數據集,特別是模型輸出中的誤差。這是為了隨著時間的推移對模型進行的改進。
版權聲明:本文為企業網D1Net編譯,轉載需註明出處為:企業網D1Net,如果不註明出處,企業網D1Net將保留追究其法律責任的權利。
(來源:企業網D1Net)
企業網D1net已推出企業應用商店(www.enappstore.com),面向企業級軟體,SaaS等提供商,提供陳列,點評功能,不參與交易和交付。現可免費入駐,入駐後,可獲得在企業網D1net 相應公眾號推薦的機會。歡迎入駐。
TAG:AI人工智慧D1net |