你不能不知道的14個大數據專業辭彙
J隨著大數據技術的不斷提高,大數據應用的不斷普及,大數據與各行各業的關係越來越緊密。大數據行業充斥著大量的專業辭彙,準確掌握和了解這些辭彙的含義,有助於更好的理解大數據,更好地利用大數據技術。以下整理了以數據處理為中心的14個大數據專業辭彙, 一起來看看吧~~~
本地資料庫(LDB/Local Data Base)
本地資料庫是指駐留於運行客戶應用程序的機器的資料庫。本地資料庫位於本地磁碟或區域網。典型的本地資料庫有Paradox、dBASE、FoxPro和ACCCSS。
數據採集(Data Acquisition,DAQ)
數據採集又稱數據獲取,將被測試對象的各種參量通過各種感測器做適當轉換後,再經過信號調理、採樣、量化、編碼、傳輸等步驟傳遞到控制器的過程。
數據採集的一般步驟:用感測器感受各種物理量,並把它們轉換成電信號;通過A/D轉換,模擬量的數據轉變成數字量的數據;數據的記錄,列印輸出或存入磁碟文件。生產廠商為該採集系統編製的專用程序,常用於大型專用系統;固化的採集程序,常用於小型專用系統;利用生產廠商提供的軟體工具,用戶自行編製的採集程序,主要用於組合式系統。
數據模型(data model)
數據模型是現實世界數據特徵的抽象,用於描述一組數據的概念和定義。數據模型是資料庫中數據的存儲方式,是資料庫系統的基礎。在資料庫中,數據的物理結構又稱數據的存儲結構,就是數據元素在計算機存儲器中的表示及其配置;數據的邏輯結構則是指數據元素之間的邏輯關係,它是數據在用戶或程序員面前的表現形式,數據的存儲結構不一定與邏輯結構一致。
數據整理(Data Cleansing)
數據整理是對調查、觀察、實驗等研究活動中所搜集到的資料進行檢驗、歸類編碼和數字編碼的過程,是數據統計分析的基礎。
數據處理(Data Handling)
數據處理是指對數據(包括數值的和非數值的)進行分析和加工的技術過程。也就是對數據的採集、存儲、檢索、加工、變換和傳輸,將數據轉換為信息的過程。
數據壓縮(Data Compression)
數據壓縮是指在不丟失有用信息的前提下,縮減數據量以減少數據的存儲空間,提高其傳輸、存儲和處理效率,或按照一定的演算法對數據進行重新組織,減少數據的冗餘和存儲的空間的一種技術方法。
數據恢復(Data Recovery)
數據恢復是指通過技術手段,將保存在台式機硬碟、筆記本硬碟、伺服器硬碟、移動硬碟、U盤等等設備上由於各種原因導致損傷或丟失的數據進行搶救和恢復的技術。
數據集成(Data Integration)
數據集成是把不同來源、格式、特點性質的數據在邏輯上或物理上有機地集中,從而為企業提供全面的數據共享。數據集成維護了數據源整體上的數據一致性、提高信息共享利用的效率。
數據遷移(Data Migration)
數據遷移又稱分級存儲管理,是一種將離線存儲與在線存儲融合的技術。將高速、高容量的非在線存儲設備作為磁碟設備的下一級設備,將磁碟中常用的數據按指定策略自動遷移到磁帶庫等二級容量存儲設備上。當需要使用這些數據時,分級存儲系統會自動將這些數據從下一級存儲設備調回到上一級磁碟上。
數據冗餘(Data Redundancy)
數據冗餘是指同一個數據在系統中多次重複出現。消除數據冗餘的目的是為了避免更新時可能出現的問題,以便保持數據的一致性。
數據抽取
數據抽取是指從源數據源系統抽取目的數據源系統需要的數據的過程。
網路數據抽取 (Web data mining)
網路數據抽取(Web data mining),是指從網路中取得大量的又利用價值的數字化信息。主要包括結構化數據抽取(Structured Data Extraction)、信息集成(Informationintegreation)和觀點挖掘(Opinion mining)等。
結構化數據抽取的目標是從Web頁面中抽取結構化數據。這些結構化數據往往存儲在後台資料庫中,由網頁按一定格式承載著展示給用戶。例如論壇列表頁面、Blog頁面、搜索引擎結果頁面等。信息集成是針對結構化數據而言,其目標是將從不同網站中抽取出的數據統一化後集成入庫。其關鍵問題是如何從不同網站的數據表中識別出意義相同的數據並統一存儲。
數據標準化(data standardization)
數據標準化是指研究、制定和推廣應用統一的數據分類分級、記錄格式及轉換、編碼等技術標準的過程。
數據備份(Data Backup)
數據備份是容災的基礎,為防著系統出現操作失誤或系統故障導致數據丟失,而將全部或部分數據集合從原來存儲的地方複製到其他地方的活動,將數據遭受破壞的程度減到最小。傳統的數據備份主要採用內置或外置的磁帶機進行冷備份。這種方式只能防止操作失誤等人為故障,其恢復時間也很長。現代企業採用網路備份,通過專業的數據存儲管理軟體結合相應硬體和存儲設備來實現備份。
完全備份(Full Backup)。優點是當發生數據丟失的災難時,可以迅速恢復丟失的數據。不足之處是每天都對整個系統進行完全備份,造成備份的數據大量重複。
增量備份(Incremental Backup)。先實施一次完全備份,後續時間裡只要對當天的或修改過的數據進行備份。優點:節省了磁碟空間,縮短了備份時間;缺點是數據恢複比較麻煩,備份的可靠性很差。
差分備份(Differential Backup)。先實施一次完全備份,再將當天所有與備份不同的數據(新的或修改過的)備份到磁碟上。該策略避免了以上兩種策略缺陷的同時,具備其所有優點。首先,它無須每天都對系統做完全備份,所需的備份時間短,節省磁碟空間。其次,數據恢復方便。一旦發生問題,用戶只需使用完全備份和發生問題前一天的備份就可以將系統恢復。
TAG:千鋒JAVA開發學院 |