2017最全最新人工智慧大數據名詞術語
ETL是什麼呢?
ETL 指的是這提取、轉換和載入這一過程:原始數據就是提取,通過清理手段,把數據中的東西轉變為能夠使用的其他形式,同時載入到合適的庫中供系統運用。 ETL 來源於自資料庫,這個過程在獲取數據的時候也是被運用。
企業級應用就是一個軟體行業內部使用的話術,用通俗易懂的話來說,就是一個企業範圍內運用的、保持計算機的穩定,安全的,高效的分散式信息管理系統。
探索性分析:前提是沒有標準的流程的情況下,從數據中發掘模式,其實就是一種發掘數據和數據集主要特性的一種方法,E位元組:大約估計等於1000 PB, 約等於1百萬 GB。
現間斷全球每天所製造的新信息量大約為1 EB。提取-轉換-載入這一過程是一種用於資料庫的處理過程。各種不同的數據來源提取數據,轉換才能夠滿足業務需求的數據,最後載入到資料庫。企業生產力:指的是企業在一定期限為社會提供某種產品。
模糊邏輯:例如 100% 正確?人類的大腦將數據整合成部分的事實,這些所謂的事實進一步被抽象為能夠決定我們決策的值。模糊邏輯這樣的計算方式,很像布爾代數中的「0」和「1」相反。
故障切換 :運行系統中某個伺服器發生故障時,能夠自動將運行任務切換到另一個可用的伺服器上面。
架構:又稱之為軟體架構,是有關軟體整體結構和組件的抽象描述,運用於指導大型軟體系統各個方面的設計。
流量監控指的是對數據流進行監控,基本包括出數據、入數據的速度、總流量。
容錯設計:是一個支持容錯設計的系統能夠做到當某一部分出現故障時也能照常繼續運行。
金融:人在不確定環境中進行資源的最優配置決策動作。
遊戲化:其他非遊戲領域中運用遊戲的思維和機制,這種方式進行數據的創建和偵測,非常有效。
圖形資料庫 :運用圖形來存儲數據,這種圖形存儲結構包含邊緣、屬性和節點。提供了相鄰節點間的自由索引功能,其實是資料庫中每個元素間都與其他相鄰元素直接關聯。
網格計算:分布在很多不同地點的計算機連接在一起,處理某個特定問題,通常是通過雲將計算機相連在一塊。
Hadoop 用戶體驗 :Hue 是能夠讓使用 Apache Hadoop 很容易的開源介面。是一款基於 web 的應用;也是一款分散式文件系統的文件瀏覽器;用於 MapReduce 的任務設計;也能夠調度工作流的框架 Oozie;本身它具備 shell、Impala、 Hive UI 和一組 Hadoop API。
人力資本:指的是勞動者受到教育、培訓、實踐經驗等方面的投資而所獲得的知識或者技能的積累。
硬體設施:是計算機系統中由電子,機械和光電元件等組成的各種物理裝置的總稱。
高性能分析應用:這是 SAP 公司為大數據傳輸和分析設計的一個軟硬體內存平台。
HBase: 是分散式面向列的資料庫。在使用 HDFS時候是作為其底層存儲,不僅支持利用 MapReduce 進行的批量計算,也能夠支持利用事物交互的批量計算。
Hadoop 是一個開源的分散式系統基礎框架,可用於開發分散式程序,進行大數據的運算與存儲。
Hadoop資料庫:它是開源、非關係型、分散式資料庫,和Hadoop框架一同使用。
分散式文件系統:是被設計成適合運行在通用硬體上的分散式文件系統。
高性能計算 :在使用超級計算機來解決極其複雜的計算問題。
部署在雲上的Hadoop:雲解決方案是完全基於某個特定服務,該服務會載入並處理相應數據。比如藉助 IBM Bluemix,可以基於 IBM InfoSphere BigInsights 配置一個 MapReduce 服務,該服務可以處理高達 20GB 的信息。但 Hadoop 服務的大小、配置與複雜性是不可配置的。
點擊展開全文
TAG:程序員那些事 |