1-Hadoop搭建單個節點

目的

這個文檔描述了如何搭建和配置安裝Hadoop，讓你可以快速執行一些簡單的操作來使用Hadoop MapReduce 和Hadoop的分散式文件系統。

預備知識

支持的平台

作為開發和生產平台的GNU/Linux是完全被支持的，Hadoop曾經用2000個節點來搭建過集群。

Windows 也是被支持的平台，但是下面的步驟僅適用於Linux。為了能夠在Windows搭建Hadoop，請參看wiki page

對於Linux的平台需要的軟體包括如下：

必須安裝Java,推薦的Java版本已經在HadoopJavaVersion中進行描述了。

ssh 必須被安裝和..此處未翻譯..，此外，它也推薦pdsh最好被安裝到ssh資源管理中去。

如果你的集群當中沒有所需的軟體，你需要去安裝它。

在Ubuntu Linux 執行如下命令:

$ sudo apt-get install ssh

$ sudo apt-get install pdsh

為了獲得Hadoop distribution，從Apache Download Mirrors中下載一個最穩定的版本。

解壓已下載的Hadoop distribution,在這個目錄中，編輯文件etc/hadoop/hadoop-env.sh中的內容，定義如下一些參數:

//set to the root of your Java installation

export JAVA_HOME=/usr/java/latest

嘗試執行如下命令:

$bin/hadoop

這個將會顯示Hadoop Script 的用例文檔。

現在你可以使用以下三種模式當中的一個啟動Hadoop。

本地（單節點）模式

偽分散式模式

完全分散式模式

默認情況下，Hadoop是以沒有分散式的模式運行的，就像是一個單進程java程序，進行debug調試是很有幫助的。

按照下面的案例，複製解壓的conf目錄中的文件到input目錄然後篩選匹配出給定的正則表達式內容並輸出到指定目錄。

Hadoop 也可以用單節點來實現偽分散式模式，即每個Hadoop進程在分離的java進程中運行。

使用如下 etc/hadoop/core-site.xml:

etc/hadoop/hdfs-site.xml:

使用 ssh localhost，檢查是否可以使用免密。

如果你不能使用免密登錄，執行如下命令：

以下的操作是運行一個本地的MapReduce job，如果你想要在YARN上執行job，請參看YARN on SIngle Node.

格式化文件系統:

啟動名稱節點和數據節點進程

Hadoop 進程日誌的輸出會寫到$HADOOP_LOG_DIR目錄中(默認是$HADOOP_HOME/logs)

瀏覽數據節點網頁版的入口，默認這個地址是可用的: http://localhost:9870/

創建HDFS目錄，需要執行MapReduce jobs:

複製輸入的文件到分散式文件系統

運行如下提供的一些例子：

查看輸出文件：從分散式文件系統中複製輸出文件到本地的文件系統中並查看它們:

或者在分散式文件系統中直接查閱它們:

當你所有都做完了，你可以使用如下命令來結束進程:

你可以設置一些參數以使用偽分散式模式在YARN之上運行MapReduce job ，此外也可以運行資源管理器和節點管理器。

跟隨下面的步驟並確認上述1～4的步驟已經操作並執行通過：

按如下進行參數配置：

etc/hadoop/mapred-site.xml:

etc/hadoop/yarn-site.xml:

啟動資源管理器進程和節點管理器進程

3.瀏覽資源管理器WEB UI，默認如下地址是可用的: http://localhost:8088/

運行一個MapReduce Job

當你完成以上所有步驟，可以運行如下命令來停止進程。

關於搭建完全分散式模式集群的更多信息，請參看Cluster Setup

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 大數據猿群 的精彩文章:

TAG:大數據猿群 |

1-Hadoop搭建單個節點

目的

預備知識

支持的平台

所需軟體

安裝軟體

下載

準備開始安裝Hadoop集群

單節點模式的操作

偽分散式模式的操作

配置

配置免密登錄

Execution

單節點的YARN

完全分散式模式