1-Hadoop搭建單個節點
目的
這個文檔描述了如何搭建和配置安裝Hadoop,讓你可以快速執行一些簡單的操作來使用Hadoop MapReduce 和Hadoop的分散式文件系統。
預備知識
支持的平台
作為開發和生產平台的GNU/Linux是完全被支持的,Hadoop曾經用2000個節 點來搭建過集群。
Windows 也是被支持的平台,但是下面的步驟僅適用於Linux。為了能夠在Windows搭建Hadoop,請參看wiki page
所需軟體
對於Linux的平台需要的軟體包括如下:
必須安裝Java,推薦的Java版本已經在HadoopJavaVersion中進行描述了。
ssh 必須被安裝和..此處未翻譯..,此外,它也推薦pdsh最好被安裝到ssh資源管理中去。
安裝軟體
如果你的集群當中沒有所需的軟體,你需要去安裝它。
在Ubuntu Linux 執行如下命令:
$ sudo apt-get install ssh
$ sudo apt-get install pdsh
下載
為了獲得Hadoop distribution,從Apache Download Mirrors中下載一個最穩定的版本。
準備開始安裝Hadoop集群
解壓已下載的Hadoop distribution,在這個目錄中,編輯文件etc/hadoop/hadoop-env.sh中的內容,定義如下一些參數:
//set to the root of your Java installation
export JAVA_HOME=/usr/java/latest
嘗試執行如下命令:
$bin/hadoop
這個將會顯示Hadoop Script 的用例文檔。
現在你可以使用以下三種模式當中的一個啟動Hadoop。
本地(單節點)模式
偽分散式模式
完全分散式模式
單節點模式的操作
默認情況下,Hadoop是以沒有分散式的模式運行的,就像是一個單進程java程序,進行debug調試是很有幫助的。
按照下面的案例,複製解壓的conf目錄中的文件到input目錄 然後 篩選匹配出給定的正則表達式內容並輸出到指定目錄。
偽分散式模式的操作
Hadoop 也可以用單節點來實現偽分散式模式,即每個Hadoop進程在分離的java進程中運行。
配置
使用如下 etc/hadoop/core-site.xml:
etc/hadoop/hdfs-site.xml:
配置免密登錄
使用 ssh localhost,檢查是否可以使用免密。
如果你不能使用免密登錄,執行如下命令:
Execution
以下的操作是運行一個本地的MapReduce job,如果你想要在YARN上執行job,請參看YARN on SIngle Node.
格式化文件系統:
啟動名稱節點和數據節點進程
Hadoop 進程日誌的輸出會寫到$HADOOP_LOG_DIR目錄中(默認是$HADOOP_HOME/logs)
瀏覽數據節點網頁版的入口,默認這個地址是可用的: http://localhost:9870/
創建HDFS目錄,需要執行MapReduce jobs:
複製輸入的文件到分散式文件系統
運行如下提供的一些例子:
查看輸出文件:從分散式文件系統中複製輸出文件到本地的文件系統中並查看它們:
或者在分散式文件系統中直接查閱它們:
當你所有都做完了,你可以使用如下命令來結束進程:
單節點的YARN
你可以設置一些參數以使用偽分散式模式在YARN之上運行MapReduce job ,此外也可以運行資源管理器和節點管理器。
跟隨下面的步驟並確認上述1~4的步驟已經操作並執行通過:
按如下進行參數配置:
etc/hadoop/mapred-site.xml:
etc/hadoop/yarn-site.xml:
啟動資源管理器進程和節點管理器進程
3.瀏覽資源管理器WEB UI,默認如下地址是可用的: http://localhost:8088/
運行一個MapReduce Job
當你完成以上所有步驟,可以運行如下命令來停止進程。
完全分散式模式
關於搭建完全分散式模式集群的更多信息,請參看Cluster Setup
TAG:大數據猿群 |