Hadoop1.2中配置偽分散式的實例

作者：Eve Cole 更新時間：2025-02-04 00:12:02

1、設定ssh

安裝ssh相關軟體包：

複製程式碼如下：sudo apt-get install openssh-client openssh-server

然後使用下面兩個命令之一啟動/關閉sshd：

複製程式碼程式碼如下:sudo /etc/init.d/ssh start|stop

sudo service ssh start|stop

若成功啟動sshd，我們能看到以下類似結果：

複製碼代碼如下:$ ps -e | grep ssh

2766 ? 00:00:00 ssh-agent

10558 ? 00:00:00 sshd

這時候，如果執行如下ssh登入本機的命令，會提示輸入密碼：

複製代碼代碼如下:ssh localhost

現在我們要做的就是讓它不需要輸入密碼：

複製碼代碼如下:$ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa #一個空密碼的SSH金鑰

$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

這樣的話就行了。如果仍不湊效，可能是金鑰檔案的權限設定不當。

2、配置hadoop

將hadoop-1.2.1解壓縮到~/下，同時在~/下建立目錄hadoop-env，繼續在hadoop-env下建立如下的目錄結構：

├── dfs

│ ├── checkpoint1

│ ├── data1

│ ├── data2

│ └── name1

└── test

└── input

設定檔hadoop-1.2.1/conf/core-site.xml：

複製代碼代碼如下:

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<name>fs.default.name</name>

<value>hdfs://localhost:9000</value>

</property>

</configuration>

fs.default.name來指定HDFS的uri，如果value中沒有提供端口，則預設為8020。

設定檔hadoop-1.2.1/conf/hdfs-site.xml：

複製代碼代碼如下:

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<value>~/hadoop-env/dfs/name1</value>

</property>

<value>~/hadoop-env/dfs/data1,~/hadoop-env/dfs/data2</value>

</property>

<name>fs.checkpoint.dir</name>

<value>~/hadoop-env/dfs/checkpoint1</value>

</property>

</configuration>

dfs.name.dir指定namenode儲存元資料的目錄，可以指定多個目錄，這些目錄要用逗號分開；dfs.data.dir指定datanode存放資料的目錄，可以指定多個目錄；fs.checkpoint.dir指定輔助namenode存放檢查點的目錄。

設定檔hadoop-1.2.1/conf/mapred-site.xml：

複製代碼代碼如下:

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<name>mapred.job.tracker</name>

<value>localhost:9001</value>

</property>

</configuration>

3、測試

先格式化HDFS：

複製程式碼程式碼如下:./hadoop-1.2.1/bin/hadoop namenode -format

啟動HDFS和MapReduce進程：

複製代碼代碼如下:

$ ./hadoop-1.2.1/bin/start-dfs.sh

$ ./hadoop-1.2.1/bin/start-mapred.sh

啟動時候如果報錯，例如localhost: Error: JAVA_HOME is not set.，需要在./hadoop-1.2.1/conf/hadoop-env.sh文件中export JAVA_HOME，例如：

export JAVA_HOME=~/jdk1.7.0_25

如何檢查是否成功啟動了：第一種方法是使用jps指令（Java Virtual Machine Process Status Tool），應該有以下類似輸出：

複製代碼代碼如下:

$ jps

13592 DataNode

13728 SecondaryNameNode

13837 JobTracker

12864 NameNode

13955 TaskTracker

16069 Jps

第二種方法是瀏覽器登入http://localhost:50030查看jobtracker，http://localhost:50070查看namenode。如果在使用翻牆軟體，那麼在存取時可能會報錯，最簡單的解決方法是關掉翻牆軟體。還有一種方法就是查看日誌檔。

現在我們在~/hadoop-env/test/input目錄下建立兩個檔案：

複製代碼代碼如下:

$ echo "hello world" > test1.txt

$ echo "hi,world" > test2.txt

把這兩個檔案匯入HDFS：

複製代碼代碼如下:

./hadoop-1.2.1/bin/hadoop dfs -put hadoop-env/test/input/ output/

查看：

複製代碼代碼如下:

$ ./hadoop-1.2.1/bin/hadoop dfs -ls /

Found 2 items

drwxr-xr-x - user supergroup 0 2013-10-22 22:07 /test

drwxr-xr-x - user supergroup 0 2013-10-22 21:58 /tmp

$ ./hadoop-1.2.1/bin/hadoop dfs -ls /test

Found 2 items

-rw-r--r-- 3 user supergroup 12 2013-10-22 22:07 /test/test1.txt

-rw-r--r-- 3 user supergroup 9 2013-10-22 22:07 /test/test2.txt

OK，配置完成。

註：本文所使用的系統是linux mint 15 64bit，hadoop使用的是1.2.1版本。