1、設定ssh
安裝ssh相關軟體包:
複製程式碼如下:sudo apt-get install openssh-client openssh-server
然後使用下面兩個命令之一啟動/關閉sshd:
複製程式碼程式碼如下:sudo /etc/init.d/ssh start|stop
sudo service ssh start|stop
若成功啟動sshd,我們能看到以下類似結果:
複製碼代碼如下:$ ps -e | grep ssh
2766 ? 00:00:00 ssh-agent
10558 ? 00:00:00 sshd
這時候,如果執行如下ssh登入本機的命令,會提示輸入密碼:
複製代碼代碼如下:ssh localhost
現在我們要做的就是讓它不需要輸入密碼:
複製碼代碼如下:$ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa #一個空密碼的SSH金鑰
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
這樣的話就行了。如果仍不湊效,可能是金鑰檔案的權限設定不當。
2、配置hadoop
將hadoop-1.2.1解壓縮到~/下,同時在~/下建立目錄hadoop-env,繼續在hadoop-env下建立如下的目錄結構:
├── dfs
│ ├── checkpoint1
│ ├── data1
│ ├── data2
│ └── name1
└── test
└── input
設定檔hadoop-1.2.1/conf/core-site.xml:
複製代碼代碼如下:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
<final>true</final>
</property>
</configuration>
fs.default.name來指定HDFS的uri,如果value中沒有提供端口,則預設為8020。
設定檔hadoop-1.2.1/conf/hdfs-site.xml:
複製代碼代碼如下:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>dfs.name.dir</name>
<value>~/hadoop-env/dfs/name1</value>
<final>true</final>
</property>
<property>
<name>dfs.data.dir</name>
<value>~/hadoop-env/dfs/data1,~/hadoop-env/dfs/data2</value>
<final>true</final>
</property>
<property>
<name>fs.checkpoint.dir</name>
<value>~/hadoop-env/dfs/checkpoint1</value>
<final>true</final>
</property>
</configuration>
dfs.name.dir指定namenode儲存元資料的目錄,可以指定多個目錄,這些目錄要用逗號分開;dfs.data.dir指定datanode存放資料的目錄,可以指定多個目錄;fs.checkpoint.dir指定輔助namenode存放檢查點的目錄。
設定檔hadoop-1.2.1/conf/mapred-site.xml:
複製代碼代碼如下:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
<final>true</final>
</property>
</configuration>
3、測試
先格式化HDFS:
複製程式碼程式碼如下:./hadoop-1.2.1/bin/hadoop namenode -format
啟動HDFS和MapReduce進程:
複製代碼代碼如下:
$ ./hadoop-1.2.1/bin/start-dfs.sh
$ ./hadoop-1.2.1/bin/start-mapred.sh
啟動時候如果報錯,例如localhost: Error: JAVA_HOME is not set.,需要在./hadoop-1.2.1/conf/hadoop-env.sh文件中export JAVA_HOME,例如:
export JAVA_HOME=~/jdk1.7.0_25
如何檢查是否成功啟動了: 第一種方法是使用jps指令(Java Virtual Machine Process Status Tool),應該有以下類似輸出:
複製代碼代碼如下:
$ jps
13592 DataNode
13728 SecondaryNameNode
13837 JobTracker
12864 NameNode
13955 TaskTracker
16069 Jps
第二種方法是瀏覽器登入http://localhost:50030查看jobtracker,http://localhost:50070查看namenode。如果在使用翻牆軟體,那麼在存取時可能會報錯,最簡單的解決方法是關掉翻牆軟體。 還有一種方法就是查看日誌檔。
現在我們在~/hadoop-env/test/input目錄下建立兩個檔案:
複製代碼代碼如下:
$ echo "hello world" > test1.txt
$ echo "hi,world" > test2.txt
把這兩個檔案匯入HDFS:
複製代碼代碼如下:
./hadoop-1.2.1/bin/hadoop dfs -put hadoop-env/test/input/ output/
查看:
複製代碼代碼如下:
$ ./hadoop-1.2.1/bin/hadoop dfs -ls /
Found 2 items
drwxr-xr-x - user supergroup 0 2013-10-22 22:07 /test
drwxr-xr-x - user supergroup 0 2013-10-22 21:58 /tmp
$ ./hadoop-1.2.1/bin/hadoop dfs -ls /test
Found 2 items
-rw-r--r-- 3 user supergroup 12 2013-10-22 22:07 /test/test1.txt
-rw-r--r-- 3 user supergroup 9 2013-10-22 22:07 /test/test2.txt
OK,配置完成。
註:本文所使用的系統是linux mint 15 64bit,hadoop使用的是1.2.1版本。