Hadoop 安装

该安装在Linux上进行,使用hadoop2.x版本为例,一些常规的创建用户、解压、ssh等操作不在此文档中,请通过linux基本操作了解。

1. 安装前准备

安装JDK

详见这里 安装好JDK

创建hadoop用户

hadoop不能以root用户启动,推荐创建hadoop用户或自行准备一个用户。

下载Hadoop

从官方http://hadoop.apache.org ,下载文件hadoop-2.*.*.tar.gz

ssh免密码登录设置

如果是单机安装,必须保证ssh localhost可以免密码登录;对于分布式,必须保证两两机器之间可以ssh 机器ip免登录。本机免登录设置如下:

ssh-keygen # 一直按回车Enter键
cd ~/.ssh
cat id_rsa.pub >> authorized_keys
chmod 600 authorized_keys

2. 单机安装配置

单机安装又称伪分布式安装,建议先调通单机安装再进行分布式安装。安装目录可以任意,这里以/usr/local/hadoop目录为例。

将hadoop.tar.gz解压到任意目录

例如/usr/local/hadoop,该目录即为$HADOOP_HOME

设置JAVA_HOME

修改etc/hadoop/hadoop-env.sh文件,增加一行:

export JAVA_HOME=/usr/java/jdk # 这里要换成实际的jdk位置

设置conf/core-site.xml

其中IP地址192.168.56.102为hadoop机器的IP地址,不推荐使用localhost或127.0.0.1。

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://192.168.56.102:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/data/hadoop/tmp</value>
    </property>
</configuration>

设置conf/hdfs-site.xml

对于单机配置,将HDFS副本数设置为1:

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

格式化hdfs和启动

bin/hdfs namenode -format
sbin/start-dfs.sh # 如果ssh提示yes/no,输入yes

启动成功后,可以使用命令jps看到NameNode SecondaryNameNode DataNode 3 个程序。访问http://192.168.56.102:50070可以看到hdfs的页面。这样,hdfs就启动成功了

设置conf/mapred-site.xml

未完待续,详见这里

3. 分布式安装配置

设置masters和slaves

未完待续

5. 其他配置或问题

文档更新时间: 2018-11-10 17:28   作者:nick