Hadoop 环境的搭建

一、安装VMWare 虚拟机

虚拟机版本VMware12，考虑到启动速度，装在固态硬盘中。

二、安装Linux

安装版本：ubuntu-16.04.1-server-amd64

此版本没有图形化界面，体积较小，只有命令行窗口

三、配置Linux

1、为了方便操作以及避免权限的相关问题，不用个人用户，使用root用户登录来进行操作 ——>root用户的解锁：修改root密码，方便登录

sudo passwdroot

2、关闭防火墙，卸载iptables

关闭防火墙：ufw disable

卸载iptables：apt-get removeiptables

3、安装vim编辑器

apt-getinstall vim

四、安装SSH工具

为了方便不在Linux命令窗口中输入命令，转而在Windows工具中远程控制Linux——>配置SSH工具远程连接

1、在Linux中安装SSH服务

apt-getinstall openssh-server

2、启动SSH服务

/etc/init.d/sshstart

3、检测SSH进程是否已经开启

ps -e| grep sshd

4、配置root用户的默认登录【这样每次打开SSH工具就不用登陆了，自动登陆到root上】

vim /etc/ssh/sshd_config

修改配置文件

#允许root用户登录，设置为yes

·PermitRootLogin: yes

保存，退出 :x

5、打开SSH客户端（这里使用SecureCRT）配置

·Linux下查询本机IP：ifconfig 查看inet addr

·SecureCRT中：Hostname输入查询到的IP，Username输入root

这里使用SecureCRT连接本地VMware是可能会遇到

“Connection timed out”，并且在Vmware的VM里面可以ping通宿主机，但是宿主机无法ping通VM。解决方法：本地的网络设置里面的vmware的NAT网卡（Vmnet8）设置了手工填写地址和DNS，修改为自动获取即可。

五、配置FTP服务

为了方便Windows传输文件到Linux中，所以要配置FTP服务，使用客户端8UFTP

1、在Linux中安装FTP服务组件

apt-getinstall vsftpd

2、修改FTP用户的密码

passwdftp

3、设置FTP目录的控制权限为完全控制

chmod777 /srv/ftp （文件都上传到这个目录里）

4、修改配置文件

vim /etc/vsftpd.conf

修改：

anonymous_enable= NO //不允许匿名登录，必须使用正确的用户名和密码登录

local_enable=YES //允许本地用户登录

write_enable=YES //用户具有写权限

chroot_local_user= YES //将所有用户限制在主目录

chroot_list_enable= YES //启动限制用户名单

chroot_list_file=/etc/vsftpd.chroot_list //定义名单设置的目录

增加：

pam_service_name=vsftpd //增加到定义名单设置目录之后

保存退出

5、在名单设置目录中增加用户名

先增加文件/etc/vsftpd.chroot_list，然后在文件里面写上用户名ftp

vim/etc/vsftpd.chroot_list

输入ftp

保存退出

6、修改pam配置文件

vim /etc/pam.d/vsftpd

注释掉（添加#号）：

# auth required pam_shells.so

保存退出

7、启动ftp服务

servicevsftpd start

（重新启动服务 service vsftpdrestart）

8、连接客户端8UFTP

新站点：

主机名：IP地址

用户名：ftp

密码：123110（Linux中配置的ftp账号密码）

六、在Linux中安装JDK

1、下载Linux版本的JDK安装包jdk-8u101-linux-x64.tar

2、把JDK开发包利用8UFTP工具上传到Linux中（目录/srv/ftp中）

3、将上传后的文件进行解压缩处理

tar xzvf JDK安装包文件名 -C /usr/local

4、给的解压后的文件重命名

mv JDK原名 jdk

5、配置JDK

·打开环境文件

vim /etc/profile

·在最下面，输入

export JAVA_HOME=/usr/local/jdk

export PATH=$PATH:$JAVA_HOME/bin:

export CLASS_PATH=$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

保存退出

6、让配置生效

source /etc/profile

7、测试 JDK

java 或 javac

七、配置SSH 免登录

1、设置虚拟网络

·进入Linux系统，在VM中选择编辑-虚拟网络配置，选择NAT模式

2、设置主机名称

vim /etc/hostname

把localhost 修改为 hadoopm

vim /etc/hosts

第一行增加

本机ip地址 hadoopm

3、重启Linux reboot

4、设置SSH免登陆

·删除根路径下.ssh

rm -rf~/.ssh

·在hadoopm主机上生成sshkey

ssh-keygen -t rsa（一直回车，不输入） //加密方式 rsa，可以选择其他方式

·将公钥信息保存在授权文件中

cat ~/.ssh/id_rsa.pub >>~/.ssh/authorized_keys

5、测试免登陆（即登录ssh）

ssh root@hadoopm 变为远程连接

（exit退出链接）

八、安装hadoop（伪分布模式）——版本2.7.3

1、下载hadoop安装包

2、解压重命名hadoop安装包

tar xzvf hadoop安装包文件名 -C /usr/local

mv hadooop安装包名 hadoop

3、修改环境变量

vim /etc/profile

export HADOOP_HOME =/usr/local/hadoop

export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

让配置生效

source /etc/profile

4、修改hadoop配置文件

配置：“core-site.xml”：Hadoop的核心信息，包括临时目录、访问地址等；

配置：“yarn-site.xml”：可以简单理解为配置相关job的处理；

配置：“hdfs-site.xml”：可以确定文件的备份个数、数据文件夹的路径；

·vim /usr/local/hadoop/etc/hadoop/hadoop-env.sh

更改JavaJDK路径

export JAVA_HOME=/usr/local/jdk/

（1）core-site.xml

·vim /usr/local/hadoop/etc/hadoop/core-site.xml

添加：

######################################################################################

## 配置hadoop临时文件，如果不配置，那么就会在hadoop的文件夹里面生产tmp文件（"/usr/local/hadoop/tmp"），

## 那么hadoop重启此文件会被清空，也就是说此时hadoop的环境就失效了。创建hadoop_tmp文件

## cd ~

##mkdir hadoop_tmp

#######################################################################################

<configuration>

<property>

<name>hadoop.tmp.dir</name>

<value>/home/root/hadoop_tmp</value>

</property>

<property>

<name>fs.defaultFS</name>

<value>hdfs://hadoopm:9000</value>

</property>

</configuration>

（2）hdfs-site.xml

vim/usr/local/hadoop/conf/hdfs-site.xml

######################################################################################

## “dfs.replication”：文件的副本数，一般情况下一个文件备份3份

## “dfs.namenode.name.dir”：定义名称节点路径

## “dfs.namenode.data.dir”：定义数据文件节点路径

## “dfs.datanode.data.dir”：名称节点的http访问路径

## “dfs.namenode.secondary.http-address”：第二名称节点

## “dfs.permissions”：权限认证问题，关闭

#######################################################################################

<configuration>

<property>

<name>dfs.replication</name>

<value>1</value>

</property>

<property>

<name>dfs.namenode.name.dir</name>

<value>file:///usr/local/hadoop/dfs/name</value>

</property>

<property>

<name>dfs.datanode.data.dir</name>

<value>file:///usr/local/hadoop/dfs/data</value>

</property>

<property>

<name>dfs.namenode.http-address</name>

<value>hadoopm:50070</value>

</property>

<property>

<name>dfs.namenode.secondary.http-address</name>

<value>hadoopm:50090</value>

</property>

<property>

<name>dfs.permissions</name>

<value>false</value>

</property>

</configuration>

（3）yarn-site.xml

·vim /usr/local/hadoop/conf/ yarn-site.xml

添加：

<configuration>

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<property>

<name>yarn.nodemanager.auxservices.mapreduce.shuffle.class</name>

<value>org.apache.hadoop.mapred.ShuffleHandler</value>

</property>

<property>

<name>yarn.resourcemanager.address</name>

<value>master:8032</value>

</property>

<property>

<name>yarn.resourcemanager.scheduler.address</name>

<value>master:8030</value>

</property>

<property>

<name>yarn.resourcemanager.resource-tracker.address</name>

<value>master:8031</value>

</property>

<property>

<name>yarn.resourcemanager.admin.address</name>

<value>master:8033</value>

</property>

<property>

<name>yarn.resourcemanager.webapp.address</name>

<value>master:8088</value>

</property>

</configuration>·

（4）mapred-site.xml

vim/usr/local/hadoop/conf/mapred-site.xml

添加：

<configuration>

<property>

<name>mapred.job.tracker</name>

<value>hadoopm:9001</value>

</property>

</configuration>

5、由于hadoop属于分布式的开发环境，考虑到日后要进行集群的搭建，建议在“/usr/local/hadoop/etc/hadoop”目录下创建一个masters，里面写上主机名称（hadoopm，之前在hosts目录里面定义的主机名称），如果是单机环境，不写也没有关系。

cd/usr/local/hadoop/etc/hadoop

vimmasters

输入：hadoopm

6、修改从节点文件，增加hadoopm（此时主副节点为统一节点）

cd/usr/local/hadoop/etc/hadoop

vimslaves

输入：hadoopm

7、上述hdfs-site.xml文件将所有的namenode、datanode保存路径设置在/usr/local/hadoop/dfs目录中，虽然可以自动创建，但是建议手动创建者两个文件夹

cd/usr/local/hadoop/

mkdirdfs dfs/name dfs/data

如果hadoop出现问题需要重新配置时，请保证将这两个文件夹彻底清除掉，如果没有删除，则配置无效。

8、格式化文件系统namenode

hdfs namenode- format

如果可以正确执行，则出现如下信息：INFO util.ExitUtil: Exiting with status 0；

如果出错，此处出现： INFOutil.ExitUtil: Exiting with status 1，很有可能是之前的几个配置文件复制、粘贴时出现了错误。

9、启动hadoop

start-all.sh 每次启动hadoop都要输入

10、检测是否启动成功

jps 查看所有java进程（是否出现了5个重要进程，Jps进程忽略）

6116SecondaryNameNode

5940Datanode

6500Jps

5802NameNode

6270ResourceManager

6382NodeManager

或者登录 http：//ip地址:50070 http://ip地址:50030

（如果想用hadoopm从windows登录，则需要在windows下增加映射文件，

C:\Windows\System32\drivers\etchosts 追加 ip地址 hadoopm）

11、停止服务

stop-all.sh 使用jps查看进程

如果重启发现进程启动不完整的解决方案：http://www.linuxidc.com/Linux/2015-01/111891.htm

···配置完毕··

原文链接：https://www.f2er.com/ubuntu/352913.html

ubuntu16+Hadoop2.7.3环境搭建（伪分布式）

一、安装VMWare 虚拟机

二、安装Linux

三、配置Linux

四、安装SSH工具

五、配置FTP服务

六、在Linux中安装JDK

七、配置SSH 免登录

八、安装hadoop（伪分布模式）——版本2.7.3

猜你在找的Ubuntu相关文章