ubuntu16+Hadoop2.7.3环境搭建(伪分布式)

前端之家收集整理的这篇文章主要介绍了ubuntu16+Hadoop2.7.3环境搭建(伪分布式)前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。

Hadoop 环境的搭建

一、安装VMWare 虚拟机

虚拟机版本VMware12,考虑到启动速度,装在固态硬盘中。

二、安装Linux

安装版本:ubuntu-16.04.1-server-amd64

此版本没有图形化界面,体积较小,只有命令行窗口

三、配置Linux

1、为了方便操作以及避免权限的相关问题,不用个人用户,使用root用户登录来进行操作 ——>root用户的解锁修改root密码,方便登录

sudo passwdroot

2、关闭防火墙,卸载iptables

关闭防火墙:ufw disable

卸载iptables:apt-get removeiptables

3、安装vim编辑器

apt-getinstall vim

四、安装SSH工具

为了方便不在Linux命令窗口中输入命令,转而在Windows工具中远程控制Linux——>配置SSH工具远程连接

1、在Linux中安装SSH服务

apt-getinstall openssh-server

2、启动SSH服务

/etc/init.d/sshstart

3、检测SSH进程是否已经开启

ps -e| grep sshd

4、配置root用户的默认登录【这样每次打开SSH工具就不用登陆了,自动登陆到root上】

vim /etc/ssh/sshd_config

修改配置文件

#允许root用户登录,设置为yes

·PermitRootLogin: yes

保存,退出 :x

5、打开SSH客户端(这里使用SecureCRT)配置

·Linux下查询本机IP:ifconfig 查看inet addr

·SecureCRT中:Hostname输入查询到的IP,Username输入root

这里使用SecureCRT连接本地VMware是可能会遇到

“Connection timed out”,并且在Vmware的VM里面可以ping通宿主机,但是宿主机无法ping通VM。 解决方法:本地的网络设置里面的vmware的NAT网卡(Vmnet8)设置了手工填写地址和DNS,修改自动获取即可。

五、配置FTP服务

为了方便Windows传输文件到Linux中,所以要配置FTP服务,使用客户端8UFTP

1、在Linux中安装FTP服务组件

apt-getinstall vsftpd

2、修改FTP用户的密码

passwdftp

3、设置FTP目录的控制权限为完全控制

chmod777 /srv/ftp 文件上传到这个目录里)

4、修改配置文件

vim /etc/vsftpd.conf

修改

anonymous_enable= NO //不允许匿名登录,必须使用正确的用户名和密码登录

local_enable=YES //允许本地用户登录

write_enable=YES //用户具有写权限

chroot_local_user= YES //将所有用户限制在主目录

chroot_list_enable= YES //启动限制用户名

chroot_list_file=/etc/vsftpd.chroot_list //定义名单设置的目录

增加

pam_service_name=vsftpd //增加到定义名单设置目录之后

保存退出

5、在名单设置目录中增加用户名

增加文件/etc/vsftpd.chroot_list,然后在文件里面写上用户名ftp

vim/etc/vsftpd.chroot_list

输入ftp

保存退出

6、修改pam配置文件

vim /etc/pam.d/vsftpd

注释掉(添加#号):

# auth required pam_shells.so

保存退出

7、启动ftp服务

servicevsftpd start

(重新启动服务 service vsftpdrestart)

8、连接客户端8UFTP

站点

主机名:IP地址

用户名:ftp

密码:123110(Linux中配置的ftp账号密码)


六、在Linux中安装JDK

1、下载Linux版本的JDK安装包jdk-8u101-linux-x64.tar

2、把JDK开发包利用8UFTP工具上传到Linux中(目录/srv/ftp中)

3、将上传后的文件进行解压缩处理

tar xzvf JDK安装包文件名 -C /usr/local

4、给的解压后的文件重命名

mv JDK原名 jdk

5、配置JDK

·打开环境文件

vim /etc/profile

·在最下面,输入

export JAVA_HOME=/usr/local/jdk

export PATH=$PATH:$JAVA_HOME/bin:

export CLASS_PATH=$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

保存退出

6、让配置生效

source /etc/profile

7、测试 JDK

java 或 javac


七、配置SSH 免登录

1、设置虚拟网络

·进入Linux系统,在VM中选择编辑-虚拟网络配置,选择NAT模式

2、设置主机名称

vim /etc/hostname

把localhost 修改为 hadoopm

vim /etc/hosts

第一行增加

本机ip地址 hadoopm

3、重启Linux reboot

4、设置SSH免登陆

·删除根路径下.ssh

rm -rf~/.ssh

·在hadoopm主机上生成sshkey

ssh-keygen -t rsa(一直回车,不输入) //加密方式 rsa,可以选择其他方式

·将公钥信息保存在授权文件

cat ~/.ssh/id_rsa.pub >>~/.ssh/authorized_keys

5、测试免登陆(即登录ssh)

ssh root@hadoopm 变为远程连接

(exit退出链接


八、安装hadoop(伪分布模式)——版本2.7.3

1、下载hadoop安装包

2、解压重命名hadoop安装包

tar xzvf hadoop安装包文件名 -C /usr/local

mv hadooop安装包名 hadoop

3、修改环境变量

vim /etc/profile

export HADOOP_HOME =/usr/local/hadoop

export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

让配置生效

source /etc/profile

4、修改hadoop配置文件

配置:“core-site.xml”:Hadoop的核心信息,包括临时目录、访问地址等;

配置:“yarn-site.xml”:可以简单理解为配置相关job的处理;

配置:“hdfs-site.xml”:可以确定文件的备份个数、数据文件夹的路径;

·vim /usr/local/hadoop/etc/hadoop/hadoop-env.sh

更改JavaJDK路径

export JAVA_HOME=/usr/local/jdk/

(1)core-site.xml

·vim /usr/local/hadoop/etc/hadoop/core-site.xml

添加

######################################################################################

## 配置hadoop临时文件,如果不配置,那么就会在hadoop的文件夹里面生产tmp文件("/usr/local/hadoop/tmp"),

## 那么hadoop重启此文件会被清空,也就是说此时hadoop的环境就失效了。 创建hadoop_tmp文件

## cd ~

##mkdir hadoop_tmp

#######################################################################################

<configuration>

<property>

<name>hadoop.tmp.dir</name>

<value>/home/root/hadoop_tmp</value>

</property>

<property>

<name>fs.defaultFS</name>

<value>hdfs://hadoopm:9000</value>

</property>

</configuration>

(2)hdfs-site.xml

vim/usr/local/hadoop/conf/hdfs-site.xml

######################################################################################

## “dfs.replication”:文件的副本数,一般情况下一个文件备份3份

## “dfs.namenode.name.dir”:定义名称节点路径

## “dfs.namenode.data.dir”:定义数据文件节点路径

## “dfs.datanode.data.dir”:名称节点的http访问路径

## “dfs.namenode.secondary.http-address”:第二名称节点

## “dfs.permissions”: 权限认证问题,关闭

#######################################################################################

<configuration>

<property>

<name>dfs.replication</name>

<value>1</value>

</property>

<property>

<name>dfs.namenode.name.dir</name>

<value>file:///usr/local/hadoop/dfs/name</value>

</property>

<property>

<name>dfs.datanode.data.dir</name>

<value>file:///usr/local/hadoop/dfs/data</value>

</property>

<property>

<name>dfs.namenode.http-address</name>

<value>hadoopm:50070</value>

</property>

<property>

<name>dfs.namenode.secondary.http-address</name>

<value>hadoopm:50090</value>

</property>

<property>

<name>dfs.permissions</name>

<value>false</value>

</property>

</configuration>

(3)yarn-site.xml

·vim /usr/local/hadoop/conf/ yarn-site.xml

添加

<configuration>

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<property>

<name>yarn.nodemanager.auxservices.mapreduce.shuffle.class</name>

<value>org.apache.hadoop.mapred.ShuffleHandler</value>

</property>

<property>

<name>yarn.resourcemanager.address</name>

<value>master:8032</value>

</property>

<property>

<name>yarn.resourcemanager.scheduler.address</name>

<value>master:8030</value>

</property>

<property>

<name>yarn.resourcemanager.resource-tracker.address</name>

<value>master:8031</value>

</property>

<property>

<name>yarn.resourcemanager.admin.address</name>

<value>master:8033</value>

</property>

<property>

<name>yarn.resourcemanager.webapp.address</name>

<value>master:8088</value>

</property>

</configuration>·

(4)mapred-site.xml

vim/usr/local/hadoop/conf/mapred-site.xml

添加

<configuration>

<property>

<name>mapred.job.tracker</name>

<value>hadoopm:9001</value>

</property>

</configuration>

5、由于hadoop属于分布式的开发环境,考虑到日后要进行集群的搭建,建议在“/usr/local/hadoop/etc/hadoop”目录下创建一个masters,里面写上主机名称(hadoopm,之前在hosts目录里面定义的主机名称),如果是单机环境,不写也没有关系。

cd/usr/local/hadoop/etc/hadoop

vimmasters

输入:hadoopm


6、修改从节点文件增加hadoopm(此时主副节点为统一节点)

cd/usr/local/hadoop/etc/hadoop

vimslaves

输入:hadoopm


7、上述hdfs-site.xml文件将所有的namenode、datanode保存路径设置在/usr/local/hadoop/dfs目录中,虽然可以自动创建,但是建议手动创建者两个文件

cd/usr/local/hadoop/

mkdirdfs dfs/name dfs/data

如果hadoop出现问题需要重新配置时,请保证将这两个文件夹彻底清除掉,如果没有删除,则配置无效。


8、格式化文件系统namenode

hdfs namenode- format

如果可以正确执行,则出现如下信息:INFO util.ExitUtil: Exiting with status 0;

如果出错,此处出现: INFOutil.ExitUtil: Exiting with status 1,很有可能是之前的几个配置文件复制、粘贴时出现了错误


9、启动hadoop

start-all.sh 每次启动hadoop都要输入


10、检测是否启动成功

jps 查看所有java进程(是否出现了5个重要进程,Jps进程忽略)

6116SecondaryNameNode

5940Datanode

6500Jps

5802NameNode

6270ResourceManager

6382NodeManager

或者登录 http://ip地址:50070 http://ip地址:50030

(如果想用hadoopm从windows登录,则需要在windows下增加映射文件

C:\Windows\System32\drivers\etchosts 追加 ip地址 hadoopm)

11、停止服务

stop-all.sh 使用jps查看进程

如果重启发现进程启动不完整的解决方案:http://www.linuxidc.com/Linux/2015-01/111891.htm


···配置完毕··

原文链接:https://www.f2er.com/ubuntu/352913.html

猜你在找的Ubuntu相关文章