- 准备工作
配置 java 环境变量
在 ~/.bash_profile 中配置
tar -zxvf jdk-8uXXX-linux-x64.tar.gz
export JAVA_HOME=/解压目录/jak1.8.0_xxx
export PATH=$PATH:$JAVA_HOME/bin
source ~/.bash_profile
使刚刚配置的环境变量立即生效
配置host
使用 ifconfig 查看自己的ip
然后在 /etc/hosts 添加host配置
修改hostname主机名
修改/etc/sysconfig/network 里HOSTNAME配置,然后执行 hostnamebigdata
如果使用的是虚拟机最好使用NAT网络模式
- 配置 Hadoop
下载 hadoop-2.7.x.tar.gz
tar -zxvf hadoop-2.7.x.tar.gz
在 ~/.bash_profile 中添加Hadoop环境变量配置
export HADOOP_HOME=/解压目录/hadoop-2.7.x
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin
修改Hadoop配置文件,Hadoop配置文件在 etc/hadoop 目录下
1. 修改 hadoop-env.sh 中 JAVA_HOME 改为 jdk 的绝对路径
2. 修改 core-site.xml
- <configuration>
- <property>
- <name>fs.defaultFS</name>
- <value>hdfs://bigdata:9000</value>
- </property>
- <property>
- <name>hadoop.tmp.dir</name>
- <value>/application/tmp/hadoop</value>
- </property>
- </configuration>
3. 修改 yarn-site.xml
- <configuration>
- <property>
- <name>yarn.nodemanager.aux-services</name>
- <value>mapreduce_shuffle</value>
- </property>
- <property>
- <name>yarn.resourcemanager.address</name>
- <value>bigdata:18040</value>
- </property>
- <property>
- <name>yarn.resourcemanager.scheduler.address</name>
- <value>bigdata:18030</value>
- </property>
- <property>
- <name>yarn.resourcemanager.resource-tracker.address</name>
- <value>bigdata:18025</value>
- </property>
- <property>
- <name>yarn.resourcemanager.admin.address</name>
- <value>bigdata:18141</value>
- </property>
- <property>
- <name>yarn.resourcemanager.webapp.address</name>
- <value>bigdata:18088</value>
- </property>
- <property>
- <name>yarn.log-aggregation-enable</name>
- <value>true</value>
- </property>
- <property>
- <name>yarn.log.server.url</name>
- <value>http://bigdata:19888/jobhistory/logs</value>
- </property>
- <property>
- <name>yarn.nodemanager.vmem-check-enabled</name>
- <value>false</value>
- </property>
- </configuration>
4. 修改 hdfs-site.xml
- <configuration>
- <property>
- <name>dfs.replication</name>
- <value>3</value>
- </property>
- <property>
- <name>dfs.namenode.name.dir</name>
- <value>/application/tmp/hdfs/namenode</value>
- </property>
- <property>
- <name>dfs.datanode.data.dir</name>
- <value>/application/tmp/hdfs/datanode</value>
- </property>
- </configuration>
5. 修改 mapred-site.xml
- <configuration>
- <property>
- <name>mapreduce.framework.name</name>
- <value>yarn</value>
- </property>
- </configuration>
配置分布式
将 jdk 及上述 hadoop 文件及其配置都复制到其余准备好的虚拟节点上
在 namenode 节点启动格式化:
- hadoop namenode –format
在 namenode 节点上启动 namenode 服务,resourcemanager 和 history server
- sbin/hadoop-daemon.sh start namenode
- sbin/yarn-daemon.sh start resourcemanager
- sbin/mr-jobhistory-daemon.sh start historyserver
在 datanode 节点上启动 datanode 服务和 nodemanager 服务
- sbin/hadoop-daemon.sh start datanode
- sbin/yarn-daemon.sh start nodemanager
(namenode 和 resourcemanager 在生产环境中不一定会被放在一个节点)
输入 jps
在 namenode 节点上有 NameNode 进程和 ResourceManager 进程,historysever 进程,在 datanode 上有 Datanode 进程和 NodeManager 进程。则
说明正确。
伪分布式版
与上面的区别是:不需要在其他节点重新配置 hadoop 和 jdk,直接在本节
点配置好 jdk 和 hadoop 后:
- hadoop namenode –format
- sbin/hadoop-daemon.sh start namenode
- sbin/yarn-daemon.sh start resourcemanager
- sbin/mr-jobhistory-daemon.sh start historyserver
- sbin/hadoop-daemon.sh start datanode
- sbin/yarn-daemon.sh start nodemanager