tencent cloud

对象存储

动态与公告
产品动态
产品公告
产品简介
产品概述
功能概览
应用场景
产品优势
基本概念
地域和访问域名
规格与限制
产品计费
计费概述
计费方式
计费项
免费额度
计费示例
查看和下载账单
欠费说明
常见问题
快速入门
控制台快速入门
COSBrowser 快速入门
用户指南
创建请求
存储桶
对象
数据管理
批量处理
全球加速
监控与告警
运维中心
数据处理
内容审核
智能工具箱
数据工作流
应用集成
工具指南
工具概览
环境安装与配置
COSBrowser 工具
COSCLI 工具
COSCMD 工具
COS Migration 工具
FTP Server 工具
Hadoop 工具
COSDistCp 工具
HDFS TO COS 工具
GooseFS-Lite 工具
在线辅助工具
自助诊断工具
实践教程
概览
访问控制与权限管理
性能优化
使用 AWS S3 SDK 访问 COS
数据容灾备份
域名管理实践
图片处理实践
COS 音视频播放器实践
工作流实践
数据直传
内容审核实践
数据安全
数据校验
大数据实践
COS 成本优化解决方案
在第三方应用中使用 COS
迁移指南
本地数据迁移至 COS
第三方云存储数据迁移至 COS
以 URL 作为源地址的数据迁移至 COS
COS 之间数据迁移
Hadoop 文件系统与 COS 之间的数据迁移
数据湖存储
云原生数据湖
元数据加速
数据加速器 GooseFS
数据处理
数据处理概述
图片处理
媒体处理
内容审核
文件处理
文档处理
故障处理
获取 RequestId 操作指引
通过外网上传文件至 COS 缓慢
访问 COS 时返回403错误码
资源访问异常
POST Object 常见异常
API 文档
简介
公共请求头部
公共响应头部
错误码
请求签名
操作列表
Service 接口
Bucket 接口
Object 接口
批量处理接口
数据处理接口
任务与工作流
内容审核接口
云查毒接口
SDK 文档
SDK 概览
准备工作
Android SDK
C SDK
C++ SDK
.NET(C#) SDK
Flutter SDK
Go SDK
iOS SDK
Java SDK
JavaScript SDK
Node.js SDK
PHP SDK
Python SDK
React Native SDK
小程序 SDK
错误码
鸿蒙(Harmony) SDK
终端 SDK 质量优化
安全与合规
数据容灾
数据安全
访问管理
常见问题
热门问题
一般性问题
计费计量问题
域名合规问题
存储桶配置问题
域名和 CDN 问题
文件操作问题
日志监控问题
权限管理问题
数据处理问题
数据安全问题
预签名 URL 问题
SDK 类问题
工具类问题
API 类问题
服务协议
Service Level Agreement
隐私政策
数据处理和安全协议
联系我们
词汇表

Hadoop 安装与测试

PDF
聚焦模式
字号
最后更新时间: 2025-01-24 13:00:19
Hadoop 工具依赖 Hadoop-2.7.2 及以上版本,实现了以腾讯云对象存储(Cloud Object Storage,COS)作为底层存储文件系统运行上层计算任务的功能。启动 Hadoop 集群主要有单机、伪分布式和完全分布式等三种模式,本文主要以 Hadoop-2.7.4 版本为例进行 Hadoop 完全分布式环境搭建及 wordcount 简单测试介绍。

准备环境

准备若干台机器。
安装配置系统,可前往 CentOS 官网 下载安装。本文使用 CentOS 7.3.1611系统版本。
安装 Java 环境,具体操作请参见 Java 安装与配置
安装 Hadoop 可用包:Apache Hadoop Releases Download

网络配置

使用 ifconfig -a 查看各台机器的 IP,相互使用 ping 命令检查 ,看是否可以 ping 通,同时记录每台机器的 IP。

配置 CentOS

配置 hostname

分别给机器设置相应 hostname,如"master"、"slave*"等。
hostnamectl set-hostname master

配置 hosts

vi /etc/hosts
编辑内容:
202.xxx.xxx.xxx master
202.xxx.xxx.xxx slave1
202.xxx.xxx.xxx slave2
202.xxx.xxx.xxx slave3
# IP 地址替换为真实 IP

关闭防火墙

systemctl status firewalld.service # 检查防火墙状态
systemctl stop firewalld.service # 关闭防火墙
systemctl disable firewalld.service # 禁止开机启动防火墙

时间同步

yum install -y ntp # 安装 ntp 服务
ntpdate cn.pool.ntp.org # 同步网络时间

安装配置 JDK

上传 JDK 安装包(如jdk-8u144-linux-x64.tar.gz)到 root 根目录。
mkdir /usr/java
tar -zxvf jdk-8u144-linux-x64.tar.gz -C /usr/java/
rm -rf jdk-8u144-linux-x64.tar.gz

各个主机之间复制 JDK

scp -r /usr/java slave1:/usr
scp -r /usr/java slave2:/usr
scp -r /usr/java slave3:/usr
.......

配置各个主机 JDK 环境变量

vi /etc/profile
编辑内容:
export JAVA_HOME=/usr/java/jdk1.8.0_144
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
保存文件后,使/etc/profile 生效,执行以下命令:
source /etc/profile # 使配置文件生效
java -version # 查看 java 版本

配置 SSH 无密钥访问

分别在各个主机上检查 SSH 服务状态:
systemctl status sshd.service # 检查 SSH 服务状态
yum install openssh-server openssh-clients # 安装 SSH 服务,如果已安装,则不用执行该步骤
systemctl start sshd.service # 启动 SSH 服务,如果已安装,则不用执行该步骤
分别在各个主机上生成密钥:
ssh-keygen -t rsa # 生成密钥
在 slave1 上:
cp ~/.ssh/id_rsa.pub ~/.ssh/slave1.id_rsa.pub
scp ~/.ssh/slave1.id_rsa.pub master:~/.ssh
在 slave2 上:
cp ~/.ssh/id_rsa.pub ~/.ssh/slave2.id_rsa.pub
scp ~/.ssh/slave2.id_rsa.pub master:~/.ssh
依此类推...
在 master 上:
cd ~/.ssh
cat id_rsa.pub >> authorized_keys
cat slave1.id_rsa.pub >>authorized_keys
cat slave2.id_rsa.pub >>authorized_keys
scp authorized_keys slave1:~/.ssh
scp authorized_keys slave2:~/.ssh
scp authorized_keys slave3:~/.ssh

安装配置 Hadoop

安装 Hadoop

上传 hadoop 安装包(如 hadoop-2.7.4.tar.gz)到 root 根目录。
tar -zxvf hadoop-2.7.4.tar.gz -C /usr
rm -rf hadoop-2.7.4.tar.gz
mkdir /usr/hadoop-2.7.4/tmp
mkdir /usr/hadoop-2.7.4/logs
mkdir /usr/hadoop-2.7.4/hdf
mkdir /usr/hadoop-2.7.4/hdf/data
mkdir /usr/hadoop-2.7.4/hdf/name
进入 hadoop-2.7.4/etc/hadoop 目录下,进行下一步操作。

配置 Hadoop

1. 修改 hadoop-env.sh 文件,增加如下内容:
export JAVA_HOME=/usr/java/jdk1.8.0_144
若 SSH 端口不是默认的22,可在 hadoop-env.sh 文件里修改:
export HADOOP_SSH_OPTS="-p 1234"
2. 修改 yarn-env.sh
export JAVA_HOME=/usr/java/jdk1.8.0_144
3. 修改 slaves
配置内容:
删除:
localhost
添加:
slave1
slave2
slave3
4. 修改 core-site.xml
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://master:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/usr/hadoop-2.7.4/tmp</value>
</property>
</configuration>
5. 修改 hdfs-site.xml
<configuration>
<property>
<name>dfs.datanode.data.dir</name>
<value>/usr/hadoop-2.7.4/hdf/data</value>
<final>true</final>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/usr/hadoop-2.7.4/hdf/name</value>
<final>true</final>
</property>
</configuration>
6. mapred-site.xml.template 拷贝一份出来命名为 mapred-site.xml
cp mapred-site.xml.template mapred-site.xml
7. 修改 mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>master:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>master:19888</value>
</property>
</configuration>
8. 修改 yarn-site.xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>master:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>master:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>master:8031</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>master:8033</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>master:8088</value>
</property>
</configuration>
9. 各个主机之间复制 Hadoop
scp -r /usr/hadoop-2.7.4 slave1:/usr
scp -r /usr/hadoop-2.7.4 slave2:/usr
scp -r /usr/hadoop-2.7.4 slave3:/usr
10. 各个主机配置 Hadoop 环境变量
打开配置文件:
vi /etc/profile
编辑内容:
export HADOOP_HOME=/usr/hadoop-2.7.4
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
export HADOOP_LOG_DIR=/usr/hadoop-2.7.4/logs
export YARN_LOG_DIR=$HADOOP_LOG_DIR
使配置文件生效:
source /etc/profile

启动 Hadoop

1. 格式化 namenode
cd /usr/hadoop-2.7.4/sbin
hdfs namenode -format
2. 启动
cd /usr/hadoop-2.7.4/sbin
start-all.sh
3. 检查进程
master 主机包含 ResourceManager、SecondaryNameNode、NameNode 等,则表示启动成功,例如:
2212 ResourceManager
2484 Jps
1917 NameNode
2078 SecondaryNameNode
各个 slave 主机包含 DataNode、NodeManager 等,则表示启用成功,例如:
17153 DataNode
17334 Jps
17241 NodeManager

运行 wordcount

由于 Hadoop 自带 wordcount 例程,所以可以直接调用。在启动 Hadoop 之后,我们可以通过以下命令来对 HDFS 中的文件进行操作:
hadoop fs -mkdir /input
hadoop fs -put input.txt /input
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.4.jar wordcount /input /output/



出现如上图结果就说明 Hadoop 安装已经成功了。

查看输出目录

hadoop fs -ls /output

查看输出结果

hadoop fs -cat /output/part-r-00000



说明:
单机模式与伪分布式模式的操作方法的详细过程,请参见官网文档 Hadoop入门

帮助和支持

本页内容是否解决了您的问题?

填写满意度调查问卷,共创更好文档体验。

文档反馈