可登录任意一台 EMR 服务器执行以下命令查看任务日志:
yarn logs -applicationId application_1507732460084_0057
注意:需以 Hadoop 用户身份执行该命令。如果是其他用户的任务可以添加参数
-appOwner username
。
如需查看任务异常原因可通过以下命令实现:
yarn logs -applicationId application_1507732460084_0057|grep -A20 Exception
集群计算资源由 yarn-site.xml
中的以下两项配置决定:
<property>
<name>yarn.nodemanager.resource.cpu-vcores</name>
<value>4</value>
</property>
<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>14745</value>
</property>
默认情况下 cpu-vcores 等于机器的 CPU 核数,memory-mb 等于机器内存的91%,可以根据实际情况作出调整,如果设置太大则存在机器宕机的风险。
提交 MR 任务或者通过 Hive 执行 SQL 脚本时发生内存溢出可以通过设置以下参数处理:
set mapreduce.map.java.opts=-Xmx4096m;
set mapreduce.reduce.java.opts=-Xmx4096m;
可以根据计算需要调整内存参数,如果是 Hive 也可写在 ~/.hiverc
文件下,提交的时候会自动执行。
假设您的一次运算以 SQL 执行为例,如果想要在确定的时间里查询到结果需要的 vcore 为64个,内存为128GB,业务要求一次要支持10个并发,那么需要的资源为 vcore 640个,内存1280GB,假设采用24核48GB的设备,那么需要的计算设备量为:1280 / 48约等于27台。
Hive 默认查询如下:
select * from tablename where a=’1’ limit 10;
默认查询不会启动计算任务,您可以通过添加 set hive.fetch.task.conversion=none
参数开启分布式查询。
EMR 集群支持如下存储介质,普通本地盘、SSD 本地盘、普通云硬盘,SSD 云硬盘以及对象存储 COS,您可以根据实际需要来选择存储介质:
开启公网 IP 可以登录集群,详情请参考 登录集群 文档。
ldap 认证是根据产品版本决定的,2.3.0版本及以上支持,默认开启,暂不支持关闭。2.3.0版本以下不支持。
common 节点暂不支持扩容。
目前 EMR 产品中,ClickHouse 集群中已有三个发行版,且每个发行版中 ClickHouse 均有升级,详情请参考 版本概述。
控制台可直接安装组件。
默认开启 webhdfs。
弹性 MapReduce 不支持修改所属项目,如果该问题对您的业务造成影响,您可以申请技术 工单 支持。
创建集群时可以使用引导操作来设定自定义的引导脚本来实现,可分别设置在节点初始化后、集群启动前、集群启动后三个时间节点执行;操作文档参见 引导操作 。
EMR 集群提供六种集群类型,可根据实际业务需要选择集群类型,详情可参考 业务评估。
本页内容是否解决了您的问题?