E-MapReduce_EMR_大数据框架_大数据-阿里云

E-MapReduce
E-MapReduce(简称“EMR”)是云原生开源大数据平台,向客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、Clickhouse、Delta、Hudi等开源大数据计算和存储引擎。EMR计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK、专有云平台。

产品优势

开源生态
提供高性能、稳定版本Hadoop、Spark、Hive、Flink、Kafka、HBase、Presto、Impala、Hudi等开源大数据组件,客户可根据场景灵活搭配使用
引擎优化
多引擎性能优化,如Spark SQL较开源版本提升6倍。采用JindoFS+OSS,保证数据可靠性基础上,性能大幅提升
便捷运维
在阿里云控制台和OpenAPI方便地对集群、节点和服务进行监控和运维操作。助您大幅提升运维工作效率,让数据工程师更专注于业务开发
节约成本
集群资源可自动按需匹配,您只需要按实际使用量付费,减少资源浪费成本。支持阿里云抢占式实例、预留实例券(RI),进一步降低成本
弹性资源
可以灵活调整集群资源,在数分钟内创建出基于云服务器 ECS、容器 ACK的集群,快速响应业务需求
安全可靠
通过 VPC 和安全组设置集群网络安全策略,支持Kerberos身份认证和数据加密,使用Ranger数据访问控制。支持数据加密,保证数据安全

产品功能

集群管理方便快捷的集群管理,快速实现集群创建与扩容
集群创建通过控制台页面或OpenAPI即可快速的进行多种类型的集群创建,如Hadoop、Dataflow、Datascience、Druid、ZooKeeper等开源大数据框架,无需关心底层的硬件与软件部署
集群扩容通过控制台页面或OpenAPI即可方便地增加或减少已有集群的节点数目
服务配置可以快速添加EMR提供的服务,可以监控服务的状态,并对服务组件进行配置和运维操作
弹性伸缩通过控制台界面可以方便的增加需要的组件,并进行组件的配置与运维操作
动态扩容可以设置多种弹性伸缩策略,自动地对集群计算资源进行动态的伸缩,降低TCO
运维中心完善的运维管理工具,方便快速发现和定位集群问题
集群监控提供丰富的服务监控指标和主机监控指标展示,通过可视化的方式快速定位服务和主机异常
事件中心EMR服务提供丰富的事件类型,包含服务事件、管控服务事件、主机事件,可以更加快速、具体地获取到集群问题,并可以对问题发生链路进行溯源
作业列表对集群作业运行情况进行统计,快速对比异常作业,方便作业和集群性能调优
诊断分析提供HDFS冷热数据分析和小文件分析功能,对服务性能优化提供依据
丰富的组件丰富的组件支持,可以根据需要进行组件的选择
Hadoop支持PB级别数据存储与计算能力的大数据平台
Spark基于内存的新一代分布式开源大数据框架,支持离线,实时计算,也支持 SQL 语法以及机器学习的处理
Hive基于Hadoop的一套离线数据处理系统,在HDFS之上提供了结构化的表数据的管理能力,提供类 SQL 的查询语法进行数据分析处理
KafkaKafka是一种高吞吐量的分布式发布订阅消息系统,具有出色的性能和可靠性
Flink针对流数据和批数据的分布式处理引擎,EMR提供基于Apache Flink的商业化产品Ververica Platform构建的企业级大数据计算平台提供实时计算服务
Storm实时处理计算引擎,支持毫秒级别的实时数据处理
ZooKeeper分布式的,开放源码的分布式应用程序协调服务,为分布式应用提供一致性服务的软件
Druid开源的实时大数据分析软件
Hue方便的Web端管理工具
完善的云上生态支持对阿里云上的产品环境进行了深度的整合支持
支持DataWorks为客户提供专业高效、安全可靠的一站式大数据开发与治理平台
支持MaxCompute支持阿里云的MaxCompute产品的数据的读写
支持ElasticSearch在Hadoop中内置了ES-Hadoop插件,可以直接支持ES的相关操作
支持数据湖构建DLFEMR默认支持使用DLF进行元数据管理,方便数据湖场景下元数据管理。
支持对象存储OSSEMR中所有计算引擎均支持采用OSS作为存储,可以将OSS像HDFS一样使用。并采用JindoFS对OSS数据读写进行加速。
支持云监控可以在云监控中设置对于EMR服务和操作的监控,方便问题快速告警
支持SLS支持将SLS作为实时数据输入源使用,提供了SDK直接操作
支持阿里云的消息产品支持如消息队列,消息服务等的读写,提供SDK包装,方便用户使用

应用场景

大数据搬站
云原生数据湖
智能推荐
延续开源技术栈,链接阿里云生态和开源大数据生态
大数据搬站会遇到如下挑战:大数据技术栈繁杂,数据规模和任务数量大;开源社区版本迭代演进速度快,且开源组件之间的兼容性和社区bug会影响作业和业务的连续性。大数据搬站迁移通过EMR可以延续开源技术栈,链接阿里云生态和开源大数据生态
能够提供
采用社区开源软件
场景覆盖程度高,能延续现有技术栈和组织架构,迁移风险和成本低
成熟稳定
组件采用社区最新的稳定版本,通过组件稳定性和兼容性验证测试,更加稳定可靠
与阿里云生态集成
可以灵活根据业务需求和技术路线,实现和阿里云生态集成,如数据开发DataWorks+EMR、机器学习PAI+EMR、湖仓一体MaxCompute+Data Lake Formation+EMR
多种迁移方案
根据数据规模和预算的不同,可以通过闪电立方、专线和公网方式按计划高效率的迁移上云
推荐搭配使用
降低成本,解决资源闲置,适用多种数据分析场景
随着企业积累数据规模迅速膨胀,数据分析使用会遇到:数据规模膨胀的成本挑战;计算和存储耦合带来的某项资源闲置问题;由于多种数据分析场景,如离线计算、流式计算、交互式分析、机器学习等,导致多引擎间频繁的引动数据,造成数据不一致和成本问题。通过EMR及配套云原生数据解决方案,可以有效解决以上问题
能够提供
计算存储分离
数据存储在OSS对象存储,通过EMR JindoFS或Alluxio实现数据湖的加速,实现计算和存储解耦的同时,提升和保障计算效率,避免了资源闲置问题
数据分层存储
Jindo Table结合OSS的分层存储能力,将大数据业务和底层基础能力相结合,根据数据冷、热、温分层,与不同OSS存储类型匹配,最大限度实现成本节省
对接多种计算引擎
EMR数据湖解决方案,可以对接实时计算、PAI、MaxCompute、ElasticSearch等计算引擎,避免数据重复移动
元数据多引擎统一管控
通过EMR+Data Lake Formation,实现对元数据的统一管理,DLF可以对EMR不同计算引擎统一进行权限控制
推荐搭配使用
通过EMR构建机器学习和算法平台,加速模型训练
采集用户行为数据,通过EMR构建机器学习和算法平台,通过Hive/Spark构建机器学习的特征库、模型库和算法库,通过EMR Data Science集群TensorFlow/Pytorch实现模型训练,通过PAI EAS实现将模型在线推理服务
能够提供
稳定可靠
经过业内经大规模生产验证的推荐系统解决方案,实现CTR点击率大幅提升
灵活可控
适用于离线推荐和实时推荐场景,用户可以根据需求和技术栈方向灵活选择开源技术组件
集成性好
可以根据PAI EAS/PAI Studio等快速集成,灵活选择合适ECS GPU实例类型
推荐搭配使用

产品规格

可根据不同场景进行集群类型选择

客户案例

为什么选择E-MapReduce?
数禾科技
数禾科技以大数据技术为驱动,为金融机构提供智能金融解决方案。随着公司业务的扩张,业务方提出的大量数据需求考验着现有集群的能力。为了减轻现有集群的压力,数禾使用阿里云EMR落地了适合数禾当前业务的数据湖,可以任意规模存储结构化和非结构化数据,运用不同类型的引擎进行分析,为业务发展提供了更好的决策依据。
凯叔讲故事
凯叔讲故事是中国知名的儿童内容教育品牌。刚开始凯叔讲故事使用第三方SAAS平台作为运营支撑,周期长、展示死板,个性化开发受到很大局限,很难支撑团队的精细化运营需求。采用阿里云的E-MapReduce大数据平台支撑业务团队后,帮助业务团队做到对用户的精准触达、实时反馈和主动服务,系统上线后业务增量明显。
Yeahmobi点告
Yeahmobi是一家以技术驱动的全球智能营销服务公司,公司主要提供的服务包括了效果营销、品牌服务,以及各个垂类的综合性的营销解决方案。Yeahmobi点告基于阿里云OSS+E-MapReduce 所有数据统一OSS存储,动态调整计算资源, 并使用E-MapReduce支撑离线式分析,满足业务场景要求,整体TOC下降30%。
流利说
流利说是一家科技驱动的教育公司,在离线计算任务中,大部分数据源来自业务DB。随着数据量增多,无法满足近实时的查询需求。 流利说选择阿里云E-MapReduce, 采用 CDC + Delta Lake 之后,成本节省了近80%。凌晨DB数据接入的时间成本大大降低,确保所有非特殊要求的DB数据接入都能在1个小时内跑完,大大提升了效率。

E-MapReduce与自建Hadoop集群对比

对比维度
成本
性能
易用
弹性
安全
可靠
服务
阿里云E-MapReduce
资源按量付费,支持集群资源灵活调整,数据分层存储,资源使用率高。 无额外软件License费用。
较开源版本性能大幅提升,如EMR SparkSQL性能是开源版本6倍。
分钟级别启动Hadoop集群,敏捷响应业务需求。
可根据作业临时启动和销毁集群。集群资源可根据时间周期或集群负载动态自动调整。基于JindoFS计算存储分离架构,轻松分别扩展计算和存储资源。
支持企业级多租户资源管理能力,支持对表、列、行级别的权限控制和日志审计,支持数据加密。
大规模、企业级环境的检验,随开源版本升级,并经过专业的兼容性验证测试,提供优于社区版本的使用体验。
专业和资深大数据专家技术服务团队提供售后支持。
自建Hadoop集群
提前预估资源,且资源相对固定,资源使用率低。 采用Hadoop发行版,需额外支付License费用。
采用开源社区版本,性能需自行优化。
采购服务器,部署Hadoop生态组件,周期长达数周。
计算和存储耦合,资源相对固定,无法弹性调整资源。
多租户管理能力需自行配置,能力不完善,无法满足企业级需求。
需自行更新和升级开源版本,验证各组件版本兼容性,自行修复社区bug。
社区版本无服务支持,Hadoop发行版,需额外支付License和服务费用。

产品动态

2017-01-18 新产品
EMR支持推出独享套餐
查看详情
2017-01-18 新功能
EMR支持Spark 2.0
查看详情
2017-02-23 新功能
支持统一的Hive表元数据管理
查看详情
2017-04-26 新地域/可用区
E-MapReduce 华北3地域上线
查看详情
2017-05-03 新功能
执行计划调度增强
查看详情
2017-05-10 新功能
作业增加重试支持
查看详情
2017-06-15 新功能
集群配置管理系统发布
查看详情
2017-07-29 价格调整
E-MapReduce国际站价格全面下调
查看详情
2017-08-05 新地域/可用区
E-MapReduce 德国站上线服务
查看详情
2017-08-08 新版本/新规格
EMR大数据机型整体方案发布
查看详情
2017-11-23 新功能
Gateway功能上线
查看详情
2018-01-03 新地域/可用区
E-MapReduce 产品 香港,呼和浩特 地域上线服务
查看详情
2018-03-01 新功能
细化的权限控制组件Ranger发布
查看详情
2018-03-03 新地域/可用区
E-MapReduce印度孟买Region上线服务
查看详情
2018-03-20 体验优化
E-MapReduce支持机型升配
查看详情
2018-04-18 新功能
E-MapReduce支持集群从按量装换为包月
查看详情
2018-07-05 新功能
Hadoop弹性伸缩能力发布
查看详情
2018-09-06 新功能
E-MapReduce 性能大幅度优化
查看详情
2018-09-22 新功能
EMR TensorFlow发布
查看详情
2018-11-01 体验优化
EMR云盘数据盘一键扩容
查看详情
2018-11-01 新功能
EMR支持竞价实例
查看详情
2018-12-07 新功能
EMR APM功能发布
查看详情
2019-01-21 新版本/新规格
EMR 升级Hadoop 2.8.5
查看详情
2019-03-15 新功能
EMR Knox支持Flink并适配YARN time line service
查看详情
2019-06-08 新地域/可用区
E-MapReduce 成都地域服务上线
查看详情
2019-07-09 新功能
EMR 工作流新增支持流式作业类型
查看详情
2019-07-28 新版本/新规格
EMR 最新版 EMR-3.22.0 发布
查看详情
2019-07-28 新功能
EMR 新加入 Kudu 组件
查看详情
2019-08-01 新功能
EMR 新发布针对云上存储定制的自研大数据存储服务 JindoFS
查看详情
2019-11-18 新版本/新规格
E-MapReduce-3.24.0版本发行
查看详情
2019-11-18 新功能
EMR支持TensorFlow on spark
查看详情
2019-11-20 新版本/新规格
E-MapReduce 3.23.0发行版本
查看详情
2019-11-21 新版本/新规格
EMR中国站/国际站上线第六代ECS企业级实例
查看详情
2020-06-30 新版本/新规格
E-MapReduce支持ECS D2S新一代大数据实例
查看详情
2020-07-31 新版本/新规格
阿里云E-MapReduce新增ECS大数据实例规格D2C
查看详情
2021-01-05 新功能
阿里云E-MapReduce新增Remote Shuffle Service
查看详情
2021-02-28 新地域/可用区
阿里云E-MapReduce在华北6 乌兰察布正式开服
查看详情
2021-04-01 新功能
阿里云E-MapReduce发布Clickhouse集群类型
查看详情
2021-05-01 新版本/新规格
阿里云E-MapReduce上线最新一代本地SSD实例
查看详情
查看全部日志

入门与实践

EMR开源大数据迁移专区
HDFS,Hive,Kafka迁移到EMR最佳实践
查看详情
EMR实时计算实践
通过Flink作业处理OSS数据
查看详情
EMR本地盘集成实践
EMR本地盘进行大规模数据集测试实践方案
查看详情
EMR弹性计算实践
EMR弹性低成本离线大数据分析最佳实践
查看详情

文档与工具


http://www.vxiaotou.com