全球最大Hadoop/Spark平台演进历程
百****云 · 百****云 发布于2015-09-06 14:48 浏览:2720 回复:1

2015-07-31 

百度开放云的数字媒体解决方案,作为2015可信云服务大会中“大数据平台最佳实践”论坛的受邀企业,由开放云数字媒体解决方案的产品研发负责人——朱冠胤代表出席,并发表演讲。



朱冠胤介绍“2004年,MapReduce论文发表;06年Hadoop以开源的方式对广大的大数据需求爱好者开放;紧跟着2007年11月,百度基于Hadoop的MapReduce上线,长期以来服务于百度内部所有产品线;到11年的时候,百度MapReduce单集群规模达到5000台,13年发展到13000台;2014年百度自研的DAG引擎正式上线”


2013年,百度的Hadoop集群上线,单集群超过1.3万,是全球最大的Hadoop集群。

同一计算任务,百度MapReduce所耗的CPU内核时间更低,性能超越社区30%。



2014年,C++DAG引擎上线,作为百度在MapReduce基础上自研的新一代计算引擎,DAG能以更高的性能运行作业。

朱冠胤举例,以往的4轮MapReduce作业,在DAG中将会翻译成1个DAG Job就能运行完成。避免了3次Reduce写HDFS IO,避免2次Map读HDFS IO及处理。


2015年,百度MapReduce优化重构,性能再提升30%。


朱冠胤讲道“百度MapReduce作为百度开放云的大数据产品之一,推出了国内首个云端全托管的Hadoop/Spark服务BMR。”

为用户提供组件、集群规模、服务器配置的按需部署服务;安全可靠的独占集群专享服务;以及能够按需随时伸缩计算节点,内置百度高性能计算引擎;同时,BMR完全兼容开源Hadoop/Spark生态。



“百度开放云还为在线大数据分析的需求者,推出了PALO服务。此服务适用于报表和多位分析,可以达到毫秒级—秒级的延迟”。


更多内容敬请关注:百度开放云官网 bce.baidu.com


点赞  ( 0 )
收藏
评论(1)
共1条回复 最后由D****1回复于2018-04-07 21:35
#2D****1回复于2018-04-07 21:35:24

测试无限次打广告

0
TOP