阿里云E-Mapreduce动态
1.4版本(已经发布)
- 作业运行失败报警
- 作业并行提交
- 添加sqoop、shell类型的作业
1.4.1版本(正在研发)
- 完善失败报警
- 完善定时任务,增加小时、分钟定时任务
1.5.0版本 (正在研发)
1.6.0版本
资讯
该版本主要更新APIs,支持SQL 2003,支持R UDF ,增强其性能。
spark2.0统一了streaming与batch的api,引入了dataset,另外就是tungsten等性能优化,让spark成为更加优秀的分布式计算引擎。
MongoDB的快速部署,是其大受欢迎的主要原因。在其年度会议上,这个NoSQL数据库背后的公司展示了一系列的改进,包括与Spark分析的互联。
一些内存数据结构比其他数据结构来得更高效;如果充分利用Redis,Spark运行起来速度更快。
Tachyon就可以帮你让这些数据长期处于内存中并且在不同应用之间共享。
本文主要介绍如何使用Apache Spark中的DataSource API以实现多个数据源混合计算的实践。
讨论机器学习概念以及如何使用Spark MLlib来进行预测分析。
本文首先介绍了流式处理框架的设计原理、Spark Streaming 的工作原理,然后通过一个基于 Spark Streaming 编写的读取、分析、写入图片的示例帮助读者加深了解 Spark Streaming 的工作原理。
国内大数据相关会议
| 会议 | 地点 | 时间 | 费用 |
| --- | --- | --- | --- |
| | 北京 | 2016年8月04- 2016年8月06日 | 收费 |
| | 北京 | 2016年08月07日 | 免费|
版权声明
信息都是来自互联网,都给出了原文的链接,如果侵权,请联系我们,我们负责删除。
出品
历史周刊链接