开源大数据周刊-第16期-白红宇

阿里云E-Mapreduce动态

1.4版本（已经发布）

1.4.1版本（正在研发）

1.5.0版本（正在研发）

1.6.0版本

该版本主要更新APIs，支持SQL 2003，支持R UDF ，增强其性能。

spark2.0统一了streaming与batch的api，引入了dataset，另外就是tungsten等性能优化，让spark成为更加优秀的分布式计算引擎。

MongoDB的快速部署，是其大受欢迎的主要原因。在其年度会议上，这个NoSQL数据库背后的公司展示了一系列的改进，包括与Spark分析的互联。

一些内存数据结构比其他数据结构来得更高效;如果充分利用Redis，Spark运行起来速度更快。

Tachyon就可以帮你让这些数据长期处于内存中并且在不同应用之间共享。

本文主要介绍如何使用Apache Spark中的DataSource API以实现多个数据源混合计算的实践。

讨论机器学习概念以及如何使用Spark MLlib来进行预测分析。

本文首先介绍了流式处理框架的设计原理、Spark Streaming 的工作原理，然后通过一个基于 Spark Streaming 编写的读取、分析、写入图片的示例帮助读者加深了解 Spark Streaming 的工作原理。

| 会议 | 地点 | 时间 | 费用 |

| --- | --- | --- | --- |

| | 北京 | 2016年8月04- 2016年8月06日 | 收费 |

| | 北京 | 2016年08月07日 | 免费|

信息都是来自互联网，都给出了原文的链接，如果侵权，请联系我们，我们负责删除。

出品