michelangelus——Fotolia
Apache Spark的云版本提供了简单性
2015年Spark Summit宣布,数据科学家和其他用户很快将有两种云托管的选择来运行大数据框架。本期播客将深入探讨这一问题。
大新闻来自引发2015年峰会在旧金山举行的一次会议上,Databricks公司发布了Apache Spark框架的云托管实现大数据处理引擎。
在本期的Talking Data播客中,我们将讨论为什么这一消息吸引了如此多数据工程师和数据科学家的注意,以及它与数据处理的未来有何关联。
运行像这样的大数据框架有一些明显的好处云中的火花。用户可以确保他们在最新的硬件上运行他们的工作,他们不需要投资很快就会过时的技术,并且一些管理Spark集群的技术上比较棘手的方面由供应商来为他们解决。Spark有时被认为是数据管理专业人员的一种技术,但Spark的完全托管实现意味着可用性数据科学家其他数据分析师现在也可以开始使用它,而不必过于依赖应用程序开发人员。
这期播客还会看看由IBM宣布对Spark进行了大量投资。与Databricks的消息类似,IBM表示将在其云平台上提供Spark的托管版本。它还承诺培训100多万人数据科学家和数据工程师通过与加州大学伯克利分校的AMPLab,以及几家培训服务公司和大规模开放在线课程网站的合作,该技术就是在那里诞生的。
一些行业观察人士认为,IBM的声明可能会给Databricks Cloud的发布蒙上阴影,这是具有讽刺意味的,因为Databricks团队是由最初开发Spark框架的工程师领导的。当然,IBM为这个概念提供了大量的资源火花加工。但它的声明最重要的方面可能仅仅是IBM已经在计算平台上盖了认可的印章,表明它相信的有效性Apache火花向前发展。听播客来了解更多关于2015年Spark峰会的关键发展的分析。
Ed Burns是SearchBusinessAnalyabo2008ytics的网站编辑。邮件他(电子邮件保护)在Twitter上关注他:@EdBurnsTT。