从原理到应用,从原理到应用-ESG跨境

从原理到应用,从原理到应用

来源网络
来源网络
2022-07-05
点赞icon 0
查看icon 614

从原理到应用,从原理到应用从原理到应用本次演讲的主题是谷歌云数据流:从概念到实践。数据流的概念在2014年6月的谷歌I/O大会上首次与开发者见面。同年12月,谷歌首次公布了Dataflow的Java SDK及其源代码。2015年3月初,Dataflow正式上线。作为云服务产品,DataFlow出现在Google Clo......

从原理到应用,从原理到应用




从原理到应用

本次演讲的主题是谷歌云数据流:从概念到实践。

数据流的概念在2014年6月的谷歌I/O大会上首次与开发者见面。同年12月,谷歌首次公布了Dataflow的Java SDK及其源代码。2015年3月初,Dataflow正式上线。作为云服务产品,DataFlow出现在Google Cloud产品线中,并提供了Alpha版本的试用应用。

在传统的MapReduce大数据并行处理中,单个MapReduce节点无法满足复杂的业务需求,因此大部分大数据处理都是通过MapReduce多节点流水线构建的。这需要开发人员编写额外的代码来连接多个MapReduce节点,管理每个节点的状态以及它们之间的数据传输,并维护一个大型的服务器集群。此外,大数据的实时计算也给MapReduce带来了巨大的挑战。这是谷歌开发数据流的初衷。作为Google Cloud的产品,Dataflow可以与App Engine、Compute Engine、Google Storage、Google Datastore、Google Cloud SQL云存储服务相结合,快速构建一个相对完整的实时大数据并行处理系统。数据流简化了系统开发的过程。开发者使用SDK在本地进行开发、测试和调试,并将代码提交给云服务进行测试,随时运行。数据流会自动优化用户的流处理系统,并将其分配到多个计算节点上并发执行。

用户开发的大数据系统可以从Google提供的各种存储服务和Pub/Sub服务中读取和处理数据,然后写入指定的存储服务或Pub/Sub服务中。由于谷歌的存储服务采用成熟的行业标准,用户还可以将Hadoop、Spark等产品集成到Dataflow中。

底层数据依赖于两种技术:FlumeJava和MillWheel。类似于2003年MapReduce和BigTable的概念,谷歌研究院在2010年和2013年发表的两篇论文分别介绍了FlumeJava和MillWheel。在此之前,这两个项目在谷歌内部都有一定程度的成功实践。

FlumeJava发布后,很多媒体称之为下一代MapReduce(个人觉得这个评价太高了)。FlumeJava是一个Java库,为大数据的并行处理提供了更简单的框架和工具,其底层算法模型是MapReduce。FlumeJava在更高层次上抽象了MapReduce管道的数据和流程,并提供了内置的流程优化策略。FlumeJava将数据模型抽象为PCollectionltTgt和PTableltk,Vgt两个通用数据结构,其上定义了四个操作原语:parallelDo()、groupByKey()、combineValues()和flat()。同时在这四个操作原语的基础上定义了count()、join()和top()等常用操作。与传统MapReduce和专家优化的MapReduce相比,FlumeJava在代码行、方法和执行时间上都优于传统MapReduce,与专家优化的MapReduce不相上下。也说明了通过FlumeJava,普通开发者可以在更短的时间内开发出一个专家MapReduce系统。

数据流的另一个底层技术是MillWheel,它提供了一个具有容错机制的实时数据处理模型。根据谷歌研究院公布的论文,MillWheel是一个没有提供可编程框架的模型和算法,所以目前我们没有机会了解它的代码级实现。原则上,MillWheel内置了容错机制,采用低水位线机制,避免网络延迟等因素造成的数据流顺序不一致。实时数据处理是近年来的一个热点。市场上现有的产品包括Storm、Spark Streaming、雅虎S3、Samza等。与这四家的对比表明,MillWheel基本上是这几款产品特性的集成。

了解FlumeJava和MillWheel的基本概念和原理,让我们更容易理解数据流的运行机制和特点。Dataflow可以简单的看作是两者的融合,但是我相信Google花了很多精力来优化两者的融合以及整个Google Cloud产品线。

上图是数据流的示例代码,已经开发了一个众所周知的字数统计应用程序。从代码中可以看出,编写一个基于数据流的并发大数据处理流水线更加容易和简单。Dataflow提供的SDK可以方便地将更改后的代码提交给云服务执行,并通过开发者控制台进行监控和管理。

总结:Google Dataflow是为解决传统MapReduce处理复杂业务流程的困难,满足实时数据分析需求而开发的云服务。它为开发者提供了一个SDK、工具和云服务,用于快速开发、测试、调试、生产运营和监控。它没有创造性的理论或算法模型。因为是FlumeJava和MillWheel的集成,并且可以调用Google Cloud提供的存储和Pub/Sub服务,所以可以在批处理和实时计算之间无缝切换。目前的缺陷是版本还不稳定;谷歌云本身提供的服务相对较少;发布时间还短,没有成功的商业案例。但谷歌作为直接开启大数据潮流的先行者,其提供的大数据平台仍然值得我们研究和探索。

版权声明:本文为博主原创文章,遵循CC 4.0 BYSA版权协议。转载请附上原出处和本声明的链接。

本文链接:https://blog.csdn.net/weixin 45932629/文章/详情/103315968


文章推荐
从业务上云到构建数智化驾驶舱
大品牌的ASO应该怎么做,aso品牌
初入出海赛道,国货出海赛道
成功案例  HK01 携手 Branch 推动自然互动率并提升 App 安装量,spend your life in your own way


特别声明:以上文章内容仅代表作者本人观点,不代表ESG跨境电商观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与ESG跨境电商联系。

搜索 放大镜
韩国平台交流群
加入
韩国平台交流群
扫码进群
欧洲多平台交流群
加入
欧洲多平台交流群
扫码进群
官网询盘
加入
官网询盘
扫码进群
美国卖家交流群
加入
美国卖家交流群
扫码进群
ESG跨境专属福利分享群
加入
ESG跨境专属福利分享群
扫码进群
拉美电商交流群
加入
拉美电商交流群
扫码进群
亚马逊跨境增长交流群
加入
亚马逊跨境增长交流群
扫码进群
亚马逊跨境增长交流群
加入
亚马逊跨境增长交流群
扫码进群
拉美电商交流群
加入
拉美电商交流群
扫码进群
《TikTok综合运营手册》
《TikTok短视频运营手册》
《TikTok直播运营手册》
《TikTok全球趋势报告》
《韩国节日营销指南》
《开店大全-全球合集》
《开店大全-主流平台篇》
《开店大全-东南亚篇》
《CD平台自注册指南》
《开店大全-俄罗斯篇》
通过ESG入驻平台,您将解锁
绿色通道,更高的入驻成功率
专业1v1客户经理服务
运营实操指导
运营提效资源福利
平台官方专属优惠

立即登记,定期获得更多资讯

订阅
联系顾问

平台顾问

平台顾问 平台顾问

微信扫一扫
马上联系在线顾问

icon icon

小程序

微信小程序

ESG跨境小程序
手机入驻更便捷

icon icon

返回顶部