AWS 宣布推出 AWS Glue DataBrew
西雅图--今天,Amazon.com, Inc. (NASDAQ:AMZN) 旗下公司 Amazon Web Services, Inc. (AWS) 宣布全面推出 AWS Glue DataBrew,这是一种新的可视化数据准备工具,可为客户提供支持无需编写代码即可清理和规范化数据。自 2016 年以来,数据工程师一直使用 AWS Glue 来创建、运行和监控提取、转换和加载 (ETL) 作业。 AWS Glue 提供基于代码和可视化界面,并为客户显着简化了在云中提取、编排和加载数据的过程。数据分析师和数据科学家想要一种更简单的方法来清理和转换这些数据,这就是 DataBrew 提供的服务,该服务允许直接从 AWS 数据湖、数据仓库和数据库进行数据探索和实验,而无需编写代码。 AWS Glue DataBrew 为客户提供超过 250 种预构建的转换,以自动执行数据准备任务(例如过滤异常、标准化格式和更正无效值),否则这些任务需要数天或数周才能编写手动编码的转换。准备好数据后,客户可以立即开始使用 AWS 和第三方分析和机器学习服务来查询数据和训练机器学习模型。使用 AWS Glue DataBrew 没有前期承诺或成本,客户只需为在数据集上创建和运行转换付费。要开始使用,请访问 。
“数据湖是我们分析战略的关键部分。我们面临的挑战之一是无法在将数据摄取到我们的数据湖之前轻松探索数据”
为分析和机器学习准备数据涉及几个必要且耗时的任务,包括数据提取、清理、规范化、加载以及大规模 ETL 工作流的编排。为了大规模提取、编排和加载数据,精通 SQL 或 Python 或 Scala 等编程语言的数据工程师和 ETL 开发人员可以使用 AWS Glue。 ETL 开发人员通常更喜欢现代 ETL 工具中常见的可视化界面,而不是编写 SQL、Python 或 Scala,因此 AWS 最近推出了 AWS Glue Studio,这是一种新的可视化界面,可帮助编写、运行和监控 ETL 作业,而无需编写任何代码。一旦数据被可靠地移动,底层数据仍然需要由在业务线中运作并了解数据上下文的数据分析师和数据科学家进行清理和规范化。为了对数据进行清理和规范化,数据分析师和数据科学家要么在 Excel 或 Jupyter Notebooks 中处理小批量数据,这些数据无法容纳大型数据集,要么依靠稀缺的数据工程师和 ETL 开发人员编写自定义代码来执行清洁和规范化转换。为了发现数据中的异常,技术高超的数据工程师和 ETL 开发人员会花费数天或数周时间编写自定义工作流,以从不同来源提取数据,然后对数据进行多次旋转、转置和切片,然后才能与数据分析师进行迭代或数据科学家来识别和修复数据质量问题。在开发了这些转换之后,数据工程师和 ETL 开发人员仍然需要安排自定义工作流持续运行,以便可以自动清理和规范新传入的数据。每次数据分析师或数据科学家想要更改或添加转换时,数据工程师和 ETL 开发人员都需要重新提取、加载、清理、规范化和编排数据准备任务。这个迭代过程可能需要数周到数月才能完成;因此,客户花费了多达 80% 的时间来清理和规范化数据,而不是实际分析数据并从中提取价值。
AWS Glue DataBrew 是 AWS Glue 的可视化数据准备工具,它允许数据分析师和数据科学家使用交互式、点击式可视化界面清理和转换数据,而无需编写任何代码。借助 AWS Glue DataBrew,最终用户可以直接从其 Amazon Simple Storage Service (S3) 数据湖、Amazon Redshift 数据仓库以及 Amazon Aurora 和 Amazon Relational Database Service (RDS) 数据库轻松访问和直观地探索整个组织中的任何数据量。客户可以从 250 多种内置函数中进行选择,以组合、旋转和转置数据,而无需编写代码。 AWS Glue DataBrew 建议执行数据清理和规范化步骤,例如过滤异常、将数据规范化为标准日期和时间值、生成用于分析的聚合以及更正无效、错误分类或重复的数据。对于复杂的任务,例如将单词转换为公共基础词或词根(例如将“yearly”和“yearlong”转换为“year”),AWS Glue DataBrew 还提供使用自然语言处理 (NLP) 等高级机器学习技术的转换。然后,用户可以将这些清理和规范化步骤保存到工作流(称为配方)中,并自动将它们应用于未来的传入数据。如果需要对工作流程进行更改,数据分析师和数据科学家只需更新配方中的清理和规范化步骤,它们就会在新数据到达时自动应用于新数据。 AWS Glue DataBrew 将准备好的数据发布到 Amazon S3,这使客户可以轻松地立即将其用于分析和机器学习。 AWS Glue DataBrew 是无服务器且完全托管的,因此客户无需配置、预置或管理任何计算资源。
“AWS 客户正在以前所未有的速度使用数据进行分析和机器学习。但是,这些客户经常告诉我们,他们的团队在与数据准备相关的无差别、重复和平凡的任务上花费了太多时间,”AWS 数据库和分析副总裁 Raju Gulabani 说。 “客户喜欢 AWS Glue 等基于代码的数据准备服务的可扩展性和灵活性,但他们也可以从允许业务用户、数据分析师和数据科学家在不编写代码的情况下独立地可视化探索和试验数据中受益。 AWS Glue DataBrew 具有易于使用的可视化界面,可帮助所有技术级别的数据分析师和数据科学家理解、组合、清理和转换数据。”
AWS Glue DataBrew 现已在美国东部(弗吉尼亚北部)、美国东部(俄亥俄)、美国西部(俄勒冈)、欧洲(爱尔兰)、欧洲(法兰克福)、亚太地区(悉尼)和亚太地区(东京)全面推出,即将在其他地区推出。
总部位于东京的 NTT DOCOMO 是日本最大的移动服务提供商,为超过 8000 万客户提供服务。 NTT DOCOMO 营销平台规划部总经理 Takashi Ito 表示:“我们的分析师分析和查询各种结构化和非结构化数据,以便更好地了解使用模式。” “AWS Glue DataBrew 提供了一个可视化界面,使我们的技术和非技术用户能够快速轻松地分析数据。其先进的数据剖析功能有助于我们更好地了解我们的数据并监控数据质量。 AWS Glue DataBrew 和其他 AWS 分析服务使我们能够简化工作流程并提高生产力。”
bp 是全球最大的综合能源公司之一。 “数据湖是我们分析战略的关键部分。我们面临的挑战之一是无法在将数据摄取到我们的数据湖之前轻松探索数据,”bp 数据与分析平台架构总监 John Maio 说。 “AWS Glue DataBrew 具有复杂的数据分析功能和一组丰富的内置转换。这使我们的数据工程师能够轻松地在可视界面中探索新数据集并进行修改,以优化摄取并允许分析师为他们的分析解决方案塑造数据。我们将 AWS Glue DataBrew 视为帮助我们更好地管理数据平台和提高数据管道效率的一种方式。”英威达是科赫工业的子公司,是世界上最大的化学中间体、聚合物和纤维综合生产商之一。 “数据对于优化我们的制造流程至关重要。我们面临的挑战之一是确保我们拥有一个干净的数据湖,可以作为我们分析和机器学习应用程序的真实来源,”英威达分析和云计算负责人 Tanner Gonzalez 说。 “摄取到我们数据湖中的数据通常包含重复值、不正确的格式和其他缺陷,这些缺陷使其难以以原始形式使用。 Amazon AWS Glue DataBrew 将允许我们的数据分析师直观地检查大型数据集、清理和丰富数据以及执行高级转换。 AWS Glue DataBrew 将使我们的分析师和数据科学家能够执行高级数据工程活动,让他们可以自由探索数据并减少获得新见解的时间。”
关于亚马逊网络服务
14 年来,Amazon Web Services 一直是世界上最全面、应用最广泛的云平台。 AWS 为计算、存储、数据库、网络、分析、机器人、机器学习和人工智能 (AI)、物联网 (IoT)、移动、安全、混合、虚拟和增强现实(VR 和 AR)提供超过 175 项功能齐全的服务)、媒体和应用程序开发、部署和管理,来自 24 个地理区域内的 77 个可用区 (AZ),并已宣布计划在印度、印度尼西亚、日本、西班牙和瑞士再增加 15 个可用区和 5 个 AWS 区域。数以百万计的客户(包括发展最快的初创公司、最大的企业和领先的政府机构)信任 AWS 来支持他们的基础设施、变得更加敏捷并降低成本。
关于亚马逊
亚马逊遵循四项原则:以客户为中心而非以竞争对手为中心、对发明的热情、对卓越运营的承诺以及长期思考。客户评论、一键购物、个性化推荐、Prime、亚马逊物流、AWS、Kindle Direct Publishing、Kindle、Fire 平板电脑、Fire TV、亚马逊 Echo 和 Alexa 是亚马逊率先推出的一些产品和服务。
特别声明:以上文章内容仅代表作者本人观点,不代表ESG跨境电商观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与ESG跨境电商联系。
二维码加载中...
使用微信扫一扫登录
使用账号密码登录
平台顾问
微信扫一扫
马上联系在线顾问
小程序
ESG跨境小程序
手机入驻更便捷
返回顶部