Azure上CDW提供经济高效且可扩展的分析Azure上CDW提供经济高效且可扩展的分析Cloudera数据仓库(CDW)服务是一种托管数据仓库,可在容器化体系结构上运行Cloudera的强大引擎。它是新Cloudera数据平台或CDP的一部分,该平台已于今年年初在Microsoft Azure上启用。CDW服务可让您......
Cloudera数据仓库(CDW)服务是一种托管数据仓库,可在容器化体系结构上运行Cloudera的强大引擎。它是新Cloudera数据平台或CDP的一部分,该平台已于今年年初在Microsoft Azure上启用。CDW服务可让您满足SLA,在零摩擦的情况下使用新的用例并最大程度地降低成本。今天,我们很高兴宣布CDW在Microsoft Azure上已全面上市。该服务可通过Azure市场作为CDP的一部分使用。
与我们的客户讨论数据仓库时,经常会出现三种情况。企业永远无法尽快获得所需的东西。通常会错过SLA,尤其是随着用户数量和用例的增长。而且,即使不是完全强制性的命令,也存在向公共云迁移的压力。
尽管有许多因素导致了这些情况,但是对于如何处理它只有一个答案:CDW。这篇文章描述了我们的客户所面对的代表示例,并解释了CDW如何解决这些问题。它还着眼于该解决方案中几个Azure服务(例如Azure Kubernetes服务和ADLS Gen2)所起的关键作用。
我们将检查一家制造用于飞机的设备的公司。像许多企业一样,有大量的分析师在研究精选的数据,业务线(LOB)经理专注于卓越的运营,而数据科学家则在新数据集中寻找竞争优势。但是,与我们的许多客户一样,也存在挑战,如以下四个主角所示:
1.Ramesh的业务分析人员团队可生成运行业务的报告。但是随着团队的成长,仓库满足SLA和保持预算的能力下降了。
a)CDW为Ramesh提供了经济高效、可扩展的报告和仪表板,因此它们的SLA不会被错过。
2.Kelly是一位数据架构师,需要运行临时探索工作负载以进行活动分析。但是,由于存在与SLA绑定的工作负载引起争用的风险,因此不允许她使用仓库。
a)CDW使Kelly可以处理仓库中的数据,而不会影响其他工作负载。
3.数据科学家奥利维亚(Olivia)无法在仓库中获得探索新供应链数据的能力。因此,错过了进行优化的机会。
a)CDW为Olivia提供了无限的计算资源,可以在几分钟之内将对象存储中的任何数据扔掉。
4.Mariana是一位运营经理,需要实时查看大容量传感器数据以及将其与客户体验数据结合在一起的能力。当前的仓库无法处理这种数量或多样性,因此Mariana必须使用宝贵的预算来建造另一个筒仓。
a)CDW为Mariana提供了一个单一平台,该平台可以执行传统的数据仓库以及需要不同技术的新用例……同时保留每个数据集的一个副本并利用共享的元数据和安全性。
在下面的部分中,我们将进一步解释CDW和Azure如何提供这些功能。
能力1–高效、可伸缩的报表和仪表板数据管理
Ramesh和他的业务分析团队全天不间断地发布报告。该业务基于他的团队提供的洞察力,尤其是与客户情绪有关的洞察力,鉴于最近的差旅支出下降,这一点至关重要。因此,他们不能错过SLA,否则企业会盲目发展。无论数据量和分析师人数在增长,即使预算在缩减,也必须交付报告。
每当没有查询时,CDW虚拟仓库(VW)中的计算资源将保持暂停状态,不会产生任何成本。Ramesh上班后的第一个查询在早上到达时,大众会自动启动。如果由于Ramesh的许多同事都在早上晚些时候上线而导致查询负载稍后增加到饱和点,则VW将检测到此情况并提供更多计算资源来处理负载,同时保持性能。这称为自动缩放。一旦负载下降到较低的水平(他的同事们都在没有他的情况下共进午餐),那么这些额外的计算资源就被释放了,因此不再产生成本。最后,在Ramesh最终离开工作并且查询全部结束的一天结束时,大众汽车自动暂停自身,再次下降为免费状态。
CDW可以使用Azure Kubernetes服务(AKS)快速提供计算Pod,并在不再需要时释放它们,从而提供此按需付费的功能。这些Pod使用StandardE16v3计算实例大小(16 vCPU,128 GiB RAM,400 GiB本地SSD)。AKS最终在后台使用VM缩放集来启用和控制自动缩放。
一旦Ramesh的团队运行了查询,他们就可以通过服务中内置的三个缓存级别在很大程度上满足其SLA:
数据缓存–首次从ADLS读取数据时,会将其缓存在使用该数据的计算节点上。随后需要相同数据的查询从本地缓存(而不是ADLS)获取数据。Hive LLAP和Impala VW均支持此缓存类型。
结果集缓存–将结果发快递回客户端后,结果集也将缓存在HiveServer2节点上的存储中。如果再次到达完全相同的查询(这在仪表板和BI用例中很常见),则直接从HS2缓存中提供结果。当前,只有Hive LLAP VW支持此缓存类型。
物化视图–您可以定义物化视图(MV)的结构和内容,Hive将从基表中选择数据填充其中。对于后续访问基表的查询,如果Hive检测到可以从MV中提供数据,则它将透明地重写查询以使用该查询,从而避免了再次扫描基表,联接数据,对其进行汇总的需求等等。目前仅Hive LLAP大众汽车支持此功能。
通过这种级别的智能和性能优化,Ramesh和团队可以随着数据量和业务需求的增长而增长,而仅需支付实际工作所需的资源。
能力2–临时探索以补充SLA约束的工作负载
首席营销官要求数据架构师Kelly提供量化近期营销活动影响的指标。仓库具有所需的数据,但也正在满负荷运行。凯利(Kelly)将需要使用多种查询类型来探索数据,并且不确定需要多长时间或她需要多少CPU和内存。在这样模糊的要求下,由于存在影响SLA约束的操作工作负载的风险,IT不允许她在数据仓库上执行此工作。她的查询可能会耗尽CPU资源,并从缓存中逐出所有热数据。因此,CMO没有度量标准来帮助理解其营销投资的影响。
借助CDW,Kelly可以拥有自己的计算环境,该环境可以查询仓库数据,但与其他受SLA约束的工作负载完全隔离。CDW可以通过与存储和计算层分开管理数据上下文(表定义,授权策略,元数据)来做到这一点。这样,多个计算环境都可以共享同一数据上下文。Cloudera共享数据体验(SDX)是为此托管上下文提供的术语。
SDX的关键启用功能是能够将元数据和安全规则可靠地存储在持久数据库中。为此,我们使用Gen5 4 vCore,内存优化选项将Azure数据库用于PostgreSQL。这种托管的Postgres服务易于集成,高度可用且管理起来很简单。使用此作为元数据和其他持久状态的单一事实来源,CDW可以安全地并行运行您的工作负载所需的多个计算环境。
当在这种情况下需要计算资源时,CDW提供的另一种方法是将您的工作负载从本地CDH或HDP群集扩展到在公共云中运行的CDP。在这种情况下,工作负载管理器工具用于分析您的内部工作负载,确定适合突发的候选工作负载(在这种情况下,临时探索查询会干扰SLA绑定查询),然后将数据和元数据复制到CDP。现在可以在您的云环境中安全地运行工作负载。如果这样做,您可能希望使用Microsoft ExpressRoute来确保良好的性能和一致的数据移动延迟。
功能3–快速配置以跟上业务速度
数据科学家奥利维亚(Olivia)偶尔需要使用尚未在仓库中的新数据文件来检验供应链优化的假设。但是中央IT部门从来没有计划过这样的突发性工作负载,也没有资源去做一个新的ETL项目,以将这些新数据(其价值尚未得到验证)整合到仓库中。这导致错过了降低供应链成本并降低其风险的机会。
如果使用CDW,Olivia将能够简单地启动一个新的Hive LLAP VW,该过程只需几分钟,然后在数据文件上创建一个外部表定义,以便她可以开始查询它们。使用Hive,您可以本地查询半结构化文本文件和定界文件(例如CSV或TSV)。有标准的开源库可查询JSON以及其他文件格式。而且,您始终可以为自定义格式定义自己的SerializerDeserializer(SerDe)。即使使用这些基本文件格式,Hive仍将数据转换为其列式内存格式,以从缓存和IO效率优化中受益。
快速提供对对象存储中任意数据的查询功能的这种功能可提供极大的灵活性和灵活性。您可以快速探索新数据和使用新用例,以跟上业务发展的速度。但是,由于可扩展的高性能ADLS Gen2服务,这才有可能。在Hadoop的ABFS连接器提供了这个关键的结合点,桥接已存储在ADLS与第二代在Cloudera公司提供分析功能的生态系统中的企业数据。
功能4–利用共享资源的新用例的多模式分析
制造LOB运营经理Mariana受其首席运营官的委托,通过避免计划外的设备停机时间来提高产量。她估计,这将需要每秒存储100万个传感器读数,保留15个月的数据以适应历史趋势分析,对数据运行任意SQL的能力以及访问原始数据和聚合的需求。简而言之,她需要一个高度可扩展的实时数据仓库,该仓库可提供时间序列功能而又不会造成资金损失。
当前的数据仓库团队无法接近这些性能要求,并且他们的团队之一使用的传统时间序列数据库无法处理如此长的历史记录或执行任意SQL。借助CDP平台,Mariana可以在一小时内站起来支撑该应用程序的基础架构,在这种情况下,将使用具有标准本地冗余SSD存储的Azure Compute VM。Cloudera的时间序列产品主要依赖于Apache Kudu存储引擎和Apache Impala进行SQL查询。可以使用Apache NiFi从Azure Event Hub或Kafka或许多其他受支持的源之一中提取数据。强大的Cloudera引擎与强大的Azure基础架构的结合意味着可以满足Mariana的雄心勃勃的要求。
她为自己的首席运营官做得非常出色,以至于首席执行官注意到了这一点,并要求她现在通过制造更可靠的飞机发动机来提高客户(即飞机乘客)的满意度。但是仓库无法实时了解工厂车间中运行的机器,因此没有简单的方法可以将数据与客户体验数据集成在一起并进行关联。因此,她不知道在工厂要进行哪些调整以提高质量。
借助Cloudera,Mariana可以运行将时间序列应用程序中的数据与仓库中的其他数据结合起来的查询,以得出制造过程与客户体验之间的关联(如航班延误所示)。如上所述,这是通过SDX启用的,但是在这种情况下,由于没有允许Mariana查看客户数据中的个人身份信息(PII),因此存在更高的安全级别。因为CDP与Azure Active Directory集成在一起以获取用户的身份和组成员身份,所以它可以使用Apache Ranger强制实施复杂的基于角色或基于属性的访问控制,以在Mariana访问数据时动态屏蔽所有PII数据。她现在可以安全地完成自己的工作,并通过尽自己的职责来提高客户满意度而使CEO高兴。
使用CDW for Azure改变您的数据仓库体验
借助在Azure上运行的Cloudera Data Warehouse,您可以经济高效地扩展已整理数据的报告和仪表板,而无需等待传统上较长的配置周期。您可以在与SLA绑定的工作负载之上启用即席探索,而不会引起资源争用而丢失那些协议的风险。您可以根据需要快速配置资源,因此您总是对任何需要进行任何形式分析的业务请求都说“是”,并且可以利用共享资源充分利用针对新用例的更广泛的多模式分析范围。
特别声明:以上文章内容仅代表作者本人观点,不代表ESG跨境电商观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与ESG跨境电商联系。
二维码加载中...
使用微信扫一扫登录
使用账号密码登录
平台顾问
微信扫一扫
马上联系在线顾问
小程序
ESG跨境小程序
手机入驻更便捷
返回顶部