首页 >> 综合精选 >

Cloudera现在是一名数据仓库玩家

2023-06-11 10:26:01 来源: 用户: 

基于Impala的Cloudera分析数据库现在是Cloudera数据仓库。在PaaS云端,它是Altus Data Warehouse。没有更多的委婉语。Cloudera参加DW比赛。大约七年前,在曼哈顿的一家酒店会议室,当时Cloudera首席执行官Mike Olson向我介绍了仍然保密的Cloudera项目Impala。我认为Olson知道他正在向转换的人讲道,因为他告诉我MapReduce计算对于企业来说是多么低效和不充分。他说,答案是Impala,这是一个与Hive兼容的数据库,它使用Hadoop进行存储,但完全绕过MapReduce进行计算和处理。

黑斑羚服装中的数据仓库。

当我深入挖掘时,我发现故事还有更多。Impala不仅仅是一个MapReduce-less Hive。实际上,Cloudera说,它实际上是一个基于MPP(大规模并行处理)的数据仓库,恰好使用HiveQL作为其语言,而HDFS(Hadoop分布式文件系统)用于存储。

另请阅读:Cloudera的Impala将Hadoop带入SQL和BI 也读到:SQL和Hadoop:它很复杂

最终,Impala首先在Cloudera自己的支持下开源,然后在Apache Software Foundation下。因此,当Impala成为通用产品时,Cloudera寻求在CDH中实施Impala的品牌名称,即自己的Hadoop / Spark发行版。该名称成为Cloudera分析数据库。

揭示

但是,请记住,Impala是一个真正的MPP数据仓库。为什么要绕过灌木?考虑到这一点,我想,Cloudera今天宣布推出Cloudera数据仓库(DW),这是一种基于Impala的产品,以前称为Cloudera Analytic Database。

在电话会议简报中,Cloudera的数据仓库产品高级总监Joydeep Das和企业营销高级总监Susan Space向我解释说,Cloudera DW不仅仅是一个品牌推广活动,原因有两个。

首先,Impala不再仅限于HDFS - 事实上,该产品可以使用AmazonS3或Microsoft的Azure Data Lake Store(ADLS)进行存储。它也可以使用Kudu,Cloudera自己的柱状存储层(有意义的命名法 - impala和kudu都是羚羊的种类)。

另请阅读:Impala,Kudu和Apache Incubator为期四个月的Big Data狂热

当您添加其他Cloudera和Hadoop生态系统组件(如Sqoop,Flume,Hue和Hive本身)时,您就会明白为什么Cloudera认为它拥有适用于现代数据仓库的端到端解决方案。

云中

头(节点)

的S3和ADLS兼容性也意味着Cloudera DW可以在云中运行 - 事实上,只要您不介意这样做,它就能够在云中运行一段时间使用云虚拟机的基础架构即服务(IaaS)基础。但Cloudera为Hive和Spark提供了一个平台即服务(PaaS)云产品,名为Altus。那么为什么不添加DW呢?

实际上,Cloudera正在这样做,引入了一个名为Cloudera DW的PaaS版本,等待它... Altus Data Warehouse。与IaaS上的Cloudera DW一样,Altus DW将使用云存储层,允许单独扩展计算和存储......但新的PaaS产品还将减轻客户必须配置和管理基础架构的麻烦。

还是有点惶恐?

在我与Cloudera的简报中,我了解到该公司并未针对企业数据仓库(EDW)方案中的Cloudera / Altus DW产品。相反,Das告诉我,这些产品的目标是数据集市式的实施,无论是部门还是基于场景的实施。

Cloudera认为,上述三个类别的实施是市场增长的地方。我可能同意,并认为针对他们并非不明智。但我仍然感到震惊的是,即使将产品重新命名为数据仓库,Cloudera仍然不再强调将该产品用作EDW。

然而,无论言辞如何,上述情景都在云数据仓库公司的雷达上,如雪花,亚马逊(带有其Redshift产品),微软(带有Azure SQL数据仓库)和谷歌(带有BigQuery)。因此,无论我们是在讨论市场还是仓库,Cloudera(开创性的Hadoop分销商)现在都是关系数据仓库竞争者。

  免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!

 
分享:
最新文章