hetu-core/hetu-docs/zh/overview/use-cases.md

2.8 KiB
Raw Permalink Blame History

用例

跨源异构查询场景

RDBMS如MySQL、Oracle等、NoSQL如HBase、ES、Kafka等等数据管理系统广泛用于客户的各种应用系统中。随着数据量的增加数据管理越来越完善客户逐步基于Hive或MPPDB建立数据仓库。这些数据存储系统往往相互隔离形成相互独立的数据孤岛。数据分析师经常遇到以下问题

  1. 面对海量数据,如果不知道数据用在哪里,怎么用,就无法基于海量数据构建新的业务模型。
  2. 查询不同的数据源需要不同的连接方式或客户端运行不同的SQL方言。这些差异导致额外的学习成本和复杂的应用开发逻辑。
  3. 如果数据没有聚合,则无法对不同系统的数据执行联合查询。

可以使用openLooKeng实现RDBMS、NoSQL、Hive、MPPDB等数据仓库的联合查询。利用openLooKeng的跨源异构查询能力数据分析师可以快速分析海量数据。

跨域跨DC查询

在二级或多级数据中心场景中,例如省-市数据中心或总部-分部数据中心用户经常需要从省总部数据中心或市分部数据中心查询数据。跨域查询的瓶颈是多个数据中心之间的网络问题例如带宽不足、高时延、丢包等。因此查询时延高性能不稳定。openLooKeng是专为跨域查询设计的跨域跨DC解决方案。openLooKeng集群部署在多个DC中。DC2中的openLooKeng集群完成计算后通过网络将结果传递给DC1中的openLooKeng集群在DC1中的openLooKeng集群完成聚合计算。在openLooKeng跨域跨DC方案中计算结果在openLooKeng集群之间传递。这避免了网络带宽不足和丢包带来的网络问题在一定程度上解决了跨域查询的问题。

存储计算分离

openLooKeng本身没有存储引擎但可以查询存储在不同数据源中的数据。因此该系统是一个典型的存储计算分离系统有利于独立扩展计算和存储系统。openLooKeng存储计算分离架构适用于动态扩展集群实现资源快速弹性伸缩。

快速数据探索

客户拥有大量数据。为了使用这些数据他们通常会构建专用的数据仓库。但是这将带来额外的数据仓库维护人力成本和数据ETL时间成本。对于需要快速探索数据但又不想建设专用数据仓库的客户复制数据并加载到数据仓库费时费力。openLooKeng可以使用标准SQL定义一个虚拟数据市场通过跨源异构查询能力连接各个数据源。这样在虚拟数据市场的语义层中就可以定义出用户需要探索的各种分析任务。借助openLooKeng的数据虚拟化能力客户可以快速构建基于多种数据源的探索分析服务无需建设复杂、专用的数据仓库。