漫谈: 在大数据体系中, Doris的定位是什么?

70人浏览 / 0人评论

Doris是基于MPP原理的一个优秀的OLAP引擎,  基于笔者的使用经验看, Doris适合基于计算平台的计算结果, 输出多维分析、报表、大屏等数据

 

途中Doris可以被MySQL替换吗?

从设计目标看, Doris是一个分析型数据库, 重点在海量数据分析, 在于充分利用集群中全部服务器资源计算. 对于数据的可靠性、事务性、查询性能等不要求. MySQL是一个关系型数据库, 重点在于在线事物、持久化、可靠性等. 所以设计时有redo log, bin log, undo log等.

在上图中,

  • 如果计算平台计算彻底, 通常结果万条以下, 直接将最终的结果计算完成, 那这里我觉得可以替换为Mysql
  • 如果计算平台hive, flink做了初步的数据聚合, 计算结果是百万、千万、亿..., 并且需要各个表join才能出结果的情况, 此时选择Doris更合适. 此时的Doris能为用户带来更灵活的出数方式和维度, 不同维度、指标数据的排列组合, 方才是分析之道.

总结, 二者是不同目标的产品, 不存在替换与否的说法, 只是场景是否合适.

Doris是MPP的, 那可以替换hive或者flink或者spark做计算吗?

计算我个人理解分为两种

  • ETL, 非结构化到结构化. 或者带有逻辑的清洗工作
  • 聚合运算: 结构化的数据聚合出几行几列的统计结果

Doris可以做计算, 从目前发布的最新版Apache Doris 0.13.0 (incubating) Release来看, Doris做计算(ETL)性能极差, 结构化的聚合运算才是Doris擅长.

全部评论