1 概述

汇总依据可以对一组数据进行汇总,一般使用汇总后的值进行再计算。
汇总依据包括:求和,平均值,计数,去重计数,最大值,最小值,中位数、样本标准差、总体标准差、样本方差、总体方差、百分位数(如5、10、25、50、75、90、95)、属性,以满足用户不同的需求。

数值型字段汇总依据默认:合计,非数值字段默认:计数。



指标模型的原子指标的汇总依据也支持:求和,平均值,计数,去重计数,最大值,最小值,中位数、样本标准差、总体标准差、样本方差、总体方差、百分位数(如5、10、25、50、75、90、95)、属性。详细可查看:创建指标


2 功能简介

在数据模型中,原子度量的汇总依据包括基础汇总依据更多(或者说高级的)汇总依据。具体来说:

选项汇总依据注意说明
基础汇总依据包括求和、最大值、最小值、平均值、计数以及唯一计数。这些是最常用的汇总方式,目前所有库都支持。
更多或者说高级的汇总依据






中位数、样本标准差、总体标准差、样本方差、总体方差,以及特定的百分位数(如5、10、25、50、75、90、95)、属性。

1、这些汇总依据目前只能在数据模型引擎V2.0才能使用,如果没有开启数据模型引擎V2.0,选项是禁用状态。

2、汇总依据都是通过数据库本身的函数来执行的,是基于数据库本身的算法得出的; 只有“属性”是通过计算列ATTR函数实现的; 如果有一些数据库本身是不支持的,比如mysql不支持“中位数”,那么即使开启了数据模型引擎V2.0仍然无法使用。

3、目前已适配的库: PostgreSQL、 ClickHouse、StarRocks、SelectDB、MonetDB、HANA、mysql、oracle 、SQLServer、hana;没有适配的库无法使用。

4、百分位在不同的数据库中不同的数字会显示不一样的结果比如mysql、oracle中是不一样的结果。

5、当数值字段被转换为度量时,它支持上述的所有基础和更多汇总依据。然而,对于非数值字段转换成度量的情况,其支持的基础汇总依据仅限于最大值、最小值、计数和唯一计数、属性;需要注意的是,在报表层面上,非数值字段转成成度量切换汇总依据还没支持最大值、最小值、属性,即使在模型中把非数值字段设置成了最大值、最小值、属性在报表层也不会显示该字段。

中位数数据库中对应函数MEDIAN()(有的数据库可能不叫这个名称)。 MEDIAN返回所有记录中的中位数。只能用于数字字段。是基于数据库本身的算法得出的。
样本标准差

例如在mysql数据库中对应函数STDDEV_SAMP()。   STDDEV_SAMP基于群体样本返回当前条件下所有值的统计标准差,是基于数据库本身的算法得出的。

总体标准差例如在mysql数据库中对应函数STDDEV_POP()。 STDDEV_POP基于有偏差群体返回当前条件下所有值的统计标准差,是基于数据库本身的算法得出的。
样本方差

例如在mysql数据库中对应函数VAR_SAMP()。VAR_SAMP基于群体样本返回当前条件下所有值的统计方差,是基于数据库本身的算法得出的。

总体方差

例如在mysql数据库中对应函数VAR_POP()。VAR_POP对整个群体返回当前条件下所有值的统计方差,是基于数据库本身的算法得出的。

百分位

数据库中对应函数PERCENTILE()(有的数据库可能不叫这个名称)。PERCENTILE返回当前条件下与指定数字对应的百分位处的值, 是基于数据库本身的算法得出的。

属性

产品封装的计算列函数ATTR。如果查询结果中所有行仅具有单个相同值,则返回原始值,否则返回*。


2 示例说明

2.1 中位数、样本标准差、样本方差等示例

1、以产品内置的"订单模型"为例,查看各个区域、省份、城市销售额、销售额样本标准差、销售额样本方差等数据情况。

2、基于订单模型创建交互仪表盘,如下图:

3、如果想要查看小计,可以显示分类汇总,如下图显示各个城市的小计:

4、小计的计算方法:不是列相加,是根据数据库原始记录进行统计,如上图,统计华北区域、河北省下面所有城市“中位数、样本标准差、总体标准差、样本方差、总体方差、百分位”的小计:是根据发货区域、省份进行统计的。


2.2 汇总依据:属性 (ATTR)

属性是 Smartbi中一种特殊类型的汇总依据。它能够返回字段中的唯一值,如果字段中有多个不同的值,则返回星号(*),表示该字段包含多个不同的值。

目前在报表层,非数值字段转成成度量切换汇总依据暂时还没有支持属性。并且数据模型的非数值字段转成成度量如果汇总依据是属性也不会在报表层显示。

示例场景1:

假设我们有一个销售数据集,其中包含了不同客户的订单信息。如果我们想要查看某个特定产品的平均售价,并且知道该产品在整个数据集中只由一家供应商提供,那么我们可以使用SupplierName汇总依据为属性来确认这一点。如果结果返回的是具体的供应商名称,而不是星号,这说明我们的假设成立;反之,则说明存在多个供应商。

示例场景2:单独求出北京的利润率。

1、基于产品内置的订单模型把维度“发货城市” 变为度量,并把汇总依据设为”属性“:

2、创建计算度量:北京的利润率,表达式如下图:

3、创建好之后,保存数据模型并且去创建仪表盘,可以看到只显示了北京的利润率。


3  “更多”汇总依据数据库支持情况

目前更多”汇总依据“数据库适配情况如下表格:

如果不在表格上数据库,有一些原本库没有对应的函数,所以不支持,详细的信息可用AI大模型上搜索。

功能/数据库

中位数

百分位

样本方差

总体方差

样本标准差

总体标准差

属性

MySQL

不支持

不支持

支持

支持

支持

支持

支持

Oracle

支持

支持

支持

支持

支持

支持

支持

SQLServer

不支持

不支持

支持

支持

不支持

不支持

支持

ClickHouse_18

支持

不支持

支持

支持

支持

支持

支持

ClickHouse_22_8

支持

支持

支持

支持

支持

支持

支持

PostgreSQL

不支持

支持

支持

支持

支持

支持

支持

StarRocks

不支持

支持

支持

支持

支持

支持

支持

SelectDB(信创版支持)

不支持

支持

支持

支持

支持

支持

支持

MonetDB

支持

支持

支持

支持

支持

支持

支持

Hana

支持

支持

支持

支持

支持

支持

支持

DaMeng

支持

不支持

支持

支持

支持

支持

支持

GBase8T

/Gbase8SV88

不支持

不支持

不支持

不支持

不支持

支持

支持

GBase8S_V84

不支持

不支持

不支持

不支持

不支持

支持

支持

GoldenDbMySQL

不支持

不支持

支持

支持

支持

支持

支持

Greenplum

支持

支持

支持

支持

支持

支持

支持

HSQL

不支持

不支持

支持

支持

支持

支持

支持

Impala

不支持

不支持

支持

支持

支持

支持

支持

KingBase

不支持

支持

支持

支持

支持

支持

支持

KingBase

Analytics

支持

支持

支持

支持

支持

支持

支持

MariaDB

不支持

不支持

支持

支持

支持

支持

支持

MogDB

支持

支持

支持

支持

支持

支持

支持

OceanBase

不支持

不支持

支持

支持

支持

支持

支持

OceanBase_Oracle

支持

支持

支持

支持

支持

支持

支持

PanweiDB

支持

支持

支持

支持

支持

支持

支持

Presto

不支持

支持

支持

支持

支持

支持

支持

ShenTong

支持

不支持

不支持

不支持

支持

不支持

支持

SinoDB

不支持

不支持

不支持

不支持

不支持

支持

支持

Sybase

不支持

支持

支持

支持

支持

支持

支持

TiDB

不支持

不支持

支持

支持

支持

支持

支持

VastbaseG100_ORA

支持

支持

支持

支持

支持

支持

支持

VastbaseG100_PG

支持

支持

支持

支持

支持

支持

支持

Vertica

不支持

不支持

支持

支持

支持

支持

支持

YMatriX

支持

支持

支持

支持

支持

支持

支持