页面树结构

版本比较

标识

  • 该行被添加。
  • 该行被删除。
  • 格式已经改变。

概述

聚合可根据用户的需求对数据进行各种聚合运算,包括分组、求均值、最大值、最小值、求和、统计、去重统计等等。用户可以根据不同数据类型使用不同的聚合函数以及生成的新特征名称。


面板
borderColor#BBBBBB
bgColor#F0F0F0
borderWidth1
borderStylesolid

目录


输入/输出

输入

一个输入端口,用于接收数据集。

输出

一个输出端口,用于输出聚合的结果。

参数设置

设置聚合的参数:

设置说明如下:

参数
类别
说明
聚合配置

选择字段

选择添加聚合的字段。

结果列名输出结果列的列名。
操作

根据不同类型(数字型、字符型)的字段过滤出相应的聚合操作项。

字符类型字段:

    • Group:根据一个或多个列对结果集进行分组。
    • Count:对包含非空值的列进行计数。
    • DistinctCount:对列中的非重复值数目进行计数。
    • Collect_list:将指定列转为一个数组返回,不去除重复数据。
    • Collect_set:将指定列转为一个数组返回,去除重复数据。

数值类型字段:

    • Group:根据一个或多个列对结果集进行分组。
    • Count:对包含非空值的列进行计数。
    • DistinctCount:对列中的非重复值数目进行计数。
    • Min:返回指定列的最小值。
    • Max:返回指定列的最大值。
    • Avg:返回指定列的平均值。
    • Sum:对某个列中的所有数值求和。
    • Collect_list:将指定列转为一个数组返回,不去除重复数据。
    • Collect_set:将指定列转为一个数组返回,去除重复数据。
    • Var:返回指定列的方差。Var:计算指定列的方差。
    • Stddev:返回指定列的标准差。Stddev:计算指定列的标准差。
    • Median:返回指定列的中位数。Median:计算指定列的中位数。

示例

1、原先示例数据源输出结果有6列,对其进行聚合,选择字段“Species”,输入结果列名“鸢尾花种类”,选择操作“Group”;选择字段“Sepal_Length”,输入结果列名“均值”,选择操作“Avg”。

2、输出结果有两列,一列对Species分组,另一列求出Sepal_Length的平均值。