输入/输出
输入 | 一个输入端口,用于接收数据集。 |
---|
输出 | 一个输出端口,用于输出聚合的结果。 |
---|
参数设置
设置聚合的参数:
设置说明如下:
| 类别 | |
---|
聚合配置
| 选择字段 | 选择添加聚合的字段。 |
结果列名 | 输出结果列的列名。 |
操作 | 根据不同类型(数字型、字符型)的字段过滤出相应的聚合操作项。 字符类型字段: - Group:根据一个或多个列对结果集进行分组。
- Count:对包含非空值的列进行计数。
- DistinctCount:对列中的非重复值数目进行计数。
- Collect_list:将指定列转为一个数组返回,不去除重复数据。
- Collect_set:将指定列转为一个数组返回,去除重复数据。
数值类型字段: - Group:根据一个或多个列对结果集进行分组。
- Count:对包含非空值的列进行计数。
- DistinctCount:对列中的非重复值数目进行计数。
- Min:返回指定列的最小值。
- Max:返回指定列的最大值。
- Avg:返回指定列的平均值。
- Sum:对某个列中的所有数值求和。
- Collect_list:将指定列转为一个数组返回,不去除重复数据。
- Collect_set:将指定列转为一个数组返回,去除重复数据。
- Var:返回指定列的方差。Var:计算指定列的方差。
- Stddev:返回指定列的标准差。Stddev:计算指定列的标准差。
- Median:返回指定列的中位数。Median:计算指定列的中位数。
|
示例
1、原先示例数据源输出结果有6列,对其进行聚合,选择字段“Species”,输入结果列名“鸢尾花种类”,选择操作“Group”;选择字段“Sepal_Length”,输入结果列名“均值”,选择操作“Avg”。
2、输出结果有两列,一列对Species分组,另一列求出Sepal_Length的平均值。