页面树结构
转至元数据结尾
转至元数据起始

概述

新版本的数据清洗合并了旧版本中的空值处理、值替换、数据清理节点。通过该节点,可以实现以下几点功能:

(1)空值替换为均值、最大频数或者用户自定义的值等,实现空值的填充或者过滤;

(2)移除字符串中空格、标点符号、字母、数字等不必要的字符,或设置大小写方式。

输入/输出

输入

一个输入端口,用于接收数据集。

输出

一个输出端口,用于输出数据清洗的结果。


参数设置

设置异常值处理的参数:

 

设置说明如下:

参数说明

选择字段

用于选择进行数据清理的字段:

检测方法

数值型列

  • 将空值替换为最大值:
  • 将空值替换为最小值:
  • 将空值替换为平均值:
  • 将空值替换为中位数:
  • 删除空值占比高于百分比的列
  • 将空值替换为出现频率最高的值
  • 将空值替换为指定值
  • 过滤整行空值
  • 值替换

非数值型列

  • 删除空值占比高于百分比的列
  • 将空值替换为出现频率最高的值
  • 将空值替换为指定值
  • 过滤整行空值
  • 移除所有空格
  • 移除首尾空格
  • 移除标点符号
  • 移除数字
  • 移除字母
  • 设为小写
  • 设为大写
  • 首字母大写
  • 值替换
  • 字符串替换
  • 正则替换

指定值

被填充的值或者检测方法指定的百分比

原值

已选择列中原始的数据值

在Smartbi中空值默认显示为null;

空白单元格表示空格字符

  • 无标签