孤立森林是一个异常检测算法节点,需要配合特征选择、训练、预测节点使用(异常检测算法为无监督学习,不需要评估节点)。孤立森林对正常数据进行采样,训练时随机生成决策树对数据进行划分。在预测未知数据时,决策树划分出某单个数据点需要的划分次数越少,对应的异常分数越高,该数据点为异常数据的概率越大。
孤立森林适用于用已知为正常的数据作为训练数据,然后对未知的新数据作预测,检测新数据中的异常数据。
参数名称 | 说明 | 备注 |
树的个数 | 生成的决策树的数量 | 树的数量,整数 |
子采样集大小 | 生成每个决策树时用的子数据集的大小 | 整数,推荐用2的n次幂 |
异常值阈值 | 用于判别异常值的阈值 | 异常分数超过这个值的会被判别为异常值 |
如图,对数据进行标准化后接入特征选择等节点,创建模型的训练预测流程图。运行完成后输出结果如下:
异常数据会在isOutlier列被标记为-1。
不同的数据、子采样集大小会产生不同区间的异常值分数,需要根据情况选择合适的异常值阈值。