数据挖掘-孤立森林

概述

孤立森林是一个异常检测算法节点，需要配合特征选择、训练、预测节点使用（异常检测算法为无监督学习，不需要评估节点）。孤立森林对正常数据进行采样，训练时随机生成决策树对数据进行划分。在预测未知数据时，决策树划分出某单个数据点需要的划分次数越少，对应的异常分数越高，该数据点为异常数据的概率越大。
孤立森林适用于用已知为正常的数据作为训练数据，然后对未知的新数据作预测，检测新数据中的异常数据。

参数设置

参数名称	说明	备注
树的个数	生成的决策树的数量	树的数量，整数
子采样集大小	生成每个决策树时用的子数据集的大小	整数，推荐用2的n次幂
异常值阈值	用于判别异常值的阈值	异常分数超过这个值的会被判别为异常值

示例

如图，对数据进行标准化后接入特征选择等节点，创建模型的训练预测流程图。运行完成后输出结果如下：

异常数据会在isOutlier列被标记为-1。

注意事项

不同的数据、子采样集大小会产生不同区间的异常值分数，需要根据情况选择合适的异常值阈值。

关注我们

服务支持

页面树结构

数据挖掘-孤立森林

概述

参数设置

示例

注意事项