页面树结构
转至元数据结尾
转至元数据起始

概述

词向量是表示文档的单词序列,通过训练Word2vec模型,将词语转化为向量。该模型将每个单词映射到一个唯一的固定大小向量。Word2Vec模型通过文档中所有单词的平均值将每个文档转换为一个向量;然后可以将该向量用作预测、文档相似性计算的特征。


参数设置

参数名称

说明

生成向量的数量

词向量的维度,默认值为50

词频

默认值为2,词频大于该值的词才能入选词典

示例

效果

使用“垃圾短信识别”示例数据,词向量的参数生成向量数量为50.词频为2,特征选择后,输出结果如下: