词向量是表示文档的单词序列,通过训练Word2vec模型,将词语转化为向量。该模型将每个单词映射到一个唯一的固定大小向量。Word2Vec模型通过文档中所有单词的平均值将每个文档转换为一个向量;然后可以将该向量用作预测、文档相似性计算的特征。
参数名称
说明
生成向量的数量
词向量的维度,默认值为50
词频
默认值为2,词频大于该值的词才能入选词典
效果
使用“垃圾短信识别”示例数据,词向量的参数生成向量数量为50.词频为2,特征选择后,输出结果如下: