页面树结构
转至元数据结尾
转至元数据起始

概述

分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。它是对句子进行精确分词,在词库中进行搜索匹配,将句子根据匹配的结果分成那些常见的词组或者单词。常用于做文本挖掘分析。

输入/输出

输入

一个输入端口,用于接收数据集

输出

一个输出端口,用于输出分词后的结果。

参数设置

参数名称

说明

备注

字段选择

选择需要分词的字段列(必须是文本型字段)

必填

自定义词典

说明:按行填写词列表,每行一词,最多支持一万词。

支持两种方式输入自定义词:

  • 手动输入,每行填写一个自定义词;

  • 上传文件,支持上传txt、dic、dict类型的UTF-8的文件

文件中每行填写一个自定义词:


分词算法

分词算法包括:

  • Ansj(默认):可直接根据系统词库分出人名、机构等信息。但多单词英文姓名无法分出,且使用自定义词典时,系统词典还是优先被使用。适用于不使用自定义词典的场景。
  • Hanlp:可分出多单词的英文名称,且词典数据可包含空格。添加自定义词典的速度较慢。

启用全局词典

使用全局词典中的词辅助进行分词。配置全局词典请参考 引擎设置 。


示例

使用“垃圾短信识别”数据,选择文本列数据进行分词,自定义词典默认,则会默认从词库进行搜索匹配进行分词,若自定义词典里设定词组则优先匹配词典里的词组,分词结果输出如下图: