数据挖掘-分词

输入/输出

输入	一个输入端口，用于接收数据集
输出	一个输出端口，用于输出分词后的结果。

参数名称	说明	备注
字段选择	选择需要分词的字段列（必须是文本型字段）	必填
自定义词典	说明：按行填写词列表，每行一词，最多支持一万词。支持两种方式输入自定义词：手动输入，每行填写一个自定义词；上传文件，支持上传txt、dic、dict类型的UTF-8的文件。文件中每行填写一个自定义词：
分词算法	分词算法包括： Ansj（默认）：可直接根据系统词库分出人名、机构等信息。但多单词英文姓名无法分出，且使用自定义词典时，系统词典还是优先被使用。适用于不使用自定义词典的场景。 Hanlp：可分出多单词的英文名称，且词典数据可包含空格。添加自定义词典的速度较慢。
正向最大匹配验证	最大匹配算法主要包括正向最大匹配算法、逆向最大匹配算法、双向匹配算法等。其主要原理都是切分出单字串，然后和词库进行比对，如果是一个词就记录下来，否则通过增加或者减少一个单字，继续比较，一直还剩下一个单字则终止，如果该单字串无法切分，则作为未登录处理
启用全局词典	使用全局词典中的词辅助进行分词。配置全局词典请参考引擎设置。

使用“垃圾短信识别”数据，选择文本列数据进行分词，自定义词典默认，则会默认从词库进行搜索匹配进行分词，若自定义词典里设定词组则优先匹配词典里的词组，分词结果输出如下图：

关注我们

服务支持