数据挖掘-分词

输入/输出

输入	一个输入端口，用于接收数据集
输出	一个输出端口，用于输出分词后的结果。

参数名称	说明	备注
字段选择	选择需要分词的字段列（必须是文本型字段）	必填
自定义词典	说明：按行填写词列表，每行一词，最多支持一万词。支持两种方式输入自定义词：手动输入，每行填写一个自定义词；上传文件，支持上传txt、dic、dict类型的UTF-8的文件。文件中每行填写一个自定义词：
分词算法	分词算法包括： Ansj（默认）：可直接根据系统词库分出人名、机构等信息。但多单词英文姓名无法分出，且使用自定义词典时，系统词典还是优先被使用。适用于不使用自定义词典的场景。 Hanlp：可分出多单词的英文名称，且词典数据可包含空格。添加自定义词典的速度较慢。
正向最大匹配修正	对分词后结果进行修正
优先自定义词典	注：当前支持分词算法为hanlp时使用勾选后分词时优先使用自定义词典中词语作为分词
启用全局词典	使用全局词典中的词辅助进行分词。配置全局词典请参考引擎设置。

使用“垃圾短信识别”数据，选择文本列数据进行分词，自定义词典默认，则会默认从词库进行搜索匹配进行分词，若自定义词典里设定词组则优先匹配词典里的词组，分词结果输出如下图：

使用正向最大匹配修正‘乌当民族职业中学出纳’和‘剑河县南加中学任教’，配置如下图所示，匹配词语方式有两种：

1、全词匹配如直接填写想要匹配的词如‘剑河县’、‘乌当民族职业中学’；

2、模糊匹配<>，以<前的词为开始，以>后的词为结束。

关注我们

服务支持