输入/输出
输入 | 一个输入端口,用于接收数据集 |
---|---|
输出 | 一个输出端口,用于输出分词后的结果。 |
参数设置
参数名称 | 说明 | 备注 |
---|---|---|
字段选择 | 选择需要分词的字段列(必须是文本型字段) | 必填 |
自定义词典 | 说明:按行填写词列表,每行一词,最多支持一万词。 支持两种方式输入自定义词:
文件中每行填写一个自定义词: | |
分词算法 | 分词算法包括:
| |
正向最大匹配修正 | 对分词后结果进行修正 | |
优先自定义词典 | 注:当前支持分词算法为hanlp时使用 勾选后分词时优先使用自定义词典中词语作为分词 | |
启用全局词典 | 使用全局词典中的词辅助进行分词。配置全局词典请参考 引擎设置 。 |
示例
使用“垃圾短信识别”数据,选择文本列数据进行分词,自定义词典默认,则会默认从词库进行搜索匹配进行分词,若自定义词典里设定词组则优先匹配词典里的词组,分词结果输出如下图:
另外,在使用分词节点时,分词的后的结果不是自己所需要的,如下图所示,可以通过自定义词典或者正向最大匹配修正对结果进行修正。使用自定义词典修正‘交流于思南中学初中’的分词结果,自定义词典配置如下
使用正向最大匹配修正‘乌当民族职业中学出纳’和‘剑河县南加中学任教’,配置如下图所示,匹配词语方式有两种:
1、全词匹配如直接填写想要匹配的词如‘剑河县’、‘乌当民族职业中学’;
2、模糊匹配<>,以<前的词为开始,以>后的词为结束。