输入/输出
输入 | 一个输入端口,用于接收数据集 |
---|---|
输出 | 一个输出端口,用于输出分词后的结果。 |
参数设置
参数名称 | 说明 | 备注 |
---|---|---|
字段选择 | 选择需要分词的字段列(必须是文本型字段) | 必填 |
自定义词典 | 说明:按行填写词列表,每行一词,最多支持一万词。 支持两种方式输入自定义词:
文件中每行填写一个自定义词: | |
分词算法 | 分词算法包括:
| |
正向最大匹配验证 | 最大匹配算法主要包括正向最大匹配算法、逆向最大匹配算法、双向匹配算法等。 其主要原理都是切分出单字串,然后和词库进行比对,如果是一个词就记录下来, 否则通过增加或者减少一个单字,继续比较,一直还剩下一个单字则终止,如果该单字串无法切分,则作为未登录处理 | |
启用全局词典 | 使用全局词典中的词辅助进行分词。配置全局词典请参考 引擎设置 。 |
示例
使用“垃圾短信识别”数据,选择文本列数据进行分词,自定义词典默认,则会默认从词库进行搜索匹配进行分词,若自定义词典里设定词组则优先匹配词典里的词组,分词结果输出如下图: