页面树结构
转至元数据结尾
转至元数据起始

正在查看旧版本。 查看 当前版本.

与当前比较 查看页面历史

« 前一个 版本 4 下一个 »

概述

分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。它是对句子进行精确分词,在词库中进行搜索匹配,将句子根据匹配的结果分成那些常见的词组或者单词。常用于做文本挖掘分析。

输入/输出

输入

一个输入端口,用于接收数据集

输出

一个输出端口,用于输出分词后的结果。

参数设置

参数名称

说明

备注

字段选择

选择需要分词的字段列(必须是文本型字段)

必填

自定义词典

说明:按行填写词列表,每行一词,最多支持一万词。

支持两种方式输入自定义词:

  • 手动输入,每行填写一个自定义词;

  • 上传文件,支持上传txt、dic、dict类型的UTF-8的文件

文件中每行填写一个自定义词:


分词算法

分词算法包括:

  • Ansj(默认):可直接根据系统词库分出人名、机构等信息。但多单词英文姓名无法分出,且使用自定义词典时,系统词典还是优先被使用。适用于不使用自定义词典的场景。
  • Hanlp:可分出多单词的英文名称,且词典数据可包含空格。添加自定义词典的速度较慢。

正向最大匹配修正

对分词后结果进行修正
优先自定义词典

注:当前支持分词算法为hanlp时使用

勾选后分词时优先使用自定义词典中词语作为分词

启用全局词典

使用全局词典中的词辅助进行分词。配置全局词典请参考 引擎设置 。


示例

使用“垃圾短信识别”数据,选择文本列数据进行分词,自定义词典默认,则会默认从词库进行搜索匹配进行分词,若自定义词典里设定词组则优先匹配词典里的词组,分词结果输出如下图:

另外,在使用分词节点时,分词的后的结果不是自己所需要的,如下图所示,可以通过自定义词典或者正向最大匹配修正对结果进行修正。使用自定义词典修正‘交流于思南中学初中’的分词结果,自定义词典配置如下

 

使用正向最大匹配修正‘乌当民族职业中学出纳’和‘剑河县南加中学任教’,配置如下图所示,匹配词语方式有两种:

1、全词匹配如直接填写想要匹配的词如‘剑河县’、‘乌当民族职业中学’;

2、模糊匹配<>,以<后的词为开始,以>后的词为结束。

 

  • 无标签