添加同义词可以提升语义分析的精准度,从而提供更精准的查询服务。用户也可以根据自己的用词习惯和行业领域习惯自行配置同义词。
信息 | ||
---|---|---|
| ||
采用同义词替换为关键词的模式 |
目录 |
---|
1. 如何配置同义词
- 进入 系统设置
- 进入 “同义词配置”页签下,同义词配置界面介绍如下:
点击“新建”按钮新建词条
界面介绍
同义词配置各区域的功能说明如下:
序号 | 名称 | 功能 |
---|---|---|
1 | 同义词作用域 | 设置同义词词条生效的作用域。
|
2 | 新建 | 新建同义词词条。 |
导入 | 从csv文件中批量导入同义词词条到当前选择模型中。 | |
导出 | 导出当前选择模型下的所有同义词词条到csv文件中。 | |
3 | 搜索框 | 在已创建的同义词词条列表中搜索所输入的关键词。 |
立即生效 | 保存当前的同义词词条配置。 | |
4 | 词条区 | 显示已创建的同义词词条,可以对词条执行编辑和删除操作 |
功能介绍
1. 新建
- 点击“新建”按钮新建词条
- 按照需求创建同义词词条,在“同义词”内填入的词语都会用“关键词”替换掉。
注意 |
---|
同义词采用逗号 ',' (中英文逗号皆可)隔开,例如:同义词1,同义词2,同义词3... |
- 新建的关键词“升序”的同义词词条如下
一对多的情况
一对多的时候,例如下图所示的 排序:排行,排名 指的是,当找到排行或者排名的时候,将文字替换为排序。
4.2 不可以循环同义词
否则等同于不生效。
例如,广州→羊城,羊城→广州,就不会生效,具体执行顺序和数据库存储顺序相关。
4.3 不同关键词不要采用相同的同义词
否则会出现同义词转换错误的情况,例如:
这里所有的广州会被转化成羊城(因为替换的执行顺序和数据库存储顺序相关), 后续的广州无法正常对应为花城。
4.4 批量导入的情况
同义词支持批量导入,导入需要对应的数据格式,数据格式为:
关键词 同义词1,同义词2 (注意关键词和同义词是用空格隔开的)
例如:
如果出现重复的关键词,或者重复的同义词,会自动去重。
3.1 未审查客户提供数据,导致大量返工
a. 客户问句中有类似“近五年”字样,但是其提供数据只有四年的;
b. 客户提供数据中,日期数据格式为数值型,并非日期型,导入数据库后,业务主题时无法正常使用
c. 客户数据中存在大量空格、回车等占位字符,肉眼不可见,但最后影响查询数据展示界面。例如,条形图X轴无坐标值,因为字段中含有大量占位符,超出程序设置的字符串长度,所以显示为无数据的状态,如下图示例问句,“各个征收机关收入情况”X轴无坐标值
查看“更多分析”按钮,可以看到征收机关字段下的数据中有换行符,空格等,如下图
所以,在数据入库前,一定要对数据进行清洗,减少后面由于数据质量问题导致的效果不正确。
3.2 使用非管理员账号制作业务主题,构建知识图谱时,无法构建个人业务主题的知识图谱,重新做业务主题
3.3 业务主题中,业务对象和业务属性在自然问句中的作用没有弄清楚,测试问句时候返回去改业务主题,由于构建知识图谱的操作流程较长,问句得一个个调试,耗时较久。
3.4 业务主题构造中,为了减少冗余字段,基于“日累计”构造业务属性“收入”后,删除“日累计”后,未检验业务主题,直接使用自然语言调试,报错。
3.5 业务主题中,时间维度字段一定要注意其数据类型为“日期时间”,否则无法进行时间计算。
3.6 业务主题中,新建业务属性时,默认数据类型为字符串,如果该业务属性为数值型,记得做数据类型的调整。
3.7同义词配置时,“关键词”为问句中需要被替换的词汇,而“同义词”是自然语言中可能出现的多种不同名称,即“关键词”与“同义词”之间为1对多的关系,“关键词”为替代自然语言中特定名词输入模型的词语,设置完同义词,还需立即生效。
2. 导入
同义词词条支持通过“csv文件”的形式批量导入,点击“导入”按钮。
CSV文件的数据格式如下:
注意 |
---|
|
注意事项
1. 一对多的情况
- 例如下图所示的 “排序:排行,排名” ,在语义分析里“排行”、“排名”都会被替换为“排序”。
2. 同义词不能循环配置
- 两个同义词词条相互颠倒,则等同于这两个词条无效。
例如:”广州“→“羊城”,“羊城”→“广州”,替换无法生效,具体执行顺序和数据库存储顺序相关。
3. 不同关键词不能使用相同的同义词
- 不同的关键词若采用相同的同义词,会出现同义词转换错误的情况,
例如:所有的“广州”会被转化成“羊城”(替换的执行顺序和数据库存储顺序相关),则后续的“广州”无法正常对应为“花城”。