1. 如何配置同义词
- 进入 系统设置
- 进入 “同义词配置”页签下,同义词配置界面介绍如下:
序号 | 名称 | 功能 |
---|---|---|
1 | 搜索框 | 在已创建的同义词词条中关键词 |
2 | 词条区 | 显示已创建的同义词词条,可以对词条再执行编辑和删除操作 |
3 | 新建 | 新建同义词词条 |
4 | 批量导入 | 从文件中批量导入 |
5 | 立即生效 | 让新导入的词条生效 |
点击“新建”按钮新建词条
添加同义词时需要注意的事项:
一对多的情况
一对多的时候,例如下图所示的 排序:排行,排名 指的是,当找到排行或者排名的时候,将文字替换为排序。
4.2 不可以循环同义词
否则等同于不生效。
例如,广州→羊城,羊城→广州,就不会生效,具体执行顺序和数据库存储顺序相关。
4.3 不同关键词不要采用相同的同义词
否则会出现同义词转换错误的情况,例如:
这里所有的广州会被转化成羊城(因为替换的执行顺序和数据库存储顺序相关), 后续的广州无法正常对应为花城。
4.4 批量导入的情况
同义词支持批量导入,导入需要对应的数据格式,数据格式为:
关键词 同义词1,同义词2 (注意关键词和同义词是用空格隔开的)
例如:
如果出现重复的关键词,或者重复的同义词,会自动去重。
3.1 未审查客户提供数据,导致大量返工
a. 客户问句中有类似“近五年”字样,但是其提供数据只有四年的;
b. 客户提供数据中,日期数据格式为数值型,并非日期型,导入数据库后,业务主题时无法正常使用
c. 客户数据中存在大量空格、回车等占位字符,肉眼不可见,但最后影响查询数据展示界面。例如,条形图X轴无坐标值,因为字段中含有大量占位符,超出程序设置的字符串长度,所以显示为无数据的状态,如下图示例问句,“各个征收机关收入情况”X轴无坐标值
查看“更多分析”按钮,可以看到征收机关字段下的数据中有换行符,空格等,如下图
所以,在数据入库前,一定要对数据进行清洗,减少后面由于数据质量问题导致的效果不正确。
3.2 使用非管理员账号制作业务主题,构建知识图谱时,无法构建个人业务主题的知识图谱,重新做业务主题
3.3 业务主题中,业务对象和业务属性在自然问句中的作用没有弄清楚,测试问句时候返回去改业务主题,由于构建知识图谱的操作流程较长,问句得一个个调试,耗时较久。
3.4 业务主题构造中,为了减少冗余字段,基于“日累计”构造业务属性“收入”后,删除“日累计”后,未检验业务主题,直接使用自然语言调试,报错。
3.5 业务主题中,时间维度字段一定要注意其数据类型为“日期时间”,否则无法进行时间计算。
3.6 业务主题中,新建业务属性时,默认数据类型为字符串,如果该业务属性为数值型,记得做数据类型的调整。
3.7同义词配置时,“关键词”为问句中需要被替换的词汇,而“同义词”是自然语言中可能出现的多种不同名称,即“关键词”与“同义词”之间为1对多的关系,“关键词”为替代自然语言中特定名词输入模型的词语,设置完同义词,还需立即生效。