概述
对话式分析又称为NLA、自然语言分析、自然语言查询,本文档旨在指导Smartbi AIChat用户写出意图明确、语义清晰的问句,帮助用户快速精准的获取到想要的数据。
数据分析查询常用词
在通常的分析场景中,我们会通过各种维度去查询数据,或者通过时间计算查询指标的同环比增长等情况,亦或是希望图表结合的方式呈现数据,下表是我们总结归纳的可满足大部分使用场景的查询常用词,接下来我们将一一为您例举示例。
类别 | 关键字 |
实体 | 指标名:销售额 |
图形 | 表格、柱图、线图、饼图 |
聚合 | 总计、求和、金额、数量、计数、平均值、最多、最少、最大、最小、最高、最大值、最大(值)、最低、最小值、最小(值)、中位数、方差 |
连词 | 和、或、各、每个、与、对比、比较、和、但是、也不、加之、除了 |
日期 | 年、上半年、下半年、季、季度、Q1、月份 |
相对日期 | 今天、今年、本年、本月、当前、当前季度、当前月份、昨天、明天 |
时间智能 | 前期、同期、同期增长、环比、同比、年累、月累、年累同比、月累同比 |
等式(范围) | 在…中、等于、=、晚于、超过、在…内、在…之间、N1-N2 |
|示例:2012 年以前的订单年份? 价格在 10 和 20 之间? John 的年龄大于 40 岁吗? 总销售额在 200 - 300? | |
等式(值) | 是、为、等于、在…中、…的…、在…内、在…中、在…上 |
示例:哪些产品是绿色的? 订单日期为 2012 年。 John 的年龄是 40 岁? 总销售额不等于 200? 订购日期为 2016/1/1。 价格是 10? 颜色是绿色? | |
查询命令 | 排列、排列方式、方向、组、分组方式、按、显示、列出、显示、给我、命名、只、仅、排列、排名、比较、要、与、针对、按字母顺序、按升序、按降序、顺序 |
逻辑 | 大于、超过、小于、少于、等于、大于等于、小于等于、不超过 |
前 N 个 | 前...名、后...名、最高、最低、第一、最后、下个、最早、最新、最旧、最新的、最近的、下一个 |
疑问词(关系、限定) | 时间、哪里、哪个、谁、多少、多少次、多久一次、金额、数字、数量、多久、什么 |
问句示例
实体罗列
首先我们需了解何为“实体”?
实体是信息世界和现实世界中的基本单元,是构建数据模型、进行信息抽取、语义理解和知识表示的基础元素。
实体在不同领域有着不同的含义,但通常来说,实体是指具有独立存在意义且可以相互区别的事物、对象或概念。在计算机科学、人工智能、数据库、知识图谱等领域中,实体常常用来指代现实世界或抽象概念中的具体项目,比如一个人、一个地点、一个组织、一个事件或者是某个具体的数据对象。实体可以作为信息存储、处理和分析的基本单位。
进行实体罗列的时候需要包含维度和指标,否则无结果反馈。以下是罗列合同相关实体,包括合同名称、行业名称、商机类型、合同类型、合同金额
以下是错误示例,罗列的实体中仅包含维度不包含指标,此时是无结果返回的。
指标再聚合
查询各商店的销售额;用柱图显示,显示数值;并加上中位数线,显示标线名字和数值
各省份的销售额、中位数、平均值、最大值、最小值、方差
时间智能
海尔2024年上半年各月份销售额 、同期值、同比、前期值、环比 TODO
用双Y图展示,柱图展示销售额 、同期值、前期值;线图展示同比、环比
条件的逻辑组合
营业面积大于3万并且销售额小于8百万的商店
营业面积大于3万或者销售额小于8百万的商店
TOPN
今年每个区域销售额最高的三个品牌
生成计算度量
单位面积营业额等于销售额除以营业面积;各商店的单位面积营业额
在珠海海韵和广州潮流汇销售额之和大于20万的客户
增加两列:珠海海韵销售额, 广州潮流汇销售额
生成分组字段
将品牌按销售额分组,分组为:600万以上,300万到6百万,3百万以下,显示各分组的销售额,以及各分组包含的品牌
对全部、所有的理解
洛杉矶的客户在各商店的销售额;显示所有商店名称,没有销售额显示成0
2024年7月1日-7日,每天都有销售额的品牌,线图
Y轴使用对数轴
中英文实体模糊匹配
哪些活动只采用了TV作为媒体,活动费用?
媒体类型中同时包含广播和电视的活动有哪些?按活动排序
连续增长
销售额连续5个月增长的品牌有哪些?
请列出他们分别是哪几个月出现了连续增长
归因
看一下去年各月销售额同比情况,并作图
为什么2023年10月合同金额同比大幅下降
趋势预测
2023至今各月的合同金额
预测未来3个月合同金额趋势