当前位置:频道 > 正文

百分点深度解读:什么是增强分析

2019-11-11 16:27:42  来源:项城网

NL2SQL是语义分析的一个子领域,它是智能问答功能的核心部分,但目前还没有成熟的可商用的技术方案。为此,百分点认知智能实验室提出结合了语义分析与深度学习的技术方案,即 X-SQL 的思路解决了该商用问题。百分点还综合利用了自然语言处理、深度学习、X-SQL、依存句法,实现了自然语言预处理、NL2SQL、图表匹配等模块,形成了一整套增强分析技术方案。该方案在实际测试中达到90.45%的准确率,且在实际使用中达到了可以商用的效果。

增强分析是指以机器学习为基础的数据分析和BI功能,包含智能数据发现、增强数据准备、增强数据分析等模块。目前增强分析已经在BI中广泛使用,Gartner 认为,到2020年,增强分析将成为新用户购买BI产品、数据科学和机器学习平台,以及嵌入式分析的主要驱动力。

通过增强分析功能,能够极大地降低用户的数据分析门槛,使一个非专业人员也能够轻松完成数据预处理和数据分析的整个分析流程。

增强分析中的智能问答

智能问答功能是增强分析中非常重要的一个子任务,其目的是让用户能够通过一句自然语言就能自动生成对应的图表。比如,提问“2015年各地区的销售额?”系统自动就会展示出如下的结果:

在学术界,这个任务叫做 NL2SQL,目前已经有很多研究。英语环境通常采用的是WikiSQL和Spider,而中文目前还没有统一的数据集。在 WikiSQL 数据集上,Leaderboard 中的方法都是把这个任务转化为槽值填充,然后利用深度学习的方法训练多个不同的子模型对每个槽位进行填充,比如作为SOTA模型的X-SQL。

虽然在WikiSQL 数据集上,模型的效果已经超越了人类,但是在产品化的过程中, WikiSQL过于简单,比如它只支持1个查询目标,1个聚合函数和最多4个过滤条件,不支持分组。而在实际使用中,有多个查询目标以及包含分组字段的问题比比皆是,比如“各省份的人口”,“每年的人口”,所以只是采用 X-SQL 的方法无法满足工业的需要;Spider 数据集中不仅支持对分组进行提问,而且支持跨表join,但是 SOTA 模型的测试准确率只有55%,还无法满足产品化的效果。

此外,在实际提问时,时间是一个很特殊并且重要的因素,比如用户可能会问“近七天的总销售额”,“2019/2018年的销售额”,“今年前三个季度的总销售额”等等,这些内容在数据集中都没有覆盖。百分点会针对以上问题做出逐步优化,也会陆续推出最新的研究成果。

推荐阅读

马云卸任后的第一个双十一 在台下笑得合不拢嘴

(原标题:双11剁手党速度加倍,天猫769秒破500亿!看卸任后的马云,在台下笑呢)双11又来了,不知道你是否已经坐在电脑前摩拳擦掌,准备榨干 【详细】

下沉幅度已超过手机 智能电视开机率超50%

近日,酷云互动发布了一份《关于电视,那些颠覆三观的认知!》的调研报告,报告指出,智能电视开机率已超过50%,且下沉幅度已超过手机。这也 【详细】

关于电子烟的11个数据:成年用户将达5500万人

新浪科技 肖云红11月2日,据路透社最新数据,目前美国已有1888例与电子烟相关的肺病病例,相关死亡病例达到37人。电子烟相关肺病病例与日 【详细】

3.7亿欠款未追回 中金前海诉乐视网案终结执行程序

IT之家11月9日消息 据财联社报道,北京市第三中级人民法院日前终结了中金前海诉乐视网及北京鹏翼资产管理中心一案的执行程序,本次申请执 【详细】

摩拜打造首个共享单车乐园 实现循环经济模式

共享单车如何实现循环经济模式?怎样让城市中的报废单车变废为宝?9月12日,由摩拜单车携手田园东方田野乐园、中央美术学院举办的平衡世界-共 【详细】



科技新闻网版权