百度语义解析 ( Text-to-SQL ) 技术研究及应用( 五 )
本文插图
图5
首先 , “成分映射”模块完成问题中表格相关成分识别(图6黑色箭头表示的流程) , 用户提供的数据包括同义词、应用常见问题形式等 , 该部分可充分利用用户提供的数据进行效果优化 。 然后对识别的成分进行SQL关键词识别(图6紫色箭头表示的流程) , 该部分算法基于Sequence-to-set模型改进 。
前两个过程将问题中被映射成功的词汇替换成相应的符号 , 输入到基于文法组合的解析算法中 , 该部分的替换使后面模块与具体数据库无关 , 这提升了模型对新数据库的泛化能力 。
最后 , 在基于文法组合的语义解析阶段 , 通过改造CYK算法 , DuParser构建了一个自下向上的解析框架(图6蓝色箭头表示的流程) , 并且 , 在文法组合过程中通过引入SQL片段与对应问题片段相似度匹配来选择最优文法 。
本文插图
图6:黑色箭头表示成分映射 , 紫色表示标签识别 , 蓝色表示文法组合
该框架有以下几个优点:
- 首先 , 与端到端的神经网络模型相比 , 它具有良好的可解释性和效果可控性 , 容易进行系统调试和针对性效果优化;
- 其次 , 它可以充分利用用户提供的数据及反馈 , 在用户任务上快速启动且加快迭代优化速度;
- 最后 , 该框架可以做到语言无关、领域无关 , 有很好的扩展能力 。
本文插图
表5
注:
1)NL2SQL数据集的SOTA是开源最好模型[20]在开发集上的结果;
2)WikiSQL数据集的SOTA模型是不加执行指导的X-SQL[13]模型;
3)Spider单表来自Spider数据集中的单表部分数据 , SOTA模型是IRNet[16] , 评估了其中单表上的准确率(非bert版本);
4)百度应用数据会针对数据集做优化 , 重点是“同义词”部分 。
百度对Text-to-SQL技术的应用
Text-to-SQL技术主要的应用场景是基于数据库的问答 。 在实际的应用中 , 百度将该技术应用于ToB客服业务和搜索业务中 。
对于ToB业务 , 以UNIT平台为输出接口 , 支持结构化问答业务(参见下方链接) 。 支持的业务应用于车载对话系统、企业智能报表生成系统、电话客服系统等 , 图7给出落地于车载对话系统中的案例 。
链接:
https://ai.baidu.com/forum/topic/show/957042
本文插图
图7
对于搜索业务 , 我们探索了搜索中的计算类问答(图8)和企业表格问答(图9) 。
本文插图
图8
本文插图
图9
目前挑战及未来思考
Text-to-SQL技术在实际应用中可直接使用 , 但由于实际应用领域覆盖广泛 , 模型需要满足领域无关、语言无关、问题无关 。
当前模型在中间表示、树形解码、图网络建模数据库等方向均有探索 , 并取得了一定的成效 , 但对一些复杂操作的解决效果还不够好 , 可参见Spider数据集标注为“难”和“极难”的数据效果 。 同时 , 在实际应用中 , 还需要考虑以下问题:
- 表格的识别及规范化表示:表格默认以第一行为表头 , 但在实际挖掘表格中 , 有三种情况:以第一行为表头 , 以第一列为表头 , 或者第一行和第一列共同表示表格;挖掘的表格存在信息缺失问题 , 如表名缺失、表格值不全等;同时 , 面对多个表格时缺失表间链接关系 。
推荐阅读
- |单赛季仅丢15球——“穆一期”切尔西攻防战术解析
- 东大街知事|而现在才发现百度、高德、谷歌地图都是“错误”的,天天用地图
- 娱乐大起底|《乘风破浪的姐姐》公演舞台来袭:看珍爱网大数据解析女性如何实现自我价值
- 汽车点评AC|价格不变!东风日产2021款骐达车型解析,配置升级
- Google地图天天用地图,而现在才发现百度、高德、谷歌地图都是“错误”的
- 7月5日|等差数列:5,9,13的下一项是?蚂蚁庄园7月5日答案及解析
- 威呐解析|想要打破局面还得等轰-20!,改头换面的轰-6仍称不上战略轰炸机
- 张含韵|《乘风破浪的姐姐们》——张含韵星盘解析
- 团战|原创团战初体验,「炙热」解析团的魅力
- 思小沫|这部戏张国荣造型颓丧,是刻意参考奥斯卡获奖电影,西瓜视频解析
