基于自然语言的数据库查询技术
作者:
作者单位:

作者简介:

通讯作者:

刘喜平,E-mail:lewislxp@gmail.com

基金项目:

国家自然科学基金(62076112,61972184,61762042);江西省自然科学基金(20192BAB207017);江西省教育厅科技项目(GJJ190255,GJJ180234,GJJ190208);江西省研究生创新专项资金项目(YC2021-B130)


Survey on Querying Database Based on Natural Language
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
    摘要:

    数据库能够提供对大量数据的高效存储和访问,然而查询数据库需要掌握数据库查询语言SQL,对于普通用户而言存在一定的门槛。基于自然语言的数据库查询(即text-to-SQL)在最近几年受到了广泛的关注。本文对text-to-SQL问题的当前进展进行了系统的分析。首先介绍了问题背景,并对问题进行了描述;其次,重点分析了目前提出的text-to-SQL技术,包括基于流水线的方法、基于统计学习的方法,以及为多轮text-to-SQL而开发的技术,对每种方法都进行了深入的分析和总结。再次,进一步讨论了text-to-SQL所属的语义解析(Semantic Parsing)这一领域的研究。接着,总结了目前研究中广泛采用的数据集和评价指标,并从多个角度对主流模型进行了比较和分析。最后,总结了text-to-SQL任务面临的挑战,以及未来的研究方向。

    Abstract:

    Database can provide efficient storage and access for massive data. However, it is nontrivial for non-experts to command database query language like SQL, which is essential for querying databases. Hence, querying databases using natural language (i.e., text-to-SQL) has received extensive attention in recent years. This paper provides a holistic view of text-to-SQL technologies and elaborates on current advancements. It first introduces the background of the research and describes the research problem. Then the paper focuses on the current text-to-SQL technologies, including pipeline-based methods, statistical-learning-based methods, as well as techniques developed for multi-turn text-to-SQL task. The paper goes further to discuss the field of semantic parsing to which text-to-SQL belongs. Afterward, it introduces the benchmarks and evaluation metrics that are widely used in the research field. Moreover, it compares and analyzes the state-of-the-art models from multiple perspectives. Finally, the paper summarizes the potential challenges for text-to-SQL task, and gives some suggestions for future research.

    参考文献
    相似文献
    引证文献
引用本文

刘喜平,舒晴,何佳壕,万常选,刘德喜.基于自然语言的数据库查询技术.软件学报,,():0

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
历史
  • 收稿日期:2021-04-20
  • 最后修改日期:2021-09-17
  • 录用日期:
  • 在线发布日期: 2021-12-24
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号