在新基准 BIRD 上,ChatGPT 仅能达到 40.08%,相比人类 92.96% 还有很大差距。 背景 大模型(LLM)为通用人工智能(AGI)的发展提供了新的方向,其通过海量的公开数据,如互联网、书籍等语料进行大规模自监督训练,获得了强大的语言理解、语言生成、推理等能力。
人们日常生活和工业生产中产生的海量数据被广泛存储于结构化数据库中,如何高效利用这些结构化数据成为近年学术研究和产业应用都十分关注的热点。 尽管直接编写SQL语句和数据库进行交互是目前最直接的方法,但是非计算机专业的从业人员需要耗费大量时间 ...
在企业数字化转型的浪潮中,我们发现很多公司依然面临着“数据深渊”:业务人员想看数据,却受限于复杂的 SQL 语法;开发者虽然尝试了 Text-to-SQL,但生成的代码逻辑常有偏差,同时也无法应对复杂的统计分析、根因定位等场景。 DataAgent 应运而生。 这不是 ...
近日,中国移动数据分析类智能体“九天AlphaData”,在全球权威的SQL评测基准BIRD-CRITIC中成绩卓越,跃升榜单第一名,标志着中国移动在复杂数据分析场景下的核心能力达到国际领先水平。
越来越多的工作证明了预训练语言模型中蕴含着丰富的知识,针对不同的任务,用合适的训练方式来撬动预训练语言模型,能更好地提升模型的能力。在 Text-to-SQL 任务中,主流的方法主要是基于 SQL 语法树的 Encoder-Decoder 模型,可以确保生成的结果一定符合 SQL ...
当你的大模型在处理数据库查询时,是不是经常出现 “理解偏差”?比如把 “2020 年之后入职的员工” 错误解析成 “2020 年之前”,或者生成不存在的列名?这种 “思维混乱” 的背后,是传统 Text-to-SQL 技术遭遇的三大瓶颈:框架设计不完整、多代理协作不 ...
本文提出CM-SQL框架,通过双模型架构(LLM+微调模型)解决Text-to-SQL任务中存在的模式链接错误与模型过度自信问题,创新性地 ...
针对传统SQL-to-text生成方法(如模板法、Seq2Seq模型)难以有效利用预训练语言模型的问题,研究人员提出新型SQL中间表示EzSQL,通过简化SQL语法结构(如用OR替代UNION)使其更贴近自然语言。基于BART的生成模型在WikiSQL和Spider数据集上实现SOTA性能,并成功提升Text-to ...
Swiggy 近日推出 Hermes V3,这是一款基于生成式 AI 的 Text-to-SQL 助手,员工可以直接用自然语言向数据发起查询。Hermes 运行在 Slack 中,通过向量检索、会话记忆、智能体编排以及解释层,将日常语言准确转化为可执行的 SQL 查询。 作为一家印度在线食品订购与配送 ...