GitHub 热门项目:BIRD-CRITIC-1

2026-06-29 1 阅读 GitHub Trending
GitHub 项目:BIRD-CRITIC-1 仓库地址:https://github.com/bird-bench/BIRD-CRITIC-1 星级:1095 | 作者:鸟凳 项目描述:[NeurIPS 2025 Main] SWE-SQL:阐明解决实际应用中用户 SQL 问题的 LLM 路径 =================================================== 自述文件内容: # BIRD-CRITIC 1.0 (SQL) 香港大学徽标 Google Cloud 徽标

## 新闻 - ? **[2026-03-24]** 我们发布了**BIRD-Critic GT 和测试用例自动回复系统**,支持通过电子邮件请求自动发送完整数据集(包括 sol_sql 和 test_cases)到?bird.bench25@gmail.com,主题标签为[bird-critic-1 GT&Test Cases]。 - ? **[2026-03-23]** 我们发布了 [**BIRD-Critic-SQLite**](https://huggingface.co/datasets/birdsql/bird-critic-1.0-sqlite),这是一个包含 500 个高质量用户问题的数据集,专注于现实世界的 SQLite 数据库应用程序。 - ? **[2026-01-08]** 我们最近更新了评估代码(特别是 `remove_distinct` 函数)。请从我们的 GitHub 存储库中提取最新代码。 - ? **[2025-07-09]** 我们在我们的[**网站**](https://bird-critic.github.io/)上发布了人类表现得分!所有三个排行榜上显示的分数反映了人类评估者(数据库专家),他们被允许使用标准工具(数据库教科书、官方文档或 IDE),但不能使用人工智能助手。当具有相同专业知识的另一个小组被允许使用 AI 工具(ChatGPT、Claude 或 Gemini)时,Open 上的性能提高到 **83.33**,PG 上的 **87.90** 和 Flash 上的 **90.00**,展示了人机协作在解决 SQL 问题方面的巨大潜力。 - ? **[2025-06-28]** 我们在 arxiv 上发布了我们的论文 [**SWE-SQL** (a.k.a BIRD-CRITIC)](https://arxiv.org/abs/2506.18951)。 - ? **[2025-06-09]** 我们发布了 [**bird-interact-lite**](https://huggingface.co/datasets/birdsql/bird-interact-lite),具有多轮对话和代理交互功能,适用于现实世界中模糊且具有挑战性的文本到 SQL 任务。 - ? **[2025-06-08]** 我们发布了 [**bird-critic-1.0-postgr