bench - 搜索 News

3 天

【科技前沿】超越谷歌，全球第一！上交AI科学家王者归来，登顶 ...

【新智元导读】刚刚，由SciMaster团队推出的AI机器学习专家ML-Master 2.0，基于国产开源大模型DeepSeek，在OpenAI权威基准测试MLE-bench中一举击败Google、Meta、微软等国际顶流，刷新全球SOTA，再次登顶 ...

7 天

超越谷歌，全球第一！上交AI科学家王者归来，登顶OpenAI MLE-bench

2 天

估值飙升至293亿美金！2025 AI编程工具爆发：从补全到智能代理革命

2025 年，AI编程工具融资火热，独立创业公司估值快速攀升。其中，AI代码编辑器Cursor的表现尤为亮眼。其母公司Anysphere在 11 月完成 23 亿美元D轮融资，投后估值达到 293 亿美元，仅用 11 个月估值增长超 11 倍。同时，该工具的年化收入（ARR）从早期百万级飙升至超 10 亿美元，用时不到 24 个月，刷新了B2B ...

腾讯网

Claude Opus 4.1 上线，SWE-bench 验证率 74.5%，重构可靠性与安全性全面升级

Anthropic 已推出 Claude Opus 4.1，这是针对 Opus 4 的重要升级版，显著增强了模型在多文件项目中的代码可靠性，并提升了模型在长链式交互中的推理能力。该版本在 SWE-bench Verified 基准测试中的得分由 72.5% 改进至 74.5%，说明模型在真实世界编程任务中更加可靠。

腾讯网

首个红外图像理解评测基准IF-Bench：中科院自动化研究所团队破解多 ...

为了系统性地评估和改善这个问题，研究团队首先建立了一个名为IF-Bench的综合评测基准。这个基准就像是为AI设计的"红外视觉能力考试"，包含了499张精心筛选的红外图像和680道精心设计的题目。这些图像来源于23个不同的红外数据集，涵盖了从城市监控、野生动物观察到工业检测等各种应用场景，确保了评测的全面性和实用性。

Xinhua

海豚智能联合多所高校发布超声大模型测评基准U2-Bench

近日,海豚智能与牛津大学、剑桥大学与北京航空航天大学等合作伙伴共同发布大模型测评基准U2-Bench。这是专为大模型超声图像理解能力设计的多任务测评基准。U2-Bench 收录了7,241例来自15个解剖部位的病例,覆盖疾病诊断、病灶定位、报告生成等8大任务、50 个 ...

来自MSN

字节跳动开源Multi-SWE-bench，推动大模型代码智能升级

品玩4月10日讯，据 AIBASE 报道，字节跳动豆包大模型团队宣布开源Multi-SWE-bench，这是业内首个多语言代码修复基准数据集，为大模型“自动修Bug”能力的评估与提升带来新突破。在大模型技术快速发展的当下，代码生成任务成为检验模型智能的关键领域。

来自MSN

GPT-5与Claude对决真相：OpenAI在SWE-bench测试中略过23道难题引争议

在科技界的一场重量级较量中，OpenAI与Anthropic的Claude之间的博弈再次升级，而这次焦点集中在了SWE-bench Verified编程测试上的成绩。近日，OpenAI在发布会上宣布GPT-5在代码能力上取得了全球领先的地位，但在发布会的高光时刻却出现了一个令人啼笑皆非的乌龙 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果