【新智元导读】刚刚,由SciMaster团队推出的AI机器学习专家ML-Master 2.0,基于国产开源大模型DeepSeek,在OpenAI权威基准测试MLE-bench中一举击败Google、Meta、微软等国际顶流,刷新全球SOTA,再次登顶 ...
【新智元导读】刚刚,由SciMaster团队推出的AI机器学习专家ML-Master 2.0,基于国产开源大模型DeepSeek,在OpenAI权威基准测试MLE-bench中一举击败Google、Meta、微软等国际顶流,刷新全球SOTA,再次登顶 ...
2025 年,AI编程工具融资火热,独立创业公司估值快速攀升。其中,AI代码编辑器Cursor的表现尤为亮眼。其母公司Anysphere在 11 月完成 23 亿美元D轮融资,投后估值达到 293 亿美元,仅用 11 个月估值增长超 11 倍。同时,该工具的年化收入(ARR)从早期百万级飙升至超 10 亿美元,用时不到 24 个月,刷新了B2B ...
Anthropic 已推出 Claude Opus 4.1,这是针对 Opus 4 的重要升级版,显著增强了模型在多文件项目中的代码可靠性,并提升了模型在长链式交互中的推理能力。该版本在 SWE-bench Verified 基准测试 中的得分由 72.5% 改进至 74.5%,说明模型在真实世界编程任务中更加可靠。
为了系统性地评估和改善这个问题,研究团队首先建立了一个名为IF-Bench的综合评测基准。这个基准就像是为AI设计的"红外视觉能力考试",包含了499张精心筛选的红外图像和680道精心设计的题目。这些图像来源于23个不同的红外数据集,涵盖了从城市监控、野生动物观察到工业检测等各种应用场景,确保了评测的全面性和实用性。
近日,海豚智能与牛津大学、剑桥大学与北京航空航天大学等合作伙伴共同发布大模型测评基准U2-Bench。这是专为大模型超声图像理解能力设计的多任务测评基准。U2-Bench 收录了7,241例来自15个解剖部位的病例,覆盖疾病诊断、病灶定位、报告生成等8大任务、50 个 ...
品玩4月10日讯,据 AIBASE 报道,字节跳动豆包大模型团队宣布开源Multi-SWE-bench,这是业内首个多语言代码修复基准数据集,为大模型“自动修Bug”能力的评估与提升带来新突破。 在大模型技术快速发展的当下,代码生成任务成为检验模型智能的关键领域。
在科技界的一场重量级较量中,OpenAI与Anthropic的Claude之间的博弈再次升级,而这次焦点集中在了SWE-bench Verified编程测试上的成绩。 近日,OpenAI在发布会上宣布GPT-5在代码能力上取得了全球领先的地位,但在发布会的高光时刻却出现了一个令人啼笑皆非的乌龙 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果