在大语言模型(LLM)落地应用中,推理速度始终是制约效率的核心瓶颈。传统自回归(AR)解码虽能保证生成质量,却需逐 token 串行计算,速度极为缓慢;扩散型 LLM(dLLMs)虽支持并行解码,却面临训练成本高昂、质量下降及 KV ...
本文以美军在该领域进展为调研切入,基于收集到的近2年资料(2024-2025年涉及美国国防部报告、军种项目文档及媒体信息),美国军方在大模型安全领域已形成“顶层框架引导+专项机构落地+军种差异化实践”的格局,核心聚焦“评估体系标准化”与“安全围栏场景 ...
GRPO(baseline,蓝色)与 BAPO(红色)训练比较。BAPO通过动态提高clip上下界,有效提高了正样本在训练中的影响,降低了模型entropy衰减速度、提高了训练阶段的奖励,同时,缓解了梯度过大的情况。(来源:BAPO论文) ...
如果说 2023年是「惊艳」 (ChatGPT的横空出世), 2024年是「迷茫」 (在大模型落地的憧憬中探索),那么在Andrej Karpathy的笔下, 2025则是「觉醒」 的一年。
【新智元导读】就在刚刚, Andrej Karpathy 这位曾一手缔造特斯拉Autopilot、定义了OpenAI早期灵魂、现在公认的全球「AI教导主任」,发布了他极具分量的 2025年LLM年度回顾! 如果说 2023年是「惊艳」 ...
科技行者 on MSN
Anthropic最新CJE技术:让AI评判AI不再瞎猜,终结LLM评估乱象
大型语言模型(LLM)的评估就像给学生考试打分一样,是决定AI系统好坏的关键环节。现在大多数公司都在用一种看似聪明实则问题重重的方法:让一个便宜的AI来给另一个AI打分,然后根据这个分数来判断模型的优劣。这就好比让一个从未学过数学的人来批改数学试卷, ...
大模型浪潮席卷运维领域之际,LLM Agent 既被寄予 “打破协同壁垒” 的厚望,也深陷 “过度炒作” 的舆论争议。AIOps 概念诞生多年,传统方案始终难以突破数据、智能的双重瓶颈,而 “OS + LLM Agent” 新范式的出现,为行业带来了新的可能。「AI 进化论」第六期直播聚焦 “LLM for AIOps,是泡沫还是银弹?” ...
在2023年末,AI界的风云人物安德烈·卡帕西发布的《2025 LLM Year in Review》引发了广泛关注。这位前OpenAI联合创始人和特斯拉前AI总监在报告中明确指出,当前的大模型(LLM)潜力仅被挖掘了10%,未来的发展空间巨大,尤其是在训练范式、智能形态和应用层面。
BitNet b1.58 2B4T,单CPU就能跑,性能与同规模全精度开源模型相当。 它采用三进制{-1, 0, 1}存储权重,相较于传统的16位浮点数可大幅降低显存需求。 只需0.4GB内存即可运行。 基于4T token语料训练,BitNet b1.58 2B4T在保持性能的同时,计算效率突出。 单个CPU即可达到 ...
该研究成果以“LLM4CP: Adapting Large Language Models for Channel Prediction”为题受邀发表于期刊Journal of Communications and Information Networks上。 精确的信道状态信息(CSI)对于B5G/6G MIMO无线通信系统性能保障至关重要。然而,在高速移动场景下,信道相干时间大大缩短,传统 ...
在最新一期《自然·机器智能》发表的一篇论文中,美国斯坦福大学研究提醒:大语言模型(LLM)在识别用户错误信念方面存在明显局限性,仍无法可靠区分信念还是事实。研究表明,当用户的个人信念与客观事实发生冲突时,LLM往往难以可靠地作出准确判断。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果