chinchilla - 搜索 News

3 天

Gemini 3预训练负责人揭秘：模型竞争转向系统构建，合成数据成关键 ...

11月18日，Gemini 3在多项权威基准测试中表现惊艳，以“世界最强多模态理解”“交互最深智能体”“推理怪兽”的姿态，全面超越全球同类模型。谷歌CEO桑达尔·皮查伊亲自为其站台，称其为“迄今为止最智能的模型”。这一消息在AI圈引发轰动，人们纷纷探究其背后的技术秘诀。 Google DeepMind研究与深度学习副总裁Oriol Vinyals在推特上透露，Gemini ...

腾讯网

北航提出代码大模型的 Scaling Laws：编程语言差异与多语言最优配比策略

在代码大模型（Code ...

6 天

Scaling Law或将终结？哈佛MIT预警：低精度量化已无路可走，重磅研究 ...

OpenAI研究员Clive Chan表示，拥抱scaling law，看看最先进的量化方案（mxfp，Pw≠Pkv≠Pa等）如何推进前沿将会很有趣。另外，我个人认为，值得花费一半的计算预算来进行一次大规模运行，以验证这个拟合是否适用于大模型。

4 天

Mamba-2新架构出世一统江湖，普林斯顿CMU华人再出神作，性能狂飙8倍

在2.7B参数和3000亿tokens规模上验证一个仅包含6个注意力块（和58个SSD块）的混合模型后可以发现，其表现优于64个SSD块以及标准的Transformer++基线模型（32个门控MLP和32个注意力块）。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果