“Transformer完全不能支撑我们下一步,尤其是在Agent时代走向下一步。”12月18日,90后AI大牛、阶跃星辰首席科学家张翔雨公布了自己最新的研究结论,直指当前AI领域核心架构Transformer的技术瓶颈。 Transformer架构是当前人工智能,特别是生成式AI和大语言模型的基石。它是2017 年由谷歌团队在论文《Attention Is All ...
2024年5月,来自伊利诺伊大学香槟分校的研究团队(Jiaru Zou、Yikun Ban、Zihao Li、Yunzhe Qi、Ruizhong Qiu、Jingrui He)与普林斯顿大学的Ling Yang合作,在arXiv上发表了一篇突破性研究论文《Transformer Copilot: Learning from The Mistake Log in LLM ...
在谈到推出 Titans 的初衷时,论文一作 Ali Behrouz 表示,「注意力机制一直是大多数 LLM 进展的重要组成部分,不过它无法扩展到长上下文。因此,Titans 应运而出,它成为了一种同时具备注意力机制和元上下文记忆的结构,可以在测试时学习记忆。该架构可以将上下文窗口扩展到 200 万 tokens。」 ...
谷歌研究科学家 David Ha:Transformer 是新的 LSTM。 2017 年 6 月谷歌发布论文《Attention is All You Need》时,我们或许都没有意识到它提出的 Transformer 架构将带来多少惊喜。 在诞生至今不足四年的时间里,Transformer 不仅成为自然语言处理领域的主流模型(基于 Transformer ...
本研究针对传统牛油果采后成熟度检测方法主观性强、效率低的问题,开发了一种基于Transformer架构的Few-Shot Learning(FSL)模型 ...
Google 的新野心:用「嵌套学习」解释一切深度学习架构 今天介绍一篇来自 Google Research 的非常有意思的论文《Nested Learning: The Illusion of Deep Learning Architecture》(嵌套学习:深度学习架构的错觉),发表在 NeurIPS 2025 上。