Python GPU - 搜索 News

ONNX Runtime Python 推理性能优化：8 个低延迟工程实践

点击上方“Deephub Imba”,关注公众号,好文章不错过 !在深度学习落地过程中，有一个常见的误区：一旦推理速度不达标，大家的第一反应往往是拿着模型开到，比如：做剪枝、搞蒸馏、甚至牺牲精度换小模型。实际上生产环境中的 Python ...

1 天

英伟达 CUDA 史上最大革命：GPU 编程从 "手动挡" 变自动驾驶，15 行 ...

在 GPU 计算领域，CUDA 曾是无可替代的 "武林秘籍"—— 掌握它，就意味着手握 GPU 加速计算的钥匙。但 2025 年末，英伟达用 CUDA Toolkit 13.1 掀起了一场颠覆性变革，Tile 编程模型横空出世，让 GPU 编程从专业开发者的 "专属特权"，变成了普通开发者触手可及的工具，堪称自 2006 年 CUDA 诞生以来最彻底的范式升级。

CUDA初始团队成员锐评cuTile「专打」Triton，Tile范式能否重塑GPU编程 ...

作者：紫晗编辑：李宝珠转载请联系本公众号获得授权，并标明来源2025 年 12 月，在 CUDA 发布近二十年后，NVIDIA 推出新的 GPU 编程入口「cuTile」，通过 Tile-based 编程模型重构 GPU 内核，使开发者无需深入 ...

InfoQ中国 on MSN

NVIDIA Dynamo解决了多节点大语言模型推断的挑战

大规模部署大语言模型（LLM）极具挑战性。现代LLM的参数规模已远超单块GPU甚至单个多GPU节点的内存与计算能力。因此，针对70B+、120B+参数模型的推断工作负载或具有超大上下文窗口的流水线，必须采用多节点、分布式GPU的部署方案。

4 天

硅谷人工智能公司Nexa AI发布端侧AI部署新思路

硅谷人工智能公司Nexa AI发布端侧AI部署新思路,安卓,端侧,sdk,工具包,nexa,python ...

6 天Opinion

原创芯片教父警告！英伟达自毁CUDA护城河，实为挖更深的坑

英伟达近期放出重磅消息， CUDA 13.1正式亮相，黄仁勋直言这是该平台二十年最大升级。按官方说法，如今用十五行Python代码，就能完成过去两百行C++才能搞定的工作，连数据科学家都能轻松编写 GPU内核。

11 天

英伟达CUDA史上最大更新，Python直接写GPU内核，被质疑“自毁护城河？”

英伟达把CUDA门槛砸了！新一代CUDA 13.1推出全新编程模型CUDA Tile，15行Python代码性能匹敌200行C++，被芯片界传奇人物Jim Keller质疑“自毁护城河”。

11 天

英伟达自毁CUDA门槛，15行Python写GPU内核，性能匹敌200行C++

CUDA Tile和cuTile Python打通了这个瓶颈。英伟达在开发者博客中提到，一个15行的Python内核性能可以媲美200行手动优化的CUDA C++代码。

11 天

NVIDIA发布CUDA史上最大升级，全新Tile编程模型重塑格局并加深生态护城河

【TechWeb】NVIDIA日前正式推出CUDA 13.1版本，官方称其为自2006年平台诞生以来最大、最全面的升级。此次更新的核心在于引入了革命性的CUDA Tile编程模型，标志着GPU编程范式迈向一个更高抽象层级的新阶段。

12 天

自 2006 年问世以来最大革新：英伟达 CUDA 13.1 发布，引入 Tile IR 为 ...

IT之家 12 月 7 日消息，英伟达本周四发布了全新的 CUDA 13.1，这是自 2006 年 CUDA 平台问世以来规模最大的一次功能扩展更新。英伟达介绍称，本次更新的重点在于引入了一种名为 CUDA Tile 的全新 GPU ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果