GPU Cache - 搜索 News

电子工程专辑

GPU: 衡量计算效能的正确姿势（3）

上期我们讲了现代计算机体系结构通过处理器（CPU/GPU）和内存的交互来执行计算程序，处理输入数据，并输出结果。实际上 ...

1 年

英伟达年终大礼，最强AI GPU曝光，全新B300让o1/o3推理性能上天算力爆表

距离GB200和B200的发布才刚刚过去几个月，英伟达便推出了全新一代的AI GPU——GB300和B300。更为有趣的是，这次看似普通的更新背后，实则内含玄机。其中最为突出的，便是模型的推理和训练性能得到了大幅增强。

腾讯网

NVIDIA放大招！2028年Feynman GPU携X3D堆叠破AI推理

在AI算力赛道，NVIDIA早已凭借Hopper、Blackwell等架构GPU，在AI训练领域建立起难以撼动的优势。但随着语音对话、实时翻译等即时AI场景需求爆发，传统GPU在推理延迟上的短板逐渐凸显。近日，据行业消息披露，NVIDIA正瞄准这一痛 ...

Pchome电脑之家

AMD疑似为Navi 31 GPU预留了3D V-Cache连接点

根据测试结果表明，AMD似乎为其全新的顶级显卡GPU也预留了3D V-Cache连接点 AMD目前已经在其EPYC服务器处理器和部分消费级处理器产品线上采用了3D V-Cache技术。但根据来自海外工程师的最新测试结果发现，AMD似乎为其全新的顶级显卡GPU也预留了3D V-Cache连接点，这 ...

腾讯网

vLLM 吞吐量优化实战：10个KV-Cache调优方法让tokens/sec翻倍

GPU 性能没问题，模型也训练得不错，但 token 吞吐量就是上不去？问题多半出在 KV-cache 上。本文整理了 10 个实际可用的优化方向，都是能直接上生产环境的那种。把 utilization 往上调，直到不再频繁出现 preemption；然后再调 max-num-seqs，让批次保持密集但别超出 ...

新浪网

推理加速存储AS3000G7发布：以存代算节省算力消耗

快科技7月31日消息，据媒体报道，2025（第二届）产融合作大会在北京召开。会上，浪潮存储重磅发布了推理加速存储产品AS3000G7，旨在解决大模型推理中因KV Cache重复计算导致的算力浪费和时延问题，为金融、科研等领域的模型规模化落地提供关键支撑。当前 ...

2 天on MSN

NVIDIA要用上X3D堆叠设计！下代GPU将引入LPU单元

通过堆叠技术，NVIDIA可以将运算核心留在主芯片，而将需要大量面积的SRAM独立成另一层芯片堆叠上去。台积电的A16制程一大特色是支持背面供电技术，这项技术可以腾出芯片正面的空间，专供垂直信号连接，确保堆叠的LPU能以极低功耗进行高速数据交换。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果