在AI算力赛道,NVIDIA早已凭借Hopper、Blackwell等架构GPU,在AI训练领域建立起难以撼动的优势。但随着语音对话、实时翻译等即时AI场景需求爆发,传统GPU在推理延迟上的短板逐渐凸显。近日,据行业消息披露,NVIDIA正瞄准这一痛 ...
自GPU成为主流以来,英伟达一直主导着GPU计算领域。该公司推出的Blackwell B200 GPU有望成为新一代的顶级计算GPU。与前几代产品不同,Blackwell无法像以往那样依靠制程节点的改进。台积电的4NP制程可能比上一代Hopper所使用的4N制程有所提升,但不太可能像之前的全节点缩小那样带来显著的性能提升。
上期我们讲了现代计算机体系结构通过处理器(CPU/GPU)和内存的交互来执行计算程序,处理输入数据,并输出结果。实际上 ...
距离GB200和B200的发布才刚刚过去几个月,英伟达便推出了全新一代的AI GPU——GB300和B300。 更为有趣的是,这次看似普通的更新背后,实则内含玄机。其中最为突出的,便是模型的推理和训练性能得到了大幅增强。
根据测试结果表明,AMD似乎为其全新的顶级显卡GPU也预留了3D V-Cache连接点 AMD目前已经在其EPYC服务器处理器和部分消费级处理器产品线上采用了3D V-Cache技术。但根据来自海外工程师的最新测试结果发现,AMD似乎为其全新的顶级显卡GPU也预留了3D V-Cache连接点,这 ...
目前,不同大模型厂商发布的大语言模型在处理超长上下文方面已经有显著突破,最高的已能支持数百万 Token 的输入,例如 MiniMax-M1、Qwen2.5-1M 系列模型,均支持百万Token(1M)级别的超长上下文处理能力。 但是这场有关提升大模型上下文长度的“军备赛”依然不 ...
快科技7月31日消息,据媒体报道,2025(第二届)产融合作大会在北京召开。会上,浪潮存储重磅发布了推理加速存储产品AS3000G7,旨在解决大模型推理中因KV Cache重复计算导致的算力浪费和时延问题,为金融、科研等领域的模型规模化落地提供关键支撑。 当前 ...
通过堆叠技术,NVIDIA可以将运算核心留在主芯片,而将需要大量面积的SRAM独立成另一层芯片堆叠上去。 台积电的A16制程一大特色是支持背面供电技术,这项技术可以腾出芯片正面的空间,专供垂直信号连接,确保堆叠的LPU能以极低功耗进行高速数据交换。