英伟达Blackwell在数据中心投入运转:NVLINK晋级至14TBs首张FP4 GenAI图画发布
IT之家 8 月 24 日音讯,英伟达约请部分媒体举行吹风会,向科技记者初次展现了 Blackwell 渠道。英伟达将到会 8 月 25-27 日举行的 Hot Chips 2024 活动,展现 Blackwell 渠道在数据中心投入到正常的运用中的相关状况。
英伟达在本次吹风会上,批驳了 Blackwell 推延上市的音讯,并共享了更多数据中心 Goliath 的相关信息。
英伟达在吹风会上演示了 Blackwell 在其一个数据中心的运作状况,并着重 Blackwell 正在按计划推动,并将于本年晚些时候向客户发货。
有音讯称 Blackwell 存在某种缺点或问题,本年无法投放市场,这种观念是站不住脚的。
英伟达表明 Blackwell 不仅仅是一款芯片,它仍是一个渠道。就像 Hopper 相同,Blackwell 包括面向数据中心、云核算和人工智能客户的很多规划,每个 Blackwell 产品都由不同的芯片组成。
英伟达还共享了 Blackwell 系列新产品中各种桥架的全新图片。这些是初次共享的 Blackwell 桥架图片,展现了规划下一代数据中心渠道所需的很多专业工程技术。
Blackwell 旨在满意现代人工智能的需求,并为大型言语模型(如 Meta 的 405B Llama-3.1)供给超卓的功能。跟着 LLMs 的规划渐渐的变大,参数也渐渐变得多,数据中心将需求更加多的核算和更低的推迟。
多 GPU 推理办法是在多个 GPU 上进行核算,以取得低推迟和高吞吐量,但选用多 GPU 道路也有其复杂性。多 GPU 环境中的每个 GPU 都必须将核算结果发送给每一层的其他 GPU,这就需求高带宽的 GPU 对 GPU 通讯。
多 GPU 推理办法是在多个 GPU 上进行核算,以取得低推迟和高吞吐量,但选用多 GPU 道路也有其复杂性。多 GPU 环境中的每个 GPU 都必须将核算结果发送给每一层的其他 GPU,这就需求高带宽的 GPU 对 GPU 通讯。
该芯片经过 72 个端口供给 7.2 TB/s 的全对全双向带宽,网内核算才能为 3.6 TFLOPs。NVLINK 交换机托盘配有两个这样的交换机,供给高达 14.4 TB/s 的总带宽。
英伟达选用水冷散热,来提高功能和功率。GB200、Grace Blackwell GB200 和 B200 体系将选用这些新的液冷解决方案,可将数据中心设备的电力本钱最多下降 28%。
英伟达™(NVIDIA®)还共享了全球首张运用 FP4 核算生成的人工智能图画。图中显现,FP4 量化模型生成的 4 位兔子图画与 FP16 模型十分类似,但速度更快。
该图画由 MLPerf 在安稳分散中运用 Blackwell 制造而成。现在,下降精度(从 FP16 到 FP4)所面对的应战是会丢失一些精度。