爽爽淫人网 老显卡福音!好意思团开源首发INT8无损满血版DeepSeek R1
满血版 DeepSeek R1 部署A100,基于 INT8 量化爽爽淫人网,比拟 BF16 已毕50% 模糊升迁!
好意思团搜推机器学习团队最新开源,已毕对 DeepSeek R1 模子基本无损的 INT8 精度量化。
要知谈,DeepSeek R1 原生版块的模子权重为 FP8 数据面目,对 GPU 芯片类型有严格戒指,仅能被英伟达新式 GPU 援助(如 Ada、Hopper 架构芯片),其他型号 GPU(如 A100)无法胜利部署。
当今,量化代码依然合入到了开源 LLM 推理框架 SGLang,量化模子依然发布到了 Hugging Face 社区,陋劣用户使用。
INT8: 友好的"平替"
把柄 DeepSeek 最新发布的本事论说,V3/R1 淘气性的考试资本抑止主要依托 FP8 精度考试决议。FP8 是一种典型的模子量化本事,相较于业界常用的 BF16 精度,FP8 精度通过将数据位宽减半权臣缩短了单次诡计支出,但也会带来一定的精度亏空。
在执行中,DeepSeek R1 弃取了夹杂精度考试机制灵验缓解了精度亏空问题。
为了接续保捏高模糊性能,好意思团本事团队弃取了和 FP8 精度等位宽的 INT8 精度。同期,INT8 精度被无为硬件原生援助,基于 INT8 精度可以极大拓展 DeepSeek 模子的硬件部署限制。以硬件友好的 INT8 精度为中心,好意思团本事团队驱动探索 FP8 "平替"的落地决议。
量化本事的探索
具体来说,分块量化(Block-wise Quantization)是 DeepSeek V3/R1 缩短量化亏空的枢纽本事之一。分块量化通过对权重矩阵的细粒度切分,将量化操作的限制抑止在 [ 128, 128 ] 的矩阵内,减少了散播分散的出现概率,从而很好地抑止了每次量化历程中的亏空。
好意思团本事团队延续了 DeepSeek 考试的量化战略,相通在 [ 128, 128 ] 的矩阵内进行分块量化操作,保证考试和推理的一致性。在量化野心的选型上,INT8 的上风在于其与 FP8 享有换取的位宽,且大部分硬件王人对 INT8 的数据诡计原生援助。
在执行中,由于 DeepSeek 官方并莫得提供半精度浮点型(BF16)的权重,因此启航点需要将原生的 FP8 模子权重反量化成 BF16,再分块量化成 INT8 类型。另外皮推理历程中,为了匹配权重的分块量化,激活值弃取在线逐 token-group 的量化时势,即每个 token 的镶嵌向量分为多个组,逐组进行量化。分块量化的激活值和权重的乘法历程如下左图所示。
除了上述的分块量化外,好意思团本事团队还探索了更高效的通谈量化(Channel-wise Quantization),即权重的每列为一组进行量化。
通谈量化在奉行完 INT8 的矩阵乘法后,只需进行一次反量化诡计,诡计支出更低。在具体执行中,相通地先将原生 FP8 的模子权重反量化成 BF16,之后逐通谈量化成 INT8 类型。同期,对激活值弃取在线逐 token 量化,最猛进程地减少 activation 的量化亏空。通谈量化的激活值和权重的乘法历程如下右图所示。
当今,两种 INT8 量化权重均已开源到 Hugging Face。
INT8 量化模子精度
离别哄骗上述的两种量化面目,对开源的 DeepSeek R1 模子进行了 INT8 量化处置,并在 GSM8K 和 MMLU 两个数据集上对量化后的模子进行了精度评估。评估末端如下表所示,比拟基线的 BF16 和 FP8 模子,两种 INT8 量化模子的精度基本无损。
注:表中的精度末端是屡次测试的均值。
INT8 量化模子推理模糊爽爽淫人网
在知名开源推理框架 SGLang 上,对上述两种 INT8 量化面目进行了推理援助,并进行了推理模糊评估。SGLang 是现时 SOTA 的开源 LLM 推理框架,在 DeepSeek 系列模子上有着最优的推感性能,被业界无为使用。
在 A100 GPU 上对两种 INT8 模子和 BF16 模子进行推理模糊评估。获利于更低的显存条目,INT8 量化模子仅需要 16 张 A100 GPU 即可推理,然则 BF16 模子需要 32 张 A100 GPU。为了比较的公正性,协调在 32 张 A100 GPU 上进行模糊测试。末端如下表所示,分块量化的 INT8 推理比拟 BF16 可以升迁 33% 的模糊;通谈量化的 INT8 推理可以进一步达到 50% 的模糊升迁。
INT8 量化模子部署
以双节点各 8 张 A100 GPU 为例,开垦者需要在双部署节点装配最新版块的 SGLang,然后离别奉行底下敕令:
# 分块量化 INT8 推理 # 主节点 python3 -m sglang.launch_server --model meituan/DeepSeek-R1-Block-INT8 --tp 16 --dist-init-addr HEAD_IP:5000 --nnodes 2 --node-rank 0 --trust-remote --enable-torch-compile --torch-compile-max-bs 8# 副节点 python3 -m sglang.launch_server --model meituan/DeepSeek-R1-Block-INT8 --tp 16 --dist-init-addr HEAD_IP:5000 --nnodes 2 --node-rank 1 --trust-remote --enable-torch-compile --torch-compile-max-bs 8
# 通谈量化 INT8 推理 # 主节点 python3 -m sglang.launch_server --model meituan/DeepSeek-R1-Channel-INT8 --tp 16 --dist-init-addr HEAD_IP:5000 --nnodes 2 --node-rank 0 --trust-remote --enable-torch-compile --torch-compile-max-bs 8 --quantization w8a8_int8# 副节点 python3 -m sglang.launch_server --model meituan/DeepSeek-R1-Channel-INT8 --tp 16 --dist-init-addr HEAD_IP:5000 --nnodes 2 --node-rank 1 --trust-remote --enable-torch-compile --torch-compile-max-bs 8 --quantization w8a8_int8
twitter 反差底下是一些兴味的 case:
深度想考智商展示
这里以 curl 为例发送一条央求:
curl -X POST 'http://HEAD_IP:5000/v1/chat/completions' --header 'Content-Type: application/json' -d '{ "model": "deepseek-r1", "messages": [ {"role": "user","content": " 下列选项中,找出如胶投漆的一个:1. 铝 2. 锡 3. 钢 4. 铁 5. 铜 " } ] }'
在 INT8 R1 的回答中(由于篇幅戒指不祥部老实容),能看到其立场专有的反想:
不外,我需要阐发这少量是否正确。比如,有莫得可能其他选项中也有合金?比如,锡或然间会和其他金属夹杂使用,但锡自己是纯金属。相通,铝、铁、铜王人是纯金属。是以钢看成合金,应该是一个枢纽的不同点。另外,可以探讨其他属性,比如它们的用途、物感性质或化学性质。举例,导电性:银是最佳的导体,但这里莫得银,而铜的导电性也很好,铝也可以,铁和钢的导电性相对差一些。但这么分类的话,可能难以详情哪一个不同。……不外回到启航点的分类,钢是独一的合金,而其他王人是纯金属,这少量可能更为基础。因此谜底应该是 3. 钢。不外需要再考证一下这个论断是否正确。
最终谜底亦然正确的:
谜底:3. 钢
模拟海量小球通顺
参考其他 LLM 测试的 prompts 看成输入,对比 INT8(上)和 FP8(下)输出代码的运行成果,INT8 竣工不逊于 FP8。
write a script for 100 bouncing balls within a sphere, make sure to handle collision detection properly. make the sphere slowly rotate. make sure balls stays within the sphere. implement it in p5.js
转头与预测
综上,筹划团队在 DeepSeek R1 上进行了 INT8 量化本事的探索,并基于 SGLang 框架进行了推明智商的援助,在保证量化后模子精度的前提下,让 DeepSeek R1 可以在如 A100 等老型号 GPU 上进行部署,何况升迁了推理模糊。咱们但愿开源的代码和权重可以让更多用户和业务方受益,也宽饶寰宇积极交流关联本事,共同诞生、回馈开源社区。
� � 交流邮箱:search.platform@meituan.com
参考文件
[ 1 ] 本事论说:Liu A, Feng B, Xue B, et al. Deepseek-v3 technical report [ J ] . arXiv preprint arXiv:2412.19437, 2024.
[ 2 ] Hugging Face:https://huggingface.co/meituan/DeepSeek-R1-Block-INT8,https://huggingface.co/meituan/DeepSeek-R1-Channel-INT8
[ 3 ] 推理援助:Block-wise INT8 DeepSeek R1 援助(https://github.com/sgl-project/sglang/pull/3730)、Channel-wise INT8 DeepSeek R1 援助(https://github.com/sgl-project/sglang/pull/3888)
[ 4 ] 其他 LLM 测试:https://qwenlm.github.io/blog/qwq-max-preview/
— 完 —
学术投稿请于责任日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿实质
附上论文 / 名目主页畅达,以及连系时势哦
咱们会(尽量)实时恢复你
一键温雅 � � 点亮星标
科技前沿施展逐日见
一键三连「点赞」「转发」「防卫心」
宽饶在驳倒区留住你的认识!爽爽淫人网