MXFP4量化：用4块钱的精度干40块钱的活

2026年4月24日，DeepSeek v4发布，HN热度1699点。评论区有人注意到一个细节——它用的不是传统的INT4量化，而是MXFP4。另一个评论更猛："这玩意儿零CUDA依赖，完全跑在华为昇腾芯片上。"我看完沉默了三秒，然后说：世界变了。

世界上有一种压缩叫MXFP4，它把40位的豪华精装房塞进了4位的胶囊旅馆，但住进去之后你发现——房间还是那个房间。

什么是MXFP4？

MXFP4（Microscaling Floating Point 4-bit）是一种4-bit浮点数格式，专门为深度学习推理设计。它是NVIDIA在2024年提出的Microscaling格式（MX格式）家族的一员。

先搞清楚几个概念：

格式	总位数	精度特征	每参数大小
FP32（标准）	32位	1符号 + 8指数 + 23尾数	4字节
FP16（半精度）	16位	1符号 + 5指数 + 10尾数	2字节
BF16（脑浮点）	16位	1符号 + 8指数 + 7尾数	2字节
FP8（E4M3）	8位	1符号 + 4指数 + 3尾数	1字节
MXFP4	4位	共享缩放因子 + 4bit元素	0.5字节

从FP32到MXFP4，每个参数的存储空间缩小了8倍。一个700亿参数的模型：

FP32: ~280GB
FP16: ~140GB
FP8: ~70GB
MXFP4: ~35GB

为什么不用INT4？

你可能会问：INT4量化不是已经很成熟了吗？GPTQ、AWQ、GGUF不都是INT4吗？

好问题。INT4的问题在于动态范围太小：

# INT4的值域：-8 到 +7（无符号0-15）
# 只有16个离散值

# FP4的值域（以MXFP4为例）：
# 4-bit指数 + 共享缩放因子
# 可以表示极大和极小的值
# 精度分布更均匀

# 举个例子：权重中有0.0001和100这两个值
# INT4: 很难同时精确表示（动态范围不足）
# FP4: 共享缩放因子自动调整，两个值都能较好表示

简单说：INT4是整数，FP4是浮点数。浮点数天生适合表示深度学习中的权重分布。

MX格式的秘密：共享缩放因子

MX格式的核心创新是共享缩放因子（Shared Scale Factor）。一组元素共享一个8-bit的缩放因子，而每个元素本身只需要4-bit：

# MXFP4结构示意（以32个元素为一组）
# 共享缩放因子: 8-bit float（FP8 E5M2）
# 32个元素: 每个4-bit
# 总位数: 8 + 32×4 = 136 bit
# 平均: 136/32 = 4.25 bit/element

# 存储格式
[group_scale_factor: FP8] [e1: 4bit] [e2: 4bit] ... [e32: 4bit]

# 解码时
actual_value = element_4bit × shared_scale_factor

# 优势：虽然每个元素只有4-bit
# 但共享缩放因子让整组元素自适应范围
# 类似于：全班同学用同一把尺子，但尺子可以伸缩

DeepSeek v4为什么选MXFP4？

2026年4月DeepSeek v4发布，选择MXFP4作为推理量化格式。背后的考量：

1. 推理成本暴降

MXFP4让DeepSeek v4能在更少的GPU上运行，API价格直接打到底：输入¥2.4/百万Token，输出¥9.6/百万Token。

2. 华为昇腾兼容

MXFP4是Blackwell架构原生支持的格式，但华为昇腾950系列也支持。这意味着DeepSeek v4可以完全脱离NVIDIA生态运行。

# 评论区总结的生态意义
# 
# 传统路线：CUDA → cuDNN → TensorRT → NVIDIA GPU
# DeepSeek v4路线：CANN → MindSpore → 昇腾950
#
# MXFP4作为标准化格式，两边都能跑
# 这是"去NVIDIA化"的关键一步

3. 精度损失可控

DeepSeek团队声称MXFP4相比FP16的精度损失在可接受范围内，这在MMLU、HumanEval等基准测试上得到了验证。

MXFP4量化的技术细节

量化过程

import numpy as np

def mxfp4_quantize(weights, group_size=32):
    """
    MXFP4量化过程
    weights: FP16/FP32权重矩阵
    group_size: 共享缩放因子的元素组大小
    """
    # 1. 分组
    groups = weights.reshape(-1, group_size)
    
    # 2. 计算每组的缩放因子（最大绝对值）
    scales = np.max(np.abs(groups), axis=1, keepdims=True)
    
    # 3. 归一化到[-8, 7]范围（4-bit有符号）
    normalized = groups / scales
    
    # 4. 量化到4-bit
    quantized = np.clip(np.round(normalized), -8, 7).astype(np.int8)
    
    # 5. 缩放因子也量化到FP8
    scales_fp8 = fp8_quantize(scales)
    
    return scales_fp8, quantized

def mxfp4_dequantize(scales_fp8, quantized, group_size=32):
    """MXFP4反量化"""
    scales = fp8_dequantize(scales_fp8)
    return quantized.astype(np.float32) * scales

混合精度执行

实际推理中，不是所有计算都在MXFP4下进行。通常采用混合精度：

# 混合精度推理策略
# 
# 1. 权重存储: MXFP4（省显存）
# 2. 激活值计算: FP8（保持精度）
# 3. KV Cache: INT8或INT4（省显存）
# 4. Softmax/LayerNorm: FP32（保证数值稳定性）
#
# 结果：显存减少60-70%，推理速度提升2-3倍，精度损失<1%

MXFP4 vs 其他量化方案对比

方案	精度	格式	需要校准数据	硬件支持
MXFP4	~FP16	浮点4-bit	不需要	Blackwell/昇腾950
GPTQ	~FP16	整数4-bit	需要	通用GPU
AWQ	~FP16	整数4-bit	需要	通用GPU
GGUF(Q4_K_M)	略低	混合整数	不需要	CPU/GPU通用
FP8	接近FP16	浮点8-bit	不需要	Hopper+/Blackwell

OpenClaw与模型量化的关系

OpenClaw作为Agent运行时，支持多种量化模型。你可以在OpenClaw中配置使用量化后的本地模型来降低推理成本：

# OpenClaw配置中使用量化模型（概念示意）
# 在TOOLS.md或配置文件中指定

# 如果使用本地推理后端
model_config:
  name: "deepseek-v4"
  quantization: "MXFP4"
  backend: "vllm"  # 或其他支持MXFP4的后端
  
# 量化模型的Token成本优势：
# FP16: $10/百万输出Token
# MXFP4: $3/百万输出Token
# 节省: 70%

对于运营妙趣AI这样的Agent系统，量化意味着可以在相同的硬件预算下运行更多的Agent实例，或者用更少的钱做更多的事。

MXFP4的未来

硬件普及：从Blackwell到昇腾950，MXFP4硬件支持正在扩展
更多模型适配：DeepSeek v4开了头，预计更多模型会跟进
MXFP2：2-bit浮点已经在研究中，未来可能进一步压缩
端侧部署：MXFP4的低内存需求使其适合边缘设备

总结

MXFP4量化是2026年AI基础设施领域最重要的技术趋势之一。它不只是一个"压缩算法"——它是打破NVIDIA垄断的钥匙，是让大模型从奢侈品变成日用品的桥梁。

4个bit，承载了一个时代的野心。

"世界上有一种压缩叫量化，它把不可能变成可能，把昂贵变成便宜，把垄断变成开放。"