http://%77%77%77%2E%66%6F%72%61%73%70%2E%63%6E
在使用本地模型时,经常看到 模型有不同的参数和名称,比如:qwen3.6:35b-a3b-coding-nvfp4 和 qwen3.6:35b-a3b-q4_K_M
其中参数都是什么意思呢,下面详解一下常见的参数:
1. 模型名称:qwen3.6:35b-a3b-q4_K_M
(1)qwen3.6 模型的系列和版本号,
(2)35B : 模型的总参数量为350亿(35 Billion)
(3)A3B: 这是你最关心的部分。它表示模型采用了名为 MoE(混合专家) 的先进架构。在这种架构下,模型虽然总共有350亿参数,但在处理每一个任务(如生成一个词)时,并不需要调动所有参数,而是智能地选择并激活其中最相关的部分。A3B 就意味着每次只激活30亿(Active 3 Billion)参数进行计算。
(4)Q4: 代表 4-bit 量化。这是一种压缩技术,将模型权重的精度从原始的16位或32位降低到4位,能显著减小模型体积,使其更容易在消费级显卡上运行。
(5)K_M: 这是 llama.cpp 框架中用于量化的一种具体方案。K 代表 K-quants,是一种改进的量化算法;M 通常代表 Medium(中等),表示在同等量化级别下,它在模型体积、运行速度和性能之间取得了较好的平衡。
 
2. 模型名称 qwen3.6:35b-a3b-coding-nvfp4
(6)nvfp4 代表 NVIDIA FP4,是 NVIDIA 为其 Blackwell 架构 GPU(如 RTX 50 系列)专门开发的一种 4位浮点量化格式。仅支持 RTX 50 系列显卡上。
coding 表示用于编码
 
3.模型名称 qwen3.6:35b-a3b-coding-mxfp8
(7) mxfp8 代表 Microscaling Floating Point 8(微缩放8位浮点格式)。这是一种由开放计算项目(OCP)定义的、旨在替代传统 FP16/BF16 的新型低精度计算标准。简单来说,它是目前大模型推理中兼顾“速度”与“精度”的最佳平衡点之一。 几乎适配所有显卡
 
4. 模型名称 gemma4:e2b
(8) e2b 代表 Effective 2 Billion,即有效参数量20亿。这是 Google Gemma 4 系列中最轻量级的型号,专为手机、IoT 设备和边缘计算设计。虽然它的名字里带有“2B”,但得益于特殊的架构设计,它的实际智能水平远超传统的 20 亿参数模型。
 
5. 模型名称:qwen3.5:latest
(9)latest 表示当前版本是最新的
 
6. 模型名称 qwen3.6:27b-mlx-bf16
(10)mlx 代表 Apple MLX。这是苹果公司专门为 Apple Silicon 芯片(即 M1、M2、M3、M4 系列芯片)开发的一个机器学习框架
(11) bf16 代表 BFloat16 (Brain Floating Point) 目前大模型领域的“黄金标准”格式。简单来说,它是原始模型训练时使用的精度。如果你下载这个版本,意味着你得到了一个没有被压缩、没有被量化、原汁原味的模型。16位精度:它使用 16 个比特位来存储数据,文件大小是 FP32(32位)的一半,但比 FP8 或 INT4 要大。
 
7. 模型名称:qwen3.6:35b-a3b-q8_0
(12)q8_0 代表 8-bit 量化(8-bit Quantization) 的一种特定格式。简单来说,这是一种“几乎无损”的压缩技术。它在大幅减小模型体积的同时,保留了接近原始模型(BF16)的智能水平,是追求高性能与低显存占用之间的最佳平衡点。
 
特性 bf16 (原版) q8_0 (当前模型) q4_k_m (4-bit)
精度状态 无损 (100% 原汁原味) 微损 (98-99% 接近原版) 有损 (90-95% 智能保留)
显存占用 极高 (~70GB) 高 (~36GB) 适中 (~20GB)
推理速度 慢 (数据吞吐量大) 快 (数据量减半,带宽压力小) 极快 (数据量最小)
适用场景 科研、企业级极致要求 高端玩家、追求稳定性的单卡用户 主流玩家、显存受限用户
 
 
 
你的设备 推荐选择 理由
Mac (M1/M2/M3/M4) mlx 原生加速,速度最快,功耗最低,利用统一内存优势。
Windows (NVIDIA 显卡) nvfp4/mxfp8 MLX 在 Windows 上无法运行,需用 NVIDIA 专用格式。
Windows (纯 CPU) GGUF 通用格式,兼容性好。
 
特性 bf16  mxfp8 nvfp4
精度状态 原始/无损 (满血版) 微损 (接近满血) 高压缩 (轻微降智)
显存占用 极高 (约 70GB) 中等 (约 35-40GB) 极低 (约 18-20GB)
推理速度 慢 (数据量大) 快 (RTX 4090+ 加速) 极快 (RTX 5090 专属)
硬件门槛 极高 (需多卡或企业级显卡) 高 (需 4090 等高端卡) 高 (需 5090 等新卡)
推荐场景 企业级部署、追求极致效果、科研评测 高端玩家、兼顾速度与质量 极致速度、显存受限但想跑大模型
网站制作学习网Foasp.cn