News Hacker|极客洞察

126 1 小时前 prismml.com
🤔Bonsai 1-bit LLM:超快本地推理,质量与兼容性引争议
1 bit 省了内存,顺手把常识也压没了?

🎯 讨论背景

PrismML-Eng 发布了 Bonsai 这一组 1-bit LLM,并声称通过每组共享的 FP16 scale,在极小体积下实现了可用的推理性能。评论区很多人直接用 Prism 提供的 llama.cpp(一个本地 LLM 推理引擎)的 fork、Google Colab 或自建 ngrok 实例测试,因为网页端 demo 并不稳定。讨论重点集中在白皮书里的 benchmark、模型到底算不算“真 1-bit”、以及它和常见 4-bit/8-bit quantization、Qwen 和 llama 系列模型相比究竟值不值得。另一个背景是本地推理生态的碎片化:Cursor、Ollama、LM Studio 和 mlx(苹果平台上的机器学习框架)对新量化格式的支持并不统一。

📌 讨论焦点

实测速度与输出质量

有人亲自跑了本地实例,发现响应速度非常快,甚至能在 Cursor 里做一些 tool usage,还能生成 R script、LaTeX 和网页测试代码。也有人报告它在简单任务上常常可用,但在 strawberry test、量子计算解释等提示上会输出 gibberish,或者在创建界面、清理残留符号时出错。整体观感像早期 ChatGPT:大体方向对,但细节会突然失真,因此更像一个高吞吐的轻量辅助模型,而不是可靠的通用对话器。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9]

1-bit 表示法与压缩原理

围绕“1-bit”本身,大家集中追问它到底是不是纯 1 bit。讨论里有人澄清它是 1-bit g128:每 128 个权重共享一个 FP16 scale factor,所以实际更接近 1.125 bit。也有人强调模型是以 1 bit 原生训练的,不是把一个高精度模型硬压缩成 1 bit;但质疑者仍然认为这会损失信息,只是目前尚不清楚它为何还能保持不错的预测能力。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7]

用途与性能边界

争论的核心是取舍:它确实比全精度模型小、快、便宜,但 benchmark 并没有把它放到 frontier model 的级别,而是更接近 llama3 3B、qwen3 1.7B 这类中小模型。支持者认为这类模型很适合 classification、summarization、translation 以及轻量 semantic workflows,不必直接拿来聊天。白皮书里给出的综合分数也被拿来比较,虽然比 Qwen3 低一些,但换来的是 16x 更小的体积和在 4090 上约 6x 的速度。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7]

硬件部署与生态兼容

不少人关心它的部署门槛:CPU 版需要自己编译并补 AVX2,GPU 版则常提到 CUDA、llama.cpp fork、MLX fork 等依赖问题。有人在老笔记本、Jetson Orin Nano、LM Studio、Android 上尝试,遇到过内存占用高、加载卡住、输出乱码或官方链接被流量打爆的问题。也有人通过 Google Colab、ngrok 自建临时实例来分享测试入口,说明这个生态目前还处在能跑但得折腾的阶段。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12] [来源13] [来源14]

规模化与训练成本

另一条线是规模化想象:如果 8B 只要 1.15GB,那 27B、35B 甚至 100B 的 1-bit 模型是否能塞进 64GB RAM,成了大家最感兴趣的问题。有人提醒训练成本可能并不低,若和 full precision 接近,那节省主要集中在 inference 和存储侧。也有人用 Jevons paradox 来调侃:效率提升后,大家只会想要更大的模型。

[来源1] [来源2] [来源3] [来源4] [来源5]

📚 术语解释

1-bit g128: 一种 1-bit 分组量化方案,每 128 个权重共享一个 FP16 scale factor,兼顾极低比特数和部分动态范围。

llama.cpp: 面向本地运行 LLM 的 C++ 推理引擎,常被各种量化模型和 fork 用来做离线部署。

AVX2: x86 CPU 的向量指令集,可显著加速本地推理中的矩阵和向量运算。

CUDA: NVIDIA GPU 的并行计算平台,很多 LLM 推理版本和优化实现依赖它。