🤔 26M 蒸馏 Gemini 工具调用模型：本地助手、Home Assistant 与能力争议

320 16 小时前 github.com

🤔26M 蒸馏 Gemini 工具调用模型：本地助手、Home Assistant 与能力争议

26M 就想当万能助手，认真的吗？

🎯 讨论背景

Needle 是一个把 Gemini（Google 的大模型系列）的 tool calling 行为蒸馏到 26M 级别的小模型，强调 INT4（4-bit 量化）后只有约 14MB，可在本地设备上直接产出工具调用 JSON。讨论围绕它能否成为手机、手表、眼镜、Home Assistant（开源智能家居平台）或命令行工具的本地助手核心展开，也有人把它想象成 Siri/Alexa 的替代或补强。作者后来补了 Hugging Face Space（在线 demo 托管）和简化 Dockerfile，说明模型本身可低成本运行，但更完整的 infra、视频和浏览器/WebGPU 支持仍在补。评论区同时在追问评测、歧义处理、多工具选择，以及 Gemini ToS（服务条款）是否允许这种蒸馏。

📌 讨论焦点

本地助手与小设备场景

不少人把这个模型理解成“把自然语言变成结构化动作”的本地核心，场景包括手机、手表、眼镜、Home Assistant、智能音箱、命令行和 MOO 系统。支持者强调它可以在隐私优先的前提下，把语音或文字指令直接映射成 JSON/tool call，甚至用于 build/test 这种有明确反馈回路的工作流。质疑者则反复追问到底有什么真实用例，认为 Siri、键盘和现有助手已经足够，尤其在手机上自然语言未必比直接操作更高效。整体上，这一组讨论把“能做什么”与“值不值得做”摆在一起。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12] [来源13] [来源14] [来源15]

演示、部署与浏览器可运行性

评论区很快转向“先让我跑起来看看”的诉求：有人要求 live demo、短视频，或者至少给一个可读的聊天 transcript。随后出现了 Hugging Face Space（在线 demo 托管）部署和极简 Dockerfile，说明这个模型确实能低成本跑起来；作者也表示主要障碍是规模化部署，而不是模型本身。有人进一步建议用 WebGPU、Transformers.js 或浏览器/onnx 跑，另有人在 CPU 容器里遇到报错，进一步强化了“无 GPU 运行”需要被明确展示。这个主题的核心不是算法，而是可复现性与展示方式。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12] [来源13] [来源14]

工具调用能力、歧义与评测

最受追问的是工具调用的判别力：当自然语言含糊、工具很多、或多个工具很像时，模型怎么选对动作。有人拿“我需要告诉老板我会迟到”测试，得到的是 timer 而不是 email，但另一位指出当时左侧并没有提供 email 工具，换成带 send_email 工具的界面后就能正常输出。大家还追问它是否会在找不到工具时拒绝、是否能串联多个工具、能否总结抓取到的文本，以及有没有系统性的 eval 而不只是示例。对 Gemini 的选择也有人质疑，因为社区里常见看法是 Google 模型在 tool calling 上并不算强。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11]

26M/14MB 规模、INT4 与无 FFN 结构

标题里的 “M” 字样引发了一波单位误读，不少人把 26M 看成 26B，才意识到这其实是一个只有 INT4 下约 14MB 的超小模型。有人认为这种级别的模型被塞进一个字母里，反而把真正的卖点埋掉了；也有人认为“小到能跑在任何地方”本身就是值得强调的突破。另一条技术线则聚焦于没有 FFN/MLP 的 Transformer 结构，有人惊讶于“Attention Is All You Need”竟然更接近现实，另有人提醒去掉 MLP 可能保住变换能力，却会丢失知识存储。围绕结构的讨论，本质上是在问模型到底需要什么才能既“记得住”又“做得对”。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12] [来源13]

蒸馏、ToS 与模型复制争议

有评论提醒，这类用 Gemini 蒸馏出的模型可能碰到 Google ToS（禁止用服务开发竞争模型、逆向或复制权重）。回应者则说这类蒸馏并没有访问权重，也不算直接竞争；还有人把争议拉回更大的版权双标：大模型本身训练时也“吃掉”了海量公开或受版权保护的内容。部分人把这看作需要谨慎的 “distillation attack”，可能招来 C&D 或封禁，另一些人则直接认为这种指责很荒谬。这里体现的是 AI 复现、许可证边界和现实可行性之间的拉扯。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7]

📚 术语解释

模型蒸馏: 把大模型的行为或知识压缩到更小模型中的训练方法，通常会损失一部分能力。

tool calling / function calling: 让模型输出结构化参数去调用外部工具或函数，而不是只生成自然语言。

INT4 量化: 把权重压缩到 4-bit 表示，以显著减少模型体积和内存占用。

FFN / MLP: Transformer 里的前馈网络层，常用于非线性变换和知识存储。

原文链接 Hacker News 讨论

AI Programming Needle Gemini tool calling distillation 26M Cactus-Compute GitHub

News Hacker｜极客洞察