🤔 Kimi K2.6：开源编码冲击 Claude，争议集中在基准、成本与审查

393 9 小时前 kimi.com

🤔Kimi K2.6：开源编码冲击 Claude，争议集中在基准、成本与审查

又拿骑车鹈鹕来证明这模型多强了吗？

🎯 讨论背景

Kimi K2.6 是 Moonshot AI（中国公司月之暗面）推出的开放权重模型，主打 coding 和多模态能力，社区常拿它和 Anthropic 的 Opus / Sonnet、Qwen、DeepSeek、GLM 等模型比较。官方和第三方评测里经常出现 benchmark、long-horizon coding、tool calling、SVG 生成等任务，但 HN 用户更关心它在真实工作流里的稳定性。因为模型规模据说达到 1.1T 参数，讨论很快延伸到 int4 quantization、本地推理、OpenRouter 接入和 200k 以上上下文的可用性。与此同时，帖子也触发了典型的 HN 老话题：开源是否会加速技术扩散、云端模型会不会审查或监控内容，以及中国 / 美国 AI 路线的差异。

📌 讨论焦点

基准与真实编码体验

不少评论认为 K2.6 的 benchmark 和上手体验都很强，尤其在 coding 场景里接近或达到 Opus / Sonnet 级别，因此有人把它看成可替代 Anthropic 的候选。也有人说它在设计、前端、文案上更顺手，但在后端、谜题和需要严格精确的任务上仍会翻车。几条实测反馈提到它会给出多余功能、输出被截断，或在复杂 refactor 中把代码改坏，说明“强”更多体现在风格和覆盖面，而不是稳定性。评论里还反复提醒，发布方挑选的 benchmark 本身有偏置，不能只看榜单。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11]

长上下文与 agentic 执行

一些人真正关心的是它做 long-horizon coding 时能否像 agent 一样持续工作，而不是一次性答题。实测里有人看到它在 OpenCode / Pi harness 中疯狂“思考”几十千 token，却迟迟不动手，甚至在 refactor 中陷入循环并回滚自己改过的文件。另一类评论则认为，K2.6 以前的 Moonshot 模型在 tool calling、task inference 和 task adherence 上已经比很多模型更接近 Anthropic，而新的版本是否能在 100k 以上上下文、compaction 和长任务稳定性上继续进步，还要看更长的测试。有人还希望这些长跑任务能完整开源，方便观察它如何在数千次工具调用里自我修复。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6]

pelican / SVG 玩具基准争议

HN 里老牌的 pelican-on-a-bicycle 测试又被拿出来了，这次模型不仅画了 SVG 鹈鹕，还自作主张包了一层 HTML，加了动画速度控制。支持者把它看作一个轻松的泛化测试，尤其适合观察模型是否能把一个简单 prompt 扩展成可交互的图形输出。批评者则觉得这类帖子越来越像低成本复读，不但不能说明真实能力，还容易被训练数据污染，甚至连鹈鹕腿脚都画得不对。围绕“什么叫画得好”还有一段分歧：有人认为这种任务根本没有唯一正确答案，也有人觉得这正是它有趣的地方。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12] [来源13] [来源14] [来源15] [来源16]

价格、API 与本地部署

很多人被它的价格震住了，尤其是拿它和 Opus 的 API 成本相比时，认为性价比夸张到离谱。也有人讨论订阅、OpenRouter、不同 provider 的实现差异，以及某些第三方会把 thinking 轨迹或输出处理错，导致同一个模型在不同托管方表现不一致。另一个焦点是它的体量：1.1T 参数、int4 quantization、几百 GB 的权重，让本地跑起来需要很大的 RAM / VRAM，甚至要靠 Mac Studio、SSD offload 或高带宽存储。评论普遍同意，能不能在本地以足够高的 token/s 跑 agentic coding，才决定它是不是“真能用”。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12] [来源13] [来源14] [来源15] [来源16] [来源17] [来源18] [来源19] [来源20]

开源路线与中美竞争

不少评论把 Kimi K2.6 看成中国在 open-weight AI 上继续进攻的一步，甚至有人感叹中国似乎在用开源推动最重要的技术，而美国大厂反而更保守。有人认为开源会加速整个行业，像 GPS、互联网、Bell Labs 式研究那样让关键能力扩散；也有人把它解释成一种经济 / 技术竞争，目的是压低 inference 成本、抢占市场和投资者预期。讨论里还跑到了“open source == communism”这种老梗，随后又被反驳为“open source 是做事的人拥有结果”或“这更像 supercapitalism”。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12] [来源13] [来源14] [来源15]

审查、隐私与监控

关于审查的争论很集中：有人说在 Kimi API 上会遇到外部 censorship bot，Tiananmen 之类话题会被压制，但通过 OpenRouter 或本地运行时又能绕开部分限制。也有人指出美国模型同样会在政治和科学话题上改变 tone，甚至拒答，只是表现方式不同。更现实的担忧是 coding AI 会看到大量公司私有代码，因此可能成为工业间谍情报入口；评论里有人担心中国公司和政府，也有人反过来提醒 NSA、FBI 等美国机构同样会监控。围绕 ToS、法律保护和“数据会不会被拿去训练”也有争论，但共识是：把敏感代码交给云端模型，本来就要承担信任成本。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12] [来源13]

📚 术语解释

OpenRouter: 一个聚合、转发多家模型 API 的路由平台，方便在不同 provider 之间切换。

MoE: Mixture of Experts，按需激活部分专家子网络的架构，常用于在保持能力的同时降低推理成本。

int4 quantization: 把模型权重压缩到 4 bit 存储的量化方法，用来显著降低显存和磁盘占用。

compaction: 长上下文压缩策略，把历史对话或任务轨迹浓缩后继续推理，以延长可处理的任务长度。

agentic coding: 让模型像代理一样反复调用工具、修改代码、验证结果的编码工作流。

Humanity's Last Exam: 一个高难度 AI benchmark，刻意设计得不容易泄漏到训练数据里，用来测更强的泛化与推理能力。

原文链接 Hacker News 讨论

AI Programming Systems Kimi K2.6 Kimi MoonshotAI OpenRouter Hugging Face Anthropic Opus 4.6 Qwen 3.6 Quantization 1.1T parameters

News Hacker｜极客洞察