News Hacker|极客洞察

393 9 小时前 kimi.com
🤔Kimi K2.6:开源编码冲击 Claude,争议集中在基准、成本与审查
又拿骑车鹈鹕来证明这模型多强了吗?

🎯 讨论背景

Kimi K2.6 是 Moonshot AI(中国公司月之暗面)推出的开放权重模型,主打 coding 和多模态能力,社区常拿它和 Anthropic 的 Opus / Sonnet、Qwen、DeepSeek、GLM 等模型比较。官方和第三方评测里经常出现 benchmark、long-horizon coding、tool calling、SVG 生成等任务,但 HN 用户更关心它在真实工作流里的稳定性。因为模型规模据说达到 1.1T 参数,讨论很快延伸到 int4 quantization、本地推理、OpenRouter 接入和 200k 以上上下文的可用性。与此同时,帖子也触发了典型的 HN 老话题:开源是否会加速技术扩散、云端模型会不会审查或监控内容,以及中国 / 美国 AI 路线的差异。

📌 讨论焦点

基准与真实编码体验

不少评论认为 K2.6 的 benchmark 和上手体验都很强,尤其在 coding 场景里接近或达到 Opus / Sonnet 级别,因此有人把它看成可替代 Anthropic 的候选。也有人说它在设计、前端、文案上更顺手,但在后端、谜题和需要严格精确的任务上仍会翻车。几条实测反馈提到它会给出多余功能、输出被截断,或在复杂 refactor 中把代码改坏,说明“强”更多体现在风格和覆盖面,而不是稳定性。评论里还反复提醒,发布方挑选的 benchmark 本身有偏置,不能只看榜单。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11]

长上下文与 agentic 执行

一些人真正关心的是它做 long-horizon coding 时能否像 agent 一样持续工作,而不是一次性答题。实测里有人看到它在 OpenCode / Pi harness 中疯狂“思考”几十千 token,却迟迟不动手,甚至在 refactor 中陷入循环并回滚自己改过的文件。另一类评论则认为,K2.6 以前的 Moonshot 模型在 tool calling、task inference 和 task adherence 上已经比很多模型更接近 Anthropic,而新的版本是否能在 100k 以上上下文、compaction 和长任务稳定性上继续进步,还要看更长的测试。有人还希望这些长跑任务能完整开源,方便观察它如何在数千次工具调用里自我修复。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6]

pelican / SVG 玩具基准争议

HN 里老牌的 pelican-on-a-bicycle 测试又被拿出来了,这次模型不仅画了 SVG 鹈鹕,还自作主张包了一层 HTML,加了动画速度控制。支持者把它看作一个轻松的泛化测试,尤其适合观察模型是否能把一个简单 prompt 扩展成可交互的图形输出。批评者则觉得这类帖子越来越像低成本复读,不但不能说明真实能力,还容易被训练数据污染,甚至连鹈鹕腿脚都画得不对。围绕“什么叫画得好”还有一段分歧:有人认为这种任务根本没有唯一正确答案,也有人觉得这正是它有趣的地方。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12] [来源13] [来源14] [来源15] [来源16]

价格、API 与本地部署

很多人被它的价格震住了,尤其是拿它和 Opus 的 API 成本相比时,认为性价比夸张到离谱。也有人讨论订阅、OpenRouter、不同 provider 的实现差异,以及某些第三方会把 thinking 轨迹或输出处理错,导致同一个模型在不同托管方表现不一致。另一个焦点是它的体量:1.1T 参数、int4 quantization、几百 GB 的权重,让本地跑起来需要很大的 RAM / VRAM,甚至要靠 Mac Studio、SSD offload 或高带宽存储。评论普遍同意,能不能在本地以足够高的 token/s 跑 agentic coding,才决定它是不是“真能用”。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12] [来源13] [来源14] [来源15] [来源16] [来源17] [来源18] [来源19] [来源20]

开源路线与中美竞争

不少评论把 Kimi K2.6 看成中国在 open-weight AI 上继续进攻的一步,甚至有人感叹中国似乎在用开源推动最重要的技术,而美国大厂反而更保守。有人认为开源会加速整个行业,像 GPS、互联网、Bell Labs 式研究那样让关键能力扩散;也有人把它解释成一种经济 / 技术竞争,目的是压低 inference 成本、抢占市场和投资者预期。讨论里还跑到了“open source == communism”这种老梗,随后又被反驳为“open source 是做事的人拥有结果”或“这更像 supercapitalism”。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12] [来源13] [来源14] [来源15]

审查、隐私与监控

关于审查的争论很集中:有人说在 Kimi API 上会遇到外部 censorship bot,Tiananmen 之类话题会被压制,但通过 OpenRouter 或本地运行时又能绕开部分限制。也有人指出美国模型同样会在政治和科学话题上改变 tone,甚至拒答,只是表现方式不同。更现实的担忧是 coding AI 会看到大量公司私有代码,因此可能成为工业间谍情报入口;评论里有人担心中国公司和政府,也有人反过来提醒 NSA、FBI 等美国机构同样会监控。围绕 ToS、法律保护和“数据会不会被拿去训练”也有争论,但共识是:把敏感代码交给云端模型,本来就要承担信任成本。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12] [来源13]

📚 术语解释

OpenRouter: 一个聚合、转发多家模型 API 的路由平台,方便在不同 provider 之间切换。

MoE: Mixture of Experts,按需激活部分专家子网络的架构,常用于在保持能力的同时降低推理成本。

int4 quantization: 把模型权重压缩到 4 bit 存储的量化方法,用来显著降低显存和磁盘占用。

compaction: 长上下文压缩策略,把历史对话或任务轨迹浓缩后继续推理,以延长可处理的任务长度。

agentic coding: 让模型像代理一样反复调用工具、修改代码、验证结果的编码工作流。

Humanity's Last Exam: 一个高难度 AI benchmark,刻意设计得不容易泄漏到训练数据里,用来测更强的泛化与推理能力。