加载失败
MAI-Thinking-1 是微软推出的新推理模型,评论里不断把它和此前的 Phi 系列(微软早期强调小模型和高质量数据的路线)放在一起比较。帖子宣称它使用“clean and appropriately licensed data”,排除 AI-generated content 和 third-party model distillation,这让讨论立刻牵扯到微软与 OpenAI(ChatGPT 背后的公司)的关系变化,以及围绕训练数据版权的持续诉讼。评论还把它放进当前大模型竞争格局里比较:Claude(Anthropic 的模型)、DeepSeek、GLM、Kimi、Qwen 等都被拿来对照 benchmark,而 256k context window、35B active / 1T total 的 sparse MoE 设计则被视为更偏 enterprise/Copilot 落地的信号。
不少评论质疑“appropriately licensed data”到底涵盖什么,尤其怀疑是否实际上大量抓取了 GitHub 开源仓库。有人认为既然许可证已允许使用,就不必再逐个征求许可;但反方强调很多许可证仍要求保留版权和署名信息,训练成嵌入或概率映射也不等于没有复制。讨论进一步延伸到 copyleft license、是否算 derivative works,以及是否应做训练数据的 bill of materials(BOM)和 opt-in 训练。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9]
有人指出微软以前的 Phi 系列就建立在“高质量 synthetic data 比海量原始语料更重要”的思路上,所以这次的“clean data”更像数据工程策略,而不只是字面上的无 AI 内容。也有人认为在今天的网络环境里,真正把 AI-generated content 从 pre-training 里完全剔除几乎不可能,除非只用 pre-AI 时代数据。另一条思路是把语言理解主要交给 pre-training,再靠 post-training 或合成数据补强能力,这样“不用 distillation”的说法更多是在强调训练路线的独立性。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10]
一些评论认为这组 benchmark 不算亮眼,和 DeepSeek V3.2、GLM-5.1、Kimi K2.6 这些模型比起来并不占优,甚至在相同量级里也显得一般。也有人提醒,微软如果真是从 scratch 训练、又不靠第三方模型蒸馏,分数不如那些“吃过老师”的模型并不意外。更广泛的争论是 benchmark 是否真能代表产品价值:有人更看重 human preference,有人直接把 SWE Bench Pro 斥为 junk,并希望看到更贴近真实编程任务的 DeepSWE。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9]
帖子把这个模型包装成 enterprise-ready,评论里于是把它理解为更偏向 Microsoft 自家 Copilot 和企业客户,而不是面向个人玩家的爆款。它被描述为 35B active、约 1T total parameters 的 sparse Mixture of Experts(MoE)模型,这让一些人觉得它的推理成本可能更接近小模型。关于 256k token window,评论分歧很大:有人觉得 1M token 才是趋势,也有人说超过 100k-150k 后质量明显下降,很多时候反而要 compact session。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11]
大量评论几乎都在吐槽这个发布页面本身,核心问题是强烈的 scroll jacking,把滚轮和空格键都改造成了带动效的阅读控制。用户反馈它会闪烁、让人失去方向、破坏 accessibility mode,甚至有人看了第一屏就放弃。还有人觉得页面像“AI blog 模板”拼出来的,连 taupe 配色和页眉间距都像在刻意模仿别家 AI 公司。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12]
distillation: 用更强模型生成的输出、轨迹或数据去训练更小模型的做法。
synthetic data: 由模型或程序生成、而非直接采集自真实世界的数据,常用于训练或后训练。
context window: 模型一次能处理的上下文长度,通常以 token 计。
Mixture of Experts (MoE): 一种稀疏模型架构,只激活部分“专家”参数进行推理,以降低成本。
benchmaxxed: 指模型主要在 benchmark 上被“刷分”优化,真实使用未必同样出色。