⚠️ AI识图算碳水27,000次：同图答案不一，糖尿病App争议

184 9 天前 diabettech.com

⚠️AI识图算碳水27,000次：同图答案不一，糖尿病App争议

一张三明治照片就能算准胰岛素剂量？

🎯 讨论背景

这篇帖子讨论的是一项针对四个 frontier model vision API 的测试：把 13 张食物照片重复提交 26,904 次，在很低的 temperature 下观察同一图像的碳水估计是否稳定。研究使用的 prompt 改自 iAPS（开源自动胰岛素输送系统）的真实流程，背景是糖尿病患者会根据 carb 估算来决定 insulin 剂量，而剂量错误可能带来低血糖风险。评论之所以吵起来，是因为市面上已经有不少 AI 食物识别和 calorie/carbs 追踪 App，把“拍照即算”包装成卖点。争论焦点集中在：单张照片到底能提供多少信息、LLM 的随机输出是否足以用于医疗、以及产品宣传是否夸大了能力边界。

📌 讨论焦点

风险警示：给糖尿病 App 做现实提醒

不少评论认为，这篇研究的核心价值不在于证明 AI 会犯错，而是把这种风险量化给真正会拿来做糖尿病管理的人看。讨论里反复提到，市面上已经有 App 号称能拍照算碳水，甚至一些 open-source 自动胰岛素输送系统也在尝试接入这类能力，因此需要一份能被媒体、监管和患者社区引用的证据。有人还强调，科学研究本来就常用于“调试现实”，把明显问题测成可展示的数据，才更容易推动政策和沟通。尤其在 insulin 剂量可能出错的场景里，这类证据比“大家都知道不准”更有说服力。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9]

方法论争议：该测 App 还是测基础模型

另一派主要不满在于，研究停留在 frontier model 层面，没有直接比较真正声称“AI 识别食物”的商业 App，也没有把人类估算、传统 calorie app 或类似服务的基线拉进来。评论者更想看到的是，同一批图片下，商业产品、基础模型和经过 grounding 的系统谁更接近 ground truth，而不是只展示模型的随机性。也有人质疑标题和写法偏 clickbait，图表之外缺少原始表格、误差基线和更细的统计分析。对这类人来说，这篇东西更像是“表层统计”而不是能推进问题的 benchmark。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8]

单张图片无法还原 carb 的信息上限

很多评论强调，这个任务从信息论上就有先天上限：一张食物照片看不到夹层、油脂、馅料、面包克重，也无法知道真实配方。举例里，olive oil、隐藏蔬菜、fake cheese、不同面包厚度都会让同一外观对应截然不同的 carb 值，因此只能做范围猜测，不能当作精确输入。有人认为，最稳妥的方法仍然是读 nutrition label、称重、查配方，或者至少结合文字描述和品牌信息，而不是只靠 pixels。也有评论承认，人类在有经验时能做“合理估计”，但那和“看图精确计算”不是一回事。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9]

随机性与 confidence 的可靠性问题

还有一大类评论在解释为什么同一张图会反复得到不同答案：LLM 本来就是 stochastic，不设为严格确定性时就会在多个 token 路径之间采样。有人提到，即使 temperature 很低，API 里的随机性、structured output、confidence score 设计，也会让“自报置信度”与真实不确定性脱钩，甚至出现每次都填满 confidence 的情况。也有评论把这看成 next-word predictor 的自然结果，认为若要一致性，必须引入更强的 tool use、校验和外部 grounding。对他们来说，这篇研究真正暴露的是“模型会一本正经地胡说”，而不是单纯的识图问题。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9]

营销夸大与用户教育不足

不少评论把矛头对准 AI 公司和应用营销，认为它们把模型包装成“万能 oracle”，让用户自然以为拍照问一句就能得到可靠营养数据。有人指出，普通人、甚至部分技术人，对 LLM 的 nondeterministic、hallucination、以及“我不知道”的边界都缺乏直觉；同时卖家和平台又在鼓励用户把 AI 用到购物、旅行、医疗和写商品文案等场景。也有声音认为责任不该全甩给用户，模型应该学会更明确地拒答、提示风险，或者在健康问题上主动降级。争议背后其实是“产品宣传说它什么都能做，但出事后又说用户用错了”。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10]

加上重量、标签和数据库后，LLM 才更实用

也有不少人分享自己在 calorie counting 或 low-carb 生活中的正面经验：当把食物重量、包装标签、品牌名、recipe URL，甚至 Bluetooth scale 的读数一起喂给模型时，LLM 可以作为自然语言界面的“粗略计算器”来减少手工录入负担。对这些用户来说，LLM 的价值不在于照片本身，而在于把查询数据库、做换算、追踪每日 totals 这些麻烦步骤整合起来，尤其比传统 app 更顺手。有人甚至说，真正有效的流程本质上还是“数据库 + 称重 + 人工确认”，LLM 只是把交互门槛降下来。与此同时，评论也承认在 diabetes 或 insulin dosing 场景里，这套做法必须非常谨慎，最好再配合 CGM（continuous glucose monitor，连续血糖监测设备）和人工复核。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10]

📚 术语解释

iAPS（open-source automated insulin delivery system，开源自动胰岛素输送系统）: 一个用于自动化胰岛素输送的开源系统，评论里提到研究使用了它的 prompt。

temperature: 控制 LLM 采样随机性的参数；越低通常越接近确定性输出，但仍可能出现差异。

CGM（continuous glucose monitor，连续血糖监测设备）: 用于实时监测血糖变化的设备，常被糖尿病患者用于辅助饮食和胰岛素管理。

原文链接 Hacker News 讨论

AI Product AI carbs LLM calories images diabetes Diabettech nondeterminism

News Hacker｜极客洞察

🎯 讨论背景

📌 讨论焦点

风险警示：给糖尿病 App 做现实提醒

方法论争议：该测 App 还是测基础模型

单张图片无法还原 carb 的信息上限

随机性与 confidence 的可靠性问题

营销夸大与用户教育不足

加上重量、标签和数据库后，LLM 才更实用

📚 术语解释

📚 相似内容