加载失败
这篇帖子讨论的是一项针对四个 frontier model vision API 的测试:把 13 张食物照片重复提交 26,904 次,在很低的 temperature 下观察同一图像的碳水估计是否稳定。研究使用的 prompt 改自 iAPS(开源自动胰岛素输送系统)的真实流程,背景是糖尿病患者会根据 carb 估算来决定 insulin 剂量,而剂量错误可能带来低血糖风险。评论之所以吵起来,是因为市面上已经有不少 AI 食物识别和 calorie/carbs 追踪 App,把“拍照即算”包装成卖点。争论焦点集中在:单张照片到底能提供多少信息、LLM 的随机输出是否足以用于医疗、以及产品宣传是否夸大了能力边界。
不少评论认为,这篇研究的核心价值不在于证明 AI 会犯错,而是把这种风险量化给真正会拿来做糖尿病管理的人看。讨论里反复提到,市面上已经有 App 号称能拍照算碳水,甚至一些 open-source 自动胰岛素输送系统也在尝试接入这类能力,因此需要一份能被媒体、监管和患者社区引用的证据。有人还强调,科学研究本来就常用于“调试现实”,把明显问题测成可展示的数据,才更容易推动政策和沟通。尤其在 insulin 剂量可能出错的场景里,这类证据比“大家都知道不准”更有说服力。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9]
另一派主要不满在于,研究停留在 frontier model 层面,没有直接比较真正声称“AI 识别食物”的商业 App,也没有把人类估算、传统 calorie app 或类似服务的基线拉进来。评论者更想看到的是,同一批图片下,商业产品、基础模型和经过 grounding 的系统谁更接近 ground truth,而不是只展示模型的随机性。也有人质疑标题和写法偏 clickbait,图表之外缺少原始表格、误差基线和更细的统计分析。对这类人来说,这篇东西更像是“表层统计”而不是能推进问题的 benchmark。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8]
很多评论强调,这个任务从信息论上就有先天上限:一张食物照片看不到夹层、油脂、馅料、面包克重,也无法知道真实配方。举例里,olive oil、隐藏蔬菜、fake cheese、不同面包厚度都会让同一外观对应截然不同的 carb 值,因此只能做范围猜测,不能当作精确输入。有人认为,最稳妥的方法仍然是读 nutrition label、称重、查配方,或者至少结合文字描述和品牌信息,而不是只靠 pixels。也有评论承认,人类在有经验时能做“合理估计”,但那和“看图精确计算”不是一回事。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9]
还有一大类评论在解释为什么同一张图会反复得到不同答案:LLM 本来就是 stochastic,不设为严格确定性时就会在多个 token 路径之间采样。有人提到,即使 temperature 很低,API 里的随机性、structured output、confidence score 设计,也会让“自报置信度”与真实不确定性脱钩,甚至出现每次都填满 confidence 的情况。也有评论把这看成 next-word predictor 的自然结果,认为若要一致性,必须引入更强的 tool use、校验和外部 grounding。对他们来说,这篇研究真正暴露的是“模型会一本正经地胡说”,而不是单纯的识图问题。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9]
不少评论把矛头对准 AI 公司和应用营销,认为它们把模型包装成“万能 oracle”,让用户自然以为拍照问一句就能得到可靠营养数据。有人指出,普通人、甚至部分技术人,对 LLM 的 nondeterministic、hallucination、以及“我不知道”的边界都缺乏直觉;同时卖家和平台又在鼓励用户把 AI 用到购物、旅行、医疗和写商品文案等场景。也有声音认为责任不该全甩给用户,模型应该学会更明确地拒答、提示风险,或者在健康问题上主动降级。争议背后其实是“产品宣传说它什么都能做,但出事后又说用户用错了”。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10]
也有不少人分享自己在 calorie counting 或 low-carb 生活中的正面经验:当把食物重量、包装标签、品牌名、recipe URL,甚至 Bluetooth scale 的读数一起喂给模型时,LLM 可以作为自然语言界面的“粗略计算器”来减少手工录入负担。对这些用户来说,LLM 的价值不在于照片本身,而在于把查询数据库、做换算、追踪每日 totals 这些麻烦步骤整合起来,尤其比传统 app 更顺手。有人甚至说,真正有效的流程本质上还是“数据库 + 称重 + 人工确认”,LLM 只是把交互门槛降下来。与此同时,评论也承认在 diabetes 或 insulin dosing 场景里,这套做法必须非常谨慎,最好再配合 CGM(continuous glucose monitor,连续血糖监测设备)和人工复核。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10]
iAPS(open-source automated insulin delivery system,开源自动胰岛素输送系统): 一个用于自动化胰岛素输送的开源系统,评论里提到研究使用了它的 prompt。
temperature: 控制 LLM 采样随机性的参数;越低通常越接近确定性输出,但仍可能出现差异。
CGM(continuous glucose monitor,连续血糖监测设备): 用于实时监测血糖变化的设备,常被糖尿病患者用于辅助饮食和胰岛素管理。