😒 Gemini API File Search 支持多模态，但自家搜索和 UX 被吐槽

121 3 天前 blog.google

😒Gemini API File Search 支持多模态，但自家搜索和 UX 被吐槽

连自家搜索都做不好，还敢吹多模态文件搜索？

🎯 讨论背景

这条消息说的是 Gemini API 的 File Search 新增了 multimodal 能力，也就是不只处理纯文本，还可以面向更多类型的资料做检索和上下文注入，属于典型的 multimodal RAG 场景。评论很快把话题扩展到 Google AI Studio（Google 的 Gemini 开发者控制台）本身：有人抱怨它的搜索只能搜标题、Ctrl+F 不稳定，甚至不能删除聊天记录。还有人拿 Claude Desktop（Anthropic 的桌面客户端）那种会把项目文件切块、索引并按主题自动注入上下文的做法来对比，认为这类基础体验 Google 早就该补上。整串讨论最后又延伸到 Gemini 3 Pro、GPT 5.5、API 费用控制、以及本地部署的隐私替代方案，反映出大家关心的不只是新功能，而是整个产品成熟度和可用性。

📌 讨论焦点

搜索与 UX 失灵

很多评论并没有继续讨论 File Search 本身，而是先吐槽 Gemini 和 Google AI Studio（Google 的 Gemini 开发者控制台）的基础搜索体验。有人说只能搜对话标题，不能搜内容，而且滚动会让 Ctrl+F 失效，等于把最基本的查找功能做坏了。还有人提到浏览器里的 Gemini 搜索同样很差，甚至连删除对话都做不到，给人的感觉是内部根本没人认真当日常工具在用。

[来源1] [来源2] [来源3] [来源4] [来源5]

Gemini 被认为落后于竞品

一派观点认为 Gemini 的模型和产品都已经明显落后于 OpenAI 和 Anthropic。有人用同样的代码仓库重构任务做对比，表示 Gemini 3 Pro 折腾了 8 天都没完成，而 GPT 5.5 几小时就交付并且还做了改进。也有人直说 Gemini 需要大量手把手引导，默认状态很懒、指令遵循差，甚至觉得它更像和开源模型同一档位。

[来源1] [来源2] [来源3] [来源4]

小众场景与稳定性仍有优势

也有评论认为 Gemini 并非完全没用，而是在某些长尾场景里很强。有人做 reverse engineering 时发现，Gemini 和 Flash 模型能从非英语的小众社区网站里抓到更新更快的信息，而其他模型要么答案过时，要么胡编乱造。还有人强调它在 uptime、文档分析成本，以及大厂级安全性上更有吸引力，至少在企业和生产环境里不容易被轻易排除。

[来源1] [来源2]

Google 内部 silo 被视为根因

不少人把问题归结为 Google 内部组织结构，而不是单纯的技术欠缺。有人认为搜索团队和 Gemini 团队几乎像两家公司，彼此缺少协作，所以搜索领域的积累没有真正传到 Gemini App 上。另一些评论则把这说得更直白：Google 体量太大，无法让 19 万员工全面协同，只能围绕特定项目做局部合作，产品体验自然会碎片化。

[来源1] [来源2] [来源3] [来源4]

API 计费控制已补齐

在更实用的层面，有人只关心 Gemini API 现在能不能设每个 key 的花费上限。此前因为没有这个功能而放弃使用的人表示，现在已经可以通过 spend caps 来限制支出。只是这个能力要通过 AI Studio 配置，而且据说有大约 10 分钟延迟，说明功能补上了，但流程仍不算顺手。

[来源1] [来源2] [来源3]

本地/隐私替代方案

还有一条明显不同的思路，是干脆不要云端大模型，而是选择本地方案。有人宣传自己的 HugstonOne，强调它可以在 32GB RAM 的笔记本上跑 multimodal RAG，主打 GDPR 和 HIPAA compliant、无订阅、无隐私顾虑。这个视角把重点放在数据主权和可控部署上，而不是继续追求更强的云端模型。

[来源1]

📚 术语解释

RAG: Retrieval-Augmented Generation，检索增强生成；先从外部资料库检索相关内容，再把结果喂给模型生成答案，常用于 File Search、知识库问答。

RLHF: Reinforcement Learning from Human Feedback，基于人类反馈的强化学习；用人工偏好来对齐模型行为，评论里用来解释模型是否“听话”。

spend caps: API 费用上限；给每个 API key 或账号设置消费封顶，避免费用失控。

原文链接 Hacker News 讨论

AI Programming Product Gemini API Gemini Google multimodal RAG file search developer tools

News Hacker｜极客洞察