News Hacker|极客洞察

149 184 天前 waywo.eamag.me
🔧聚合 WAYWO:HN 项目索引、标签与 UX 改进
用 LLM 自动标注就能杜绝重复项目吗?

🎯 讨论背景

这是一个 Show HN 项目,目的在聚合并可视化 Hacker News 中的 “What Are You Working On”(WAYWO)线程里的项目与评论,方便检索与筛选。评论讨论围绕抓取与索引完整性(缺少近期帖或个别评论)、标签体系(按问题/主题 vs 技术栈)、以及界面与导航体验(移动端滚动、分页与 URL 状态)等具体改进。多名评论者还建议引入导出 JSON、用 LLM(大型语言模型,例如 GPT)自动生成短摘要或做过滤,以及扩展元数据(流量、筹资、ARR/MRR、开源状态)用于趋势分析。背景里还提及 HN 与 Reddit 在审查与界面简洁度上的差异,以及现有参考工具如 hacker-jobs.com(为 HN 的 'Who Is Hiring' 线程生成 GPT 概览的站点)和 AlgoliaSearch(search-as-a-service,用于站内搜索的第三方服务)。

📌 讨论焦点

索引完整性与准确性

评论指出聚合器在抓取与索引上存在明显问题:有用户报称最新的 WAYWO 帖子未被抓取(例如 16 小时前的贴子未收录),也有用户发现自己的某些评论没被索引。抓取规则有时把回复(reply)当成顶层评论收录,造成噪音,反之又会漏掉真正的顶级评论。还有反馈显示系统会拾取与主题不相关的评论条目,降低结果的信噪比。多名评论者建议只收顶层评论并改进更新策略,避免“首次加载后不再刷新”导致的新贴遗漏问题。

[来源1] [来源2] [来源3] [来源4]

分页与移动端导航体验

移动端用户普遍希望能连续滚动而非频繁点“next page”:当前流程需要点下一页、滚到顶部再向下,体验被诟病。分页在 URL 中不反映页码,使得无法直接跳到中间页或分享某页,且有评论怀疑分页是前端一次性加载全部数据后再切片(“人工分页”)。界面细节也被提出问题:按 Author 或 Posted 列排序时表格尺寸变化,选择标签后列表会发生水平溢出且首列被遮挡。建议提供无限滚动或“显示全部”选项、可配置每页条数,以及在换页或筛选时自动滚动回顶部并固定表格宽度以改善体验。

[来源1] [来源2] [来源3] [来源4] [来源5]

标签分类与体系设计

很多人质疑当前标签的实用性,认为标签往往偏向技术标签或泛泛而谈(有评论直言像“Coders gonna code”),而不反映项目要解决的具体问题或场景。评论者建议按问题域或主题(比如教育、语言学习、工具、硬件)来标注,并希望能看到可用标签列表以便筛选。关于高层/低层标签的划分存在争议;有人举例问为何把 “artificial intelligence” 视为高层、而把 “cloud computing” 视为低层,并把差异归结为“目标/手段”的不同。多人还建议增加基于标签的时间序列统计,以观察项目类型、技术兴趣随时间的变化趋势。

[来源1] [来源2] [来源3] [来源4] [来源5]

LLM 自动摘要、导出与数据扩展功能请求

多位评论建议用 LLM(large language model)为每个项目生成短而规范化的摘要,方便快速浏览;另有人提出用 LLM 做过滤或主题分类以提升检索效率。功能性建议还包括提供“下载所有为 JSON”的按钮、给好点子加 upvote、保留按用户名搜索历史等便捷操作。评论中给出了已存在的参考实现:hacker-jobs.com(一个为 HN 的 'Who Is Hiring' 线程生成 GPT 概览的个人工具),以此证明用 GPT/LLM 做摘要在实践中可行;还有更高级的想法如抓取流量、LinkedIn 信息、筹资/ARR/MRR/开源状态以做趋势分析。

[来源1] [来源2] [来源3] [来源4] [来源5]

社区观察:重复项目、界面偏好与隐私顾虑

评论反映出社区层面的系统性现象:大量重复或重叠的项目(有人举例语言学习类项目众多)让新项目难以获得注意力和用户,导致创业者难以取得 traction。界面与社区偏好方面,不少人赞赏 HN 比 Reddit 更少的强审查与更简单的页面,但同时建议对 UI 的改动应谨慎小步进行以免破坏既有工作流。有人称赞站内搜索“snappy”,但也提出隐私问题,询问是否能提供用户请求从该聚合站点移除其评论的途径。讨论中还夹杂少量戏谑或夸张言论(例如自称发明 O(1) 排序或 AGI),显示出回复中的噪声成分。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7]

📚 术语解释

WAYWO (What Are You Working On): WAYWO(What Are You Working On,Hacker News 的定期线程),用户在该帖中汇报当前在做的项目、工具或实验,通常包含多个评论和回复,是本聚合器的目标来源。

LLM (large language model): LLM(large language model,大型语言模型,例如 GPT),可用于自动生成项目摘要、对评论做分类或过滤,以及生成可搜索的短描述以便快速浏览。

pagination(分页): pagination(分页)指将长列表分为多页显示的交互模式,讨论中的痛点包括页码不写入 URL、前端一次性加载后切片的“人工分页”,以及是否应改为无限滚动或提供一次性显示全部的选项。