加载失败
这篇讨论围绕一个抓取英国 241 个 council planning portals 的项目展开,目标是汇总规划申请和决定数据,已经积累到 260 万条 decisions。项目看起来同时提供 postcode checker 和付费报告,所以评论一边在评价产品定价和用户体验,一边在讨论这些公共数据应该如何更开放地使用。英国地方政府的规划门户高度碎片化,不同 council 常用 Idox、Northgate、Ocellaweb 等平台,少数还是定制 ASP.NET 系统,因此抓取要么靠按平台写 deterministic scrapers,要么在长尾站点上借助 Playwright、Browserless、MCP 和 LLM。评论还把这件事延伸到住房短缺、审批上诉、FOI request 和开放数据治理,说明它不只是一个技术抓取项目,也牵涉到英国规划制度本身的争议。
很多人把这件事看成典型的英国地方政府数字化碎片化:同样是规划、税务之类的公共服务,却被不同供应商做成一堆彼此割裂、体验又差的门户。评论里认为这类数据本该由一个资金充足的中央团队统一建设和开放,而不是每个 council 各搞一套。规划数据不仅对普通买房者有用,也能帮助规划师、行业机构和本地居民判断附近项目的通过概率。还有人提到可以通过 FOI request 去推动开放,甚至请 MP 介入争取更好的公开访问。
最直接的批评是 postcode checker 给出的信息太空,只显示“Mixed results”却立刻要求付费,用户很难在没有具体结论前愿意掏 £19。评论还指出,最后又追加 £79 的升级入口,显得过度推销且破坏信任。随后作者也承认,当前免费层和付费报告之间的落差太大,需要先给出更有用的探索结果,而不是把用户直接推到 PDF。更有建设性的建议是把产品往“预提交审查”方向做,结合本地相似案例、明确说明哪些规划点可能通过或失败,这种高风险、高价值服务更可能支撑 £100-500 的价格。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6]
技术讨论集中在如何稳定抓取不同 council portal:一种观点是按平台类型写 deterministic scrapers,因为 Idox、Northgate、Ocellaweb 这类系统的表单和流程大体一致,新增 council 时主要是配置而不是重写代码。另一种思路是用 agentic workflow 处理长尾的定制 ASP.NET 站点,借助 LLM 反复走 fetch/parse/understand 的循环,把人工调试变成半自动构建。有人建议用 Chrome Devtools MCP 把网络请求上下文喂给 LLM,或者用 Playwright、curl_cffi、Browserless 来绕过难抓页面。Liverpool 这样的站点则卡在 AWS WAF 和按 IP 限速上,问题不是单次挑战,而是单个 residential IP 的吞吐量和成本。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9]
不少评论把这批数据直接联系到英国住房和规划制度的老问题:普通扩建、dormer loft conversion 也可能因为审批和上诉拖上两年,额外花掉数万英镑。有人主张应加入 appeal data,这样才能看出哪些 councils 的拒绝率异常高、哪些地方的审批更不合理。也有人反过来强调,规划限制之所以存在,是因为居民并不总是愿意接受更高密度开发,大家又想要 right to light、right to view、隐私和低噪音。这个争论把数据项目从“查规划记录”提升成了对英国土地使用、邻避心理和住房短缺成因的现实讨论。
WAF(Web Application Firewall): Web 应用防火墙,用来拦截自动化流量、脚本和异常请求,抓取时常会卡在这一层。
Playwright: 浏览器自动化工具,常用于模拟真实用户操作、处理登录、表单和动态页面。
Browserless: 托管式 headless browser 服务,常被用来绕过复杂站点的浏览器环境或封锁。
FOI request(Freedom of Information request): 向公共机构提出的公开信息请求,英国语境下常用于获取政府和 council 数据。
MCP(Model Context Protocol): 把外部工具和上下文接入 LLM 的协议思路,这里用于把 Chrome Devtools 网络信息提供给 AI 辅助抓取。
deterministic scraper: 按规则和固定流程运行的抓取器,适合同类网站结构稳定、可批量复制的场景。
residential proxy: 使用住宅 IP 的代理,常用于降低被封禁概率或绕过按 IP 限速。