🛠 用 Claude 从截图重建 1996 年 Space Jam 网站：能写可运行代码却难以像素级复刻

344 7 小时前 j0nah.com

🛠用 Claude 从截图重建 1996 年 Space Jam 网站：能写可运行代码却难以像素级复刻

你连把网站源码下载都懒得做，还想 AI 完美复刻？

🎯 讨论背景

作者尝试用 Anthropic 的 Claude（文中为 Opus 系列）从单张截图“一键”重建 1996 年的 Space Jam 网站，目标是验证多模态 LLM 能否做像素级的网页复刻。评论补充了历史背景——90 年代网页常用 table、image map 和图像切片而非现代 CSS 绝对定位，并建议直接从 Wayback Machine 或抓取源文件保存页面。讨论分为技术实现（让模型生成图像处理脚本或使用 Playwright/ OpenCV 闭环迭代）与更宏观的问题（LLM 与训练数据的归属/抄袭风险、模型的表征限制与人类对工具的期望）。

📌 讨论焦点

代码生成 vs 像素级视觉还原

评论普遍指出 Claude 在生成功能性、系统级或算法代码上表现出色，但在像素级、视觉对齐和排版精度上容易失败。具体例证包括有人用 Claude 生成的 C 代码在几分钟内完成了读取 ICC 文件、解析 VCGT 并通过 amdgpu API 写入显卡，只在大端序解析上需手动修正（46184466）。相反，针对 Space Jam 的截图复刻，模型在元素顺序、字体/字号和精确位置上多次出错，尽管结合图像处理（如 template matching）可以定位资产坐标并获得高置信度匹配，但从“能运行的逻辑”到“像素完美复刻”仍有明显差距（46185996、46185526、46184195）。

[来源1] [来源2] [来源3] [来源4] [来源5]

多模态模型的表征限制（图像向量化导致失去像素格）

多位评论深入解释了为何多模态 LLM 在做几何/像素级推理时会困难：图像被切成 patch 并映射到语义向量空间，原始像素网格信息在编码过程中被弱化或丢失，因此模型难以做精确的几何测量或“像素对像素”复刻（46183598）。有人建议更合理的策略不是直接让模型在图像上做微调，而是让模型生成或调用图像处理工具（如 OpenCV）来做精确测量，或者在训练时加入 render-html-to-screenshot 的流程来把渲染像素作为训练信号（46184840、46183891）。这些评论强调本质性限制与可行绕道（写工具、外部验证）的差别，而非单纯靠 prompt 即可解决的问题（46184296）。

[来源1] [来源2] [来源3] [来源4]

实用改进方法：让模型写工具并闭环迭代

大量评论提供了可操作的改进路线：让 Claude 写图像比对/模板匹配脚本（OpenCV）去定位每个资产、用 Playwright 等浏览器自动化工具循环渲染并对比截图、或编写单元测试去验证几何约束（如轨道半径）直至收敛。具体实践包括让模型生成查找图像位置并输出坐标的 Python 脚本、用差分（xor/subtract）或上色/遮罩技术隔离目标元素，以及先做降采样做粗配再逐步精调（46185996、46184914、46185807、46183772、46186641）。评论里还提到把验证自动化（agentic browser + 截图 diff）能显著缩短迭代时长，比单靠模型“看图想象”更可靠（46185884、46184167）。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7]

历史网页技术与更简单的保存/复刻替代方案

许多评论指出原始 1996 年 Space Jam 网站并非用绝对定位实现，而是以表格（table）布局、image map 与切片图像为主，CSS2 的绝对定位要到 1998 年才普遍（46186253、46184964）。因此与其从截图“盲复刻”，更直接的做法是从 Wayback Machine 下载存档或直接抓取页面源代码（wget/镜像），因为 1996 年的页面往往就是静态 HTML 文件（46187277、46183699、46184279、46186353）。评论还提到早期网页制作流程（切片 PSD、Dreamweaver、表格排版）以及邮件 HTML 仍广泛使用类似技术，这为复刻带来历史和工程上的背景理解（46186253、46186562）。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7]

训练数据、RAG 与归属/抄袭伦理争论

评论中有大段讨论 LLM 输出与训练数据的关系，争议集中在模型是“重组多源信息”还是“实时抄袭”。有人直言 Claude/LLM 常常是在大量公开代码/文本上学习并重组，遇到少量或高度重复示例时可能产生可被认定为抄袭的输出，RAG（Retrieval-Augmented Generation）更可能导致“实时引用”具体来源（46185379、46186199）。讨论还涉及对开源许可证（如 AGPL）与知识产权的风险警示、对“贡献者应当获得补偿或署名”的伦理诉求，以及把创造力看成输入信息组合的“连续谱”观点（46187063、46187030、46187445、46185592）。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6]

对 LLM 的期望、人格化与工具角色反思

许多评论在技术讨论之外反思人们对 LLM 的期望与使用心态：有观点把 LLM 当作“廉价实习生/工具”，能完成大约 80–90% 的工作但需要专业人士做 QA 与收尾（46183682、46184195）。也有人警醒 LLM 的错误往往不显眼、容易被忽视，强调设计工具要让失败模式显而易见以防盲信（46185413、46183645）。另外还有对将模型人格化（用“他/她”称呼）或低估人类工程判断的批评，提醒在生产环境应把模型定位为辅助而非替代（46185674、46183616、46184238）。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6]

📚 术语解释

RAG: RAG（Retrieval-Augmented Generation）：一种在生成时检索外部文档以增强 LLM 输出的机制，能提高事实性但也可能导致对原始来源的直接复现或窄范围抄袭。

Playwright: Playwright：一个跨浏览器的自动化测试/驱动工具，评论中建议把它当作“验证与截屏的执行器”，让模型循环渲染页面并通过截图 diff 验证布局。

Opus（模型）: Opus：Anthropic 家族的语言/多模态模型系列（帖子中提到 Opus 4.1/4.5），是本次用来尝试复刻网页的具体模型。

OpenCV / template matching: OpenCV：计算机视觉库；template matching（模板匹配）是其中常用方法，可在截图中精确定位小图像（asset）并返回坐标与置信度，用于像素级复刻。

VLM: VLM（Vision-Language Model）：能同时处理图像与文本的多模态模型。评论区区分了通用 LLM 的图像 patch 向量化与专门训练的 VLM 在视觉任务上的差异。

ICC / VCGT: ICC（色彩配置文件）和 VCGT（video card gamma table）：色彩管理相关术语，评论里有例子用 Claude 生成 C 代码解析 ICC 并提取/写入 VCGT 到显卡。

Wayland compositor: Wayland compositor：现代 Linux 图形栈中的合成器/窗口管理组件，有评论讨论色彩管理（ColorSync 类比）为什么要在 compositor 层处理。

image map: image map：早期 HTML 技术，用一张图的不同坐标区域分别作为可点击链接的方案，是 90 年代网页常见的交互实现方式之一。

原文链接 Hacker News 讨论

AI Web Programming Claude Space Jam website (1996)CSS Claude Code

News Hacker｜极客洞察