加载失败
Anna's Archive(一个被称为 shadow library 的在线图书档案,聚合大量已出版书籍的元数据与 torrent)发布了面向 LLM/agent 的说明(llms.txt/博客帖),阐明可通过 torrents.json、元数据下载或企业捐款获取更快访问并附带 Monero 捐款地址。社区讨论由两条主线组成:其一是 Levin(一个声称用闲置磁盘和带宽自动为 Anna's Archive 做种的开源客户端)的实现细节与运行安全;其二是更广泛的版权、数据治理与训练集伦理争议,涉及大型 AI 公司如何抓取网络数据、各国对 P2P 执法的差异以及可替代的保存技术(如 IPFS、per‑file magnets、分布式志愿 seeder)。评论普遍假设当前抓取多由传统 scrapers 或云实例完成(例如来自 GCP/OVH 的请求),但也担心未来由 agent/LLM 驱动的 headless 浏览器会改变爬取模式,因此讨论集中在法律责任、审计可行性与技术对策上。
Levin 是一个开源的自动做种客户端,目标是在设备空闲时利用未被使用的磁盘和带宽为 Anna's Archive 做种。作者宣称支持 Linux、Android 和 macOS,内置电池/非 Wi‑Fi 自动暂停、可配置的保留空闲空间,并通过 statvfs 周期性检测可用空间来动态增删数据以维持预留容量。Levin 使用 Anna's Archive 的 torrents 列表生成器挑选需要帮助的种子,并启用了 WebTorrents 以便浏览器可直接下载,源码托管在 GitHub,项目仍处于 WIP 状态。评论者提出多项改进建议(如基于国家/连接条件的运行规则、RSS/ATProto 源、分布式备份“Elephant”思路等)以增强可控性与可扩展性。
多条评论警告自动做种会带来现实法律风险:在德国等司法辖区,权利人或其律师通过监测 bittorrent 群组向匹配 IP 发出索赔或和解信,视频和音乐是重点但书籍也有被追诉的先例。除了版权索赔外,允许在本地匿名托管未知文件可能导致传播 CSAM、恶意软件或被认定为“Hosting/Distributing”而承担更重责任,个别案例提到使用 seedbox 或 VPN 作为减风险手段。讨论建议在 README 明确法律提示、限制在安全司法管辖区运行或提供可选手动审核,但也有人强调用户需自行评估风险并采取“trust but verify”的防护措施。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7]
评论指出 Anna's Archive 的单个 torrent 往往体积巨大且文件名多为哈希,存在审计难度:有评论举例平均约125GB、单个 torrent 可能包含数十万小文件,普通用户难以逐一核验内容。Levin 采用 AA 的种子推荐逻辑,这使得用户必须在很大程度上信任 AA 的元数据与筛选机制;反对者建议提供手动添加/剔除、只做旧种或增加国家/连接检查等更保守的策略。作者表态会改进文档并考虑实现地区/连接相关的安全选项,但社区普遍认为应提升透明度并让用户保有更多审查控制权。
关于站点放置 llms.txt 是否能影响抓取行为,评论分歧明显:有人基于服务器日志观察到请求多来自 OVH、GCP 等云 ASN 而非标识为 ChatGPT/Claude 的 UA,认为主流 LLM 公司并未直接读取 llms.txt。也有观点认为 llms.txt 更针对“agent/客户端”类型(例如 OpenClaw 风格代理),部分客户端确实会遵循这类文件;Anna's Archive 把该文本以博客帖形式公开以便 agent 发现。讨论还提到目前抓取以传统 scrapers/头less 浏览器为主,但未来由 LLM 驱动的 headless 浏览器或 agent 可能改变行为,因此 llms.txt 的实际保护与劝导效果仍存不确定性。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6]
大量评论讨论更大的伦理与权力问题:大量证据表明大型 AI 实验室曾大规模抓取网络内容作为训练集,许多人认为这等于是‘零成本利用’公共与档案资源来获利。Anna's Archive 被部分人视为文化保存的公益工程,但也有人指责其无意间成为企业训练数据的来源,并对其向 LLM/agent 发出捐款请求(包括 Monero 地址)感到尴尬或讽刺。评论呈现两极态度:一方面支持保存与访问的公共价值,另一方面质疑为何企业可在既得利益中获益却不公平补偿原作者或档案维护者。
社区提出多种技术建议以提高持久性与可访问性:有人建议为每个单文件生成独立 torrent/magnet,借助 BitTorrent DHT 提高检索与可用性,也有人建议把资源上 IPFS(去中心化内容寻址)作为补充渠道。还提出分布式志愿 seeder 架构(如“Elephant” 设计)、允许 RSS/ATProto 源推送种子、为 llms.txt 使用 /.well-known/ 等更标准的位置以提高互操作性。对抗性对策包括部署 tarpit、严格的 robots/llms 文件策略或服务端限流来减少被大规模抓取带来的账单与滥用风险。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6]
部分评论对项目或其部分由 LLM 生成代码表示怀疑,认为 LLM 辅助生成可能引入安全漏洞、不可解释的逻辑或难以审计的实现,从而导致用户拒绝运行该软件。也有评论指出作者已在帖中坦率说明使用了 LLM,且 LLM 辅助开发在行业中已普遍存在,审计源码仍可行。讨论焦点集中在透明度、供应链审计与社区验证:建议在 README 明确标示哪些部分由 LLM 参与、并鼓励社区审查与贡献补丁。
llms.txt: 一个非正式提案的站点级文本/Markdown文件,旨在向自动化 LLM 或 agent 提供抓取、访问或付费等指引;尚非标准,是否被大型模型或抓取器遵守存在争议。
robots.txt: 传统的爬虫协议文件,供搜索引擎等机器解析以允许或禁止抓取站内路径,具有明确语法且被大多数“良性”爬虫遵守。
BitTorrent / seeding / seedbox: BitTorrent 是点对点文件分发协议,torrent/magnet 用于定位内容;seeding 指持续上传保留副本以维持可用性,seedbox 是托管在机房的远程做种服务器,常用于降低本地 ISP 风险。
DHT (Distributed Hash Table): 一种去中心化索引机制,BitTorrent 利用 DHT 在无中心 tracker 情况下查找 peers 和磁力链接,从而实现分布式发现。
IPFS: InterPlanetary File System,一种内容寻址的去中心化存储与分发网络,常被建议用作档案的备份或补充分发通道,但节点可用性和持久性取决于参与者。
prompt injection: 对话或网页中嵌入恶意或误导性内容以诱导 LLM 执行非预期操作(例如泄露信息或发起交易)的攻击向量,涉及安全与部署策略。
DMCA / 版权索赔信: 以美国《数字千年版权法》(DMCA) 为代表的版权执法机制,权利人或律师可根据监测到的 IP/活动发送下架或和解要求;各国/ISP 执行差异大,但常见为发送索赔或和解信。
Monero (XMR): 一种注重隐私的加密货币,Anna's Archive 在页面上公开了 XMR 地址以接收匿名捐款,评论中就此表达了伦理与可追踪性的担忧。