🤨 13B 1930年 vintage LLM：古典文风、时序泄漏与殖民偏见

681 10 天前 talkie-lm.com

🤨13B 1930年 vintage LLM：古典文风、时序泄漏与殖民偏见

把 1930 年的偏见冻成模型，就算更真实吗？

🎯 讨论背景

Talkie 是一个 13B 参数的历史 LLM 项目，只用 1931 年以前的英文公共领域文本训练，目标是把模型固定在 1930 年左右的知识边界与文风上。它不是在回答现代问题，而是在用旧语料模拟当时的知识、偏见和表达方式，所以用户会拿它问 computer、英国帝国、印度独立、科学发现和未来预言。评论里还提到类似的历史语料项目和比较对象，比如 Ranke-4B（另一个历史语料模型）与 history-llms（历史 LLM 项目集合），并把它当作研究 pretraining、post-training、alignment 和时间泄漏的控制组。因为语料来自 public domain（公共领域），它绕开了版权问题，但也更容易暴露出当时出版体系的阶层偏差与殖民视角。

📌 讨论焦点

古典文风与词义复古

很多人最先被吸引的是它异常顺滑的旧式英文文风，读起来像 1930 年代的百科/专栏，而不是现代聊天机器人。它对词义也会按老时代来理解，比如把 computer 当成人类职业，把 digital 解释成“与手指有关”，甚至把“programming your computer”说成滑尺或机械计算机的使用说明。有人觉得这种语气非常舒服，像人写的博客；也有人指出它在技术问题上会从第一句的“像真的”迅速滑向荒诞。整体上，评论把它看成一种“风格很真、语义很飘”的历史拟态。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11]

1930年代世界观的偏见与殖民叙事

不少评论直接指出，这个模型最像的不是“中立历史”，而是 1930 年代英美出版界的主流价值观：帝国主义、父权制和种族等级观都被原样复刻。它会很自信地把印度描述成大英帝国不可分割的一部分，把美国内战说成主要是联邦统一问题，或者对女性、穷人和黑人政治权利给出明显带有时代偏见的回答。也有人认为这恰恰说明语料高度偏向受教育的上层出版物，沉默的大多数和边缘群体本来就不在数据里。讨论里还有一层反讽：把过去的偏见照原样封存下来，反而能更清楚地看见社会到底进步了多少。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12] [来源13]

时间切片不干净：泄漏、污染与幻觉

一个反复出现的怀疑是：这个所谓“1930”切片并不干净，模型明显夹带了后来的知识或训练痕迹。评论举了 Great Depression 的命名、Churchill 的生平细节、FDR、General Relativity、transistor 等例子，说明它有时知道后世概念，有时又停留在 1900 年前后的认知水平。也有人区分了 contamination 和 temporal leakage：前者是评测答案混进训练集，后者是截止日期之后的文本本身被喂进去了，两者都让“历史快照”的说法变得可疑。最常见的现象是，模型开头像引用资料，后面却开始顺着旧时代的语气胡乱推演，生成看似权威的错答案。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12]

对齐、自我认知与实验价值

很多人把它当成研究 LLM 对齐和自我模型的实验平台，而不只是怀旧玩具。有人想看它在 blackmail 之类的 alignment tests 里会不会更像旧时代文本中的“仆人”或“角色扮演者”，也有人问它会不会理解 system prompt、training data、甚至“我是 AI”这类概念。一个有趣的分歧是：有人认为现代模型能从语料和上下文里推断出自己像个 LLM，另一些人则觉得历史模型容量太小，根本形成不了连贯的自我表征。讨论的核心是，pretraining 到底学到了什么，post-training 又到底把模型改成了什么。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11]

历史预测：有些猜中，有些跑偏

大家很爱拿它去预测未来战争、印度独立、月球旅行、2025/2026 世界和新科学突破，看看一个 1930 年视角能猜中多少。结果通常是技术层面偶尔很准，比如对计算机、航行、月球、运输和某些工程想法有惊人的接近，但在地缘政治、和平前景、印度归属、战争爆发时间上经常完全错位。评论也指出，这些答案高度反映了战间期的乐观主义：铁路、无线电、全球统一语言、世界和平、改良农业都被想得很顺。有人甚至想进一步测试它能否“自己推导出”相对论之类的后世科学，但多数人认为这会暴露它在复杂推理上的边界。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12] [来源13] [来源14]

部署、成本与做成历史对话机

除了内容本身，评论也在关心怎么把它跑起来、跑多大、值不值得。有人问 13B 模型能否在 20GB VRAM 上运行，能否用 llama.cpp 做 CPU/GPU 分层，是否有 GGUF 或 Ollama 版本，也有人估算训练 FLOPs 和云算力成本。另一些人专门去玩在线 demo，抱怨手机和平板兼容性，或者希望加上 TTS 和 1930 年代口音，让它更像真正的“历史电话机”。公共领域语料是它最大的工程优势之一，因为这让模型既能公开发布，又避开了版权雷区。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10] [来源11] [来源12] [来源13] [来源14]

📚 术语解释

temporal leakage: 截止日期之后的文本或信息混入训练语料，导致模型提前知道“未来”内容。

contamination: 评测答案、benchmark 内容或答案提示泄入训练集，使模型表现看起来比真实能力更强。

knowledge cutoff: 模型被设定为只应掌握某个时间点之前知识的边界。

post-training: 预训练之后的 SFT/RLHF 等对齐阶段，会显著改变模型的风格、服从性和角色扮演能力。

alignment tests: 用黑mail、越狱、角色扮演等场景测试模型是否会出现不希望的行为。

原文链接 Hacker News 讨论

AI Product Talkie Talkie-LM LLM 13B 1930

News Hacker｜极客洞察