🤔 Traceway：90秒自托管 OTEL 观测栈，被质疑又在重造轮子

134 6 小时前 github.com

🤔Traceway：90秒自托管 OTEL 观测栈，被质疑又在重造轮子

90 秒能起，生产也能 90 秒稳吗？

🎯 讨论背景

Traceway 是一个 MIT 授权的自托管 observability stack，主打大约 90 秒就能部署起来，讨论焦点其实是它要替代谁，以及是否真能省掉现有观测系统的运维成本。可观测性通常同时覆盖 metrics、logs 和 traces，所以评论里频繁比较 Prometheus（指标系统）、Grafana（仪表盘工具）、Loki（日志系统）以及 OTEL（OpenTelemetry，遥测标准）。另一条主线是 ClickHouse（列式数据库）生态的自托管平台，如 Signoz、ClickStack 和 OpenObserve，它们被认为更适合统一处理大量遥测数据，但也更重。更深的背景是，很多团队正在试图摆脱 Datadog、Splunk 等高价 SaaS，并在“本地能跑”和“生产能稳”之间寻找平衡。

📌 讨论焦点

质疑：又一套观测栈

不少人觉得这类产品最大的问题不是能不能自托管，而是又在重造一套 observability stack。评论里把 KubeCon 上满场的观测厂商和“我们更好”“用 Rust 写的”式卖点联系起来，追问 Traceway 相比 Prometheus + Thanos、Grafana、OTEL、VictoriaMetrics、Jaeger/Tempo、Loki 等成熟组合到底有什么明确优势。有人也直接抛出场景分界：如果只是本地跑跑当然无所谓，但一旦进入大规模生产，已有方案的权衡已经很多。还有观点认为 OTEL 已经把互操作性问题缓解了，所以更该做的是整合现有工具，而不是再造一个轮子。

[来源1] [来源2]

降本驱动的自建替代

另一条主线是成本压力，尤其是想摆脱 Datadog 和云观测账单。有人把这波热潮归因于 post-covid 便宜资金时代结束，企业开始清理 2023/2024 年在观测平台上的高额支出。评论里也提到和 Datadog 销售谈判的痛苦体验，以及对 Datadog、Splunk 定价的不满，认为与其持续喂给 SaaS 巨兽，不如养一小队工程师维护一套更理性的开源栈。这个视角下，Traceway 的价值不在“新奇”，而在能否把成本和运维压力压到可接受范围。

[来源1] [来源2] [来源3]

上手难度与 UX 分歧

有人直说 Grafana、Loki、Prometheus、Alloy 这一套并不是真正的 plug-and-play。一个人用 VPS 自建时折腾了几个月，感觉文档总在暗示“别自托管，直接买托管版”，而且界面太粗糙，连伙伴都不愿意用它来排障。另一个人则给出相反经验：在 NixOS 或家用环境里，Prometheus + Grafana + Loki 其实不算难，真正费时的是学习新的领域概念。整体上看，难度很大程度取决于部署方式、熟悉程度和对 UX 的要求。

[来源1] [来源2]

生产可用性与扩展性争议

关于 Prometheus 是否适合生产，争论非常激烈。批评者强调“能跑起来”和“能上生产”是两回事，Prometheus 假设太多 happy path，单节点时序库在磁盘故障、scraper 超时、数据空洞等情况下可能出现灾难性后果，还拿 Google 最终转向 Monarch 作为大规模可靠性的反例。支持者则认为这些都是正常系统故障，超时重试本来就会发生，而且对普通业务来说 Prometheus 已经够用；真要扩展可以上 Thanos 或 Mimir，只是没有任何方案是完全无 bug 的。这个分歧本质上是“指标丢失能不能接受”的边界问题。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6]

ClickHouse/OTEL-native 替代方案

另一组讨论把焦点放在 ClickHouse 生态的自托管观测平台上。有人指出更相关的开源候选其实是 Signoz 和 ClickStack，它们都以 ClickHouse 为底层数据库，且更偏 OTEL-native，而不是单纯的日志平台。实战反馈是用 docker compose 把 metrics、tracing、logging 一起拉起来并不算太难，几 GB 就能跑，但它是否值得，取决于团队是否真的会用查询能力和 dashboard。OpenObserve 被评价为价格和性能不错，但 UI 和 mobile experience 还不够精致；Elastic stack 则被认为查询能力强，但常常过度工程化，最后只是数据仓库或审计存档。

[来源1] [来源2] [来源3] [来源4] [来源5]

README/SDK 文案争议

还有一个很细但很典型的产品文案争议：README 里写着没有 per-language vendor SDK，却又链接了一堆 per-language client SDK。回复者解释说，这两类 SDK 不是同一回事，前者是把数据送进平台的厂商 SDK，后者是把数据导出的可选客户端 SDK。这个插曲说明观测产品在采集、导出、agent、SDK 这些词上很容易混用。

[来源1] [来源2]

📚 术语解释

OTEL（OpenTelemetry）: 统一采集和传输 metrics、logs、traces 的开放标准。

Prometheus: 以 metrics 和告警为核心的时序数据系统，常作为观测栈基础。

Thanos: 为 Prometheus 提供长期存储、水平扩展和全局查询的组件。

Mimir: Grafana Labs 的可水平扩展 Prometheus 后端，用于大规模 metrics 存储。

ClickHouse: 列式分析数据库，常被新一代观测平台用来承载高吞吐遥测查询。

Loki: Grafana 体系里的日志聚合与检索系统，强调按标签存储日志。

原文链接 Hacker News 讨论

Systems Programming Traceway observability OpenTelemetry (OTEL)Prometheus Grafana SigNoz ClickStack ClickHouse Loki OpenObserve

News Hacker｜极客洞察

🎯 讨论背景

📌 讨论焦点

质疑：又一套观测栈

降本驱动的自建替代

上手难度与 UX 分歧

生产可用性与扩展性争议

ClickHouse/OTEL-native 替代方案

README/SDK 文案争议

📚 术语解释

📚 相似内容