启动 HN：Superlog (YC P26) – 可自行安装并修复错误的可观测性

嘿 HN，我们是 Nico 和 Arseniy，Superlog ( https://superlog.sh ) 的联合创始人。我们正在构建一个自我安装、自我修复的可观察性工具，该工具无需打开。它有一个向导每天设置适当的日志记录和一个代理来调查错误并打开 PR。超短演示：https://www.youtube.com/watch?v=xFhU9Mk247M 。在我们早期的初创公司中，我们尝试过 Sentry、Datadog、Grafana、Dash0，但都不够好。正确的遥测和警报仍然需要大量的手动设置。我们在添加良好的日志方面遇到了困难，因此调试很困难，尤其是当代码库以更快的速度增长时。与此同时，Datadog/Dash0 的费用不断攀升，我们仍然花费工程时间来学习、配置和维护我们的可观察性工具。使用 Sentry，我们发现自己的 Slack 频道中充斥着大量警报，其中大多数是重复的或缺乏上下文，因此警报疲劳/持续中断是一种真正的痛苦。 #ops 通知始终是周六早上最糟糕的感觉我们已经看到太多次服务器耗尽内存和磁盘，并且三个 AWS 指标为我们提供了三个不同的值。仪表板上的一半图表通常是空的或过时的，手动单击 UI，尤其是在团队规模较小的情况下，似乎是一种巨大的时间浪费。在某些时候，我们意识到解决这个问题比我们一直在做的事情更有价值，而且我们拥有做到这一点的专业知识，因为 Arseniy 在 Datadog 工作了多年，晚上被传呼来调试生产事件。因此，我们决定构建一个能够正常工作的平台：代理优先、MCP 原生、零设置。 Superlog 的工作原理如下：我们有一个向导，可以扫描您的存储库，并通过 OpenTelemetry 自动使用结构良好的日志、跟踪和指标对其进行检测。我们确保突出显示主要故障模式、端点性能、每个租户的使用情况以及 LLM/上游成本（按调用站点、租户和模型）。错误会被记录下来并分组为事件，因此您会看到一个问题，而不是一千个重复问题。当您收到来自 Superlog 的通知时，您会看到清晰的故障摘要、推断的严重性和预先影响。然后代理进行调查并尝试解决问题。如果它有足够的上下文，它就会产生简洁且经过测试的 PR。如果没有，它会将调查结果发布给调查团队，并自动邀请工程师根据文档、之前的调查和 Slack 线索提供更多背景信息。无论哪种方式，每个事件的输出都是一个干净的 PR，发布在 Slack 中，您可以合并、忽略或作为 Claude Code 会话打开并修改。我们认为与其他可观测性供应商的三个不同之处：（1）我们解决了设置难题。该向导将使用本机 OTel SDK 来检测所有内容，尊重语义约定，并使用适当的服务和环境标记。我们还致力于开发原生自动仪表板和警报，以便您可以一目了然地看到正在发生的事情，并且不会错过微妙的故障模式。 (2) 我们的遥测技术不会衰减。该向导每天运行，并不断在需要的地方添加日志、警报和仪表板。您不必记住使用新功能。下次出现问题时，调试所需的数据已经存在。 (3)我们的目标是解决警觉疲劳。我们使用代理来合并类似的错误并完善摘要，预先为您提供相关信息。我们有一个自定义的评估设置，以确保我们的摘要是密集和正确的，并且严重性和影响是正确的。我们还为您提供每个 LLM 增强指标的置信度分数，这样错误的猜测就不会增加。重要提示：superlog 遥测与供应商无关，因此您可以保留我们安装的所有日志/指标/跟踪。定价在网站上。我们还很早，因此可能会出现一些粗糙的情况，请在发现它们时告诉我们。您可以在 https://superlog.sh 尝试一下。我们很想听听您今天使用的是什么，有什么问题，以及“每个事件一个可合并的 PR”模型听起来有用还是可怕。特别渴望听到运行集成度高的产品的人们、任何已经推出了自己的可观察性的人以及任何尝试过 Sentry / Datadog MCP 并放弃的人的意见。欢迎评论和反馈！评论网址：https://news.ycombinator.com/item?id=48195021 积分：4 # 评论：0

订阅66必读