Huginn logo

Huginn

Observability self-hosted LGTM+ với AI-assisted RCA.

Open Source
Xem mã nguồn
huginn.central/incident/rca
Luồng telemetrytenant: member_3

member-1

Alloy push

member-n

Alloy push

Mimir

metrics

Loki

logs

Tempo

traces

Pyroscope

profiles

Central

LGTM+ control room

MimirLokiTempoPyroscope
MinIO / S3 object store

Huginn Agent

LangGraph

query loop

PromQLLogQLTraceQLKB/topology

Telegram thread

#incident-auth-service

RCA

Alert fired

auth-service p95 latency vượt 2.4s

Giả thuyết: độ trễ khớp với Redis saturation sau deploy canary-42.

Đã gắn citation Grafana Explore

Action đề xuất

Scale redis-session lên hai replica, rồi theo dõi p95 trong 15 phút.

Approve & ExecuteMark False Positive
Operations intelligence

Agent layer self-hosted cho stack LGTM+.

Huginn giữ lại data plane quen thuộc của Grafana và thêm một agent loop có thể review ở phía trên. Alert trở thành RCA thread có citation, chat có thể hỏi tiếp theo ngữ cảnh, và remediation luôn cần duyệt rõ ràng cho đến khi đủ trust.

Reactive RCA

Webhook từ Alertmanager kích hoạt agent đọc metrics, logs, traces, profiles và topology trước khi đưa ra hypothesis.

On-call hội thoại

Telegram thread giữ ngữ cảnh incident để operator hỏi vì sao service chậm mà không phải nhảy qua nhiều query language.

Remediation có approval

Runbook trở thành action card với approve hoặc reject decision, audit log và lộ trình opt-in cho automation.

Incident loop

Từ tín hiệu đến hypothesis có citation.

Hình dạng sản phẩm bám vào pain vận hành chính: correlate bốn trụ observability khi đang chịu áp lực, nhưng không giấu evidence sau một black box.

  1. 01

    Collect

    Alloy gửi metrics, logs, traces và profiles từ member nodes về central LGTM+ stack.

  2. 02

    Investigate

    LangGraph agent lặp qua PromQL, LogQL, TraceQL, Pyroscope và topology tools.

  3. 03

    Cite

    Mỗi hypothesis link ngược về Grafana Explore với đúng query và time window đã tạo ra nó.

  4. 04

    Decide

    Telegram action card ghi lại approve, reject và false-positive decision trước khi bất kỳ command nào được chạy.

Architecture

Data tập trung, control có thể review.

Huginn tách data plane khỏi agent control plane. Agent không đọc raw object storage; nó dùng cùng API mà operator có thể kiểm chứng trong Grafana.

Data plane

Mimir, Loki, Tempo, Pyroscope và MinIO lưu bốn loại tín hiệu phía sau một tenant header.

MimirLokiTempoPyroscopeMinIO

Control plane

Alertmanager kích hoạt Python agent. Telegram mang thread, citation, action card và approval.

AlertmanagerLangGraphTelegram

BYOK runtime

OpenAI-compatible, Anthropic, Ollama hoặc local endpoint. Không bundle model và mặc định không phone-home telemetry.

BYOKOllamaAnthropicOpenAI-compatible
Deployment

Hai mode, một config schema.

Cùng một hệ thống có thể bắt đầu từ single-instance cho homelab rồi mở rộng thành central plus member nodes mà không đổi mô hình tư duy.

members = 0

Single-instance

Một host chạy collector, LGTM+ backends, MinIO, Grafana, Alertmanager và agent cho tenant local.

X-Scope-OrgID

Central + members

Member nodes push qua HTTPS với bearer token và X-Scope-OrgID, nên vẫn phù hợp với môi trường NAT và IP động.

audit log

Trust boundary

PII redaction, local-only KB files, sandboxed commands và command whitelist giữ automation luôn reviewable.

TimezLab

Phòng thiết kế Giải pháp. Chúng tôi kiến trúc các hệ thống mở rộng và giải pháp thực dụng bám sát ý định kinh doanh.

Hệ thống & Giải pháp

Kết nối

GitHub Email

© 2026 TimezLab. Bảo lưu mọi quyền.

Thiết kế có chủ đích. Xây dựng để mở rộng.