member-1
Alloy push
member-n
Alloy push
Mimir
metrics
Loki
logs
Tempo
traces
Pyroscope
profiles
Central
LGTM+ control room
Huginn Agent
LangGraphquery loop
Telegram thread
#incident-auth-service
Alert fired
auth-service p95 latency vượt 2.4s
Giả thuyết: độ trễ khớp với Redis saturation sau deploy canary-42.
Action đề xuất
Scale redis-session lên hai replica, rồi theo dõi p95 trong 15 phút.
Agent layer self-hosted cho stack LGTM+.
Huginn giữ lại data plane quen thuộc của Grafana và thêm một agent loop có thể review ở phía trên. Alert trở thành RCA thread có citation, chat có thể hỏi tiếp theo ngữ cảnh, và remediation luôn cần duyệt rõ ràng cho đến khi đủ trust.
Reactive RCA
Webhook từ Alertmanager kích hoạt agent đọc metrics, logs, traces, profiles và topology trước khi đưa ra hypothesis.
On-call hội thoại
Telegram thread giữ ngữ cảnh incident để operator hỏi vì sao service chậm mà không phải nhảy qua nhiều query language.
Remediation có approval
Runbook trở thành action card với approve hoặc reject decision, audit log và lộ trình opt-in cho automation.
Từ tín hiệu đến hypothesis có citation.
Hình dạng sản phẩm bám vào pain vận hành chính: correlate bốn trụ observability khi đang chịu áp lực, nhưng không giấu evidence sau một black box.
- 01
Collect
Alloy gửi metrics, logs, traces và profiles từ member nodes về central LGTM+ stack.
- 02
Investigate
LangGraph agent lặp qua PromQL, LogQL, TraceQL, Pyroscope và topology tools.
- 03
Cite
Mỗi hypothesis link ngược về Grafana Explore với đúng query và time window đã tạo ra nó.
- 04
Decide
Telegram action card ghi lại approve, reject và false-positive decision trước khi bất kỳ command nào được chạy.
Data tập trung, control có thể review.
Huginn tách data plane khỏi agent control plane. Agent không đọc raw object storage; nó dùng cùng API mà operator có thể kiểm chứng trong Grafana.
Data plane
Mimir, Loki, Tempo, Pyroscope và MinIO lưu bốn loại tín hiệu phía sau một tenant header.
Control plane
Alertmanager kích hoạt Python agent. Telegram mang thread, citation, action card và approval.
BYOK runtime
OpenAI-compatible, Anthropic, Ollama hoặc local endpoint. Không bundle model và mặc định không phone-home telemetry.
Hai mode, một config schema.
Cùng một hệ thống có thể bắt đầu từ single-instance cho homelab rồi mở rộng thành central plus member nodes mà không đổi mô hình tư duy.
Single-instance
Một host chạy collector, LGTM+ backends, MinIO, Grafana, Alertmanager và agent cho tenant local.
Central + members
Member nodes push qua HTTPS với bearer token và X-Scope-OrgID, nên vẫn phù hợp với môi trường NAT và IP động.
Trust boundary
PII redaction, local-only KB files, sandboxed commands và command whitelist giữ automation luôn reviewable.