2 điểm bởi GN⁺ 2024-07-29 | 1 bình luận | Chia sẻ qua WhatsApp
  • Sử dụng LLM để phân loại cảnh báo thành loại có thể hành động và nhiễu
    • Phân tích lịch sử cảnh báo và các cuộc trò chuyện trên Slack để xác định liệu cảnh báo có cần hành động hay không
    • Cung cấp thông tin theo ngữ cảnh để xử lý (insight và tài nguyên bổ sung) nhằm giảm mệt mỏi vì cảnh báo
  • Hoạt động bằng cách tích hợp với Slack, phân tích mẫu cảnh báo và cung cấp báo cáo hàng tuần về cảnh báo của kênh

Kiến trúc mô-đun

  1. Thu thập cảnh báo: Datadog gửi cảnh báo đến máy chủ FastAPI thông qua webhook
  2. Máy chủ FastAPI: Cốt lõi của hệ thống, xử lý cảnh báo đến, tương tác với Slack và quản lý luồng dữ liệu
  3. Tích hợp Slack: Cung cấp giao diện người dùng cho việc quản lý và tương tác với cảnh báo
  4. Cơ sở dữ liệu: Sử dụng Postgres và pgvector để lưu trữ dữ liệu cảnh báo và embedding

Tích hợp

Có thể hỗ trợ nhiều tích hợp nhờ mô hình dữ liệu linh hoạt. Hiện tại Opslane hỗ trợ Datadog

Tổng hợp của GN⁺

  • Opslane là công cụ giúp giảm mệt mỏi vì cảnh báo và phân loại các cảnh báo có thể hành động để trải nghiệm on-call bớt căng thẳng hơn
  • Thông qua tích hợp với Slack, công cụ hỗ trợ quản lý cảnh báo và debug, đồng thời phân tích chất lượng cảnh báo bằng báo cáo hàng tuần
  • Được cung cấp dưới dạng mã nguồn mở và hoan nghênh đóng góp từ cộng đồng, đồng thời hỗ trợ tích hợp với Datadog
  • Các công cụ có chức năng tương tự gồm có PagerDuty và VictorOps.

1 bình luận

 
GN⁺ 2024-07-29
Ý kiến trên Hacker News
  • Ý kiến thứ nhất: Bàn về các sản phẩm giúp giảm mệt mỏi vì cảnh báo bằng cách phân loại cảnh báo thành loại có thể hành động được và nhiễu, đồng thời cung cấp thông tin ngữ cảnh để xử lý

    • Vấn đề này cho thấy rõ hơn vấn đề của các công ty không thể xây dựng khả năng quan sát hữu ích
    • Sản phẩm này đáng được hoan nghênh, nhưng mong rằng khía cạnh tiếp tay cho các thực hành văn hóa tồi sẽ không được nhấn mạnh như điểm bán hàng chính
    • Ngành viễn thông đã giải quyết vấn đề này từ 15 năm trước thông qua tự động hóa Fault Management
    • Khi cảnh báo chuyển sang Slack, dữ liệu trở thành văn bản phi cấu trúc và cần các giải pháp lọc phức tạp
  • Ý kiến thứ hai: Bày tỏ lo ngại về việc sử dụng LLM không đáng tin cậy cho các tác vụ quan trọng

    • Mong rằng sẽ giải quyết vấn đề gốc thay vì thêm LLM vào
  • Ý kiến thứ ba: Đề cập rằng nhà sáng lập All Quiet đang phát triển một công cụ không sử dụng LLM

    • Người dùng không muốn các cảnh báo quan trọng phụ thuộc vào LLM thiếu minh bạch
    • AI có thể giúp với triệu chứng, nhưng không thể giải quyết nguyên nhân gốc là vấn đề về khả năng quan sát và quy trình
  • Ý kiến thứ tư: Bày tỏ lo ngại về việc lọc mức độ quan trọng của thông báo thông qua LLM

  • Ý kiến thứ năm: Việc gắn công cụ quá chặt với Slack làm hạn chế các nền tảng có thể sử dụng

    • Vẫn còn những nền tảng nhắn tin tức thời khác
    • Vấn đề rộng hơn của việc sử dụng IM đang được thảo luận trong chuỗi bình luận khác
  • Ý kiến thứ sáu: Nói rằng mình rất thích hướng đi này

    • Bày tỏ sự tò mò về giai đoạn bootstrapping ban đầu và việc thiết lập baseline liên tục
    • Cho biết đội ngũ Louie.AI đang tuyển SE và các vị trí chủ chốt
  • Ý kiến thứ bảy: Giải thích lý do biết các vấn đề của hệ thống cảnh báo ở nơi làm việc hiện tại nhưng không thể giải quyết

    • Không thể tắt cảnh báo, và cũng không thể xác định hoặc xử lý nguyên nhân gốc
    • Vận hành on-call tốt là một vấn đề văn hóa
    • Công cụ kỹ thuật không thể giải quyết vấn đề văn hóa
    • Để giải quyết vấn đề văn hóa, chỉ còn cách tìm công việc khác hoặc chấp nhận vấn đề
  • Ý kiến thứ tám: Chúc mừng vì đã tạo ra sản phẩm và chỉ ra rằng đoạn đầu tiên bị thiếu một từ

  • Ý kiến thứ chín: Đang tìm một UI tương tự cho cảnh báo kinh doanh

    • Muốn một công cụ sử dụng các nguồn dữ liệu như Snowflake/BigQuery
    • Nói rằng các công cụ đã dùng đều kết thúc thành những kênh Slack đầy spam