- Mục tiêu cốt lõi của các công cụ Observability trong vài thập kỷ qua là giúp con người hiểu được dữ liệu telemetry dị thể ở quy mô lớn
- Sự xuất hiện của AI và LLM đang làm thay đổi mô hình cũ xoay quanh “dashboard + cảnh báo + sampling”, khi quá trình phân tích được thay thế bằng tự động hóa
- Trên thực tế, một tác nhân AI đã phân tích nguyên nhân của đột biến độ trễ chỉ trong 80 giây với 8 lần gọi công cụ, tự động hóa công việc vốn được thực hiện trong các bản demo trước đây, với chi phí chỉ 60 xu
- Dashboard đẹp mắt hay khả năng instrument thuận tiện không còn là giá trị đặc biệt nữa, khi LLM đang hàng hóa hóa việc phân tích, còn OpenTelemetry hàng hóa hóa việc instrument
- Observability trong tương lai sẽ lấy “vòng phản hồi nhanh” và quy trình cộng tác AI + con người làm chìa khóa thành công, mở ra thời đại của nhiều phần mềm hơn và nhiều tự động hóa hơn
Lịch sử của các công cụ Observability và sự xuất hiện của AI
- Trong nhiều thập kỷ, mục tiêu cốt lõi của các công cụ observability là nén/tóm lược lượng dữ liệu dị thể khổng lồ (telemetry) xuống mức con người có thể hiểu được
- Mỗi khi một lớp trừu tượng phần mềm mới xuất hiện (ví dụ: Rails, AWS, Kubernetes, OpenTelemetry...),
nhiều công cụ như giám sát, đo lường, dashboard, cảnh báo thích ứng, sampling động... lại được phát triển để che giấu sự phức tạp đó, đồng thời nén độ phức tạp của dữ liệu để phù hợp với khả năng nhận thức của con người
LLM = bộ xấp xỉ hàm phổ dụng, và giờ đã thực sự hữu ích
- Về mặt toán học, LLM chỉ là bộ xấp xỉ hàm phổ dụng (universal function approximator), nhưng trên thực tế lại rất hữu ích trong việc giải quyết các vấn đề observability
- Ví dụ, trong một demo của Honeycomb, một tác nhân AI được yêu cầu phân tích bằng ngôn ngữ tự nhiên một đột biến độ trễ trên heatmap
- “Hãy phân tích nguyên nhân của đột biến độ trễ xảy ra mỗi 4 giờ trong dịch vụ frontend”
- LLM dùng sẵn (Claude Sonnet 4) được tích hợp với Model Context Protocol (MCP) của Honeycomb
- Tự động phân tích nguyên nhân chỉ trong 80 giây, 8 lần gọi công cụ, với chi phí 60 xu
- Mức độ này đã cho thấy khả năng giải quyết kịch bản thực tế theo kiểu zero-shot mà không cần prompt bổ sung, huấn luyện riêng hay hướng dẫn
- Sự hàng hóa hóa của phân tích (commoditization):
- Khi LLM tự động hóa công việc phân tích, những điểm khác biệt trước đây của các sản phẩm observability (đồ thị đẹp, instrument dễ dàng...) dần mất ý nghĩa
- OpenTelemetry hàng hóa hóa việc instrument, còn LLM hàng hóa hóa việc phân tích
- Trong tương lai, “vòng phản hồi nhanh” sẽ thay thế như giá trị cốt lõi của công cụ observability
Vai trò của con người và những thay đổi trong tương lai
- Vai trò của con người sẽ không biến mất hoàn toàn
- Cũng như sự xuất hiện của cloud không xóa bỏ hoàn toàn bản thân ngành IT, AI cũng sẽ không thay thế hoàn toàn developer hay operator
- Gia tăng năng suất sẽ mở rộng toàn bộ bức tranh và tạo ra nhiều phần mềm hơn nữa
- Câu hỏi cốt lõi là:
Trong một thế giới nơi chi phí viết code/refactor/phân tích giảm mạnh, và phân tích trở thành hằng số,
bản chất của observability sẽ đi về đâu?
Điều thực sự quan trọng là “phản hồi nhanh”
- Điều quan trọng nhất là có được các vòng phản hồi nhanh và dày đặc trong mọi giai đoạn của phát triển và vận hành
- AI sẽ luôn vượt con người về tốc độ
- LLM có thể nhanh chóng dựng lên hàng chục giả thuyết, thất bại, rồi cuối cùng tìm ra kết quả đúng
(với chi phí cũng rất rẻ)
- Triết lý của Honeycomb:
- Vòng phản hồi nhanh, chia sẻ tri thức cộng tác, phát triển/vận hành theo hướng thử nghiệm
- Trong tương lai, hỗ trợ AI sẽ được đưa vào toàn bộ vòng đời phát triển và vận hành phần mềm
- Ví dụ
- Khi viết code và triển khai, tác nhân AI đưa phản hồi thời gian thực, đề xuất sửa lỗi/cải thiện chất lượng
- Trong quá trình vận hành, phát hiện/phân tích/ghi báo cáo tự động về emergent behavior, sau khi được phê duyệt thì tự động cải thiện
- Các tổ chức tiên tiến nhất sẽ tự động hóa vai trò SRE/SWE bằng AI + công cụ, thậm chí trực tiếp hoàn thành mục tiêu kinh doanh
- Các điều kiện tương lai của observability để thành công
- Hiệu năng truy vấn độ trễ siêu thấp
- Kho lưu trữ dữ liệu tích hợp
- Quy trình cộng tác liền mạch giữa con người và AI
- Kết luận:
- Các công cụ observability truyền thống tập trung vào dashboard, cảnh báo và trực quan hóa
không còn là cốt lõi trong kỷ nguyên AI,
và chỉ còn “vòng phản hồi nhanh” cùng nền tảng cộng tác AI - con người là có thể tồn tại
4 bình luận
Cũng như observability không phải là dấu chấm hết của monitoring, LLM chắc hẳn cũng không phải là dấu chấm hết của observability.
Giống như observability đã phát triển dựa trên nền tảng monitoring ngày càng tinh vi, phân tích bằng LLM rồi cũng sẽ phát triển dựa trên nền tảng observability ngày càng tinh vi.
Tôi cũng đang kỳ vọng lĩnh vực Observability sẽ được đổi mới rất nhanh nhờ LLM, nhưng cái tiêu đề này giật tít quá nhé haha
Quảng bá dịch vụ của mình bằng cách nói rằng “ngày tàn đang đến gần” thì cũng hơi ngượng thật...
Cá nhân tôi thì đang kỳ vọng vision llm sẽ phát triển hơn để có thể dùng cho các tác vụ giám sát. Gần đây tôi từng đọc một bài viết của một phụ huynh dùng vlm để kiểm tra xem có điều gì bất thường xảy ra khi con ngủ không, và tôi thấy điều đó rất thú vị.
Ý kiến Hacker News