- Một cựu kỹ sư mô tả chi tiết quá trình các quyết định phi thực tế bên trong Azure Core của Microsoft tích tụ dần, dẫn đến hỗn loạn kỹ thuật và sự sụp đổ niềm tin
- Các vấn đề tiêu biểu được chỉ ra là kế hoạch port các tính năng Windows bất chấp giới hạn phần cứng và sự tràn lan của 173 agent quản lý
- Cấu trúc phức tạp này đang nâng đỡ các workload trọng yếu như OpenAI, Anthropic và cloud chính phủ, nên chỉ một lỗi đơn lẻ cũng có nguy cơ lan thành sự cố trên toàn cầu
- Trong khi ban lãnh đạo không phản hồi, hàng loạt hệ quả tiếp theo đã xảy ra như quan hệ xấu đi với OpenAI, chính phủ Mỹ đánh mất niềm tin và trì hoãn phát hành tính năng
- Kết cục là 1 nghìn tỷ USD giá trị vốn hóa thị trường bốc hơi, đồng thời nhấn mạnh tầm quan trọng của việc nhận thức đúng thực tế kỹ thuật và duy trì sự đơn giản trong vận hành hạ tầng cloud
Ghi chép nội bộ về sự sụp đổ niềm tin vào Azure
- Hồi tưởng của một cựu kỹ sư về quá trình ra quyết định phi thực tế bên trong đội Azure Core của Microsoft và những hỗn loạn kỹ thuật, tổ chức do đó gây ra
- Ngay từ ngày đầu gia nhập đội Overlake R&D, tác giả đã chứng kiến cảnh thảo luận về kế hoạch port các tính năng Windows sang thẻ Overlake bất chấp giới hạn phần cứng
- Dù có tới 173 agent quản lý, mức độ phức tạp và thiếu minh bạch đã nghiêm trọng đến mức không ai biết rõ chức năng hay sự cần thiết của chúng
- Cấu trúc này đang nâng đỡ các workload trọng yếu như OpenAI, Anthropic và cloud chính phủ, nên một lỗi đơn lẻ có thể dẫn tới sự cố trên phạm vi toàn cầu
- Theo bài viết, kết quả cuối cùng là OpenAI mất niềm tin, Bộ Quốc phòng Mỹ công khai tỏ rõ sự nghi ngờ và 1 nghìn tỷ USD giá trị vốn hóa thị trường bốc hơi
Gia nhập Azure Core và bối cảnh ban đầu
- Ngày 1/5/2023, tác giả gia nhập đội Overlake R&D với vai trò kỹ sư cấp cao, phụ trách thẻ offloading Azure Boost và bộ tăng tốc mạng
- Trước đó từng tham gia cải tiến kernel và phát triển nền tảng container tại đội Windows và Core OS, đóng góp cho các công nghệ trọng yếu như Docker, AKS, App Services và Windows Sandbox
- Cũng từng tham gia thiết kế ban đầu của thẻ Overlake (2020~2021) và đề xuất giao thức truyền thông giữa host OS và thẻ tăng tốc
- Trở lại với tư cách một chuyên gia đã trực tiếp vận hành và phát triển nền tảng Azure hơn 10 năm
Kế hoạch phi thực tế được chứng kiến ngay trong cuộc họp đầu tiên
- Ngày đầu đi làm, trong cuộc họp lập kế hoạch hàng tháng của đội, tác giả xác nhận có kế hoạch port các thành phần Windows sang thẻ Overlake
- Dù dung lượng RAM và ngân sách điện năng của thẻ Overlake cực kỳ hạn chế, đội vẫn bàn đến việc chuyển các tính năng Windows sang đó
- Đây là kế hoạch bất khả thi xét theo thông số phần cứng, thậm chí còn có phát biểu kiểu “hãy giao cho vài lập trình viên junior thử làm xem”
- Tổ chức khi đó còn nghiêm túc xem xét hướng port Windows sang Linux để duy trì agent quản lý VM
- Tác giả nhận ra đây là một “kế hoạch tách rời thực tế” và cho rằng cả tổ chức đã bắt đầu một cuộc hành quân hướng tới mục tiêu bất khả thi
Giới hạn kỹ thuật và vấn đề cấu trúc
- Khi đó stack này trên CPU Xeon 400W chỉ xử lý được vài chục VM, chênh lệch rất xa so với giới hạn 1.024 VM của hypervisor
- Do tiêu thụ tài nguyên quá mức, đã xuất hiện các vấn đề suy giảm hiệu năng như jitter trên VM của khách hàng
- Kế hoạch đem stack kém hiệu quả đó port sang một ARM SoC nhỏ để mở rộng là điều bất khả thi về mặt kỹ thuật
- Tác giả nói rằng “thay vì học công nghệ mới, nhiệm vụ cấp bách hơn là kéo cả tổ chức trở lại với thực tế”
Các cuộc trao đổi nội bộ liên quan đến Azure Linux và Overlake
- Trong cuộc trò chuyện 90 phút với người đứng đầu Linux System Group, tác giả xác nhận rằng 173 agent đã được chỉ định là ứng viên để port sang thẻ Overlake
- Sau khi điều tra, không một ai bên trong Microsoft có thể giải thích rõ vai trò, tương tác hay lý do tồn tại của 173 agent này
- Nền tảng cốt lõi của Azure là VM, networking và storage, còn các dịch vụ khác được xây trên đó, nhưng sự phức tạp không cần thiết vẫn liên tục tích tụ
- Chính tập hợp thành phần ngoài tầm kiểm soát này đang quản lý các workload lớn như OpenAI, Anthropic và cloud chính phủ
Mất niềm tin và các diễn biến tiếp theo
- Cấu trúc phức tạp này ở trong trạng thái có thể gây ra rủi ro nghiêm trọng đối với an ninh quốc gia và tính liên tục kinh doanh
- Sau đó, các lá thư gửi tới CEO, hội đồng quản trị và EVP khối Cloud+AI đều không nhận được phản hồi
- Kết quả là xảy ra quan hệ xấu đi với OpenAI, niềm tin của chính phủ Mỹ sụp đổ (qua phát ngôn công khai của Bộ trưởng Quốc phòng), lãng phí trong kỹ thuật và lệnh chuyển sang Rust, cùng trì hoãn phát hành tính năng
- Tác giả gọi đây là “sự kiện làm bốc hơi 1 nghìn tỷ USD giá trị vốn hóa thị trường” và cảnh báo các doanh nghiệp dùng Azure về rủi ro khi phụ thuộc vào môi trường production
Kết luận
- Bài viết cho thấy quá trình độ phức tạp kỹ thuật, quản lý yếu kém và các quyết định phi thực tế tích tụ bên trong Azure, dẫn đến đánh mất niềm tin
- Đây là ví dụ về một tổ chức phụ trách hạ tầng cốt lõi nhưng đánh mất cảm nhận về thực tế và tiếp tục cuộc hành quân tới thất bại mang tính cấu trúc
- Nhấn mạnh tầm quan trọng của tính ổn định, sự đơn giản của hạ tầng cloud và việc duy trì năng lực phán đoán kỹ thuật trong nội bộ tổ chức
1 bình luận
Ý kiến trên Hacker News
Với tư cách là người dùng Azure hằng ngày, nếu những tiết lộ này là thật thì cảm giác như rất nhiều thứ cuối cùng cũng được giải thích
UI thì cẩu thả, tài liệu thì sai lệch như thể do AI viết, lại có quá nhiều loại dịch vụ đến mức còn chẳng biết nên dùng cái nào
Khó cấu hình nếu không có tư vấn viên hỗ trợ, mà ngay cả sau khi cấu hình xong cũng không chắc nó có chạy đúng hay không
Thành thật mà nói, thật lạ là thứ này vẫn còn vận hành được
Từ đó về sau tôi không còn tin tài liệu nữa
Dịch vụ vốn chạy ổn định trên GCP trở nên khó lường
Tôi từng thấy Azure OpenAI làm lộ phản hồi prompt của khách hàng khác khi bị tải cao
Còn có tweet liên quan
Nhưng bầu không khí là chẳng ai thực sự quan tâm
Tình hình đúng kiểu miền viễn Tây hoang dã
Tôi ngạc nhiên vì các tuyên bố trong bài này quá cụ thể
Không rõ đây là người tố giác nội bộ hay chỉ là một cựu nhân viên bất mãn
Phần nói rằng đã báo cáo trực tiếp cho CEO và hội đồng quản trị đặc biệt gây ấn tượng
Việc quy trình như vậy lại được xem là “thông lệ” trong văn hóa doanh nghiệp Mỹ nghe khá lạ
Tôi muốn biết trải nghiệm thực tế của người dùng xem Azure có thật sự bất ổn đến thế không
Azure không nhận ra có vấn đề, không biết nguyên nhân là gì, thậm chí còn có vẻ chẳng quan tâm
Cả đội đều ghét Azure
Tôi mừng vì giờ có thể dùng model OpenAI qua AWS Bedrock để tránh Azure
Độ tin cậy vẫn là vấn đề cực kỳ nghiêm trọng
Chiến lược “ra mắt thật nhanh rồi sửa sau” rốt cuộc dẫn đến kết cục như thế này
Từ đó tôi không còn tin nó nữa
Bài viết có phần cường điệu cảm xúc, khiến ý đồ ban đầu bị mờ đi
Hệ thống cấp bậc nội bộ của Azure hay các sự cố mức Sev2 thật ra cũng không quá đặc biệt
Azure có vấn đề, nhưng quy mô lớn nên có những chỗ thô ráp cũng là điều dễ hiểu
Tôi nghĩ sự trưởng thành thật sự là thái độ cố gắng cải thiện từ bên trong hệ thống
Azure có thể là một mớ hỗn độn, nhưng cách tiếp cận của tác giả cũng có thể đã có vấn đề
Ấn tượng của tôi về Azure hoàn toàn là tiêu cực
Cách tiếp cận của tác giả ngược lại còn làm giảm độ tin cậy
Tần suất nhân viên mới buột miệng “wtf/day” có vẻ như là một chỉ số sức khỏe của tổ chức
Ngay cả từ bên ngoài nhìn vào, Azure cũng có chất lượng chạm đáy
Vì vội vàng ném tính năng ra để đuổi theo AWS nên nó rơi vào một vũng lầy technical debt khổng lồ
Ngay cả những chức năng cơ bản như IPv6, azcopy, nâng cấp VM cũng vẫn thiếu ổn định
Một đồng nghiệp cũ của tôi dùng Azure mỗi ngày, và mỗi lần nghe họ trút cơn bực dọc thì tôi lại thấy nội dung bài này rất dễ hiểu
Khi chọn chuyên môn hóa cloud 12 năm trước, tôi đã thử Azure một thời gian ngắn và thấy đó là một nền tảng chậm chạp, hay lỗi, và bài này xác nhận lại đánh giá đó
Phần cuối bài viết nói Microsoft đã cắt giảm 15.000 nhân sự trong năm 2025 khá ấn tượng
Nó giống như một ví dụ cho thực tế phía sau cơn sốt AI
Hợp đồng với OpenAI là vấn đề về năng lực GPU, còn cắt giảm nhân sự là chuyện khác
Vấn đề thực sự là sự luân chuyển kỹ sư và thiếu trách nhiệm sở hữu
Dự án nào cũng có người mới được đưa vào, rồi cảm giác làm chủ biến mất
Đoạn nói rằng nếu host bị xâm nhập thì có thể truy cập toàn bộ bộ nhớ VM nghe cực kỳ nguy hiểm
Việc trích dẫn CNBC nói lương của Satya Nadella tăng 22% lên 96,5 triệu USD, đặt cạnh câu nói của phi hành gia Artemis II rằng “cả hai Outlook đều không hoạt động”, thật trớ trêu
Nội dung bài có vẻ bị phóng đại, nhưng với tư cách là người từng vận hành các hệ thống tương tự, tôi cũng nhớ cảm giác phải liên tục chiến đấu để giữ ổn định
Tôi từng thấy vấn đề tương tự ở các công ty khác, nhưng không nghiêm trọng ở quy mô như Azure
Kiểu cấu trúc này rốt cuộc có vẻ sẽ dẫn đến một vòng lặp tự hủy
Tôi đã dùng Azure vào năm 2018, và nó chậm, đắt mà chất lượng thì tệ hại
Trên diễn đàn GitHub, tôi cùng những người dùng khác đã vật lộn để giải quyết những vấn đề mà ngay cả tính năng cơ bản cũng không làm được
Bài này đã giải đáp những thắc mắc tôi có từ khi đó
Cá nhân tôi thấy Google Cloud là nền tảng được thiết kế tốt nhất, nhưng điểm đáng tiếc là thiếu hỗ trợ con người so với AWS
Người phụ trách đã đổi ba lần trong vòng ba tháng, và đôi khi cả yêu cầu quota hay câu hỏi về giới hạn hệ thống cũng bị phớt lờ