3 điểm bởi GN⁺ 19 ngày trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Một cựu kỹ sư mô tả chi tiết quá trình các quyết định phi thực tế bên trong Azure Core của Microsoft tích tụ dần, dẫn đến hỗn loạn kỹ thuật và sự sụp đổ niềm tin
  • Các vấn đề tiêu biểu được chỉ ra là kế hoạch port các tính năng Windows bất chấp giới hạn phần cứng và sự tràn lan của 173 agent quản lý
  • Cấu trúc phức tạp này đang nâng đỡ các workload trọng yếu như OpenAI, Anthropic và cloud chính phủ, nên chỉ một lỗi đơn lẻ cũng có nguy cơ lan thành sự cố trên toàn cầu
  • Trong khi ban lãnh đạo không phản hồi, hàng loạt hệ quả tiếp theo đã xảy ra như quan hệ xấu đi với OpenAI, chính phủ Mỹ đánh mất niềm tintrì hoãn phát hành tính năng
  • Kết cục là 1 nghìn tỷ USD giá trị vốn hóa thị trường bốc hơi, đồng thời nhấn mạnh tầm quan trọng của việc nhận thức đúng thực tế kỹ thuật và duy trì sự đơn giản trong vận hành hạ tầng cloud

Ghi chép nội bộ về sự sụp đổ niềm tin vào Azure

  • Hồi tưởng của một cựu kỹ sư về quá trình ra quyết định phi thực tế bên trong đội Azure Core của Microsoft và những hỗn loạn kỹ thuật, tổ chức do đó gây ra
  • Ngay từ ngày đầu gia nhập đội Overlake R&D, tác giả đã chứng kiến cảnh thảo luận về kế hoạch port các tính năng Windows sang thẻ Overlake bất chấp giới hạn phần cứng
  • Dù có tới 173 agent quản lý, mức độ phức tạp và thiếu minh bạch đã nghiêm trọng đến mức không ai biết rõ chức năng hay sự cần thiết của chúng
  • Cấu trúc này đang nâng đỡ các workload trọng yếu như OpenAI, Anthropic và cloud chính phủ, nên một lỗi đơn lẻ có thể dẫn tới sự cố trên phạm vi toàn cầu
  • Theo bài viết, kết quả cuối cùng là OpenAI mất niềm tin, Bộ Quốc phòng Mỹ công khai tỏ rõ sự nghi ngờ và 1 nghìn tỷ USD giá trị vốn hóa thị trường bốc hơi

Gia nhập Azure Core và bối cảnh ban đầu

  • Ngày 1/5/2023, tác giả gia nhập đội Overlake R&D với vai trò kỹ sư cấp cao, phụ trách thẻ offloading Azure Boost và bộ tăng tốc mạng
  • Trước đó từng tham gia cải tiến kernel và phát triển nền tảng container tại đội Windows và Core OS, đóng góp cho các công nghệ trọng yếu như Docker, AKS, App Services và Windows Sandbox
  • Cũng từng tham gia thiết kế ban đầu của thẻ Overlake (2020~2021) và đề xuất giao thức truyền thông giữa host OS và thẻ tăng tốc
  • Trở lại với tư cách một chuyên gia đã trực tiếp vận hành và phát triển nền tảng Azure hơn 10 năm

Kế hoạch phi thực tế được chứng kiến ngay trong cuộc họp đầu tiên

  • Ngày đầu đi làm, trong cuộc họp lập kế hoạch hàng tháng của đội, tác giả xác nhận có kế hoạch port các thành phần Windows sang thẻ Overlake
  • dung lượng RAM và ngân sách điện năng của thẻ Overlake cực kỳ hạn chế, đội vẫn bàn đến việc chuyển các tính năng Windows sang đó
  • Đây là kế hoạch bất khả thi xét theo thông số phần cứng, thậm chí còn có phát biểu kiểu “hãy giao cho vài lập trình viên junior thử làm xem”
  • Tổ chức khi đó còn nghiêm túc xem xét hướng port Windows sang Linux để duy trì agent quản lý VM
  • Tác giả nhận ra đây là một “kế hoạch tách rời thực tế” và cho rằng cả tổ chức đã bắt đầu một cuộc hành quân hướng tới mục tiêu bất khả thi

Giới hạn kỹ thuật và vấn đề cấu trúc

  • Khi đó stack này trên CPU Xeon 400W chỉ xử lý được vài chục VM, chênh lệch rất xa so với giới hạn 1.024 VM của hypervisor
  • Do tiêu thụ tài nguyên quá mức, đã xuất hiện các vấn đề suy giảm hiệu năng như jitter trên VM của khách hàng
  • Kế hoạch đem stack kém hiệu quả đó port sang một ARM SoC nhỏ để mở rộng là điều bất khả thi về mặt kỹ thuật
  • Tác giả nói rằng “thay vì học công nghệ mới, nhiệm vụ cấp bách hơn là kéo cả tổ chức trở lại với thực tế”

Các cuộc trao đổi nội bộ liên quan đến Azure Linux và Overlake

  • Trong cuộc trò chuyện 90 phút với người đứng đầu Linux System Group, tác giả xác nhận rằng 173 agent đã được chỉ định là ứng viên để port sang thẻ Overlake
  • Sau khi điều tra, không một ai bên trong Microsoft có thể giải thích rõ vai trò, tương tác hay lý do tồn tại của 173 agent này
  • Nền tảng cốt lõi của Azure là VM, networking và storage, còn các dịch vụ khác được xây trên đó, nhưng sự phức tạp không cần thiết vẫn liên tục tích tụ
  • Chính tập hợp thành phần ngoài tầm kiểm soát này đang quản lý các workload lớn như OpenAI, Anthropic và cloud chính phủ

Mất niềm tin và các diễn biến tiếp theo

  • Cấu trúc phức tạp này ở trong trạng thái có thể gây ra rủi ro nghiêm trọng đối với an ninh quốc gia và tính liên tục kinh doanh
  • Sau đó, các lá thư gửi tới CEO, hội đồng quản trị và EVP khối Cloud+AI đều không nhận được phản hồi
  • Kết quả là xảy ra quan hệ xấu đi với OpenAI, niềm tin của chính phủ Mỹ sụp đổ (qua phát ngôn công khai của Bộ trưởng Quốc phòng), lãng phí trong kỹ thuật và lệnh chuyển sang Rust, cùng trì hoãn phát hành tính năng
  • Tác giả gọi đây là “sự kiện làm bốc hơi 1 nghìn tỷ USD giá trị vốn hóa thị trường” và cảnh báo các doanh nghiệp dùng Azure về rủi ro khi phụ thuộc vào môi trường production

Kết luận

  • Bài viết cho thấy quá trình độ phức tạp kỹ thuật, quản lý yếu kém và các quyết định phi thực tế tích tụ bên trong Azure, dẫn đến đánh mất niềm tin
  • Đây là ví dụ về một tổ chức phụ trách hạ tầng cốt lõi nhưng đánh mất cảm nhận về thực tế và tiếp tục cuộc hành quân tới thất bại mang tính cấu trúc
  • Nhấn mạnh tầm quan trọng của tính ổn định, sự đơn giản của hạ tầng cloud và việc duy trì năng lực phán đoán kỹ thuật trong nội bộ tổ chức

1 bình luận

 
Ý kiến trên Hacker News
  • Với tư cách là người dùng Azure hằng ngày, nếu những tiết lộ này là thật thì cảm giác như rất nhiều thứ cuối cùng cũng được giải thích
    UI thì cẩu thả, tài liệu thì sai lệch như thể do AI viết, lại có quá nhiều loại dịch vụ đến mức còn chẳng biết nên dùng cái nào
    Khó cấu hình nếu không có tư vấn viên hỗ trợ, mà ngay cả sau khi cấu hình xong cũng không chắc nó có chạy đúng hay không
    Thành thật mà nói, thật lạ là thứ này vẫn còn vận hành được

    • Trước đây tôi từng rất ấn tượng với tài liệu của Azure, nhưng sau một tuần triển khai thì mọi thứ thất bại hoàn toàn vì GraphAPI không hoạt động như tài liệu mô tả trong môi trường test
      Từ đó về sau tôi không còn tin tài liệu nữa
    • Tôi đã làm việc với các tư vấn viên Azure, và họ cũng ghét Azure
    • Ban lãnh đạo quyết định chuyển sang AKS vì có nhiều credit, nhưng pod bị crash ngẫu nhiên và độ trễ đĩa của node DB tăng vọt
      Dịch vụ vốn chạy ổn định trên GCP trở nên khó lường
  • Tôi từng thấy Azure OpenAI làm lộ phản hồi prompt của khách hàng khác khi bị tải cao
    Còn có tweet liên quan
    Nhưng bầu không khí là chẳng ai thực sự quan tâm

    • Tôi tò mò “Azure OpenAI” ở đây chính xác là gì — GitHub Copilot, Microsoft Copilot, OpenAI API, hay một LLM nào đó được host trên Azure?
      Tình hình đúng kiểu miền viễn Tây hoang dã
  • Tôi ngạc nhiên vì các tuyên bố trong bài này quá cụ thể
    Không rõ đây là người tố giác nội bộ hay chỉ là một cựu nhân viên bất mãn
    Phần nói rằng đã báo cáo trực tiếp cho CEO và hội đồng quản trị đặc biệt gây ấn tượng
    Việc quy trình như vậy lại được xem là “thông lệ” trong văn hóa doanh nghiệp Mỹ nghe khá lạ
    Tôi muốn biết trải nghiệm thực tế của người dùng xem Azure có thật sự bất ổn đến thế không

    • Tôi thực sự đang vận hành cả AWS, Azure và GCP với vai trò SRE, và 80~90% sự cố xảy ra ở Azure
      Azure không nhận ra có vấn đề, không biết nguyên nhân là gì, thậm chí còn có vẻ chẳng quan tâm
      Cả đội đều ghét Azure
    • Azure có quá nhiều vấn đề nhất quán và race condition
      Tôi mừng vì giờ có thể dùng model OpenAI qua AWS Bedrock để tránh Azure
      Độ tin cậy vẫn là vấn đề cực kỳ nghiêm trọng
    • Các tập đoàn lớn thường xuyên đưa ra quyết định hy sinh chất lượng để đổi lấy chỉ số ngắn hạn
      Chiến lược “ra mắt thật nhanh rồi sửa sau” rốt cuộc dẫn đến kết cục như thế này
    • Tôi từng đọc một báo cáo bảo mật về việc thoát khỏi container trên Azure và phát hiện lỗ hổng ở management controller
      Từ đó tôi không còn tin nó nữa
    • Dù có được cấp credit miễn phí thì tôi vẫn nghĩ trả tiền để dùng AWS hay GCP còn tốt hơn
  • Bài viết có phần cường điệu cảm xúc, khiến ý đồ ban đầu bị mờ đi
    Hệ thống cấp bậc nội bộ của Azure hay các sự cố mức Sev2 thật ra cũng không quá đặc biệt
    Azure có vấn đề, nhưng quy mô lớn nên có những chỗ thô ráp cũng là điều dễ hiểu
    Tôi nghĩ sự trưởng thành thật sự là thái độ cố gắng cải thiện từ bên trong hệ thống

    • Việc gửi thư trực tiếp cho hội đồng quản trị là hành động chắc chắn sẽ không bao giờ có kết quả tốt trong tổ chức
      Azure có thể là một mớ hỗn độn, nhưng cách tiếp cận của tác giả cũng có thể đã có vấn đề
    • AWS và GCP có UX/DX tốt hơn nhiều, còn Azure thì thậm chí không cho biết vì sao nó không hoạt động
      Ấn tượng của tôi về Azure hoàn toàn là tiêu cực
    • Microsoft là giải pháp mặc định của các cơ quan chính phủ, nhưng việc đề xuất viết lại toàn bộ là không thực tế
      Cách tiếp cận của tác giả ngược lại còn làm giảm độ tin cậy
    • Tôi ngạc nhiên khi cấu trúc lại giao các hệ thống cốt lõi cho những người có cấp bậc thấp như tác giả đề cập
    • Có rất nhiều người “la lên rằng mọi thứ đều đang hỏng”, nhưng đó cũng có thể là vấn đề trì trệ đã ăn sâu trong tổ chức
      Tần suất nhân viên mới buột miệng “wtf/day” có vẻ như là một chỉ số sức khỏe của tổ chức
      Ngay cả từ bên ngoài nhìn vào, Azure cũng có chất lượng chạm đáy
      Vì vội vàng ném tính năng ra để đuổi theo AWS nên nó rơi vào một vũng lầy technical debt khổng lồ
      Ngay cả những chức năng cơ bản như IPv6, azcopy, nâng cấp VM cũng vẫn thiếu ổn định
  • Một đồng nghiệp cũ của tôi dùng Azure mỗi ngày, và mỗi lần nghe họ trút cơn bực dọc thì tôi lại thấy nội dung bài này rất dễ hiểu
    Khi chọn chuyên môn hóa cloud 12 năm trước, tôi đã thử Azure một thời gian ngắn và thấy đó là một nền tảng chậm chạp, hay lỗi, và bài này xác nhận lại đánh giá đó

  • Phần cuối bài viết nói Microsoft đã cắt giảm 15.000 nhân sự trong năm 2025 khá ấn tượng
    Nó giống như một ví dụ cho thực tế phía sau cơn sốt AI

    • Nhưng tôi nghĩ phần đó là luận điểm yếu của bài
      Hợp đồng với OpenAI là vấn đề về năng lực GPU, còn cắt giảm nhân sự là chuyện khác
      Vấn đề thực sự là sự luân chuyển kỹ sư và thiếu trách nhiệm sở hữu
      Dự án nào cũng có người mới được đưa vào, rồi cảm giác làm chủ biến mất
  • Đoạn nói rằng nếu host bị xâm nhập thì có thể truy cập toàn bộ bộ nhớ VM nghe cực kỳ nguy hiểm

    • Tôi còn không thể tưởng tượng nổi môi trường nào lại nghĩ kiến trúc như vậy là một ý tưởng hay
    • Tôi không hiểu tác giả đã kỳ vọng điều gì
  • Việc trích dẫn CNBC nói lương của Satya Nadella tăng 22% lên 96,5 triệu USD, đặt cạnh câu nói của phi hành gia Artemis II rằng “cả hai Outlook đều không hoạt động”, thật trớ trêu

    • “Hai Outlook” à, thật ra một cái thôi cũng đã là quá nhiều
  • Nội dung bài có vẻ bị phóng đại, nhưng với tư cách là người từng vận hành các hệ thống tương tự, tôi cũng nhớ cảm giác phải liên tục chiến đấu để giữ ổn định
    Tôi từng thấy vấn đề tương tự ở các công ty khác, nhưng không nghiêm trọng ở quy mô như Azure
    Kiểu cấu trúc này rốt cuộc có vẻ sẽ dẫn đến một vòng lặp tự hủy

  • Tôi đã dùng Azure vào năm 2018, và nó chậm, đắt mà chất lượng thì tệ hại
    Trên diễn đàn GitHub, tôi cùng những người dùng khác đã vật lộn để giải quyết những vấn đề mà ngay cả tính năng cơ bản cũng không làm được
    Bài này đã giải đáp những thắc mắc tôi có từ khi đó
    Cá nhân tôi thấy Google Cloud là nền tảng được thiết kế tốt nhất, nhưng điểm đáng tiếc là thiếu hỗ trợ con người so với AWS

    • Hỗ trợ của GCP thật sự rất tệ
      Người phụ trách đã đổi ba lần trong vòng ba tháng, và đôi khi cả yêu cầu quota hay câu hỏi về giới hạn hệ thống cũng bị phớt lờ