4 điểm bởi GN⁺ 2025-09-28 | 1 bình luận | Chia sẻ qua WhatsApp
  • Windows ML đã ra mắt chính thức, tiêu chuẩn hóa suy luận AI on-device trên CPU·GPU·NPU cùng quản lý mô hình và phụ thuộc, qua đó cải thiện hiệu quả triển khai trong môi trường production
  • Trong xu hướng AI hybrid kết hợp đám mây và máy khách, Windows 11 cung cấp runtime AI hợp nhất cho suy luận cục bộ ở cấp độ hệ điều hành
  • Thông qua khả năng tương thích với ONNX Runtime và cơ chế phân phối tự động Execution Provider (EP), hệ thống trừu tượng hóa tối ưu hóa theo từng phần cứng, đồng thời hỗ trợ giảm dung lượng ứng dụngcập nhật gia tăng
  • Hợp tác với AMD·Intel·NVIDIA·Qualcomm, Windows sẽ phân phối và đăng ký EP của từng hãng, đồng thời cung cấp khả năng nhắm mục tiêu chi tiết như chỉ định chính sách thiết bị về điện năng/hiệu năng
  • Có sẵn mặc định trên Windows App SDK 1.8.1+ và Windows 11 24H2 trở lên, đồng thời đơn giản hóa quá trình làm quen với các công cụ như AI Toolkit for VS Code và AI Dev Gallery

Tổng quan: mục tiêu và vị trí của Windows ML

  • Windows ML là runtime suy luận AI on-device tích hợp trong Windows 11, hướng tới trở thành lớp tiêu chuẩn cho suy luận cục bộ trong kỷ nguyên AI hybrid
    • Hoạt động như lớp nền tảng của Windows AI Foundry, đồng thời cung cấp hỗ trợ silicon mở rộng thông qua Foundry Local
    • Mục tiêu là giảm chi phí đám mây, độ trễ và các vấn đề về quyền riêng tư, đồng thời mang lại trải nghiệm người dùng tập trung vào thời gian thực, bảo mật và hiệu quả

Cấu trúc runtime: ONNX, EP và mô hình phân phối

  • Tương thích với ONNX Runtime (ORT) nên có thể tận dụng nguyên trạng API và quy trình làm việc ORT hiện có
    • Windows đảm nhiệm triển khai và bảo trì ORT cùng Execution Provider, tạo ra cấu trúc không cần bundle chúng vào ứng dụng
    • EP là cầu nối tối ưu hóa giữa runtime và silicon, do từng nhà cung cấp phát triển và quản lý, còn Windows thực hiện tải xuống/đăng ký động
  • Hạ tầng API mang lại ba lợi ích: đơn giản hóa triển khai, giảm overhead và duy trì khả năng tương thích
    • Tự động phát hiện và cài đặt EP phù hợp với thiết bị, giúp giảm dung lượng ứng dụng từ vài chục đến vài trăm MB
    • Thông qua quy trình chứng nhận và kiểm định, hệ thống hướng tới duy trì độ chính xác giữa các bản build trong khi vẫn phản ánh các bản cập nhật liên tục
  • Advanced Silicon Targeting hỗ trợ chỉ định chính sách thiết bị như NPU (tiêu thụ điện thấp) hay GPU (hiệu năng cao)
    • Cung cấp thêm tùy chọn AOT (biên dịch trước) cho mô hình để đơn giản hóa trải nghiệm của người dùng cuối

Tối ưu hóa từ các đối tác silicon

  • AMD: tích hợp Windows ML trên toàn bộ dòng Ryzen AI, hỗ trợ tăng tốc bằng Vitis AI EP cho NPU·GPU·CPU, hướng tới trải nghiệm AI cục bộ có thể mở rộng
  • Intel: EP kết hợp với OpenVINO để tối ưu lựa chọn XPU (CPU·GPU·NPU), nhắm tới cải thiện hiệu quả và hiệu năng trên PC nền tảng Core Ultra
  • NVIDIA: dùng TensorRT for RTX EP để khai thác thư viện Tensor Core dành riêng cho GPU RTX, tạo ra engine suy luận tối ưu hóa theo từng thiết bị
    • Hãng cho biết tốc độ suy luận nhanh hơn 50%+ so với DirectML và nhấn mạnh tính dễ triển khai cho hơn 100 triệu thiết bị Windows RTX
  • Qualcomm Technologies: trên Snapdragon X Series, QNN EP cung cấp tăng tốc NPU, đồng thời nhờ tích hợp ORT vẫn hỗ trợ đường chạy GPU và CPU
    • Công ty bày tỏ ý định mở rộng framework hợp nhất này tới Copilot+ PC và cả Snapdragon X2 thế hệ tiếp theo

Các trường hợp áp dụng trong hệ sinh thái

  • Adobe Premiere Pro / After Effects: tăng tốc tìm kiếm media, gắn thẻ âm thanh và phát hiện cảnh bằng NPU cục bộ, dự kiến dần chuyển các mô hình on-device sang Windows ML trong thời gian tới
  • BUFFERZONE: phân tích trang web thời gian thực để ngăn phishing/lừa đảo, cung cấp kịch bản bảo mật không cần gửi dữ liệu nhạy cảm lên đám mây
  • Reincubate Camo: cải thiện chất lượng video call bằng thị giác thời gian thực như phân đoạn hình ảnh, tận dụng đường NPU trên mọi loại silicon
  • Dot Vista (Dot Inc.): áp dụng điều khiển giọng nói rảnh tay và OCR vào các kịch bản trợ năng như môi trường y tế, tận dụng NPU của Copilot+ PC
  • Wondershare Filmora: tối ưu xem trước và áp dụng theo thời gian thực các Body Effects (Lightning Twined, Neon Ring, v.v.) cho NPU của AMD·Intel·Qualcomm
  • McAfee: áp dụng suy luận cục bộ cho phát hiện deepfake và lừa đảo, tăng cường khả năng ứng phó trong môi trường mạng xã hội
  • Topaz Photo: cung cấp các tính năng nâng cao ảnh AI chuyên nghiệp như làm sắc nét và khôi phục tiêu điểm bằng suy luận cục bộ

Công cụ dành cho nhà phát triển và quá trình onboarding

  • Với AI Toolkit for VS Code, hệ thống hỗ trợ thống nhất quy trình chuyển đổi PyTorch→ONNX, lượng tử hóa, tối ưu hóa, biên dịch và đánh giá
    • Hướng tới một bản build duy nhất nhắm đến Windows ML, từ đó giảm tối đa logic phân nhánh cho nhiều mục tiêu
  • Trong AI Dev Gallery, có thể thực hành tương tác với các mẫu mô hình tùy chỉnh
    • Cung cấp không gian làm việc phù hợp cho khám phá các kịch bản AI dựa trên mô hình cục bộprototyping nhanh

Điều kiện bắt đầu và mục tiêu triển khai

  • Windows App SDK 1.8.1+ đã bao gồm Windows ML, hỗ trợ các thiết bị chạy Windows 11 24H2 trở lên
    • Sau khi cập nhật lên Windows App SDK mới nhất, lộ trình sử dụng được đơn giản hóa thành gọi Windows ML API → nạp mô hình ONNX → bắt đầu suy luận
    • Tài liệu chi tiết, API và ví dụ mẫu được hướng dẫn qua các đường dẫn ms/TryWinMLms/ai-dev-gallery

Ý nghĩa kỹ thuật và hàm ý

  • Hệ điều hành đảm nhiệm quản lý vòng đời của ORT và EP, qua đó thiết lập cấu trúc để ứng dụng có thể tập trung vào mô hình và logic suy luận gọn nhẹ
    • Việc hấp thụ phân mảnh phần cứng và tự động tối ưu hiệu năng/điện năng giúp giảm độ phức tạp trong phát triển và triển khai xét trên khía cạnh khả dụng
  • Việc cung cấp cả thiết kế ưu tiên NPU lẫn đường chạy GPU hiệu năng cao tạo nền tảng AI cục bộ để đáp ứng các yêu cầu về offline, quyền riêng tư và chi phí
    • Hệ thống cũng đưa ra mô hình vận hành theo đuổi tính nhất quán về độ chính xác thông qua khác biệt về thuộc tính/hiệu năng của EP từ các nhà cung cấp và quy trình chứng nhận, kiểm định của Windows
  • Ở góc độ hệ sinh thái, các ứng dụng tiêu biểu trong những lĩnh vực như video, bảo mật, trợ năng và sáng tạo đang báo hiệu việc áp dụng, mở ra triển vọng mở rộng nhanh bề mặt AI on-device trên Windows
    • Nhà phát triển có thể kỳ vọng tăng tốc độ đưa sản phẩm ra thị trường thông qua pipeline chuẩn bị mô hình (chuyển đổi·lượng tử hóa) → chỉ định chính sách EP → tự động hóa triển khai

Điểm cần lưu ý và giới hạn

  • Việc quản lý chất lượng tối ưu hóa EP cùng độ lệch hiệu năng/độ chính xác theo từng thiết bị là thách thức then chốt
    • Cần có chiến lược cache và cập nhật cho mô hình AOT và phân phối EP động, cùng với quản lý phát hành để duy trì khả năng tương thích
  • Ranh giới chồng lấn và phân vai với DirectML, SDK của nhà cung cấp và các runtime đa nền tảng sẽ là biến số trong quyết định kiến trúc
    • Với các dòng sản phẩm nhắm đến nhiều hệ điều hành, cần cân nhắc trade-off giữa lõi suy luận dùng chungđường triển khai riêng cho Windows

Kết luận

  • Việc Windows ML ra mắt chính thức là một bước ngoặt theo từng giai đoạn trong quá trình nâng cấp Windows 11 thành môi trường thực thi mặc định cho AI cục bộ
    • Với trừu tượng hóa phần cứng, tự động hóa triển khai và hợp nhất công cụ, nền tảng này hạ thấp rào cản thương mại hóa, đồng thời cung cấp cơ sở để tăng cường độ phản hồi, quyền riêng tư và hiệu quả chi phí thông qua tối đa hóa việc tận dụng NPU/GPU
    • Khi việc áp dụng từ các ứng dụng tiêu biểu kết hợp với tối ưu hóa EP từ các nhà cung cấp ngày càng chặt chẽ, AI on-device trên toàn bộ hệ sinh thái Windows được dự báo sẽ mở rộng nhanh chóng

1 bình luận

 
GN⁺ 2025-09-28
Ý kiến Hacker News
  • Ban đầu Ollama theo định hướng mã nguồn mở kiểu “chạy mô hình cục bộ một cách đơn giản”, nhưng gần đây lại mở rộng phạm vi với các tính năng như tìm kiếm web trả phí nên tạo cảm giác sự thuần túy đó đang bị phai nhạt; ngược lại, Windows ML theo đuổi tích hợp sâu với OS nhưng cũng bị ràng buộc chỉ trong hệ sinh thái Windows nên gợi nhớ đến DirectX. Điều quan trọng lúc này là liệu ngoài vLLM/ONNX hoặc cách chạy trực tiếp trên CUDA/ROCm còn có lựa chọn thay thế nào khác hay không, hay rốt cuộc chỉ là đổi từ một kiểu khóa chặt bởi nhà cung cấp này sang kiểu khác
    • Ollama đang tập trung vào LLM (mô hình ngôn ngữ lớn). Nhìn vào các ví dụ đa dạng như Topaz Photo của Topaz Labs được nhắc trong bài, cần lưu ý rằng định hướng công nghệ này là khác nhau
  • System ONNX có thể khá hấp dẫn từ góc nhìn ứng dụng Windows, nhưng điều đó còn dựa trên giả định là backend thực sự hoạt động ổn định trên phần lớn hệ thống. Ví dụ với AMD thì có 3 lựa chọn là ROCm, MIGraphX và Vitis, nhưng tôi chưa từng chạy ổn thỏa được cái nào. Vì MIGraphX không còn bị gắn nhãn thử nghiệm (experimental) nữa nên tôi định thử lại lần nữa
  • Tôi tò mò nếu so sánh thực tế thì giữa Windows ML và cách Ollama + tải LLM cục bộ, bên nào đơn giản hơn, đặc biệt cũng muốn biết về mặt quyền riêng tư thì khi dùng Windows ML có bao nhiêu dữ liệu cá nhân được gửi về Microsoft
    • Windows ML trừu tượng hóa để mã không bị phụ thuộc vào phần cứng cụ thể, nhờ đó có thể dùng mô hình LLM cục bộ trên nhiều loại phần cứng như CPU, GPU, NPU. Công nghệ này là phiên bản phát triển từ DirectML (DirectX for ML) trước đây
    • Ollama không hỗ trợ NPU
  • Tôi thắc mắc các custom layer được hỗ trợ thế nào, đặc biệt là nhiều biến thể được nhiều công ty áp dụng như (flash) attention. Nếu MS chưa hiện thực tính năng đó trong runtime thì có phải sẽ không chạy được một số mô hình nhất định, hoặc chỉ dùng được các phiên bản đã bị chỉnh sửa hay không
  • Nhìn vào mô tả “Windows ML là runtime suy luận AI tích hợp được tối ưu cho suy luận mô hình on-device, giúp cả lập trình viên mới lẫn có kinh nghiệm dễ dàng xây dựng ứng dụng dựa trên AI”, thông báo lần này nghe khá giống với công bố gần đây của Apple về việc “mở quyền truy cập vào LLM on-device, cốt lõi của Apple Intelligence, cho mọi lập trình viên”
    Kết hợp với các tính năng Apple Intelligence mới, tôi nghĩ rằng dù là thiết bị nào thì cuối cùng cả nhà phát triển lẫn người dùng đều có thể tạo và sử dụng ứng dụng tập trung vào quyền riêng tư, nên là đôi bên cùng có lợi
    • Windows ML lần này là phiên bản tiến hóa của Direct ML. Có tính đến vấn đề trước đây thiên quá nhiều về C++ như DirectX, nên lần này C#, C++ và Python cũng có thể dùng trên API mới thông qua WinRT projection
    • Tôi không nghĩ là cùng một ý. Trọng tâm của công bố Windows ML lần này gần hơn với việc “có thể chạy mọi mô hình”