Mảnh ghép còn thiếu của robotics: Mô hình thế giới (World Model)

(signalfire.com)

14 điểm bởi GN⁺ 2026-02-06 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Dù AI phần mềm đã tiến bộ vượt bậc, robot trong thế giới vật lý vẫn gặp khó khăn ngay cả với các việc cơ bản như gấp quần áo hay sắp xếp máy rửa chén
Thế giới vật lý đầy rẫy ma sát, che khuất (occlusion), động lực học khó dự đoán và tính ngẫu nhiên, nên về bản chất khác với môi trường AI xoay quanh văn bản
World Model không hoạt động bằng cách lập trình trực tiếp các định luật vật lý, mà bằng cách học trực tiếp từ trải nghiệm thực tế để dự đoán trạng thái tương lai theo hành động
JEPA (Joint-Embedding Predictive Architecture) dự đoán các biểu diễn trừu tượng thay vì dự đoán ở cấp độ pixel để lọc nhiễu, nhưng gặp vấn đề sụp đổ biểu diễn (collapse)
LeJEPA giải quyết vấn đề này bằng kỹ thuật chuẩn hóa mang nền tảng toán học, qua đó đưa ra cơ sở lý thuyết để robotics chuyển từ cách tiếp cận thủ công dựa trên quy tắc sang cách tiếp cận dựa trên học máy

Khoảng cách giữa AI số và robot vật lý

LLM có thể viết code, thiết kế thuốc mới và protein, tóm tắt tài liệu pháp lý, làm gia sư cho học sinh, tạo nhạc và nghệ thuật, thậm chí giải các bài toán suy luận toán học mà AI cổ điển suốt nhiều thập kỷ không làm được
Trong khi đó, robot trong thế giới vật lý khi rời khỏi môi trường kho vận được kiểm soát thì liên tục thất bại ở các tác vụ cơ bản như gấp quần áo, dọn phòng bừa bộn, nhặt vật thể có hình dạng bất quy tắc, sắp xếp máy rửa chén, nấu ăn hay bày bàn ăn
Robot trợ lý gia đình tự hành, hay các hệ thống có thể di chuyển an toàn trong môi trường khó đoán, cũng như khả năng thao tác vật thể mềm dẻo ở mức như trẻ nhỏ, vẫn chưa được hiện thực hóa; robot trong nhà máy và phòng thí nghiệm vẫn ở trạng thái chi phí cao, mong manh, phụ thuộc script và chuyên môn hóa hẹp
Các nhà nghiên cứu robotics như Rodney Brooks hoài nghi về cách tiếp cận “chỉ dùng thị giác”, vì thao tác (manipulation) phụ thuộc nhiều vào tín hiệu xúc giác, phản hồi lực và cảm nhận bản thể (proprioception), nhưng các hệ thống hiện nay lại thiếu hoặc chỉ có những tín hiệu này ở mức rất thô sơ
Mô hình ngôn ngữ hoạt động trong thế giới văn bản, một thế giới ổn định với cấu trúc nhất quán, và các thao tác số có thể đảo ngược; còn thế giới vật lý thì đầy ma sát, che khuất, động lực học khó dự đoán và tính ngẫu nhiên liên tục

Định nghĩa và vai trò của World Model

Con người khi ra quyết định và lập kế hoạch trong thực tại dựa vào biểu diễn nội tại (internal representation) về môi trường; lập kế hoạch là quá trình hình dung trong đầu các trạng thái tương lai xuất hiện theo từng hành động
Biểu diễn nội tại này giữ lại chỉ những thông tin cần thiết cho việc giải quyết vấn đề và loại bỏ các chi tiết không cần thiết; ví dụ khi lên kế hoạch đường đi làm, ta cân nhắc đường sá, thời gian và lưu lượng giao thông, nhưng không đưa vào các thông tin không liên quan như âm thanh cụ thể mà từng chiếc xe phát ra
Ở cấp độ cao hơn, các biểu diễn nội tại như vậy phản ánh cấu trúc của thế giới, cho phép nhanh chóng ghép những tình huống mới vào các mẫu quen thuộc đã có
- Ví dụ: ngay cả khi gặp một cánh cửa có tay nắm với hình dạng chưa từng thấy, ta vẫn có thể nhận ra đó là tay nắm qua hình dạng và vị trí, rồi suy ra cách hoạt động dựa trên hiểu biết chung rằng “cửa được mở bằng cách tác lực lên tay nắm”
World Model khác với policy chuyển trực tiếp quan sát thành hành động; thay vì tự đưa ra quyết định, nó dự đoán thế giới sẽ thay đổi ra sao theo các hành động khả dĩ khác nhau để tạo ra biểu diễn nén của trạng thái tương lai
Khi có mô hình dự đoán như vậy, bộ lập kế hoạch (hoặc policy cấp dưới) có thể so sánh và đánh giá nhiều tương lai được tưởng tượng ra để chọn chuỗi hành động dẫn tới kết quả tốt nhất

4 thuộc tính của một World Model hữu ích

Phản ánh cấu trúc của thế giới: Không phải dữ liệu cảm biến thô, mà là các biểu diễn làm lộ rõ cấu trúc của thế giới
Khái quát hóa đa nhiệm: Có thể thích nghi với tác vụ mới mà không phải học lại từ đầu mỗi lần
Lọc bỏ chi tiết không liên quan: Chỉ tập trung vào thông tin ảnh hưởng đến kết quả và loại bỏ yếu tố không cần thiết
Dự đoán sự thay đổi của thế giới theo hành động: Có thể hình dung trước các kết quả có thể xảy ra trước khi thực sự hành động

Lịch sử học các biểu diễn thế giới có ý nghĩa

Những đột phá lớn trong lĩnh vực perception của deep learning tuy không cố ý nhưng đã nội tại tạo ra các biểu diễn có cấu trúc về thế giới
Trong computer vision, các mô hình được huấn luyện để phân loại ảnh thành mèo, chó hay voi đã hình thành các biểu diễn nội tại được tổ chức tốt và có thể tái sử dụng
Trong quá trình tối ưu mục tiêu đơn giản là đoán nội dung ảnh, các đặc trưng được học tự nhiên mã hóa thông tin như hình dạng, kết cấu, tư thế và ngữ nghĩa
Những biểu diễn thu được như vậy có thể được dùng làm đầu vào trạng thái cho các tác vụ như phát hiện vật thể, theo dõi hay phân đoạn mà không cần huấn luyện bổ sung riêng
Sau đó, cách tiếp cận mở rộng ra khỏi trọng tâm phân loại sang kiểu tái dựng ảnh, tức học bằng cách điền vào các phần bị thiếu dựa trên ngữ cảnh đã cho, từ đó xuất hiện các biểu diễn phong phú hơn và khái quát tốt hơn
Tuy vậy, một giới hạn căn bản cũng lộ ra: đầu vào cảm biến luôn chứa các chi tiết không liên quan đến tác vụ phía sau và về bản chất là không thể dự đoán
- Ví dụ: các gợn sóng li ti trên bề mặt nồi nước đang sôi về bản chất là ngẫu nhiên và hầu như không đóng góp gì cho việc ra quyết định
- Các mô hình dựa trên tái dựng lại coi cả những chi tiết đó là đối tượng cần dự đoán, nên cố mã hóa cả tính ngẫu nhiên vô nghĩa đối với World Model
- Kết quả là biểu diễn về thế giới được hình thành trong trạng thái rối với nhiễu thay vì tập trung vào cấu trúc cốt lõi

Cách tiếp cận của JEPA

Nếu tái dựng ảnh là bài toán hoàn thiện mẫu theo không gian (dự đoán pixel bị thiếu khi đã biết một phần ảnh), thì World Model có thể được xem là bài toán hoàn thiện mẫu theo thời gian
- Tức là dự đoán trạng thái tương lai khi đã biết trạng thái hiện tại của thế giới và chuỗi hành động
JEPA (Joint-Embedding Predictive Architecture) không tập trung vào tái dựng ảnh hay dự đoán các khung hình video tương lai ở cấp độ pixel, mà tập trung dự đoán biểu diễn trừu tượng của tương lai được điều kiện hóa bởi biến tiềm ẩn
Biến tiềm ẩn có thể được hiểu là hành động robot thực hiện, hoặc các yếu tố độc lập ảnh hưởng đến thay đổi trong tương lai
Bằng cách học để dự đoán trạng thái trừu tượng của cảnh thay vì diện mạo chính xác ở cấp độ pixel, mô hình hình thành các biểu diễn có tổ chức và khả thi cho thực thi mà không lãng phí năng lực mô hình vào các chi tiết thị giác không liên quan
JEPA xây dựng các biểu diễn vừa nắm bắt các yếu tố ổn định, có ý nghĩa, vừa tự nhiên loại bỏ các chi tiết có tính ngẫu nhiên cao
Mục tiêu huấn luyện tự thân của nó hướng mô hình tránh mã hóa hình dạng chính xác của làn hơi bốc lên từ ấm đun hay kết cấu chi li của tấm vải nhăn
- Những chi tiết này về bản chất là không thể dự đoán và thậm chí còn khiến việc dự đoán trạng thái tương lai của thế giới trở nên khó hơn
Để đạt hiệu năng cao, mô hình phải biểu diễn các khía cạnh có thể dự đoán vốn quan trọng để hiểu thế giới sẽ thay đổi ra sao
Cốt lõi của lựa chọn kiến trúc này là đã chuyển mục tiêu của mô hình từ tái dựng đơn thuần sang học động lực học có thể dự đoán của thế giới

Giới hạn của JEPA và vấn đề sụp đổ biểu diễn

Lý do JEPA chưa thể lan rộng mạnh trong vài năm gần đây là vì rất khó phân biệt rõ ràng giữa nhiễu, các chi tiết không thể dự đoán và cấu trúc có ý nghĩa
Nếu không có ràng buộc phù hợp, mô hình có xu hướng sụp đổ về biểu diễn tầm thường (trivial representation)
Điều này giống như một hệ thống lưu trữ hồ sơ giải quyết vấn đề có quá nhiều thông tin bằng cách vứt bỏ luôn toàn bộ các danh mục tài liệu
- Mô hình JEPA chọn lối tắt để tránh nhiễu không thể dự đoán, nhưng trong quá trình đó lại loại bỏ cả cấu trúc hữu ích

LeJEPA: lời giải bằng toán học

Randall Balestriero và Yann LeCun đề xuất LeJEPA, đưa ra một regularizer có cơ sở toán học để ngăn sụp đổ biểu diễn trong JEPA
Ý tưởng cốt lõi là buộc không gian biểu diễn nội tại duy trì độ phân giải đồng đều theo mọi hướng, thay vì dồn phương sai quá mức vào một vài đặc trưng rồi bỏ mặc phần còn lại
Để làm điều đó, phân phối embedding được dẫn dắt theo dạng Gaussian đẳng hướng (isotropic Gaussian)
Ràng buộc này khiến mô hình sử dụng năng lực một cách đồng đều trên toàn bộ các chiều biểu diễn, từ đó duy trì biểu diễn nội tại phong phú và phù hợp điều kiện
Dù bề ngoài chỉ là một ràng buộc hình học đơn giản, nó tạo ra những hiệu ứng mạnh mẽ như sau
- Cải thiện độ ổn định của quá trình huấn luyện
- Giữ được cấu trúc có ý nghĩa
- Có thể học các biểu diễn phong phú và có thể dự đoán ngay cả khi không dùng các heuristic như data augmentation hay contrastive negative
Điều này cho thấy sự chuyển dịch khỏi các kỹ thuật tạm thời nhằm ngăn mô hình sụp đổ, sang một cách tiếp cận mang tính lý thuyết buộc mô hình học chính cấu trúc của thế giới mà không bị nhiễu dẫn dắt

Con đường mới mà World Model gợi mở

Những ý tưởng này cho thấy một sự chuyển đổi căn bản trong cách nhìn về robotics
Suốt nhiều thập kỷ, robotics bị mắc kẹt trong vòng lặp sau
- Thiết kế thủ công lời giải cho từng tác vụ cụ thể
- Xác nhận thất bại ở các edge case
- Liên tục bổ sung quy tắc và ngoại lệ
World Model đưa ra con đường để thoát khỏi vòng lặp đó
- Thay vì lập trình trực tiếp các định luật vật lý vào máy
- Có thể chuyển sang các hệ thống được huấn luyện để dự đoán trạng thái tương lai của thế giới và suy luận trên cơ sở đó

Những câu hỏi chưa có lời giải

Làm thế nào để dẫn dắt hiệu quả mô hình khám phá những hành vi có ý nghĩa và hữu ích
Làm thế nào để mở rộng đến toàn bộ độ phức tạp của môi trường phi cấu trúc
Làm thế nào để duy trì an toàn và căn chỉnh với ý định của con người khi mức độ tự chủ tăng lên
Những vấn đề này tuyệt nhiên không đơn giản, nhưng chúng có bản chất khác về chất so với các vấn đề đã cản trở robotics suốt 50 năm qua
Điều đã thay đổi là nay đã xuất hiện một khung lý thuyết phù hợp với cấu trúc của bài toán

Kết luận

LeJEPA và các hướng tiếp cận liên quan không chỉ là cải tiến gia tăng đơn thuần, mà còn đặt ra nền tảng toán học cho việc học World Model có thể xử lý tính bất định của thế giới thực
Khoảng cách giữa trí tuệ số và năng lực vật lý lần đầu tiên bắt đầu trông giống một bài toán có thể vượt qua bằng nghiên cứu, chứ không còn là khoa học viễn tưởng

Mảnh ghép còn thiếu của robotics: Mô hình thế giới (World Model)

Khoảng cách giữa AI số và robot vật lý

Định nghĩa và vai trò của World Model

4 thuộc tính của một World Model hữu ích

Lịch sử học các biểu diễn thế giới có ý nghĩa

Cách tiếp cận của JEPA

Giới hạn của JEPA và vấn đề sụp đổ biểu diễn

LeJEPA: lời giải bằng toán học

Con đường mới mà World Model gợi mở

Những câu hỏi chưa có lời giải

Kết luận

Bài viết liên quan

Chưa có bình luận nào.