- SIMA 2 tích hợp mô hình Gemini đã phát triển vượt khỏi mức chỉ làm theo lệnh ngôn ngữ, trở thành tác tử AI cho môi trường 3D ảo có thể hiểu mục tiêu của người dùng, tự suy luận và tương tác
- Khác với phiên bản trước chỉ thực hiện hơn 600 hành động dựa trên ngôn ngữ, phiên bản này được trang bị khả năng suy luận, đối thoại và tự cải thiện, từ đó thực hiện hành vi có định hướng mục tiêu ngay cả trong các trò chơi mới
- Ngay cả ở những game chưa được huấn luyện như MineDojo, ASKA, mô hình vẫn cho thấy khả năng khái quát hóa cao và đạt tỷ lệ hoàn thành tác vụ gần với người chơi thật
- Thông qua vòng lặp tự cải thiện, hệ thống có thể tự tích lũy kinh nghiệm và nâng cao hiệu năng mà không cần dữ liệu từ con người
- Những tiến bộ này đặt nền móng cho trí tuệ hiện thân tổng quát (embodied intelligence) và các ứng dụng robot học
Tổng quan về SIMA 2
- SIMA 2 là tác tử AI dựa trên Gemini do Google DeepMind phát triển, là một hệ thống cùng chơi và học với con người trong môi trường 3D ảo
- Phiên bản đầu tiên của SIMA tập trung vào việc chuyển lệnh ngôn ngữ thành hành động, nhưng SIMA 2 bổ sung các khả năng suy luận mục tiêu, đối thoại và tự cải thiện
- Mô hình này cho thấy bước tiến hướng tới AGI (trí tuệ nhân tạo tổng quát) và có ý nghĩa quan trọng đối với nghiên cứu robot học và AI hiện thân
Reasoning (khả năng suy luận)
- SIMA 1 từng thực hiện hơn 600 lệnh như “quay sang trái”, “leo thang”, nhưng hoạt động theo cách nhìn màn hình và điều khiển mà không truy cập cơ chế nội bộ của game
- SIMA 2 tích hợp sẵn mô hình Gemini, nhờ đó vượt qua việc chỉ thực hiện lệnh đơn thuần để hiểu mục tiêu và suy nghĩ logic
- Dữ liệu huấn luyện được xây dựng bằng cách trộn video trình diễn của con người và nhãn do Gemini tạo, và tác tử có thể giải thích kế hoạch hành động cũng như các bước của mình
- Kết quả thử nghiệm cho thấy người dùng cảm nhận tương tác với SIMA 2 là sự cộng tác chứ không phải ra lệnh, đồng thời mô hình được huấn luyện và đánh giá trong nhiều môi trường game khác nhau
- Nhờ công cụ suy luận của Gemini, một AI hiện thân tích hợp được nhận thức, hiểu và hành động trong môi trường 3D phức tạp đã được hiện thực hóa
Generalization (khả năng khái quát hóa)
- Việc tích hợp Gemini đã cải thiện khả năng hiểu và thực hiện các chỉ thị phức tạp, tinh vi
- Ngay cả trong các game chưa được huấn luyện trước (ví dụ: ASKA, MineDojo), mô hình vẫn cho thấy tỷ lệ thành công cao và đạt mức hoàn thành tác vụ gần trình độ con người
- Hệ thống có được năng lực chuyển giao khái niệm, chẳng hạn chuyển khái niệm “khai thác” (
mining) sang “thu hoạch” (harvesting) ở game khác
- Có thể hiểu lệnh đa ngôn ngữ và emoji, đồng thời xử lý đầu vào đa phương thức (như hình vẽ)
- Khi kết hợp với Genie 3, hệ thống chứng minh khả năng thích nghi cao khi vẫn giữ được định hướng không gian và hành vi hướng mục tiêu ngay cả trong thế giới ảo mới được tạo ra
Self-Improvement (tự cải thiện)
- SIMA 2 cải thiện hiệu năng mà không cần con người can thiệp thông qua vòng lặp học tập tự chủ
- Gemini cung cấp tác vụ ban đầu và ước lượng phần thưởng
- Dựa trên đó, SIMA 2 xây dựng ngân hàng dữ liệu trải nghiệm riêng và dùng nó cho các giai đoạn học tiếp theo
- Hệ thống cũng tự lặp lại việc học trên những tác vụ thất bại để cải thiện, và có thể học trong game mới mà không cần trình diễn của con người
- Ngay cả trong môi trường Genie 3, hệ thống vẫn lặp lại quá trình tự cải thiện, qua đó xác nhận mức tăng hiệu năng thông qua học nhiều thế hệ
- Cấu trúc này cho thấy tiềm năng phát triển thành AI hiện thân tự học liên tục
Future Directions (định hướng tương lai)
- SIMA 2 đóng vai trò như một bệ thử cho trí tuệ tổng quát có thể thực hiện suy luận phức hợp và học tập tự chủ trong nhiều môi trường game khác nhau
- Những hạn chế được chỉ ra bao gồm thực hiện tác vụ dài hạn, suy luận nhiều bước, giới hạn bộ nhớ ngắn hạn và xử lý độ phức tạp thị giác
- Tuy vậy, bằng cách kết hợp dữ liệu từ nhiều thế giới và khả năng suy luận của Gemini, hệ thống đã được kiểm chứng như một tác tử tổng quát tích hợp chức năng của nhiều hệ thống chuyên biệt
- Các năng lực đã học được như khám phá, sử dụng công cụ và phối hợp thực hiện nhiệm vụ sẽ là nền tảng cốt lõi để mở rộng sang AI robot vật lý trong tương lai
Responsible Development (phát triển có trách nhiệm)
- SIMA 2 hướng tới tương tác lấy con người làm trung tâm, đồng thời phát triển các công nghệ cốt lõi như khả năng tự cải thiện theo cách có trách nhiệm
- Google DeepMind đã phối hợp với nhóm Responsible Development & Innovation để rà soát an toàn ngay từ giai đoạn đầu
- Hiện tại, hệ thống mới được cung cấp dưới dạng bản xem trước nghiên cứu giới hạn, chỉ cho phép một số nhà nghiên cứu học thuật và nhà phát triển game được tiếp cận sớm
- Thông qua cách tiếp cận này, họ thu thập phản hồi và đánh giá rủi ro, với mục tiêu hướng tới sự phát triển công nghệ có trách nhiệm trong tương lai
1 bình luận
Ý kiến trên Hacker News
Việc AI chơi video game cũng hay đấy, nhưng điều thực sự đáng kinh ngạc là SIMA 2 trực tiếp điều khiển chuột và đọc màn hình ở hơn 30 khung hình/giây
Các agent điều khiển máy tính hiện nay quá chậm, còn cái này ở một đẳng cấp hoàn toàn khác. Tò mò không biết kiến trúc bên trong được thiết kế thế nào
Kiểu có thể thực hiện các lệnh theo từng màn hình như “mở Chrome”, “đi tới xyz.com”, “bấm đăng nhập”
Khoảng cách giữa điều khiển cấp cao và cấp thấp của robot đang dần thu hẹp
Người ta đang huấn luyện robot để thực hiện các tác vụ cụ thể trong những ngữ cảnh nhất định, dựa trên hàng nghìn giờ dữ liệu huấn luyện theo từng tác vụ
Cách làm là điều khiển robot bằng các lệnh cấp thấp như “dọn máy rửa chén”, “làm theo hành động của tôi”, “kéo sợi dây”
Nếu kiểu này kết hợp với agent điều khiển cấp cao như SIMA 2 thì có thể tạo ra các robot hữu ích trong thế giới thực
Tôi muốn biết vì sao kiểu đầu vào này lại bị xem là cấp thấp, và nó tương tác với agent điều khiển cấp cao như SIMA 2 như thế nào
Có phải cấu trúc là SIMA 2 chuyển các lệnh như “dọn máy rửa chén” thành thao tác bàn phím thực tế hay thao tác giao diện không?
Điều này làm tôi nhớ đến truyện ngắn "The Lifecycle of Software Objects" của Ted Chiang
Có lẽ bước tiếp theo là đưa AI digient này vào robot Figure 03
Thực tế, trong thử nghiệm Butter Bench, một LLM phổ thông đã điều khiển robot hút bụi,
và khi pin cạn nó để lại các log cảm xúc kiểu “nỗi lo phải về dock” rồi gần như hoảng loạn. Kết quả vừa buồn cười vừa thú vị
Phần mô tả rằng SIMA 2 có thể thực hiện các tác vụ ngày càng phức tạp nhờ phản hồi dựa trên Gemini khá thú vị
Việc nó dùng dữ liệu kinh nghiệm của chính mình để huấn luyện phiên bản tiếp theo khiến nó trông như một cấu trúc tự cải thiện
SIMA có phải là một lớp agent chạy trên Gemini không?
Tôi tự hỏi liệu công nghệ này cuối cùng có thể phá hỏng eSports không
Nếu AI phản ứng nhanh hơn con người và không biết mệt, thì cuối cùng các game như MMO hay FPS có thể đầy rẫy AI
Ngược lại, AI tốt còn có thể giảm bớt việc lặp đi lặp lại và mở ra một thể loại game mới nơi người chơi tập trung vào quyết định chiến lược
Tương tự, ngay cả khi hình thành thế đối đầu người-vs-AI thì niềm vui có lẽ vẫn còn
Cuối cùng việc dùng AI sẽ được nhìn nhận về mặt xã hội như một ‘công cụ hỗ trợ’, giống cheat hay script
Trong FPS thì sẽ quá lộ, nhưng ở các game như turn-based hay MMORPG, nơi phối hợp tay-mắt ít quan trọng hơn, sẽ khó phân biệt hơn
Thực ra những cheat tinh vi kiểu ESP mới là mối đe dọa lớn hơn với eSports
Tôi muốn những trò chơi thông minh hơn
Kiểu như game sinh tồn: vượt qua giai đoạn đầu đi nhặt gỗ và đá, rồi khi công nghệ phát triển thì chuyển sang tự động hóa
Để các NPC đi khai thác tài nguyên, chuẩn bị thức ăn và phòng thủ, qua đó đạt được những mục tiêu lớn hơn
Người chơi sẽ là ‘ông chủ lớn’, tận hưởng fantasy ra lệnh cho các nhân vật thông minh
Đây là hệ thống bot thông minh dùng LLM như GPT-4 hay Gemini để thu thập tài nguyên, xây dựng và hợp tác trong Minecraft
Nó có thể nhận ra sắt là tài nguyên quý và tự tạo động lực cho mình không?
Nếu mục tiêu chỉ là ‘phá đảo game’ thì có khi nó sẽ lao đi giết Ender Dragon ngay
Chỉ là thay vì ‘trang trí nhà cửa’ thì là kiểu ‘đào quặng để chế vũ khí định mệnh’
Tôi mong Google quay lại với văn hóa nghiên cứu mở như trước
Dạo này họ có xu hướng làm thí nghiệm kín và chỉ tung thông cáo báo chí
Tôi muốn họ công bố mã nguồn mở và chỉ đóng lại khi thật sự cần thiết
Nghiên cứu của họ ấn tượng đến mức khiến tôi càng muốn trực tiếp tham gia hơn
Đây là một dự án nghiên cứu, nhưng tôi tò mò bước tiếp theo sẽ là gì
Liệu những gì học được trong thế giới ảo có thể chuyển sang robot ngoài đời thật không?
Hay là vẫn phải huấn luyện riêng trong thế giới thực?
Và để vượt qua môi trường game vốn khác với vật lý đời thực, có cần một thế giới mô phỏng tinh vi hơn không?
Nếu có mô hình thế giới đủ chính xác, ta có thể huấn luyện robot trong đó rồi tổng quát hóa ra đời thực
Hiện giờ mới là giai đoạn xây nền móng cho việc đó
Ở mốc 0:52 của video demo có một lỗi ngữ pháp, nên tôi nghi phần chú thích đã được biên tập sau
Liệu Google lại đang thổi phồng vì mục đích marketing?
rồi chuyển thành câu mệnh lệnh “đi tới nhà cà chua” để dùng
Dù vậy, trục Y của biểu đồ vẫn có vẻ hợp lý hơn nhiều so với các benchmark gần đây khác
Dù bị lược bỏ trong bản tóm tắt, nhưng xét theo ngữ cảnh thì biểu đạt đó có xuất hiện
Sẽ tuyệt nếu công nghệ này chạy cục bộ như một agent hỗ trợ chơi game
Nếu nó thay mình làm việc lặp đi lặp lại thì có lẽ tôi sẽ chơi game được lâu hơn
Dù không hoàn hảo thì có khi đó lại chính là cái vui
Giờ thì cả thơ, tranh hay game, mấy việc phiền phức này cũng có thể giao đi rồi
Nếu AI chơi thay thì cuối cùng người ta sẽ mất hứng. Vì game được thiết kế quanh sự cân bằng giữa lao động và phần thưởng
Tôi cho nó đào block theo tọa độ, nhưng nếu không nhìn màn hình thì nó cũng có thể rơi xuống hố quái vật. Đúng kiểu ‘bot mù’ luôn