1 điểm bởi GN⁺ 2025-11-14 | 1 bình luận | Chia sẻ qua WhatsApp
  • SIMA 2 tích hợp mô hình Gemini đã phát triển vượt khỏi mức chỉ làm theo lệnh ngôn ngữ, trở thành tác tử AI cho môi trường 3D ảo có thể hiểu mục tiêu của người dùng, tự suy luận và tương tác
  • Khác với phiên bản trước chỉ thực hiện hơn 600 hành động dựa trên ngôn ngữ, phiên bản này được trang bị khả năng suy luận, đối thoại và tự cải thiện, từ đó thực hiện hành vi có định hướng mục tiêu ngay cả trong các trò chơi mới
  • Ngay cả ở những game chưa được huấn luyện như MineDojo, ASKA, mô hình vẫn cho thấy khả năng khái quát hóa cao và đạt tỷ lệ hoàn thành tác vụ gần với người chơi thật
  • Thông qua vòng lặp tự cải thiện, hệ thống có thể tự tích lũy kinh nghiệm và nâng cao hiệu năng mà không cần dữ liệu từ con người
  • Những tiến bộ này đặt nền móng cho trí tuệ hiện thân tổng quát (embodied intelligence) và các ứng dụng robot học

Tổng quan về SIMA 2

  • SIMA 2 là tác tử AI dựa trên Gemini do Google DeepMind phát triển, là một hệ thống cùng chơi và học với con người trong môi trường 3D ảo
  • Phiên bản đầu tiên của SIMA tập trung vào việc chuyển lệnh ngôn ngữ thành hành động, nhưng SIMA 2 bổ sung các khả năng suy luận mục tiêu, đối thoại và tự cải thiện
  • Mô hình này cho thấy bước tiến hướng tới AGI (trí tuệ nhân tạo tổng quát) và có ý nghĩa quan trọng đối với nghiên cứu robot học và AI hiện thân

Reasoning (khả năng suy luận)

  • SIMA 1 từng thực hiện hơn 600 lệnh như “quay sang trái”, “leo thang”, nhưng hoạt động theo cách nhìn màn hình và điều khiển mà không truy cập cơ chế nội bộ của game
  • SIMA 2 tích hợp sẵn mô hình Gemini, nhờ đó vượt qua việc chỉ thực hiện lệnh đơn thuần để hiểu mục tiêu và suy nghĩ logic
  • Dữ liệu huấn luyện được xây dựng bằng cách trộn video trình diễn của con người và nhãn do Gemini tạo, và tác tử có thể giải thích kế hoạch hành động cũng như các bước của mình
  • Kết quả thử nghiệm cho thấy người dùng cảm nhận tương tác với SIMA 2 là sự cộng tác chứ không phải ra lệnh, đồng thời mô hình được huấn luyện và đánh giá trong nhiều môi trường game khác nhau
  • Nhờ công cụ suy luận của Gemini, một AI hiện thân tích hợp được nhận thức, hiểu và hành động trong môi trường 3D phức tạp đã được hiện thực hóa

Generalization (khả năng khái quát hóa)

  • Việc tích hợp Gemini đã cải thiện khả năng hiểu và thực hiện các chỉ thị phức tạp, tinh vi
  • Ngay cả trong các game chưa được huấn luyện trước (ví dụ: ASKA, MineDojo), mô hình vẫn cho thấy tỷ lệ thành công cao và đạt mức hoàn thành tác vụ gần trình độ con người
  • Hệ thống có được năng lực chuyển giao khái niệm, chẳng hạn chuyển khái niệm “khai thác” (mining) sang “thu hoạch” (harvesting) ở game khác
  • Có thể hiểu lệnh đa ngôn ngữ và emoji, đồng thời xử lý đầu vào đa phương thức (như hình vẽ)
  • Khi kết hợp với Genie 3, hệ thống chứng minh khả năng thích nghi cao khi vẫn giữ được định hướng không gian và hành vi hướng mục tiêu ngay cả trong thế giới ảo mới được tạo ra

Self-Improvement (tự cải thiện)

  • SIMA 2 cải thiện hiệu năng mà không cần con người can thiệp thông qua vòng lặp học tập tự chủ
    • Gemini cung cấp tác vụ ban đầu và ước lượng phần thưởng
    • Dựa trên đó, SIMA 2 xây dựng ngân hàng dữ liệu trải nghiệm riêng và dùng nó cho các giai đoạn học tiếp theo
  • Hệ thống cũng tự lặp lại việc học trên những tác vụ thất bại để cải thiện, và có thể học trong game mới mà không cần trình diễn của con người
  • Ngay cả trong môi trường Genie 3, hệ thống vẫn lặp lại quá trình tự cải thiện, qua đó xác nhận mức tăng hiệu năng thông qua học nhiều thế hệ
  • Cấu trúc này cho thấy tiềm năng phát triển thành AI hiện thân tự học liên tục

Future Directions (định hướng tương lai)

  • SIMA 2 đóng vai trò như một bệ thử cho trí tuệ tổng quát có thể thực hiện suy luận phức hợp và học tập tự chủ trong nhiều môi trường game khác nhau
  • Những hạn chế được chỉ ra bao gồm thực hiện tác vụ dài hạn, suy luận nhiều bước, giới hạn bộ nhớ ngắn hạn và xử lý độ phức tạp thị giác
  • Tuy vậy, bằng cách kết hợp dữ liệu từ nhiều thế giới và khả năng suy luận của Gemini, hệ thống đã được kiểm chứng như một tác tử tổng quát tích hợp chức năng của nhiều hệ thống chuyên biệt
  • Các năng lực đã học được như khám phá, sử dụng công cụ và phối hợp thực hiện nhiệm vụ sẽ là nền tảng cốt lõi để mở rộng sang AI robot vật lý trong tương lai

Responsible Development (phát triển có trách nhiệm)

  • SIMA 2 hướng tới tương tác lấy con người làm trung tâm, đồng thời phát triển các công nghệ cốt lõi như khả năng tự cải thiện theo cách có trách nhiệm
  • Google DeepMind đã phối hợp với nhóm Responsible Development & Innovation để rà soát an toàn ngay từ giai đoạn đầu
  • Hiện tại, hệ thống mới được cung cấp dưới dạng bản xem trước nghiên cứu giới hạn, chỉ cho phép một số nhà nghiên cứu học thuật và nhà phát triển game được tiếp cận sớm
  • Thông qua cách tiếp cận này, họ thu thập phản hồi và đánh giá rủi ro, với mục tiêu hướng tới sự phát triển công nghệ có trách nhiệm trong tương lai

1 bình luận

 
GN⁺ 2025-11-14
Ý kiến trên Hacker News
  • Việc AI chơi video game cũng hay đấy, nhưng điều thực sự đáng kinh ngạc là SIMA 2 trực tiếp điều khiển chuột và đọc màn hình ở hơn 30 khung hình/giây
    Các agent điều khiển máy tính hiện nay quá chậm, còn cái này ở một đẳng cấp hoàn toàn khác. Tò mò không biết kiến trúc bên trong được thiết kế thế nào

    • Điều còn tuyệt hơn là trong thời buổi này con người vẫn có thể hào hứng vì một thứ gì đó. Vì AI đang thay thế gần như mọi việc chúng ta từng làm
    • Tôi thực sự rất cần một AI agent điều khiển điện thoại thông minh thay mình
      Kiểu có thể thực hiện các lệnh theo từng màn hình như “mở Chrome”, “đi tới xyz.com”, “bấm đăng nhập”
    • Điều khiển chuột trực tiếp á?
    • Chẳng phải máy móc cũng có thể chơi game theo từng khung hình sao?
    • Có vẻ làm được bằng dxcam của Python và nhận thông điệp HID qua Windows Hook API
  • Khoảng cách giữa điều khiển cấp cao và cấp thấp của robot đang dần thu hẹp
    Người ta đang huấn luyện robot để thực hiện các tác vụ cụ thể trong những ngữ cảnh nhất định, dựa trên hàng nghìn giờ dữ liệu huấn luyện theo từng tác vụ
    Cách làm là điều khiển robot bằng các lệnh cấp thấp như “dọn máy rửa chén”, “làm theo hành động của tôi”, “kéo sợi dây”
    Nếu kiểu này kết hợp với agent điều khiển cấp cao như SIMA 2 thì có thể tạo ra các robot hữu ích trong thế giới thực

    • Tôi đang nghiên cứu hoạt ảnh nhân vật dựa trên vật lý, và không nghĩ chỉ cần thu thập thêm dữ liệu là vấn đề này sẽ sớm được giải quyết
    • Tôi chưa thực sự hiểu ý “hoạt động như video game”
      Tôi muốn biết vì sao kiểu đầu vào này lại bị xem là cấp thấp, và nó tương tác với agent điều khiển cấp cao như SIMA 2 như thế nào
      Có phải cấu trúc là SIMA 2 chuyển các lệnh như “dọn máy rửa chén” thành thao tác bàn phím thực tế hay thao tác giao diện không?
  • Điều này làm tôi nhớ đến truyện ngắn "The Lifecycle of Software Objects" của Ted Chiang
    Có lẽ bước tiếp theo là đưa AI digient này vào robot Figure 03

    • Có lẽ Google sẽ huấn luyện riêng một AI chuyên cho điều khiển robot
      Thực tế, trong thử nghiệm Butter Bench, một LLM phổ thông đã điều khiển robot hút bụi,
      và khi pin cạn nó để lại các log cảm xúc kiểu “nỗi lo phải về dock” rồi gần như hoảng loạn. Kết quả vừa buồn cười vừa thú vị
  • Phần mô tả rằng SIMA 2 có thể thực hiện các tác vụ ngày càng phức tạp nhờ phản hồi dựa trên Gemini khá thú vị
    Việc nó dùng dữ liệu kinh nghiệm của chính mình để huấn luyện phiên bản tiếp theo khiến nó trông như một cấu trúc tự cải thiện
    SIMA có phải là một lớp agent chạy trên Gemini không?

    • Tôi cũng nghe như vậy. Có vẻ hai hệ thống được nối với nhau bằng giao diện văn bản
  • Tôi tự hỏi liệu công nghệ này cuối cùng có thể phá hỏng eSports không
    Nếu AI phản ứng nhanh hơn con người và không biết mệt, thì cuối cùng các game như MMO hay FPS có thể đầy rẫy AI

    • Xét cho cùng, thể thao là một tập hợp quy tắc. Cốt lõi là ngăn gian lận
      Ngược lại, AI tốt còn có thể giảm bớt việc lặp đi lặp lại và mở ra một thể loại game mới nơi người chơi tập trung vào quyết định chiến lược
    • Cờ vua đã có AI mạnh hơn con người từ lâu mà vẫn còn thú vị
      Tương tự, ngay cả khi hình thành thế đối đầu người-vs-AI thì niềm vui có lẽ vẫn còn
    • Lúc đầu AI thắng con người sẽ là tin tức, nhưng rồi sự mới lạ sẽ biến mất
      Cuối cùng việc dùng AI sẽ được nhìn nhận về mặt xã hội như một ‘công cụ hỗ trợ’, giống cheat hay script
    • Trước đây trong World of Warcraft, một bot druid tạo bằng học tăng cường đã đánh bại toàn bộ con người trong các trận 2v2
      Trong FPS thì sẽ quá lộ, nhưng ở các game như turn-based hay MMORPG, nơi phối hợp tay-mắt ít quan trọng hơn, sẽ khó phân biệt hơn
      Thực ra những cheat tinh vi kiểu ESP mới là mối đe dọa lớn hơn với eSports
    • Rốt cuộc MMO rất có thể sẽ hỏng như poker online
  • Tôi muốn những trò chơi thông minh hơn
    Kiểu như game sinh tồn: vượt qua giai đoạn đầu đi nhặt gỗ và đá, rồi khi công nghệ phát triển thì chuyển sang tự động hóa
    Để các NPC đi khai thác tài nguyên, chuẩn bị thức ăn và phòng thủ, qua đó đạt được những mục tiêu lớn hơn
    Người chơi sẽ là ‘ông chủ lớn’, tận hưởng fantasy ra lệnh cho các nhân vật thông minh

    • Có một framework mã nguồn mở tên là Mindcraft
      Đây là hệ thống bot thông minh dùng LLM như GPT-4 hay Gemini để thu thập tài nguyên, xây dựng và hợp tác trong Minecraft
    • Tôi tò mò liệu SIMA 2 có thể tự học iron farm hay trading hall trong Minecraft không
      Nó có thể nhận ra sắt là tài nguyên quý và tự tạo động lực cho mình không?
      Nếu mục tiêu chỉ là ‘phá đảo game’ thì có khi nó sẽ lao đi giết Ender Dragon ngay
    • Rốt cuộc thì đó cũng gần giống chơi The Sims
      Chỉ là thay vì ‘trang trí nhà cửa’ thì là kiểu ‘đào quặng để chế vũ khí định mệnh’
  • Tôi mong Google quay lại với văn hóa nghiên cứu mở như trước
    Dạo này họ có xu hướng làm thí nghiệm kín và chỉ tung thông cáo báo chí
    Tôi muốn họ công bố mã nguồn mở và chỉ đóng lại khi thật sự cần thiết
    Nghiên cứu của họ ấn tượng đến mức khiến tôi càng muốn trực tiếp tham gia hơn

    • Tôi cũng hoàn toàn đồng ý. Muốn tự tay dùng thử
    • Dreamer v3 đã được công bố rồi, liệu v4 có sắp ra không?
  • Đây là một dự án nghiên cứu, nhưng tôi tò mò bước tiếp theo sẽ là gì
    Liệu những gì học được trong thế giới ảo có thể chuyển sang robot ngoài đời thật không?
    Hay là vẫn phải huấn luyện riêng trong thế giới thực?
    Và để vượt qua môi trường game vốn khác với vật lý đời thực, có cần một thế giới mô phỏng tinh vi hơn không?

    • Mục tiêu là áp dụng cách học trong thế giới ảo vào thực tế
      Nếu có mô hình thế giới đủ chính xác, ta có thể huấn luyện robot trong đó rồi tổng quát hóa ra đời thực
      Hiện giờ mới là giai đoạn xây nền móng cho việc đó
    • Trong robotics, đây được gọi là vấn đề sim2real. Đáng để tìm hiểu
  • Ở mốc 0:52 của video demo có một lỗi ngữ pháp, nên tôi nghi phần chú thích đã được biên tập sau
    Liệu Google lại đang thổi phồng vì mục đích marketing?

    • Có lẽ họ đã lấy câu thoại trong game “hãy đến ngôi nhà trông như quả cà chua chín!”
      rồi chuyển thành câu mệnh lệnh “đi tới nhà cà chua” để dùng
      Dù vậy, trục Y của biểu đồ vẫn có vẻ hợp lý hơn nhiều so với các benchmark gần đây khác
    • Thực ra ngay trước cảnh đó có thể thấy người dùng nhập “ripe tomato”
      Dù bị lược bỏ trong bản tóm tắt, nhưng xét theo ngữ cảnh thì biểu đạt đó có xuất hiện
  • Sẽ tuyệt nếu công nghệ này chạy cục bộ như một agent hỗ trợ chơi game
    Nếu nó thay mình làm việc lặp đi lặp lại thì có lẽ tôi sẽ chơi game được lâu hơn
    Dù không hoàn hảo thì có khi đó lại chính là cái vui

    • Ngược lại, nếu AI chơi game thay tôi thì tôi có thể dùng thời gian đó để làm việc thật như dọn nhà hay giặt giũ
      Giờ thì cả thơ, tranh hay game, mấy việc phiền phức này cũng có thể giao đi rồi
    • Nếu game chán đến mức phải nhờ thứ khác chơi hộ thì thật kỳ lạ. Bản chất của game là tự mình chơi
    • Kiểu như “Skeeball → Virtual Skeeball → Virtual Virtual Skeeball”
      Nếu AI chơi thay thì cuối cùng người ta sẽ mất hứng. Vì game được thiết kế quanh sự cân bằng giữa lao động và phần thưởng
    • Nếu phải ủy thác việc cày lặp đi lặp lại, thì đó là dấu hiệu thiết kế game có vấn đề
    • Tôi cũng từng viết script đào tự động bằng AutoHotkey trong Terraria
      Tôi cho nó đào block theo tọa độ, nhưng nếu không nhìn màn hình thì nó cũng có thể rơi xuống hố quái vật. Đúng kiểu ‘bot mù’ luôn