Google DeepMind công bố mô hình thế giới Genie 3

(deepmind.google)

14 điểm bởi GN⁺ 2025-08-06 | 1 bình luận | Chia sẻ qua WhatsApp

Mô hình thế giới đa dụng đầu tiên có thể tạo môi trường 3D tương tác thời gian thực chỉ bằng lời nhắc văn bản
Có thể đạt 24fps, độ phân giải 720p, duy trì tính nhất quán trong nhiều phút, đồng thời cải thiện mạnh tính tương tác, độ chân thực và tính bền vững so với Genie 2 trước đó
Có thể tạo ra các thế giới ảo đa dạng một cách tự nhiên và phong phú với nhiều chủ đề như hiện tượng vật lý, hệ sinh thái, hoạt hình, bối cảnh lịch sử và địa lý
Thông qua tính năng Promptable world events, người dùng có thể điều khiển theo thời gian thực các sự kiện động như thay đổi thời tiết, thêm đối tượng bằng văn bản
Được thiết kế cho nghiên cứu tác nhân, có thể kết hợp với tác nhân SIMA để thử nghiệm việc đạt mục tiêu dài hạn hoặc các chuỗi hành vi phức tạp

Genie 3: Đột phá trong mô phỏng thế giới

Bối cảnh phát triển của mô hình thế giới

DeepMind đã dẫn đầu nghiên cứu về môi trường mô phỏng trong các lĩnh vực như huấn luyện tác nhân AI, open-ended learning, robotics
Mô hình thế giới là hệ thống AI có thể dự đoán và tái hiện sự thay đổi của môi trường cũng như kết quả từ hành động của tác nhân, và được xem là một bước trung gian quan trọng trên con đường menuju AGI
Sau Genie 1 và 2, Genie 3 là mô hình thế giới đầu tiên đồng thời cung cấp tính tương tác thời gian thực cùng sự nhất quán về hình ảnh và vật lý

Các tính năng chính của Genie 3

Mô hình hóa tự nhiên và hiện tượng vật lý
- Có thể hiện thực hóa tự nhiên các hiện tượng của thế giới thực như nước, ánh sáng, các tương tác môi trường đa dạng chỉ bằng lời nhắc
Hệ sinh thái phức tạp và hoạt hình
- Có thể tạo ra tính động của hệ sinh thái như hành vi động vật, sự phát triển của thực vật, cùng thế giới hoạt hình dựa trên trí tưởng tượng
Tái hiện bối cảnh lịch sử và địa lý
- Có thể xây dựng theo thời gian thực nhiều không gian đa dạng vượt qua ranh giới địa lý và thời đại dưới dạng môi trường ảo
Tương tác và điều khiển thời gian thực
- Trực quan hóa các thay đổi tức thời của thế giới ở 24fps, 720p theo đầu vào của người dùng
- Ghi nhớ các vị trí và trạng thái đã từng ghé qua, nhờ đó duy trì tính nhất quán vật lý và hình ảnh trong nhiều phút
Promptable World Events
- Có thể tạo theo thời gian thực các sự kiện thay đổi môi trường như thay đổi thời tiết, thêm đối tượng hoặc nhân vật bằng lời nhắc văn bản
- Ngoài điều khiển khám phá, còn mở ra phạm vi ứng dụng rộng như tạo kịch bản “nếu như” hoặc các tình huống phi thường nhật
Nghiên cứu và thử nghiệm tác nhân
- Các tác nhân AI chuyên cho môi trường 3D như SIMA có thể theo đuổi các mục tiêu phức hợp trong thế giới của Genie 3, qua đó kiểm chứng năng lực thực hiện chuỗi hành vi dài hạn
- Mục tiêu của tác nhân không được chia sẻ với Genie 3, và kết quả chỉ được tạo ra từ chuỗi hành vi cùng mô phỏng thế giới

Thách thức kỹ thuật và thành quả

Trong quá trình sinh tự hồi quy theo từng khung hình, hệ thống phải phản ánh đồng thời đầu vào của người dùng và các chuỗi trước đó theo thời gian thực, nên đòi hỏi công nghệ ở mức rất cao
Khác với NeRF, Gaussian Splatting hiện có, Genie 3 là cách tiếp cận thuần sinh không có biểu diễn 3D tường minh, nhờ đó hiện thực hóa môi trường năng động và phong phú hơn nhiều

Giới hạn và bài toán còn lại

Giới hạn phạm vi hành động: Dù các thay đổi môi trường dựa trên lời nhắc rất đa dạng, các hành động có thể trực tiếp thực hiện vẫn còn hạn chế
Tương tác đa tác nhân: Mô phỏng chính xác tương tác giữa nhiều tác nhân vẫn là bài toán nghiên cứu đang tiếp diễn
Giới hạn trong tái hiện vị trí ngoài đời thực: Chưa cung cấp độ chính xác hoàn hảo cho không gian địa lý thực tế
Giới hạn trong hiển thị văn bản: Chỉ có thể biểu đạt văn bản rõ ràng khi được nhập tường minh
Giới hạn thời gian tương tác: Hiện mới chỉ hỗ trợ tương tác liên tục trong phạm vi vài phút

Trách nhiệm và phạm vi công bố

Do đặc tính open-ended và sinh theo thời gian thực của Genie 3 đi kèm các vấn đề mới về an toàn và đạo đức, nhóm đã hợp tác chặt chẽ với Responsible Development & Innovation Team
Giai đoạn đầu, sản phẩm sẽ được cung cấp dưới dạng bản xem trước nghiên cứu chỉ cho một nhóm nhà nghiên cứu và nhà sáng tạo giới hạn, sau đó dự kiến mở rộng dần thông qua phản hồi và xây dựng phương án ứng phó rủi ro

Tương lai và triển vọng ứng dụng

Genie 3 mở ra những khả năng mới trong nhiều lĩnh vực như giáo dục, đào tạo, huấn luyện tác nhân AI, kiểm chứng hiệu năng
Công nghệ này được kỳ vọng sẽ đóng vai trò then chốt trong nghiên cứu AGI (trí tuệ nhân tạo tổng quát) và sẽ được phát triển an toàn theo hướng có lợi cho nhân loại

1 bình luận

GN⁺ 2025-08-06

Ý kiến trên Hacker News

Nếu có ai đang làm trong lĩnh vực này hoặc có chuyên môn, mình rất muốn biết liệu có thể suy đoán Genie 3 được triển khai bằng những công nghệ, kiến trúc, thiết kế hệ thống và yêu cầu tính toán nào hay không. Hiện thông tin công khai còn ít, nên đặc biệt muốn nghe cách các chuyên gia trong mảng này dự đoán hoặc suy luận nó được xây dựng như thế nào
Việc có thể đạt được tính nhất quán trong vài phút ở 720p thời gian thực hoàn toàn vượt ngoài mức mình từng hình dung. Mình nghe nói tính nhất quán của Genie 3 là một emergent capability xuất hiện khi mở rộng mô hình. Tức là không phải do cố tình cải thiện kiến trúc, mà giống như hiệu năng tình cờ xuất hiện khi mô hình đủ lớn. Có người đã trực tiếp dùng thử và tổng hợp các hạn chế (liên kết X):
- Mô phỏng vật lý vẫn còn khó, và có những ca thất bại rõ ràng trong các thí nghiệm vật lý trực giác kiểu tâm lý học như xếp khối
- Tương tác xã hội hay các tình huống nhiều agent đan xen là khó, và các game kiểu đối đầu 1:1 cũng không làm tốt
- Chỉ dẫn phức tạp hoặc logic game như nhặt chìa khóa để mở cửa cũng chưa tốt
- Không gian hành động cũng còn hạn chế
- Vẫn còn rất xa mới tới mức game engine thực thụ, nhưng rõ ràng đây là cơ hội để trực tiếp nhìn thấy một lát cắt của tương lai Dù có các giới hạn này, nó vẫn tạo cảm giác rằng world model về sau sẽ đóng vai trò quan trọng với robotics và AI trong thế giới thực hơn ta nghĩ. Có khi robot tương lai sẽ bước vào thời kỳ học trong giấc mơ
- Mình thực sự tò mò multiplayer sẽ khả thi thế nào, không chỉ về mặt logistics và kỹ thuật mà còn từ góc độ gameplay
- Game rõ ràng là một use case lớn, nhưng về bản chất có vẻ nó được phát triển để phục vụ synthetic data generation cho huấn luyện robot kho hàng của Google. Có thể tham khảo bài trên The Guardian và bài HN 4 tháng trước về Gemini Robot ra mắt
- Mình không ngờ tốc độ phát triển công nghệ lại nhanh đến vậy. Vài tháng trước mình từng viết rằng việc điều khiển đầu ra của world model là bước tiếp theo của game AAA (bài blog), nhưng lúc đó vẫn nghĩ phải còn vài năm nữa. Mình còn đùa rằng Rockstar sẽ bị world model làm phân tâm khi phát triển GTA6, nhưng giờ nghe không còn lạ lắm nữa. Nhìn tiến triển kể từ khi GameNGen xuất hiện, mình bắt đầu nghĩ biết đâu nó còn vượt lên trước cả lúc GTA6 phát hành
- Ở mức này thì về mặt hình ảnh, nó có thể thu hẹp reality gap với thế giới thực, nên sẽ là công cụ rất tốt cho robotics. Tất nhiên mô phỏng vật lý vẫn là một bài toán riêng
- Lại thêm một lần nữa bitter lesson được chứng minh đúng
Đây là một bước tiến thật sự đầy khích lệ, có lẽ chính là thứ Demis đã nhá hàng tháng trước (tweet liên quan). Nhìn vào các clip đã công bố, mình đoán vài chi tiết kỹ thuật như sau:
1. Có hiện tượng texture “nhảy” mỗi 4 frame, có lẽ là do VAE giảm tỉ lệ theo trục thời gian 4 lần, đồng nghĩa với độ trễ tương tác tối thiểu 4 frame (trừ khi VAE hỗ trợ control conditioning). Mình chưa xem video thời gian thực, nhưng trong một cảnh họ trộn screen recording với b-roll bàn phím
2. Ở chuyển động nhanh có thể thấy spatial blocking 16x16, nên đoán VAE cũng giảm tỉ lệ 16x16 theo trục không gian. Kết hợp với điểm đầu thì thành 21.600 token mỗi giây, khoảng 1,3 triệu token mỗi phút
3. Frame đầu tiên của mỗi clip trông sắc nét hơn và ít giống video game hơn các frame sau, nên có vẻ dùng kết hợp t2i (text-to-image) + i2w (image-to-world). Có lẽ t2i dùng dữ liệu chung, còn i2w thì fine-tune bằng dữ liệu game với control được gắn nhãn. Theo thời gian, độ tương phản và độ bão hòa có xu hướng tăng lên, nhưng vẫn nhẹ hơn các mô hình video autoregressive khác (video ví dụ)
- Về độ trễ, trong video gameplay thời gian thực này mình tính được khoảng cách giữa lúc nhấn phím và vật thể chuyển động là khoảng 1,1 giây (khoảng 33 frame ở 30fps). Trong bài cảm nhận của một người dùng bản research preview của Genie 3 có nói rằng họ được nghe giải thích là “có một số độ trễ điều khiển, nhưng nguyên nhân là hạ tầng cung cấp dịch vụ hơn là bản thân mô hình”, nên có lẽ phần lớn latency đến từ cấu trúc streaming client/server
Mình mong họ công bố thêm về cách nó hoạt động. Giá mà có ít nhất một bài báo cho giới nghiên cứu. Đoán của mình là nó tương tự các mô hình sinh video hiện có, nhưng conditioning trên đầu vào như movement direction, viewangle v.v. Có thể là đầu vào tuyệt đối chứ không phải tương đối, và cũng có thể có một phần state simulation trong đó (dù nhìn hiệu ứng va chạm vật thể trong video demo thì có thể không phải, hoặc là trục up được sinh ra trong 2D). Chắc chắn có vẻ đã được huấn luyện bằng dữ liệu dựa trên game engine, vì lộ ra các artifact phản chiếu screen-space. Có lẽ cũng trộn thêm dữ liệu kiểu photogrammetry/splat, và độ phân giải của các yếu tố phi thực tế trông đặc biệt thấp. Trong demo cũng có vài điểm thiếu nhất quán dễ thấy:
- Cảnh wingsuit trông chất lượng hình ảnh thấp hơn (có thể được khởi tạo từ ảnh độ phân giải cao?)
- Trong demo khu vườn, hình học có vẻ khác nhau giữa từng variation. Ống nước thứ hai chỉ xuất hiện ở một phiên bản, như thể geometry mới được tạo tức thời mỗi lần xem lần đầu
- Trong demo trường học, có chiếc xe chỉ hiện nửa phần bên ngoài cửa sổ và xuất hiện các mẫu lặp lại (khi transformer có ít tham số thì các mẫu vòng lặp vô hạn thường xuất hiện; điều này cũng ngụ ý nó có thể scale được. Có vẻ họ đang dùng greedy sampling để ổn định)
- Trong cảnh bảo tàng, có phản chiếu kỳ lạ trên hộp amethyst, phần sau của con mammoth chỉ xuất hiện không có phản chiếu ở mép phải của chiếc hộp rồi lại bất ngờ nhô ra khi nhìn xuyên qua hộp. Phản chiếu của chiếc ngà cũng xuất hiện đột ngột, điều này không liên quan gì đến hiệu ứng Fresnel
Thật sự rất ấn tượng, nhưng chi tiết thì quá ít. Mình không đồng ý hoàn toàn với ý kiến của vài bình luận khác rằng nếu không được tự tay dùng thì vô nghĩa, nhưng cũng thấy ngạc nhiên vì chỉ vài năm trước, một công bố như thế này gần như chắc chắn sẽ đi kèm paper. Giờ thì có những thứ giống paper như danh sách tác giả, demo, trích dẫn bibtex, nhưng lại không hề chia sẻ nghiên cứu thực sự. Khi nói chuyện với người quen, điều khiến mình lo hơn không phải AI có thể làm gì ngay lúc này, mà là việc logic kinh tế đã quá nhanh chuyển từ chế độ nghiên cứu-học thuật sang “khai thác giá trị”. Việc gián tiếp lấy đó làm nền cho chính sách hay kinh tế cũng tiềm ẩn rủi ro lớn. Mình không phản đối thương mại hóa, nhưng việc các màn ra mắt sản phẩm trông như bài báo nghiên cứu xuất hiện cùng lúc với cảnh báo của giới toán học về việc cắt giảm hỗ trợ cho nghiên cứu học thuật gần đây là một hiện tượng làm suy yếu niềm tin về dài hạn
Mình vẫn khó hình dung việc tạo ra “pixel tiếp theo” bằng dự đoán lại tốt hơn cách truyền thống là dựng cảnh và render một cách quyết định luận. Ví dụ, nếu dùng AI để tạo texture, model, chuỗi chuyển động, rồi card đồ họa kết hợp chúng để render cảnh, người dùng sẽ có thể tùy ý thao tác wire model, texture, vị trí camera v.v.
- Nếu cần chất lượng hình ảnh vượt qua một ngưỡng nào đó, sẽ đến lúc dự đoán “pixel tiếp theo” lại rẻ hơn render truyền thống. Mô hình có thể mô tả (dự đoán) cả những gì nằm bên trong bề mặt khi zoom vô hạn vào đó. Cách render truyền thống sẽ bớt được nhiều thách thức kỹ thuật rất khó tiếp cận
Cảm giác như một cuộc cách mạng. Dù đã đoán nó sẽ tới, nhưng khi trực tiếp đối diện vẫn thấy rất mới. Có giới hạn đấy, nhưng đây là điểm khởi đầu. Từ trước đến nay trong game engine, cốt lõi là kỹ sư hay nhà phát triển điều chỉnh các hình khối như tam giác sao cho khớp chính xác với pixel; còn giờ cảm giác như máy tính tự “vẽ” ra khung hình mỗi frame, tạo ảnh mà không cần cả phép toán tam giác
Text rendering. Văn bản rõ ràng, đọc được chủ yếu chỉ có thể được tạo ra khi nó có trong phần mô tả thế giới đầu vào Làm mình nhớ đến thời AI ảnh trước đây không tạo nổi văn bản. Vấn đề đó rồi cũng sớm được giải quyết, nên chắc chuyện này cũng chỉ là vấn đề thời gian
- Và chất lượng vẽ tay hồi đó cũng từng tệ hơn bây giờ ít nhất 10 lần. Giờ tay, chữ và ảnh đều đã tốt hơn, nên có lẽ chúng ta sẽ lại chơi trò “Waldo ở đâu” để tìm lỗi. Mình còn mong chờ một ngày có video zoom vô hạn với watermark AI được giấu ở mức 1/3 pixel. Cá nhân mình thấy mảng augmented video còn thú vị hơn. Những video kiểu stormtrooper vlog như Runway và vài bên khác đang thử làm, nhưng giá vẫn quá đắt
- Vấn đề văn bản vẫn chưa thể xem là đã được giải quyết hoàn toàn, đúng là đã tốt hơn nhiều nhưng ngay cả gpt-image-1 cũng đôi khi vẫn thất bại khi tạo chữ
- Prompt và nội dung bảng đen được tạo ra không khớp nhau ở chỗ có hoặc không có dấu gạch nối (-)
Đây là lần đầu mình xem một bài thuyết trình khiến cảm nhận về thực tại bị lung lay nhiều lần. Thực sự là một trải nghiệm làm mình choáng váng đầu óc
Càng ngày mình càng thấy sự tiến bộ của AI tạo sinh thật u ám. Có cảm giác sự sáng tạo đang bị lấy đi ngày càng nhanh. Nếu công nghệ ở trạng thái này chỉ dừng ở mức công cụ để hỗ trợ sáng tạo của con người thì còn ổn, nhưng lúc này nó lại có vẻ đang hướng tới việc thay thế hoàn toàn. Dĩ nhiên có thể nói “bạn vẫn có thể tự làm nhạc hay vẽ tranh”, nhưng xét về mặt lịch sử, tác phẩm nghệ thuật không hẳn chỉ được tạo ra cho riêng mình mà thường nảy sinh trong bối cảnh xã hội của việc chia sẻ với người khác. Vậy rốt cuộc chúng ta còn lại gì? Chỉ còn lao động giản đơn chưa bị tự động hóa, mà ngay cả thứ đó rồi cũng sẽ bị tự động hóa, vậy con người sẽ còn lại điều gì? Có phải rồi ta sẽ tiến tới một tương lai chỉ còn việc bơm kích thích cá nhân hóa vào não để tăng dopamine cho đến khi não hỏng hẳn không (thực tế điều đó đã phần nào xảy ra với kiểu TikTok rồi)? Nếu mọi công việc đều được tự động hóa, mình cũng không hiểu cấu trúc kinh tế sẽ duy trì thế nào. Biết đâu đây còn có thể là một cách giải thích cho nghịch lý Fermi. Một thế giới nơi công nghệ quá khó để chạm vào, ngay cả việc tiếp cận kỹ thuật đơn giản cũng biến mất, và tài nguyên thì cạn kiệt không thể đảo ngược. Trong hoàn cảnh đó, mình thật sự băn khoăn con người sẽ tìm ý nghĩa sống như thế nào
- Khẳng định rằng tác phẩm nghệ thuật không được làm thuần túy cho chính bản thân người tạo mà không chia sẻ với công chúng thì có rất nhiều nhà văn, họa sĩ, nghệ sĩ nổi tiếng phản bác. Kafka là ví dụ tiêu biểu, và nhiều tác phẩm quan trọng chỉ được phát hiện muộn sau khi tác giả qua đời, thậm chí trái với ý nguyện của họ. Điều đó không phủ nhận các luận điểm còn lại, nhưng nghệ thuật luôn từng tồn tại cho chính bản thân người tạo, và sẽ còn tiếp tục như vậy
- Với câu “tôi không thể chấp nhận lập luận của những người vui mừng vì được sống trong thời đại này”, thì niềm vui là một cảm giác chứ không phải hành vi logic. Đó là cảm xúc đến từ hy vọng và trí tưởng tượng. Lạc quan không cần logic. Và câu hỏi về ý nghĩa cuộc sống cũng không phải đến khi LLM xuất hiện mới được đặt ra, mà đã được bàn tới từ hàng nghìn năm trước. Ví dụ trong [Bhagavad Gita], nhân vật chính cũng hỏi thần rằng “nếu kết quả đều vô nghĩa thì tại sao phải hành động”, nhưng rốt cuộc không có đáp án dứt khoát nào, chỉ còn lại sự trăn trở mang tính chiêm nghiệm. Đây là câu hỏi mà con người đã đối diện rất lâu trước khi có trí tuệ nhân tạo
- Cũng giống như ngày nay chúng ta không còn phải đi bộ hay khuân vác nặng để sinh tồn, nên nếu không tập thể dục thì cơ thể ngày càng yếu đi. Trong tương lai, nếu phần lớn con người không còn cần phải suy nghĩ, sáng tạo hay khám phá để kiếm sống, thì họ sẽ ngày càng trở nên ngu đi. Chỉ một số ít còn rèn luyện trí óc, nhưng ngay cả họ cuối cùng cũng không thể thông minh hơn máy móc. Giống như vận động viên xuất sắc nhất cũng không thể đánh bại máy móc vậy
- Ngay trong thế giới hiện tại ta đang sống, đã có vô số bản nhạc do những người chơi giỏi hơn mình rất nhiều sáng tác và được chất đầy trên YouTube, Spotify. Vì vậy mình nghĩ thay đổi lần này cũng chỉ là phần nối dài của điều đó
- Mình không đồng cảm với lập luận của bạn. Cả đời mình đã sáng tác hàng trăm ca khúc nhưng chưa từng chia sẻ với ai, và tất cả bạn bè nhạc sĩ của mình cũng vậy. Hành vi sáng tạo là một lĩnh vực tách biệt với chuyện có khán giả hay không. Trên thực tế còn gần như ngược lại. Và lịch sử sản xuất âm nhạc cũng luôn dần hạ thấp rào cản gia nhập nhờ công nghệ mới, trong khi trước đây việc bước vào lĩnh vực này từng bị chặn lại bởi chi phí thiết bị đắt đỏ

Google DeepMind công bố mô hình thế giới Genie 3

Genie 3: Đột phá trong mô phỏng thế giới

Bối cảnh phát triển của mô hình thế giới

Các tính năng chính của Genie 3

Mô hình hóa tự nhiên và hiện tượng vật lý

Hệ sinh thái phức tạp và hoạt hình

Tái hiện bối cảnh lịch sử và địa lý

Tương tác và điều khiển thời gian thực

Promptable World Events

Nghiên cứu và thử nghiệm tác nhân

Thách thức kỹ thuật và thành quả

Giới hạn và bài toán còn lại

Trách nhiệm và phạm vi công bố

Tương lai và triển vọng ứng dụng

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News