Mô hình thế giới của Waymo: biên giới mới của mô phỏng xe tự hành

(waymo.com)

6 điểm bởi GN⁺ 2026-02-07 | 1 bình luận | Chia sẻ qua WhatsApp

Đây là mô hình thế giới sinh tạo cho mô phỏng xe tự hành quy mô lớn, có thể tái hiện môi trường giống thực tế theo thời gian thực
Được xây dựng dựa trên Genie 3, cho phép tái tạo chân thực các tình huống hiếm gặp hoặc cực đoan (lốc xoáy, lũ lụt, động vật xuất hiện, v.v.)
Có thể tinh chỉnh mô phỏng chi tiết thông qua điều khiển lái xe, cấu hình cảnh, điều khiển bằng ngôn ngữ, đồng thời tạo ra cả dữ liệu camera và lidar
Chuyển đổi video thông thường hoặc video dashcam thành mô phỏng đa cảm biến, tái hiện nguyên vẹn cảnh lái xe thực tế
Mô hình này là công cụ cốt lõi để kiểm chứng an toàn và mở rộng dịch vụ, giúp chuẩn bị cả cho những tình huống gần như không thể gặp trong thế giới thực

Tổng quan về Mô hình thế giới của Waymo

Waymo Driver đã chạy khoảng 200 triệu dặm với chế độ tự lái hoàn toàn tại các thành phố lớn ở Mỹ, và ngoài ra còn chạy hàng tỷ dặm trong môi trường ảo
- Được thiết kế để học trước những tình huống phức tạp khó gặp trên đường thực tế
Mô hình thế giới của Waymo (Waymo World Model) là hệ thống tạo mô phỏng siêu chân thực cho các chuyến chạy ảo như vậy
- Đây là một trong ba trụ cột cốt lõi của hệ sinh thái AI của Waymo, đóng vai trò nền tảng để chứng minh độ an toàn

Cấu trúc và tính năng dựa trên Genie 3

Dựa trên Genie 3 của Google DeepMind và được điều chỉnh theo hướng chuyên biệt cho môi trường lái xe
- Genie 3 là mô hình thế giới đa dụng tạo ra môi trường 3D chân thực và có thể tương tác
Tận dụng kiến thức thế giới phong phú của Genie để mô phỏng cả những sự kiện gần như không thể xảy ra ngoài đời thực, như gặp lốc xoáy hoặc voi
Có thể điều khiển mô phỏng chi tiết bằng prompt ngôn ngữ, đầu vào lái xe và bố trí cảnh
Hỗ trợ đầu ra đa cảm biến, có thể tạo đồng thời cả dữ liệu camera và lidar

Kiến thức thế giới đa phương thức

Các trình mô phỏng xe tự hành trước đây thường chỉ học từ dữ liệu tự thu thập, trong khi mô hình của Waymo tận dụng dữ liệu video tiền huấn luyện quy mô lớn của Genie 3
Chuyển kiến thức hình ảnh 2D sang đầu ra 3D cho hệ thống lidar của Waymo
- Camera mạnh ở mô tả chi tiết hình ảnh, còn lidar mạnh ở thông tin độ sâu chính xác
Có thể tạo nhiều cảnh khác nhau, từ lái xe thường ngày đến các tình huống long-tail hiếm gặp
Mô phỏng thời tiết cực đoan và thiên tai
- Tạo ra các cảnh như lái xe qua cầu Cổng Vàng phủ tuyết, chạm trán lốc xoáy, khu ngoại ô bị ngập lụt, đường phố phủ tuyết ở thành phố nhiệt đới, thoát khỏi đám cháy
Sự kiện hiếm gặp nhưng quan trọng về an toàn
- Tái hiện các kịch bản liên quan đến an toàn như tài xế hung hăng, xe va vào cành cây, xe chở hàng không ổn định, xe tải đi ngược chiều
Đối tượng long-tail và tình huống dị thường
- Cung cấp mô phỏng chạm trán các đối tượng không thường thấy như voi, bò Texas Longhorn, sư tử, người đi bộ mặc đồ khủng long, chong chóng khổng lồ

Tính năng điều khiển mô phỏng

Có thể điều chỉnh theo ba cách: điều khiển hành vi lái xe, điều khiển cấu hình cảnh và điều khiển bằng ngôn ngữ
Điều khiển hành vi lái xe
- Xây dựng trình mô phỏng tương tác phản ứng theo đầu vào lái xe cụ thể
  - Ví dụ: thử nghiệm kết quả nếu xe chạy chủ động hơn trong một tình huống nhất định
  Quảng cáo
- Duy trì tính nhất quán hình ảnh và độ chân thực tốt hơn so với phương pháp 3DGS (3D Gaussian Splats) hiện có
Điều khiển cấu hình cảnh
- Có thể tự do sửa đổi cấu trúc đường, trạng thái tín hiệu, hành vi của các xe xung quanh
  - Hỗ trợ tạo kịch bản tùy chỉnh và biến đổi môi trường đường sá
Điều khiển bằng ngôn ngữ
- Có thể thay đổi thời điểm trong ngày, thời tiết, toàn bộ bối cảnh bằng lệnh văn bản
  - Ví dụ: chuyển đổi giữa rạng sáng, buổi sáng, giữa trưa, buổi tối, ban đêm
  - Thay đổi điều kiện thời tiết như nhiều mây, sương mù, mưa, tuyết, trời quang

Chuyển đổi mô phỏng dựa trên video

Nhận video từ camera thông thường hoặc dashcam làm đầu vào, rồi chuyển thành mô phỏng đa cảm biến từ góc nhìn của Waymo Driver
- Vì dựa trên video thực nên có độ chân thực và độ chính xác cao
Ví dụ: chuyển đổi video của các địa điểm thực như Na Uy, Công viên quốc gia Arches ở Utah, Death Valley ở California

Suy luận có thể mở rộng (Scalable Inference)

Mô phỏng cảnh dài đòi hỏi nhiều tính toán, nhưng nhờ biến thể mô hình được tối ưu hóa, hệ thống giữ chất lượng cao trong khi giảm mạnh chi phí tính toán
- Hỗ trợ các kịch bản lái xe kéo dài như đi qua làn đường hẹp, giao lộ phức tạp, đường dốc lên
Ví dụ phát ở tốc độ 4x: tránh điểm nghẽn trên cao tốc, lái xe trong khu dân cư phức tạp, tránh xe máy trên đường dốc, SUV quay đầu

An toàn và khả năng mở rộng

Tái hiện ảo trước những tình huống gần như không thể xảy ra trong thực tế để chuẩn bị sẵn sàng
Củng cố tiêu chuẩn an toàn của Waymo Driver và tạo nền tảng để mở rộng dịch vụ sang khu vực và môi trường mới

Dự án có sự tham gia của nhiều nhà nghiên cứu từ Waymo và Google DeepMind

1 bình luận

GN⁺ 2026-02-07

Ý kiến trên Hacker News

Giờ thì tôi hiểu vì sao DeepMind đột nhiên tập trung vào world model
Tôi chưa từng nghĩ Waymo là một “robot” như robot hình người của Boston Dynamics, nhưng thực ra về bản chất nó đúng là robot
Google/Alphabet có mức độ tích hợp theo chiều dọc trong lĩnh vực AI hoàn thiện đến mức đáng kinh ngạc — từ tự sản xuất điện, chip, trung tâm dữ liệu, Search·Gmail·YouTube·Gemini·Workspace·Wallet, hàng tỷ người dùng Android·Chromebook, mạng quảng cáo, trình duyệt, Waymo, hợp tác với Boston Dynamics, cho tới nghiên cứu nhiệt hạch và phát triển thuốc mới
Nhìn vào quy mô đó thì các chatbot như ChatGPT hay Grok không cùng đẳng cấp để so sánh
- Google từ lâu đã tập trung vào R&D nội bộ và tự ứng dụng hơn là bán AI như một sản phẩm
  Trước đây tôi từng nghĩ nghiên cứu xe tự lái chỉ phục vụ Street View, nhưng giờ nhìn lại thì rõ ràng họ có một bức tranh lớn hơn nhiều
- Google đã nghiên cứu world model từ tận năm 2018
  Có thể xem bài báo liên quan tại đây
- Tesla cũng đã xây một hệ thống tương tự để huấn luyện FSD, nhưng điều đáng tiếc là họ không thương mại hóa nó thành dịch vụ bản đồ
  Lẽ ra họ có thể cập nhật tình hình đường sá theo thời gian thực từ các xe, nhưng giờ có cảm giác đã tụt lại khá xa
- Giờ thì tôi cũng hiểu vì sao Tesla bắt đầu làm robot hình người
- Nếu đến bây giờ mới nhận ra góc nhìn này thì coi như chậm hơn Tesla khoảng 3 năm
  Xem video liên quan tại đây
Người ta nói mô hình Genie có thể mô phỏng các sự kiện hiếm gặp như lốc xoáy hay chạm trán voi, nhưng tôi vẫn nghi ngờ liệu kết quả sinh ra có thật sự sát thực tế hay không
Ví dụ, ngay cả khi mô hình dự đoán được tình huống mặt đường rải đầy bi thép 5 mm, thì làm sao xác minh được đó có phải là một giá trị hợp lý hay không?
- Theo thời gian, chất lượng của world model sẽ được cải thiện để hệ thống tự lái có thể được huấn luyện bằng dữ liệu tổng hợp “đủ sát thực tế”
  Không cần phải hoàn hảo, chỉ cần tạo được một vòng lặp tích cực với việc sử dụng lặp lại và kiểm chứng để ngày càng tốt hơn
- Mục đích không phải để tuyên bố rằng “giờ xe đã an toàn cả với bi thép”, mà là để kiểm tra xem ở từng tình huống cụ thể nó có phản ứng đúng như dự kiến hay không, giống như unit test
  Ví dụ, ngay cả những trường hợp cực đoan như một con bò trắng giữa bão tuyết cũng có thể được bắt ra bằng mô phỏng
- Nếu có thể mô phỏng được mọi thứ từ lốc xoáy đến voi, thì một trò chơi kiểu The Sims chắc cũng sẽ rất hay
- Thực ra kiểu bất định này cũng đúng với con người
  Không thể dự đoán hoàn hảo, nhưng đó là quá trình cải thiện dần để tiến tới phán đoán tốt nhất dựa trên tri thức
- Cần một cách tiếp cận là huấn luyện bằng mô phỏng rồi kiểm chứng trong thế giới thực
Việc Waymo World Model có thể chuyển cả video camera thông thường thành mô phỏng đa phương thức có nghĩa là nếu muốn thì Waymo cũng có thể lái chỉ bằng camera
- Nhưng trên thực tế, họ đang chuyển nó thành một biểu diễn được bootstrap từ LiDAR, video và các cảm biến khác
  Tesla không đi qua giai đoạn LiDAR nên khó đạt được kiểu kết quả này
- LiDAR là công cụ hiệu chỉnh sai số khi độ chính xác của camera suy giảm
  Nó bổ sung cho nhận thức chiều sâu giống như thị sai hai mắt của con người
- Nó vẫn quan trọng để phòng cả các cuộc tấn công gây nhiễu LiDAR
- Việc chuyển từ hình ảnh → dữ liệu cảm biến và việc lái xe bằng dữ liệu đó là hai giai đoạn khác nhau
  Giai đoạn đầu dùng cho huấn luyện, giai đoạn sau dùng cho xe thực tế
- Xe tự lái phải an toàn hơn con người rất nhiều thì mới được xã hội chấp nhận
  Vì vậy cách tiếp cận chỉ dùng camera có những giới hạn rõ ràng
Công nghệ này rất ấn tượng, nhưng tôi nghĩ cải thiện hạ tầng tàu hỏa mới cấp bách hơn
- Sống ở Bay Area, tôi thấy tàu hỏa vốn đã có sẵn, nhưng giá vé, quản lý và trật tự tệ đến mức còn không bù nổi chi phí vận hành
  Đi trốn vé, bạo lực, mất vệ sinh khiến người dùng rời bỏ dịch vụ
  Phớt lờ thực tế đó mà chỉ hô hào giao thông công cộng thì thật sáo rỗng
  Vì thế nếu một dịch vụ như Waymo thực sự cung cấp được chất lượng như đã hứa, nó sẽ càng đáng chú ý hơn
  Cá nhân tôi cho rằng chỉ có hệ thống chia sẻ xe đạp là phương án thay thế duy nhất đang giữ đúng lời hứa
- Tàu hỏa rốt cuộc sẽ thành địa ngục nếu không duy trì được các chuẩn mực hành vi của con người
  Tiếng ồn, ăn xin, vấn đề ma túy khiến giao thông công cộng trở thành thứ bị né tránh
- Trong mọi trường hợp, ô tô vẫn có ưu thế tuyệt đối
  Với thực trạng hạ tầng ở Mỹ, cải cách đường sắt quy mô lớn là điều thiếu thực tế
  Ngay cả ở Nhật, nơi đường sắt phát triển, tỷ lệ sở hữu ô tô cũng không khác Mỹ quá nhiều
- Tôi vẫn thấy một chiếc xe có thể đưa bạn đến bất cứ đâu, an toàn và sạch sẽ theo đúng lịch trình cá nhân, là lựa chọn tốt hơn
- Dù vậy, Waymo vẫn có thể trở thành bước ngoặt giúp giảm số tài xế và giảm sở hữu xe cá nhân
Cốt lõi của lần công bố này là công nghệ tạo dữ liệu LiDAR 3D từ video 2D
Quyền tiếp cận DeepMind và hạ tầng Google là lợi thế cạnh tranh áp đảo của Waymo
- Thực ra công nghệ ước lượng 3D từ hình ảnh 2D đã tồn tại từ vài chục năm trước
- Có các phương pháp monodepth như Metric3D, nhưng kết quả của Waymo rõ ràng ở đẳng cấp SOTA hiện nay
Mô phỏng lũ lụt, lốc xoáy, cháy rừng thì ấn tượng đấy, nhưng việc Waymo cùng lúc dừng lại trong những tình huống phổ biến như mất điện trên diện rộng thì vẫn rất khó hiểu
Nếu không xử lý được những kịch bản cơ bản như vậy thì ý nghĩa của mô phỏng sẽ giảm đi nhiều
- Mô phỏng giúp tăng năng lực của từng chiếc xe, nhưng sự cố mất điện là vấn đề của cả hệ thống do đội ngũ hỗ trợ từ xa bị quá tải
  Tức là mô phỏng vẫn có giá trị, chỉ là không thể ngăn được mọi kiểu thất bại
- Thực tế cũng từng có trường hợp Waymo đi vào khu vực bị ngập lụt
  Video liên quan
Việc Waymo dùng các tình huống phản thực tại ảo (counterfactual) để huấn luyện có vẻ khá nguy hiểm
Vì sẽ có nhiều video “xử lý tốt” hơn là các ví dụ bi kịch ngoài đời, nên cuối cùng mô hình có thể học ra sự tự tin quá mức
- Nhưng trên thực tế, đó không hẳn là “phản thực tại”, mà là dữ liệu sinh ra để bù vào các tình huống hiếm gặp
  Mục tiêu là để khi gặp lốc xoáy hay voi, Waymo không chỉ đứng im mà vẫn có thể phản ứng phù hợp
- Lái xe là bài toán cân bằng giữa tốc độ và an toàn
  Nếu chỉ theo đuổi an toàn tuyệt đối thì xe sẽ không di chuyển nữa
- Không vào giao lộ khi đã an toàn để đi, hay chỉ chạy 5 dặm/giờ, cũng là hành vi lái xe sai
  Cách nghĩ kiểu “cứ chậm là an toàn” là không đúng
World model trong các tình huống an toàn thực tế có thể nguy hiểm do dữ liệu bị thiên lệch
Nếu học từ dữ liệu gần như không có ca thất bại, nó có thể không tái hiện được các tình huống tai nạn thật
- Nhưng Waymo hiện đã được huấn luyện bằng hơn 100 triệu dặm dữ liệu lái xe thực tế
  Ví dụ, video này cho thấy một trường hợp tránh va chạm
- Tất nhiên vẫn còn khả năng thiên lệch, nhưng có thể tăng độ đa dạng bằng tạo kịch bản dựa trên prompt dùng LLM
  Dù vậy, tiêu chí “đủ sát thực tế” vẫn khá mơ hồ
  Vì con người cũng không thể tin cậy 100%, nên nếu kết hợp mức an toàn cao hơn 10 lần với các cơ chế an toàn dựa trên mã có thể kiểm chứng, thì khả năng được xã hội chấp nhận sẽ cao hơn
Có vẻ Project Genie của DeepMind là công nghệ nền tảng của Waymo
Bài liên quan: Genie 3: A new frontier for world models
Thảo luận trên Hacker News: Genie 3, Project Genie
- DeepMind không chỉ là một công ty con của Alphabet, mà là tổ chức nòng cốt do Demis Hassabis dẫn dắt toàn bộ Google AI
Điều này làm tôi nhớ đến meme bell curve của việc huấn luyện xe tự lái
Ban đầu khởi đầu bằng các trình mô phỏng dựa trên vật lý, rồi thu thập dữ liệu thực tế, sau đó lại quay về trình mô phỏng deep learning có phản ánh thông tin vật lý
- Cuối cùng nó tạo thành một vòng lặp: mô phỏng đơn giản → dữ liệu thực → mô phỏng cho các tình huống hiếm trong đời thực
  Đây có vẻ là một giai đoạn phát triển tự nhiên đến mức gần như nên đặt tên riêng cho kiểu mô thức này

Mô hình thế giới của Waymo: biên giới mới của mô phỏng xe tự hành

Tổng quan về Mô hình thế giới của Waymo

Cấu trúc và tính năng dựa trên Genie 3

Kiến thức thế giới đa phương thức

Mô phỏng thời tiết cực đoan và thiên tai

Sự kiện hiếm gặp nhưng quan trọng về an toàn

Đối tượng long-tail và tình huống dị thường

Tính năng điều khiển mô phỏng

Điều khiển hành vi lái xe

Điều khiển cấu hình cảnh

Điều khiển bằng ngôn ngữ

Chuyển đổi mô phỏng dựa trên video

Suy luận có thể mở rộng (Scalable Inference)

An toàn và khả năng mở rộng

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News