6 điểm bởi GN⁺ 2026-02-07 | 1 bình luận | Chia sẻ qua WhatsApp
  • Đây là mô hình thế giới sinh tạo cho mô phỏng xe tự hành quy mô lớn, có thể tái hiện môi trường giống thực tế theo thời gian thực
  • Được xây dựng dựa trên Genie 3, cho phép tái tạo chân thực các tình huống hiếm gặp hoặc cực đoan (lốc xoáy, lũ lụt, động vật xuất hiện, v.v.)
  • Có thể tinh chỉnh mô phỏng chi tiết thông qua điều khiển lái xe, cấu hình cảnh, điều khiển bằng ngôn ngữ, đồng thời tạo ra cả dữ liệu camera và lidar
  • Chuyển đổi video thông thường hoặc video dashcam thành mô phỏng đa cảm biến, tái hiện nguyên vẹn cảnh lái xe thực tế
  • Mô hình này là công cụ cốt lõi để kiểm chứng an toàn và mở rộng dịch vụ, giúp chuẩn bị cả cho những tình huống gần như không thể gặp trong thế giới thực

Tổng quan về Mô hình thế giới của Waymo

  • Waymo Driver đã chạy khoảng 200 triệu dặm với chế độ tự lái hoàn toàn tại các thành phố lớn ở Mỹ, và ngoài ra còn chạy hàng tỷ dặm trong môi trường ảo
    • Được thiết kế để học trước những tình huống phức tạp khó gặp trên đường thực tế
  • Mô hình thế giới của Waymo (Waymo World Model)hệ thống tạo mô phỏng siêu chân thực cho các chuyến chạy ảo như vậy
    • Đây là một trong ba trụ cột cốt lõi của hệ sinh thái AI của Waymo, đóng vai trò nền tảng để chứng minh độ an toàn

Cấu trúc và tính năng dựa trên Genie 3

  • Dựa trên Genie 3 của Google DeepMind và được điều chỉnh theo hướng chuyên biệt cho môi trường lái xe
    • Genie 3 là mô hình thế giới đa dụng tạo ra môi trường 3D chân thực và có thể tương tác
  • Tận dụng kiến thức thế giới phong phú của Genie để mô phỏng cả những sự kiện gần như không thể xảy ra ngoài đời thực, như gặp lốc xoáy hoặc voi
  • Có thể điều khiển mô phỏng chi tiết bằng prompt ngôn ngữ, đầu vào lái xe và bố trí cảnh
  • Hỗ trợ đầu ra đa cảm biến, có thể tạo đồng thời cả dữ liệu camera và lidar

Kiến thức thế giới đa phương thức

  • Các trình mô phỏng xe tự hành trước đây thường chỉ học từ dữ liệu tự thu thập, trong khi mô hình của Waymo tận dụng dữ liệu video tiền huấn luyện quy mô lớn của Genie 3
  • Chuyển kiến thức hình ảnh 2D sang đầu ra 3D cho hệ thống lidar của Waymo
    • Camera mạnh ở mô tả chi tiết hình ảnh, còn lidar mạnh ở thông tin độ sâu chính xác
  • Có thể tạo nhiều cảnh khác nhau, từ lái xe thường ngày đến các tình huống long-tail hiếm gặp
  • Mô phỏng thời tiết cực đoan và thiên tai

    • Tạo ra các cảnh như lái xe qua cầu Cổng Vàng phủ tuyết, chạm trán lốc xoáy, khu ngoại ô bị ngập lụt, đường phố phủ tuyết ở thành phố nhiệt đới, thoát khỏi đám cháy
  • Sự kiện hiếm gặp nhưng quan trọng về an toàn

    • Tái hiện các kịch bản liên quan đến an toàn như tài xế hung hăng, xe va vào cành cây, xe chở hàng không ổn định, xe tải đi ngược chiều
  • Đối tượng long-tail và tình huống dị thường

    • Cung cấp mô phỏng chạm trán các đối tượng không thường thấy như voi, bò Texas Longhorn, sư tử, người đi bộ mặc đồ khủng long, chong chóng khổng lồ

Tính năng điều khiển mô phỏng

  • Có thể điều chỉnh theo ba cách: điều khiển hành vi lái xe, điều khiển cấu hình cảnhđiều khiển bằng ngôn ngữ
  • Điều khiển hành vi lái xe

    • Xây dựng trình mô phỏng tương tác phản ứng theo đầu vào lái xe cụ thể
      • Ví dụ: thử nghiệm kết quả nếu xe chạy chủ động hơn trong một tình huống nhất định
    • Duy trì tính nhất quán hình ảnh và độ chân thực tốt hơn so với phương pháp 3DGS (3D Gaussian Splats) hiện có
  • Điều khiển cấu hình cảnh

    • Có thể tự do sửa đổi cấu trúc đường, trạng thái tín hiệu, hành vi của các xe xung quanh
      • Hỗ trợ tạo kịch bản tùy chỉnh và biến đổi môi trường đường sá
  • Điều khiển bằng ngôn ngữ

    • Có thể thay đổi thời điểm trong ngày, thời tiết, toàn bộ bối cảnh bằng lệnh văn bản
      • Ví dụ: chuyển đổi giữa rạng sáng, buổi sáng, giữa trưa, buổi tối, ban đêm
      • Thay đổi điều kiện thời tiết như nhiều mây, sương mù, mưa, tuyết, trời quang

Chuyển đổi mô phỏng dựa trên video

  • Nhận video từ camera thông thường hoặc dashcam làm đầu vào, rồi chuyển thành mô phỏng đa cảm biến từ góc nhìn của Waymo Driver
    • Vì dựa trên video thực nên có độ chân thực và độ chính xác cao
  • Ví dụ: chuyển đổi video của các địa điểm thực như Na Uy, Công viên quốc gia Arches ở Utah, Death Valley ở California

Suy luận có thể mở rộng (Scalable Inference)

  • Mô phỏng cảnh dài đòi hỏi nhiều tính toán, nhưng nhờ biến thể mô hình được tối ưu hóa, hệ thống giữ chất lượng cao trong khi giảm mạnh chi phí tính toán
    • Hỗ trợ các kịch bản lái xe kéo dài như đi qua làn đường hẹp, giao lộ phức tạp, đường dốc lên
  • Ví dụ phát ở tốc độ 4x: tránh điểm nghẽn trên cao tốc, lái xe trong khu dân cư phức tạp, tránh xe máy trên đường dốc, SUV quay đầu

An toàn và khả năng mở rộng

  • Tái hiện ảo trước những tình huống gần như không thể xảy ra trong thực tế để chuẩn bị sẵn sàng
  • Củng cố tiêu chuẩn an toàn của Waymo Driver và tạo nền tảng để mở rộng dịch vụ sang khu vực và môi trường mới
  • Dự án có sự tham gia của nhiều nhà nghiên cứu từ Waymo và Google DeepMind

1 bình luận

 
GN⁺ 2026-02-07
Ý kiến trên Hacker News
  • Giờ thì tôi hiểu vì sao DeepMind đột nhiên tập trung vào world model
    Tôi chưa từng nghĩ Waymo là một “robot” như robot hình người của Boston Dynamics, nhưng thực ra về bản chất nó đúng là robot
    Google/Alphabet có mức độ tích hợp theo chiều dọc trong lĩnh vực AI hoàn thiện đến mức đáng kinh ngạc — từ tự sản xuất điện, chip, trung tâm dữ liệu, Search·Gmail·YouTube·Gemini·Workspace·Wallet, hàng tỷ người dùng Android·Chromebook, mạng quảng cáo, trình duyệt, Waymo, hợp tác với Boston Dynamics, cho tới nghiên cứu nhiệt hạch và phát triển thuốc mới
    Nhìn vào quy mô đó thì các chatbot như ChatGPT hay Grok không cùng đẳng cấp để so sánh

    • Google từ lâu đã tập trung vào R&D nội bộ và tự ứng dụng hơn là bán AI như một sản phẩm
      Trước đây tôi từng nghĩ nghiên cứu xe tự lái chỉ phục vụ Street View, nhưng giờ nhìn lại thì rõ ràng họ có một bức tranh lớn hơn nhiều
    • Google đã nghiên cứu world model từ tận năm 2018
      Có thể xem bài báo liên quan tại đây
    • Tesla cũng đã xây một hệ thống tương tự để huấn luyện FSD, nhưng điều đáng tiếc là họ không thương mại hóa nó thành dịch vụ bản đồ
      Lẽ ra họ có thể cập nhật tình hình đường sá theo thời gian thực từ các xe, nhưng giờ có cảm giác đã tụt lại khá xa
    • Giờ thì tôi cũng hiểu vì sao Tesla bắt đầu làm robot hình người
    • Nếu đến bây giờ mới nhận ra góc nhìn này thì coi như chậm hơn Tesla khoảng 3 năm
      Xem video liên quan tại đây
  • Người ta nói mô hình Genie có thể mô phỏng các sự kiện hiếm gặp như lốc xoáy hay chạm trán voi, nhưng tôi vẫn nghi ngờ liệu kết quả sinh ra có thật sự sát thực tế hay không
    Ví dụ, ngay cả khi mô hình dự đoán được tình huống mặt đường rải đầy bi thép 5 mm, thì làm sao xác minh được đó có phải là một giá trị hợp lý hay không?

    • Theo thời gian, chất lượng của world model sẽ được cải thiện để hệ thống tự lái có thể được huấn luyện bằng dữ liệu tổng hợp “đủ sát thực tế”
      Không cần phải hoàn hảo, chỉ cần tạo được một vòng lặp tích cực với việc sử dụng lặp lại và kiểm chứng để ngày càng tốt hơn
    • Mục đích không phải để tuyên bố rằng “giờ xe đã an toàn cả với bi thép”, mà là để kiểm tra xem ở từng tình huống cụ thể nó có phản ứng đúng như dự kiến hay không, giống như unit test
      Ví dụ, ngay cả những trường hợp cực đoan như một con bò trắng giữa bão tuyết cũng có thể được bắt ra bằng mô phỏng
    • Nếu có thể mô phỏng được mọi thứ từ lốc xoáy đến voi, thì một trò chơi kiểu The Sims chắc cũng sẽ rất hay
    • Thực ra kiểu bất định này cũng đúng với con người
      Không thể dự đoán hoàn hảo, nhưng đó là quá trình cải thiện dần để tiến tới phán đoán tốt nhất dựa trên tri thức
    • Cần một cách tiếp cận là huấn luyện bằng mô phỏng rồi kiểm chứng trong thế giới thực
  • Việc Waymo World Model có thể chuyển cả video camera thông thường thành mô phỏng đa phương thức có nghĩa là nếu muốn thì Waymo cũng có thể lái chỉ bằng camera

    • Nhưng trên thực tế, họ đang chuyển nó thành một biểu diễn được bootstrap từ LiDAR, video và các cảm biến khác
      Tesla không đi qua giai đoạn LiDAR nên khó đạt được kiểu kết quả này
    • LiDAR là công cụ hiệu chỉnh sai số khi độ chính xác của camera suy giảm
      Nó bổ sung cho nhận thức chiều sâu giống như thị sai hai mắt của con người
    • Nó vẫn quan trọng để phòng cả các cuộc tấn công gây nhiễu LiDAR
    • Việc chuyển từ hình ảnh → dữ liệu cảm biến và việc lái xe bằng dữ liệu đó là hai giai đoạn khác nhau
      Giai đoạn đầu dùng cho huấn luyện, giai đoạn sau dùng cho xe thực tế
    • Xe tự lái phải an toàn hơn con người rất nhiều thì mới được xã hội chấp nhận
      Vì vậy cách tiếp cận chỉ dùng camera có những giới hạn rõ ràng
  • Công nghệ này rất ấn tượng, nhưng tôi nghĩ cải thiện hạ tầng tàu hỏa mới cấp bách hơn

    • Sống ở Bay Area, tôi thấy tàu hỏa vốn đã có sẵn, nhưng giá vé, quản lý và trật tự tệ đến mức còn không bù nổi chi phí vận hành
      Đi trốn vé, bạo lực, mất vệ sinh khiến người dùng rời bỏ dịch vụ
      Phớt lờ thực tế đó mà chỉ hô hào giao thông công cộng thì thật sáo rỗng
      Vì thế nếu một dịch vụ như Waymo thực sự cung cấp được chất lượng như đã hứa, nó sẽ càng đáng chú ý hơn
      Cá nhân tôi cho rằng chỉ có hệ thống chia sẻ xe đạp là phương án thay thế duy nhất đang giữ đúng lời hứa
    • Tàu hỏa rốt cuộc sẽ thành địa ngục nếu không duy trì được các chuẩn mực hành vi của con người
      Tiếng ồn, ăn xin, vấn đề ma túy khiến giao thông công cộng trở thành thứ bị né tránh
    • Trong mọi trường hợp, ô tô vẫn có ưu thế tuyệt đối
      Với thực trạng hạ tầng ở Mỹ, cải cách đường sắt quy mô lớn là điều thiếu thực tế
      Ngay cả ở Nhật, nơi đường sắt phát triển, tỷ lệ sở hữu ô tô cũng không khác Mỹ quá nhiều
    • Tôi vẫn thấy một chiếc xe có thể đưa bạn đến bất cứ đâu, an toàn và sạch sẽ theo đúng lịch trình cá nhân, là lựa chọn tốt hơn
    • Dù vậy, Waymo vẫn có thể trở thành bước ngoặt giúp giảm số tài xế và giảm sở hữu xe cá nhân
  • Cốt lõi của lần công bố này là công nghệ tạo dữ liệu LiDAR 3D từ video 2D
    Quyền tiếp cận DeepMind và hạ tầng Google là lợi thế cạnh tranh áp đảo của Waymo

    • Thực ra công nghệ ước lượng 3D từ hình ảnh 2D đã tồn tại từ vài chục năm trước
    • Có các phương pháp monodepth như Metric3D, nhưng kết quả của Waymo rõ ràng ở đẳng cấp SOTA hiện nay
  • Mô phỏng lũ lụt, lốc xoáy, cháy rừng thì ấn tượng đấy, nhưng việc Waymo cùng lúc dừng lại trong những tình huống phổ biến như mất điện trên diện rộng thì vẫn rất khó hiểu
    Nếu không xử lý được những kịch bản cơ bản như vậy thì ý nghĩa của mô phỏng sẽ giảm đi nhiều

    • Mô phỏng giúp tăng năng lực của từng chiếc xe, nhưng sự cố mất điện là vấn đề của cả hệ thống do đội ngũ hỗ trợ từ xa bị quá tải
      Tức là mô phỏng vẫn có giá trị, chỉ là không thể ngăn được mọi kiểu thất bại
    • Thực tế cũng từng có trường hợp Waymo đi vào khu vực bị ngập lụt
      Video liên quan
  • Việc Waymo dùng các tình huống phản thực tại ảo (counterfactual) để huấn luyện có vẻ khá nguy hiểm
    Vì sẽ có nhiều video “xử lý tốt” hơn là các ví dụ bi kịch ngoài đời, nên cuối cùng mô hình có thể học ra sự tự tin quá mức

    • Nhưng trên thực tế, đó không hẳn là “phản thực tại”, mà là dữ liệu sinh ra để bù vào các tình huống hiếm gặp
      Mục tiêu là để khi gặp lốc xoáy hay voi, Waymo không chỉ đứng im mà vẫn có thể phản ứng phù hợp
    • Lái xe là bài toán cân bằng giữa tốc độ và an toàn
      Nếu chỉ theo đuổi an toàn tuyệt đối thì xe sẽ không di chuyển nữa
    • Không vào giao lộ khi đã an toàn để đi, hay chỉ chạy 5 dặm/giờ, cũng là hành vi lái xe sai
      Cách nghĩ kiểu “cứ chậm là an toàn” là không đúng
  • World model trong các tình huống an toàn thực tế có thể nguy hiểm do dữ liệu bị thiên lệch
    Nếu học từ dữ liệu gần như không có ca thất bại, nó có thể không tái hiện được các tình huống tai nạn thật

    • Nhưng Waymo hiện đã được huấn luyện bằng hơn 100 triệu dặm dữ liệu lái xe thực tế
      Ví dụ, video này cho thấy một trường hợp tránh va chạm
    • Tất nhiên vẫn còn khả năng thiên lệch, nhưng có thể tăng độ đa dạng bằng tạo kịch bản dựa trên prompt dùng LLM
      Dù vậy, tiêu chí “đủ sát thực tế” vẫn khá mơ hồ
      Vì con người cũng không thể tin cậy 100%, nên nếu kết hợp mức an toàn cao hơn 10 lần với các cơ chế an toàn dựa trên mã có thể kiểm chứng, thì khả năng được xã hội chấp nhận sẽ cao hơn
  • Có vẻ Project Genie của DeepMind là công nghệ nền tảng của Waymo
    Bài liên quan: Genie 3: A new frontier for world models
    Thảo luận trên Hacker News: Genie 3, Project Genie

    • DeepMind không chỉ là một công ty con của Alphabet, mà là tổ chức nòng cốt do Demis Hassabis dẫn dắt toàn bộ Google AI
  • Điều này làm tôi nhớ đến meme bell curve của việc huấn luyện xe tự lái
    Ban đầu khởi đầu bằng các trình mô phỏng dựa trên vật lý, rồi thu thập dữ liệu thực tế, sau đó lại quay về trình mô phỏng deep learning có phản ánh thông tin vật lý

    • Cuối cùng nó tạo thành một vòng lặp: mô phỏng đơn giản → dữ liệu thực → mô phỏng cho các tình huống hiếm trong đời thực
      Đây có vẻ là một giai đoạn phát triển tự nhiên đến mức gần như nên đặt tên riêng cho kiểu mô thức này