- Đây là mô hình thế giới sinh tạo cho mô phỏng xe tự hành quy mô lớn, có thể tái hiện môi trường giống thực tế theo thời gian thực
- Được xây dựng dựa trên Genie 3, cho phép tái tạo chân thực các tình huống hiếm gặp hoặc cực đoan (lốc xoáy, lũ lụt, động vật xuất hiện, v.v.)
- Có thể tinh chỉnh mô phỏng chi tiết thông qua điều khiển lái xe, cấu hình cảnh, điều khiển bằng ngôn ngữ, đồng thời tạo ra cả dữ liệu camera và lidar
- Chuyển đổi video thông thường hoặc video dashcam thành mô phỏng đa cảm biến, tái hiện nguyên vẹn cảnh lái xe thực tế
- Mô hình này là công cụ cốt lõi để kiểm chứng an toàn và mở rộng dịch vụ, giúp chuẩn bị cả cho những tình huống gần như không thể gặp trong thế giới thực
Tổng quan về Mô hình thế giới của Waymo
- Waymo Driver đã chạy khoảng 200 triệu dặm với chế độ tự lái hoàn toàn tại các thành phố lớn ở Mỹ, và ngoài ra còn chạy hàng tỷ dặm trong môi trường ảo
- Được thiết kế để học trước những tình huống phức tạp khó gặp trên đường thực tế
- Mô hình thế giới của Waymo (Waymo World Model) là hệ thống tạo mô phỏng siêu chân thực cho các chuyến chạy ảo như vậy
- Đây là một trong ba trụ cột cốt lõi của hệ sinh thái AI của Waymo, đóng vai trò nền tảng để chứng minh độ an toàn
Cấu trúc và tính năng dựa trên Genie 3
- Dựa trên Genie 3 của Google DeepMind và được điều chỉnh theo hướng chuyên biệt cho môi trường lái xe
- Genie 3 là mô hình thế giới đa dụng tạo ra môi trường 3D chân thực và có thể tương tác
- Tận dụng kiến thức thế giới phong phú của Genie để mô phỏng cả những sự kiện gần như không thể xảy ra ngoài đời thực, như gặp lốc xoáy hoặc voi
- Có thể điều khiển mô phỏng chi tiết bằng prompt ngôn ngữ, đầu vào lái xe và bố trí cảnh
- Hỗ trợ đầu ra đa cảm biến, có thể tạo đồng thời cả dữ liệu camera và lidar
Kiến thức thế giới đa phương thức
- Các trình mô phỏng xe tự hành trước đây thường chỉ học từ dữ liệu tự thu thập, trong khi mô hình của Waymo tận dụng dữ liệu video tiền huấn luyện quy mô lớn của Genie 3
- Chuyển kiến thức hình ảnh 2D sang đầu ra 3D cho hệ thống lidar của Waymo
- Camera mạnh ở mô tả chi tiết hình ảnh, còn lidar mạnh ở thông tin độ sâu chính xác
- Có thể tạo nhiều cảnh khác nhau, từ lái xe thường ngày đến các tình huống long-tail hiếm gặp
-
Mô phỏng thời tiết cực đoan và thiên tai
- Tạo ra các cảnh như lái xe qua cầu Cổng Vàng phủ tuyết, chạm trán lốc xoáy, khu ngoại ô bị ngập lụt, đường phố phủ tuyết ở thành phố nhiệt đới, thoát khỏi đám cháy
-
Sự kiện hiếm gặp nhưng quan trọng về an toàn
- Tái hiện các kịch bản liên quan đến an toàn như tài xế hung hăng, xe va vào cành cây, xe chở hàng không ổn định, xe tải đi ngược chiều
-
Đối tượng long-tail và tình huống dị thường
- Cung cấp mô phỏng chạm trán các đối tượng không thường thấy như voi, bò Texas Longhorn, sư tử, người đi bộ mặc đồ khủng long, chong chóng khổng lồ
Tính năng điều khiển mô phỏng
- Có thể điều chỉnh theo ba cách: điều khiển hành vi lái xe, điều khiển cấu hình cảnh và điều khiển bằng ngôn ngữ
-
Điều khiển hành vi lái xe
- Xây dựng trình mô phỏng tương tác phản ứng theo đầu vào lái xe cụ thể
- Ví dụ: thử nghiệm kết quả nếu xe chạy chủ động hơn trong một tình huống nhất định
- Duy trì tính nhất quán hình ảnh và độ chân thực tốt hơn so với phương pháp 3DGS (3D Gaussian Splats) hiện có
-
Điều khiển cấu hình cảnh
- Có thể tự do sửa đổi cấu trúc đường, trạng thái tín hiệu, hành vi của các xe xung quanh
- Hỗ trợ tạo kịch bản tùy chỉnh và biến đổi môi trường đường sá
-
Điều khiển bằng ngôn ngữ
- Có thể thay đổi thời điểm trong ngày, thời tiết, toàn bộ bối cảnh bằng lệnh văn bản
- Ví dụ: chuyển đổi giữa rạng sáng, buổi sáng, giữa trưa, buổi tối, ban đêm
- Thay đổi điều kiện thời tiết như nhiều mây, sương mù, mưa, tuyết, trời quang
Chuyển đổi mô phỏng dựa trên video
- Nhận video từ camera thông thường hoặc dashcam làm đầu vào, rồi chuyển thành mô phỏng đa cảm biến từ góc nhìn của Waymo Driver
- Vì dựa trên video thực nên có độ chân thực và độ chính xác cao
- Ví dụ: chuyển đổi video của các địa điểm thực như Na Uy, Công viên quốc gia Arches ở Utah, Death Valley ở California
Suy luận có thể mở rộng (Scalable Inference)
- Mô phỏng cảnh dài đòi hỏi nhiều tính toán, nhưng nhờ biến thể mô hình được tối ưu hóa, hệ thống giữ chất lượng cao trong khi giảm mạnh chi phí tính toán
- Hỗ trợ các kịch bản lái xe kéo dài như đi qua làn đường hẹp, giao lộ phức tạp, đường dốc lên
- Ví dụ phát ở tốc độ 4x: tránh điểm nghẽn trên cao tốc, lái xe trong khu dân cư phức tạp, tránh xe máy trên đường dốc, SUV quay đầu
An toàn và khả năng mở rộng
- Tái hiện ảo trước những tình huống gần như không thể xảy ra trong thực tế để chuẩn bị sẵn sàng
- Củng cố tiêu chuẩn an toàn của Waymo Driver và tạo nền tảng để mở rộng dịch vụ sang khu vực và môi trường mới
- Dự án có sự tham gia của nhiều nhà nghiên cứu từ Waymo và Google DeepMind
1 bình luận
Ý kiến trên Hacker News
Giờ thì tôi hiểu vì sao DeepMind đột nhiên tập trung vào world model
Tôi chưa từng nghĩ Waymo là một “robot” như robot hình người của Boston Dynamics, nhưng thực ra về bản chất nó đúng là robot
Google/Alphabet có mức độ tích hợp theo chiều dọc trong lĩnh vực AI hoàn thiện đến mức đáng kinh ngạc — từ tự sản xuất điện, chip, trung tâm dữ liệu, Search·Gmail·YouTube·Gemini·Workspace·Wallet, hàng tỷ người dùng Android·Chromebook, mạng quảng cáo, trình duyệt, Waymo, hợp tác với Boston Dynamics, cho tới nghiên cứu nhiệt hạch và phát triển thuốc mới
Nhìn vào quy mô đó thì các chatbot như ChatGPT hay Grok không cùng đẳng cấp để so sánh
Trước đây tôi từng nghĩ nghiên cứu xe tự lái chỉ phục vụ Street View, nhưng giờ nhìn lại thì rõ ràng họ có một bức tranh lớn hơn nhiều
Có thể xem bài báo liên quan tại đây
Lẽ ra họ có thể cập nhật tình hình đường sá theo thời gian thực từ các xe, nhưng giờ có cảm giác đã tụt lại khá xa
Xem video liên quan tại đây
Người ta nói mô hình Genie có thể mô phỏng các sự kiện hiếm gặp như lốc xoáy hay chạm trán voi, nhưng tôi vẫn nghi ngờ liệu kết quả sinh ra có thật sự sát thực tế hay không
Ví dụ, ngay cả khi mô hình dự đoán được tình huống mặt đường rải đầy bi thép 5 mm, thì làm sao xác minh được đó có phải là một giá trị hợp lý hay không?
Không cần phải hoàn hảo, chỉ cần tạo được một vòng lặp tích cực với việc sử dụng lặp lại và kiểm chứng để ngày càng tốt hơn
Ví dụ, ngay cả những trường hợp cực đoan như một con bò trắng giữa bão tuyết cũng có thể được bắt ra bằng mô phỏng
Không thể dự đoán hoàn hảo, nhưng đó là quá trình cải thiện dần để tiến tới phán đoán tốt nhất dựa trên tri thức
Việc Waymo World Model có thể chuyển cả video camera thông thường thành mô phỏng đa phương thức có nghĩa là nếu muốn thì Waymo cũng có thể lái chỉ bằng camera
Tesla không đi qua giai đoạn LiDAR nên khó đạt được kiểu kết quả này
Nó bổ sung cho nhận thức chiều sâu giống như thị sai hai mắt của con người
Giai đoạn đầu dùng cho huấn luyện, giai đoạn sau dùng cho xe thực tế
Vì vậy cách tiếp cận chỉ dùng camera có những giới hạn rõ ràng
Công nghệ này rất ấn tượng, nhưng tôi nghĩ cải thiện hạ tầng tàu hỏa mới cấp bách hơn
Đi trốn vé, bạo lực, mất vệ sinh khiến người dùng rời bỏ dịch vụ
Phớt lờ thực tế đó mà chỉ hô hào giao thông công cộng thì thật sáo rỗng
Vì thế nếu một dịch vụ như Waymo thực sự cung cấp được chất lượng như đã hứa, nó sẽ càng đáng chú ý hơn
Cá nhân tôi cho rằng chỉ có hệ thống chia sẻ xe đạp là phương án thay thế duy nhất đang giữ đúng lời hứa
Tiếng ồn, ăn xin, vấn đề ma túy khiến giao thông công cộng trở thành thứ bị né tránh
Với thực trạng hạ tầng ở Mỹ, cải cách đường sắt quy mô lớn là điều thiếu thực tế
Ngay cả ở Nhật, nơi đường sắt phát triển, tỷ lệ sở hữu ô tô cũng không khác Mỹ quá nhiều
Cốt lõi của lần công bố này là công nghệ tạo dữ liệu LiDAR 3D từ video 2D
Quyền tiếp cận DeepMind và hạ tầng Google là lợi thế cạnh tranh áp đảo của Waymo
Mô phỏng lũ lụt, lốc xoáy, cháy rừng thì ấn tượng đấy, nhưng việc Waymo cùng lúc dừng lại trong những tình huống phổ biến như mất điện trên diện rộng thì vẫn rất khó hiểu
Nếu không xử lý được những kịch bản cơ bản như vậy thì ý nghĩa của mô phỏng sẽ giảm đi nhiều
Tức là mô phỏng vẫn có giá trị, chỉ là không thể ngăn được mọi kiểu thất bại
Video liên quan
Việc Waymo dùng các tình huống phản thực tại ảo (counterfactual) để huấn luyện có vẻ khá nguy hiểm
Vì sẽ có nhiều video “xử lý tốt” hơn là các ví dụ bi kịch ngoài đời, nên cuối cùng mô hình có thể học ra sự tự tin quá mức
Mục tiêu là để khi gặp lốc xoáy hay voi, Waymo không chỉ đứng im mà vẫn có thể phản ứng phù hợp
Nếu chỉ theo đuổi an toàn tuyệt đối thì xe sẽ không di chuyển nữa
Cách nghĩ kiểu “cứ chậm là an toàn” là không đúng
World model trong các tình huống an toàn thực tế có thể nguy hiểm do dữ liệu bị thiên lệch
Nếu học từ dữ liệu gần như không có ca thất bại, nó có thể không tái hiện được các tình huống tai nạn thật
Ví dụ, video này cho thấy một trường hợp tránh va chạm
Dù vậy, tiêu chí “đủ sát thực tế” vẫn khá mơ hồ
Vì con người cũng không thể tin cậy 100%, nên nếu kết hợp mức an toàn cao hơn 10 lần với các cơ chế an toàn dựa trên mã có thể kiểm chứng, thì khả năng được xã hội chấp nhận sẽ cao hơn
Có vẻ Project Genie của DeepMind là công nghệ nền tảng của Waymo
Bài liên quan: Genie 3: A new frontier for world models
Thảo luận trên Hacker News: Genie 3, Project Genie
Điều này làm tôi nhớ đến meme bell curve của việc huấn luyện xe tự lái
Ban đầu khởi đầu bằng các trình mô phỏng dựa trên vật lý, rồi thu thập dữ liệu thực tế, sau đó lại quay về trình mô phỏng deep learning có phản ánh thông tin vật lý
Đây có vẻ là một giai đoạn phát triển tự nhiên đến mức gần như nên đặt tên riêng cho kiểu mô thức này