1 điểm bởi GN⁺ 3 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp
  • NVIDIA Cosmos 3 là một mô hình nền tảng mở duy nhất cho AI vật lý, kết hợp suy luận vật lý, tạo thế giới và tạo hành động trong cùng một mô hình
  • Kiến trúc Mixture-of-Transformers tách thành Reasoner tower và Generator tower để nối việc hiểu đầu vào với đầu ra tạo sinh có nhận thức vật lý, đồng thời giảm nhu cầu điều phối nhiều mô hình và pipeline suy luận
  • Cosmos 3 Nano có 16B tham số, hướng tới suy luận cấp workstation, còn Cosmos 3 Super có 64B tham số, hướng tới triển khai ở datacenter và tạo dữ liệu tổng hợp chất lượng cao
  • NVIDIA công bố checkpoint mô hình, script huấn luyện, công cụ triển khai, sáu bộ dữ liệu tổng hợp và NIM microservices để hỗ trợ thích ứng miền cho robot, xe tự hành và tự động hóa kho vận
  • Trên HUE và nhiều benchmark công khai, Cosmos 3 được đánh giá về suy luận AI vật lý, chất lượng tạo sinh và hiệu năng theo miền, trong đó Super và Nano lần lượt dẫn đầu các tier 32B và 8B của VANTAGE-Bench

Những thay đổi cốt lõi của Cosmos 3

  • NVIDIA Cosmos 3 là một mô hình nền tảng tiên phong được thiết kế để các hệ thống AI vật lý như robot, xe tự hành và không gian thông minh có thể hiểu thế giới, dự đoán tình huống tiếp theo và tạo ra hành động phù hợp với môi trường, hình thái và nhiệm vụ cụ thể
  • Các bản phát hành Cosmos trước đây tách riêng việc tạo thế giới, hiểu vật lý và tạo cảnh có kiểm soát thành các mô hình và quy trình làm việc khác nhau, nhưng Cosmos 3 hợp nhất tất cả vào một mô hình duy nhất
  • Bản phát hành này cung cấp checkpoint mô hình trên Hugging Face, mã nguồn trên GitHub, bộ dữ liệu công khai, script huấn luyện tiếp theo và Cosmos NIM microservices để triển khai trên GPU NVIDIA

Kiến trúc hai tower

  • Cosmos 3 sử dụng kiến trúc Mixture-of-Transformers xoay quanh hai tower
  • Reasoner tower là mô hình thị giác-ngôn ngữ (VLM) diễn giải các quan sát đa phương thức như hình ảnh, video và văn bản; nó dùng kiến trúc tự hồi quy để phân tích đầu vào và hiểu chuyển động, tương tác đối tượng và ngữ cảnh vật lý
  • Generator tower tạo video và đầu ra hành động có nhận thức vật lý bằng quy trình dựa trên khuếch tán, với điều kiện là phần hiểu biết từ Reasoner tower
  • Reasoner có thể được gọi độc lập, nhưng Generator luôn kích hoạt cả hai tower để tạo sinh có hướng dẫn
  • Kiến trúc này xử lý cả tác vụ suy luận và tạo sinh trong một mô hình duy nhất, giảm việc điều phối giữa nhiều mô hình và pipeline suy luận

Lựa chọn kích thước mô hình

  • Cosmos 3 Nano là mô hình nhỏ gọn với 16B tham số, được tối ưu cho suy luận hiệu quả
  • Nano được thiết kế để chạy suy luận robot thời gian thực và các ứng dụng AI vật lý trên năng lực tính toán cấp workstation như GPU NVIDIA RTX PRO 6000
  • Cosmos 3 Super là mô hình 64B tham số, hướng đến chất lượng và năng lực tối đa
  • Super đạt điểm benchmark cao nhất và nhắm tới triển khai tại datacenter dùng GPU NVIDIA Hopper và NVIDIA Blackwell
  • Super phù hợp cho tạo dữ liệu tổng hợp quy mô lớn và các workload suy luận vật lý nâng cao

Bộ dữ liệu công khai

Khung đánh giá HUE

  • NVIDIA Cosmos Human Evaluation (HUE) đánh giá chất lượng của Cosmos 3 Generator trên các tác vụ miền tiêu biểu
  • Khi các mô hình tạo video mới nhất đã gần chạm ngưỡng trên các leaderboard tự động cũ, chênh lệch điểm giữa các bản phát hành thường không còn đủ ý nghĩa để so sánh một cách hữu ích
  • HUE chuyển đánh giá từ chấm điểm chủ quan sang kiểm chứng sự thật khách quan, cho phép so sánh tinh vi hơn giữa các mô hình hàng đầu
  • HUE phân rã video được tạo thành các câu hỏi sự thật yes/no đơn lẻ trên bốn chiều
    • Căn chỉnh ngữ nghĩa
    • Quy luật vật lý
    • Suy luận hình học
    • Tính toàn vẹn thị giác
  • Các câu hỏi bao phủ bảy miền AI vật lý, gồm robot, xe tự hành và vật lý
  • Câu hỏi được tạo bằng pipeline VLM, được chuyên gia con người tinh chỉnh và được phát hành mã nguồn mở trên Hugging Face

Kết quả benchmark

  • Cosmos 3 được đánh giá trên nhiều họ benchmark bao trùm suy luận AI vật lý, chất lượng tạo sinh và hiệu năng theo từng miền
  • Trên các benchmark suy luận, Cosmos 3 Super và Cosmos 3 Nano lần lượt đứng đầu tier 32B và 8B của VANTAGE-Bench
  • VANTAGE-Bench là benchmark công khai đầu tiên đánh giá mô hình thị giác-ngôn ngữ trên video camera cố định ngoài đời thực trong các bối cảnh kho vận, giao thông và không gian thông minh
  • Traffic Anomaly Reasoning (TAR) là leaderboard mới để phát hiện và suy luận sự kiện bất thường trong video giao thông, đồng thời là leaderboard chính thức của AI City Challenge 2026 Track 3
  • Trên các benchmark tạo sinh, Cosmos 3 là SOTA mã nguồn mở theo leaderboard công khai và dẫn đầu trên PAI-Bench, R-Bench Physics-IQ và RoboLab
  • Trên Artificial Analysis, Cosmos 3 được đánh giá là mô hình mã nguồn mở dẫn đầu trên Text to Image leaderboardImage to Video (no audio) leaderboard
  • R-Bench đánh giá các world model dựa trên video trong tác vụ tạo video robot, với các chỉ số con như tính nhất quán cấu trúc, tính hợp lệ vật lý và mức độ hoàn chỉnh khi thực thi
  • PAI-Bench đánh giá hiểu video và tạo video trong các miền như robot, xe tự hành và kiến thức vật lý thường thức
  • Physics-IQ kiểm tra liệu mô hình tạo video chỉ đạt được tính chân thực thị giác hay thực sự hiểu các nguyên lý vật lý
  • RoboLab là benchmark mô phỏng để đánh giá chính sách robot có khả năng khái quát tác vụ

Công thức huấn luyện và thích ứng miền

  • Bản phát hành Cosmos 3 không chỉ vượt ra ngoài checkpoint mô hình mà còn công bố mã nguồn, cấu hình và workflow để có thể thích ứng mô hình với miền, hình thái và bộ dữ liệu mới
  • Fine-tuning có giám sát (SFT) hỗ trợ nhà phát triển điều chỉnh mô hình Cosmos 3 theo dữ liệu riêng
  • Các công thức được công bố bao phủ huấn luyện tiếp theo cho tạo sinh thị giác với bộ dữ liệu video tùy chỉnh và các công thức tập trung vào hành động cho workflow robot và AI vật lý
  • Nhà phát triển có thể tùy biến Cosmos 3 theo các miền mục tiêu như robot, xe tự hành và tự động hóa kho vận
  • Mã nguồn và cấu hình huấn luyện tiếp theo được cung cấp trên GitHub
  • Huấn luyện tiếp theo theo hành động điều chỉnh Cosmos 3 cho các ứng dụng AI vật lý có nhận thức hành động như forward dynamics, inverse dynamics và policy generation
  • Trong robot, nó hỗ trợ các workflow tạo quan sát tương lai theo điều kiện hành động robot, suy luận hành động phía sau các màn trình diễn đã quan sát và dự đoán chuỗi hành động từ quan sát hiện tại cùng prompt nhiệm vụ

Triển khai NIM microservices

  • Các mô hình Cosmos 3 cũng được cung cấp dưới dạng NVIDIA NIM microservices để triển khai production đã được tối ưu
  • NIM microservices đóng gói mô hình cùng runtime suy luận đã tối ưu để đạt hiệu năng cao mà không cần tự tinh chỉnh hạ tầng phục vụ
  • Trong workflow suy luận, NIM microservices dễ dùng hơn kho GitHub của Cosmos 3, còn kho GitHub phù hợp hơn với workflow huấn luyện tiếp theo
  • Cosmos 3 Reasoner NIM hiện cung cấp năng lực suy luận của các mô hình Cosmos 3
  • NIM hỗ trợ lựa chọn checkpoint lượng tử hóa BF16, FP8 và NVFP4
  • Lượng tử hóa NVFP4 giảm độ chính xác số của mô hình từ BF16 xuống số thực dấu phẩy động 4-bit để đạt mức tăng tốc suy luận lên đến 2 lần
  • Stack phục vụ Cosmos 3 Reasoner NIM dựa trên vLLM, một engine suy luận mã nguồn mở để phục vụ LLM hiệu quả bằng các kỹ thuật như continuous batching, paged attention và tensor parallelism
  • Cosmos 3 Nano có thể chạy bằng vLLM-omni và NVIDIA Dynamo
  • Efficient Video Sampling (EVS) tăng tốc Cosmos Reason NIM bằng cách giảm số lượng video token được đưa vào VLM trong quá trình suy luận
  • EVS giữ lại các chunk độc đáo nhất ở mỗi frame và cắt bỏ phần còn lại; GPU càng nhỏ thì lợi ích của kỹ thuật này thường càng rõ rệt

Cách chạy

  • Cần có khóa API NVIDIA NGC để lấy container và tải mô hình Cosmos 3 từ NGC
  • Ví dụ chạy Cosmos 3 Nano Reasoner NIM như sau
  • Để dùng Cosmos 3 Super Reasoner NIM, chỉ định NIM_MODEL_SIZE=super
docker run --gpus=all \
  -e NGC_API_KEY=$NGC_API_KEY \
  -e NIM_MODEL_SIZE=nano \
  -p 8000:8000 \
  nvcr.io/nim/nvidia/cosmos3-reasoner:latest
  • Có thể xem cách dùng API và thông tin bổ sung trong tài liệu

Tài nguyên khởi đầu

1 bình luận

 
Ý kiến trên Hacker News
  • Đây là mô hình mã nguồn mở tối tân cho tạo ảnh·video
    Dù vượt qua các mô hình khác, nó có 64 tỷ tham số nên quá lớn để chạy trên phần lớn máy tính cá nhân
    Dù vậy, nếu xét đến việc nó dùng bộ dữ liệu huấn luyện được tạo tổng hợp thì vẫn rất ấn tượng
    Nó thắng Nano Banana 1, nhưng vẫn chưa ở mức có thể cạnh tranh với Nano Banana 2, Seedance2 hay Grok Imagine

    • Có chút mỉa mai buồn là giờ cứ thấy bài công bố sản phẩm kiểu quen thuộc của các tập đoàn lớn là tôi thậm chí không bấm vào nữa mà đi thẳng xuống phần bình luận
      Các bài công bố sản phẩm của doanh nghiệp nhiều khi còn không nói rõ nổi ngay cả sự thật cơ bản đáng lẽ phải truyền đạt trong chín từ đầu tiên
      Tuy vậy, có một sắc thái còn thiếu ở đây: đây là một world model được nhắm tới để hữu ích cho việc huấn luyện AI cho robot và xe tự hành
      Vì vậy, thay vì là đối thủ trực tiếp của Nano Banana hay Seedance, nó có thể tạo ảnh·video nhưng cốt lõi là cung cấp dữ liệu vật lý và bộ harness cho các kịch bản huấn luyện AI
    • Các mô hình tạo ảnh·video dễ hiểu hơn như một thước đo kiểm chứng thực tế để ước lượng xem các mô hình cục bộ đã tiến gần đến các frontier model tới đâu
  • “Cosmos 3 Nano là phiên bản nhỏ với 16 tỷ tham số, được tối ưu cho suy luận hiệu quả. Nó được thiết kế để chạy suy luận robot thời gian thực và các ứng dụng AI vật lý trên môi trường tính toán cấp workstation như GPU NVIDIA RTX PRO 6000.”
    Mong chờ ngày được thử thứ này trên GPU cấp workstation giá hơn 10.000 USD với cả bộ thiết lập đắt đỏ như vậy

    • Có GPU nhưng không có robot. Nếu muốn nghịch thứ này thì cần một robot tối thiểu khả dụng ở mức nào?
    • Tin vui là Nvidia chắc chắn sẽ rất sẵn lòng bán cho bạn chiếc laptop RTX Spark mới để chạy nó
  • Bản phát hành này hợp nhất các chức năng bằng kiến trúc Mixture-of-Transformers (MoT) xoay quanh hai tower
    Tower suy luận là một vision-language model (VLM), đóng vai trò “bộ não” suy luận về thế giới trước khi quá trình tạo sinh diễn ra
    Tower tạo sinh tạo ra các quan sát tương lai và chuỗi hành động, đồng thời tạo video và đầu ra hành động có xét đến vật lý bằng quá trình dựa trên diffusion, có điều kiện theo phần hiểu biết của tower suy luận
    Cách tiếp cận này gợi đúng bản năng kỹ sư muốn tối ưu hóa và cân bằng các đánh đổi giữa các kiến trúc mô hình để kết hợp ưu điểm của cả hai
    Nhưng theo cách tôi hiểu về Bitter Lesson(http://www.incompleteideas.net/IncIdeas/BitterLesson.html), về dài hạn thì đây lại chính xác là hướng đi sai
    Tôi liên kết bài viết gốc của Bitter Lesson vì tôi nghĩ khái niệm này thường bị hiểu sai, hoặc ít nhất tôi không đồng ý với cách nó được dùng trong các cuộc thảo luận
    Cốt lõi là một quan sát lịch sử rằng các nhà nghiên cứu AI đã cố gắng nhồi kiến thức vào tác nhân; điều đó giúp ích trong ngắn hạn và khiến nhà nghiên cứu thấy thỏa mãn, nhưng về dài hạn lại trì trệ, cản trở tiến bộ, và cuối cùng đột phá đến từ cách tiếp cận ngược lại là mở rộng tính toán thông qua tìm kiếm và học tập
    Kiến trúc này cho tôi cảm giác giống kiểu nhồi kiến thức vào tác nhân để có lợi ngắn hạn, và về dài hạn nhiều khả năng sẽ trì trệ
    Dĩ nhiên vẫn có thể có những kiểu học tập hay đầu ra thú vị xây trên đó, nhưng tôi không nghĩ còn quá nhiều thứ để vắt ra từ hướng tiếp cận này

    • Với tôi thì lại cảm thấy gần như ngược lại
      Kiến trúc MoT trông giống như hình mẫu lý tưởng mà Bitter Lesson ngụ ý. Nó đưa mọi dạng dữ liệu như âm thanh, hình ảnh, văn bản, hành động, video vào một không gian tiềm ẩn dùng chung, rồi để mô hình tự sắp xếp lấy
      Nó gần như chỉ giữ lại lượng cấu trúc tối thiểu để xử lý các yêu cầu và định dạng đầu ra khác nhau, chẳng hạn dùng xử lý tự hồi quy cho mô hình hóa·dự đoán chuỗi và dùng diffusion cho tạo sinh
    • Cái này nhìn chung gần với giải nén hơn, và hiện giờ là cách làm khá tiêu chuẩn
      Mục tiêu là lấy dữ liệu từ biểu diễn nén bên trong ra thành dạng con người có thể sử dụng
      Về mặt kỹ thuật, vẫn có thể suy luận ở mức mã hóa pixel hay ký tự, nhưng thông thường đắt hơn rất nhiều
      Có thể xem toàn bộ kỹ thuật này là một cách để làm cho máy tính chạy nhanh hơn
      Bạn cũng thấy điều này trong Qwen talker hay phần lớn các multimodal projector
    • Tuy vậy, mô hình này có phạm vi miền rộng hơn LLM văn bản
      Nó còn nhận đầu vào video, nên thậm chí rộng hơn cả các mô hình omni trước đây
      Kiến trúc thì khác thường, nhưng tôi không nghĩ nó được tinh chỉnh cực đoan hơn các mô hình mở được tung ra mỗi ngày
  • Ví dụ video an toàn kho hàng thật sự rất buồn cười. Mọi người hoàn toàn không phản ứng

    • Video ô tô cũng kỳ quặc. Chiếc van băng ngang rõ ràng phớt lờ đèn đỏ và chạy qua
      Cái bóng lớn của cột đèn đường đổ lên giao lộ cũng hoàn toàn vô lý
  • Thiết kế Mixture-of-Transformers hai tower, tức kiểu để bộ suy luận tự hồi quy cấp đầu vào cho bộ tạo sinh diffusion, là một nước cược kiến trúc khá thú vị

  • Khó hiểu nổi thứ này thực sự làm gì
    Câu “tạo ra các quan sát tương lai và chuỗi hành động” có phải chỉ là cách nói hoa mỹ cho tạo video không?

    • Không. Khác biệt nằm ở phần hành động
      World model này, chẳng hạn, lấy hành động của robot làm điều kiện, nên nó làm được hai việc mà tạo video đơn thuần không làm được
      Nó có thể dự đoán các khung hình tương lai sẽ nối tiếp sau một hành động cụ thể, và với cùng một khung hình khởi đầu, nếu đổi hành động thì tương lai cũng khác đi
      Ngoài ra còn có thể chạy ngược để suy ra hành động đằng sau các khung hình quan sát được, hoặc xuất ra các hành động cần thiết để đạt tới mục tiêu
      Lúc đó đầu ra không phải khung hình video mà là lệnh mô-tơ
    • Theo cách tôi hiểu thì nó vừa là thị giác máy tính vừa là tạo video, và nối hai thứ đó thành một world model khá vững
      Một trong các ví dụ được host chỉ thực hiện phân tích video sẵn có, còn ví dụ khác thì dự đoán video từ ảnh tĩnh, tức là thực hiện tạo video
    • Nếu tưởng tượng đây là gì và vì sao nó được mô tả như vậy, thì lĩnh vực robot AI đang cần một game engine siêu thực với vật lý tốt hơn loại vật lý vật rắn không biến dạng kiểu Unity hay Unreal
      Đồng thời nó phải nhanh hơn rất nhiều so với thời gian thực 1x, không giống mô phỏng phần tử hữu hạn dùng trong kỹ thuật, và có vẻ mô hình này đang nhắm đúng nhu cầu đó
    • Cứ xem bảng định dạng được hỗ trợ là rõ. Nó có thể nhận ảnh, video, văn bản, hành động làm đầu vào và xuất ảnh, video, văn bản, hành động
    • Nó có thể được dùng để tạo dữ liệu tổng hợp nhằm huấn luyện AI vật lý như robot, ô tô, drone
      Có thể mô phỏng thế giới ở góc nhìn ngôi thứ nhất để tạo dữ liệu huấn luyện mà không cần đưa robot vào nhà người thật
  • Phần lớn ví dụ được chọn trông không mấy ổn
    Nó cho cảm giác như một game engine tệ và một mớ AI lộn xộn bị trộn vào nhau một cách kỳ quái
    Khó mà hình dung thứ như vậy lại thành dữ liệu huấn luyện tốt cho ứng dụng thực tế

    • Thành thật mà nói thì các demo này trông khá ổn
      Và việc công nghệ này cùng các công nghệ tương tự được dùng ở quy mô lớn bởi mọi hãng sản xuất xe tự hành hàng đầu là sự thật khách quan, nên suy luận quy nạp thì có thể nói nó đủ tốt cho trường hợp sử dụng đó
      Tôi không làm ở Cosmos, nhưng hiện đang làm tại Nvidia trên công nghệ nội bộ bề ngoài tương tự, và nhiều công ty hàng đầu đang dùng nó
      Theo ý kiến của tôi thì chất lượng cũng tương đương
      Một số nghiên cứu công khai liên quan ở đây
      https://github.com/nv-tlabs/3dgrut/
      https://github.com/NVIDIA/harmonizer
      https://github.com/NVIDIA/instant-nurec
      https://github.com/nvidia/ncore
      Nvidia cũng đang tích hợp Gsplat vào ít nhất một phần những gì tôi làm và còn đóng góp ngược lên upstream
      https://github.com/nerfstudio-project/gsplat
  • Thật buồn cười là sau bao nhiêu tiến bộ kỹ thuật mà trang web này vẫn chật vật trước tải cao