🔑 Điểm nổi bật chính
• Mô phỏng vật lý chân thực hơn
• Nếu mô hình trước đây tạo cảm giác thành công bằng cách “dịch chuyển tức thời” vật thể, thì Sora 2 tái hiện cả những thất bại vật lý thực tế và độ nảy ngược.
• Mang lại kết quả gần với các quy luật vật lý hơn, chẳng hạn như quả bóng rổ chạm vành rồi bật ra ngoài.
• Điều khiển nâng cao & tính nhất quán
• Có thể làm theo chính xác các chỉ thị phức tạp (nhiều cảnh quay, chuyển cảnh, duy trì trạng thái).
• Duy trì world state của nhân vật/sự vật giữa các cảnh.
• Đa dạng phong cách
• Có thể tạo video chất lượng cao theo nhiều phong cách như hiện thực, điện ảnh, hoạt hình.
• Hỗ trợ tạo audio đồng bộ, bao gồm nhạc nền, hiệu ứng âm thanh và cả lời thoại.
• Tính năng “Upload yourself” (Cameos)
• Người dùng tải lên video·âm thanh ngắn → mô hình có thể chèn chính người đó vào bất kỳ cảnh nào.
• Phản ánh cả ngoại hình lẫn giọng nói.
• Quyền kiểm soát thuộc về chính người dùng, có thể quản lý quyền truy cập/xóa.
• Ra mắt ứng dụng mạng xã hội ‘Sora’ (iOS)
• Một mạng xã hội mới tập trung vào các tính năng tạo, remix và chia sẻ.
• Khởi đầu theo hình thức mời tham gia, ra mắt trước tại Mỹ và Canada.
• Cơ bản miễn phí + giới hạn mức sử dụng nhất định, dự kiến mô hình Pro/tạo thêm sẽ trả phí.
• An toàn và phát hành có trách nhiệm
• Thuật toán feed: thay vì tối ưu hóa thời gian tiêu thụ, tập trung vào “khuyến khích sáng tạo”.
• Bảo vệ thanh thiếu niên: giới hạn lượng hiển thị trên feed, cung cấp tính năng kiểm soát của phụ huynh.
• Bản quyền/đồng thuận: người dùng Cameo được bảo đảm quyền truy cập/xóa.
• Tăng cường kiểm duyệt bởi con người để xử lý quấy rối/lạm dụng.
• Bối cảnh kỹ thuật
• Nếu Sora 1 là “GPT-1 for video”, thì Sora 2 là “GPT-3.5 moment”.
• Pre-training và post-training trên dữ liệu video lớn hơn → tiến thêm một bước tới mô hình mô phỏng thế giới.
• Kế hoạch sắp tới
• Cũng có thể truy cập tại sora.com.
• Dự kiến cung cấp Sora 2 Pro cho người dùng Pro.
• Có kế hoạch công bố API.
• Sora 1 Turbo hiện tại vẫn sẽ tiếp tục được sử dụng.
⸻
📝 Tóm tắt ngắn
• Sora 2 = mô hình tạo video·audio tinh vi hơn về mặt vật lý
• Có thể chèn cameo người/vật thể → trải nghiệm trong ứng dụng xã hội Sora
• Nền tảng tập trung vào xã hội + sáng tạo → ưu tiên sản xuất nội dung hơn là tiêu tốn thời gian
• Ra mắt ban đầu: iOS tại Mỹ·Canada → dự kiến mở rộng sang web/Pro/API
2 bình luận
Nếu kiểu video này xuất hiện ngày càng nhiều thì biết đâu lại có thể khiến mọi người bớt nghiện short-form video. Nếu ngay cả video short-form lái siêu xe cũng có thể làm với chính khuôn mặt của tôi, thì những video short-form siêu xe đó sẽ còn giá trị đến mức nào?
Ý kiến trên Hacker News
Có vẻ OpenAI đang cố biến Sora thành một mạng xã hội, tức phiên bản AI của TikTok (AITok)
Ứng dụng web tập trung vào cấu trúc thiên về tiêu thụ như feed, lượt thích/bình luận của bài đăng, hồ sơ người dùng, v.v.
Việc tạo video là yếu tố phụ, các video được tạo ra rất ngắn và thiết lập cũng đơn giản (chỉ có thể chọn ngang/dọc)
Không hề thấy nhắc đến hay thử nghiệm video dài, có cốt truyện, hoặc các tính năng chỉnh sửa nâng cao; so với các nền tảng khác như Google Flow thì bị hạn chế khá nhiều về mặt chức năng
Có đính kèm các video kiểm tra độ chính xác vật lý, nhưng Veo cũng không hoạt động đúng với các prompt đó
Ngoài ra, cũng khá thú vị khi đang có cả những video rất ấn tượng lẫn những video rất thô được đăng lên
Ví dụ physics của Sora 1
Ví dụ physics của Sora 2
Ví dụ Veo 1
Ví dụ Veo 2
Cá nhân tôi thích công nghệ đột phá và AI, nhưng không chắc "TikTok nhưng là AI" có phải là một hướng đi đáng mong muốn về mặt xã hội hay không
Nếu có một tác động tích cực rõ ràng nào có thể đạt được từ việc này thì tôi cũng muốn biết
Trừ khi hiệu suất điện năng của việc tạo video được cải thiện mạnh mẽ, hoặc chi phí năng lượng tiệm cận 0
tôi nghĩ một dịch vụ tiêu thụ video thời gian thực quy mô lớn ở mức TikTok khó có thể bền vững về mặt lợi nhuận
Ở thời điểm hiện tại, video do người thật tự đăng vẫn tiết kiệm điện và chi phí hơn nhiều
Chiến lược OpenAI muốn phát triển Sora thành một mạng xã hội thực ra là cách Midjourney đã áp dụng với hình ảnh từ trước
Midjourney Explore - Videos
Nhiều người thích phong cách hình ảnh đặc trưng của Midjourney, và mô hình được học thông qua cấu trúc chấm điểm cùng tương tác
Khi tạo ảnh thì mức độ "thẩm mỹ" cũng dễ xử lý hơn
Meta gần đây cũng có thử nghiệm tương tự
Meta công bố Vibes AI Video
Tăng cường tính năng feed thiên về tiêu thụ rõ ràng là một trong những hướng đi
Một lý do khác là, thay vì để nhiều người cùng đổ tài nguyên vào một ô prompt trống giống nhau rồi tạo ra các kết quả na ná nhau
thì việc trước tiên cho xem ví dụ tốt và thông qua thảo luận liên quan để đạt được kết quả chất lượng cao nhanh hơn sẽ hiệu quả hơn
Mỗi lần nhìn thấy những công nghệ kiểu này tôi lại nhớ đến câu thoại của Jeff Goldblum trong Jurassic Park
Sếp tôi hay cho xem những video AI chất lượng chưa tới được làm bằng các công cụ này rồi hô lên rằng "đây là tương lai"
nhưng có vẻ chưa từng đặt ra câu hỏi căn bản kiểu "rốt cuộc ai muốn cái này, và ai sẽ xem nó?"
Nội dung AI hiện vẫn còn những giới hạn mà nhìn vào là nhận ra ngay
Ai sẽ thích xem một dòng video chỉ toàn được tạo bằng AI? Với Meta thì họ thích vì kiếm nội dung rẻ hơn nhiều so với trả tiền cho con người,
nhưng thực tế đó chỉ là thứ 'slop' chất lượng thấp
Vấn đề bản quyền đang bị xử lý quá lỏng lẻo
Về cơ bản Sora được thiết lập để sử dụng IP của người dùng trong video AI, và người dùng phải chủ động từ chối thì mới được loại trừ
Bài viết liên quan
Hơn nữa, những người đang thực hiện các dự án có sức ảnh hưởng lớn đến mức này dường như lại có ít trải nghiệm sống thực tế
và chỉ bị ám ảnh bởi công nghệ hào nhoáng mới lạ, không mấy quan tâm đến tác động và hệ quả
(Vibes của Meta cũng cùng một mạch như vậy)
Bài đó nói rõ là do robot viết, nên tôi cũng muốn biết liệu có nguồn nào chính xác hơn không
Trên Grok, các nhân vật có bản quyền đã bị dùng tự do hơn một năm nay nhưng vẫn chưa có vụ kiện nào
Công nghệ kiểu này cũng gợi ra khả năng trong tương lai sẽ cấp phép cho các thương hiệu
để tạo ra những video quảng cáo được tùy biến sâu hơn nhiều
Ví dụ, nếu trước khi đặt mua quần áo thật mà tôi có thể xem video mình đang mặc bộ đó thì sẽ là một trải nghiệm rất thú vị
Nếu còn có thể tạo theo thời gian thực thì thậm chí có thể tưởng tượng cảnh mỗi lần đi ngang qua gương trong trung tâm thương mại, hình ảnh của tôi tự động đổi sang nhiều bộ đồ khác nhau
Đúng là một thời đại rất phấn khích
Nếu tới mức đó thì có khi cũng chẳng cần mua quần áo thật nữa
Các influencer chỉ cần đăng video mô phỏng của bản thân lên SNS là đủ hài lòng, và có thể quảng bá chỉ bằng trải nghiệm mà không cần đến tận nơi
Tweet meme liên quan
Xa hơn nữa, còn có thể tạo cả video giả đang đi tiệc với bạn bè dù ngoài đời không hề ra ngoài
cuối cùng thì vẫn có thể ngồi nhà ăn kem nhưng trên SNS lại dựng nên hình ảnh một cuộc sống năng động
Hình như tôi đã thấy một cảnh tương tự trong Minority Report
Trong phim có đoạn quảng cáo gọi thẳng tên Tom Cruise, khá ấn tượng
Minority Report - wiki phim
Nó được gọi là 'Virtual Try On(VTO)' và hiện đã được dùng khá nhiều với hình ảnh tĩnh
Việc VTO cho video sớm xuất hiện là điều hoàn toàn dễ đoán
Sau cùng, có khả năng cách dùng phổ biến nhất của các mô hình video như vậy sẽ tập trung vào trực quan hóa tùy biến, ví dụ như thử sản phẩm ảo
Vì suy cho cùng con người vẫn thích tạo sự đồng cảm với con người hơn là với AI
Sora hay VEO cũng có thể mang lại thay đổi lớn cho việc sản xuất nội dung phim ảnh và TV
Tính năng bố trí nội thất AR (đặt thử đồ nội thất ảo trong nhà trước) trước đây cũng từng được gọi là đổi mới
nhưng thực tế gần như chẳng ai dùng
Lý do chính khiến tính năng tạo ảnh của ChatGPT thu hút hơn 100 triệu người dùng chỉ trong tuần đầu tiên là
vì mọi người cực kỳ thích tạo ảnh AI từ ảnh bạn bè, gia đình và thú cưng của chính mình
Tôi đoán 'tính năng cameo' cũng là một nỗ lực nhằm tái hiện sức hút lan truyền đó
nên chắc sẽ không có vấn đề gì trừ khi PETA phản đối
Điểm thú vị nhất là
khi người dùng đưa clip video của người hoặc sản phẩm vào prompt
AI sẽ tạo ra video chân thực dựa trên metadata đó
Về mặt kỹ thuật, điều này có vẻ là hiệu ứng của việc đã được huấn luyện trước trên một bộ dữ liệu rất tinh vi
còn từ góc nhìn người dùng thì đây có thể là một tính năng thương mại thực sự hữu ích
Tuy vậy, kiểu đổi mới dựa trên dữ liệu này Google cũng có thể sớm bắt kịp nhờ YouTube
và rất có thể họ đã vận hành công nghệ tương tự ở nội bộ rồi
Với tư cách người bỏ tiền thật của mình ra, những hình ảnh sản phẩm không có thật hay đã bị thao túng gần như là lừa dối
Tôi cho rằng các review/quảng cáo dựa trên ảo tưởng thay vì sản phẩm thực là có vấn đề về mặt đạo đức
Tất cả những gì đang được xây dựng này về cơ bản là bước tiến hướng tới một dòng nội dung AI tùy biến vô tận
một cấu trúc được tối ưu để tối đa hóa dopamine của từng cá nhân
Nó mang lại cảm giác như một Torment Nexus kiểu Skinner box (thiết bị thúc đẩy hành vi lặp lại vì khoái cảm)
Trước mắt, cấu trúc kiểu này vẫn chưa bền vững về mặt năng lượng hay tài nguyên
Một trong các prompt ví dụ là "trận chiến hoạt hình dữ dội giữa một cậu bé cầm thanh kiếm làm từ ánh sáng xanh và một ác linh"
gần như là cùng một concept với manga Nhật Blue Exorcist
Blue Exorcist (wiki)
Thậm chí prompt ví dụ còn có cả "'theo phong cách hoạt hình Studio Ghibli, một cậu bé và chú chó leo lên ngọn núi xanh, phía xa là một ngôi làng'"
Nhân vật rồng cũng cho cảm giác gần như bê nguyên từ How to Train Your Dragon
Tôi tự hỏi liệu họ có ký thỏa thuận với các chủ sở hữu bản quyền hay chỉ đang nhắm đến hiệu ứng truyền thông bằng cách lấy kiện tụng làm mồi câu
Xét về mặt kỹ thuật, đây thực sự là một kết quả rất ấn tượng
Chất lượng video đã đủ cao để tạo cảm giác cuốn hút, đồng thời cũng gây ra hiện tượng uncanny valley
Việc OpenAI dần dần giúp công chúng thích nghi với những công nghệ mới như thế này là rất đáng nể
Phiên bản này còn nhiều ràng buộc, nhưng cảm giác như chỉ cần qua thêm một hai thế hệ nữa là sẽ vượt qua ngưỡng công nghệ
Ví dụ trong thị trường LLM, Gemini 2.5 Pro là ngưỡng thật sự đó, và có vẻ Sora cũng sắp tới điểm bẻ lái tương tự
Từ góc nhìn của người sáng tạo, sẽ là lý tưởng nếu có tính năng trước tiên tạo thành bộ nhiều asset (bối cảnh, vật thể, v.v.) rồi nối nhiều cảnh lại với nhau một cách tự nhiên
Độ liên tục (continuity) của video đã tăng lên một cách đáng kinh ngạc
Tuy vậy vẫn còn một số lỗi dễ thấy
Tôi tò mò họ sẽ giải quyết các vấn đề storyboard phức tạp hơn như thế nào
Video đã che giấu vấn đề continuity bằng cách cắt dựng dồn dập và chuyển camera rất nhanh
Có thể thấy rõ ở mỗi cú cắt, mọi yếu tố như bèo tấm, xe trượt tuyết, v.v. đều liên tục thay đổi
Cuối cùng chỉ phần khuôn mặt là trông có vẻ nhất quán
Nhìn chung, các vấn đề điển hình của video AI vẫn còn nguyên, và gần như không có cảnh nào kéo dài quá 5 giây trong một môi trường đơn nhất
Cả cảnh đua vịt cũng vậy, khi Sam xuất hiện thì cỏ đã là một loại hoàn toàn khác
Việc ngay cả demo này cũng đầy lỗi
ngụ ý rằng kết quả của người dùng bình thường sẽ còn kém hơn nhiều
Ở cảnh dùng bo staff trong ao, góc cổ tay bị bẻ cong bất thường
Trong demo đánh gậy ở ao, có những đoạn rất dễ nhận ra là 'mùi AI', như việc cây gậy gỗ đột nhiên biến thành hình cây cung một cách rõ ràng