12 điểm bởi GN⁺ 2024-02-16 | 6 bình luận | Chia sẻ qua WhatsApp
  • Sora là mô hình AI tạo ra các cảnh chân thực và giàu trí tưởng tượng theo chỉ dẫn bằng văn bản
  • Có thể tạo video dài tối đa 1 phút, vừa bám sát prompt của người dùng vừa duy trì chất lượng hình ảnh
  • Giới thiệu các ví dụ video được tạo theo nhiều prompt khác nhau, cung cấp những kịch bản chi tiết
    • Tất cả video trên trang này đều do chính Sora tạo ra và hoàn toàn chưa qua chỉnh sửa
  • Hiện tại, Sora đang được cung cấp cho các nhóm 'red team' để đánh giá rủi ro, đồng thời OpenAI cũng đang nhận phản hồi từ các nghệ sĩ thị giác, nhà thiết kế và nhà làm phim
  • OpenAI muốn chia sẻ tiến độ nghiên cứu để nhận phản hồi từ bên ngoài và cho công chúng thấy tương lai của năng lực AI

Khả năng của Sora

  • Có thể tạo ra các cảnh phức tạp với nhiều nhân vật, chuyển động cụ thể, cùng các chi tiết chính xác của chủ thể và bối cảnh
  • Không chỉ hiểu prompt của người dùng mà còn hiểu cách mọi thứ tồn tại và vận hành trong thế giới vật lý

Tính an toàn của Sora

  • OpenAI dự kiến sẽ áp dụng nhiều biện pháp an toàn trước khi tích hợp Sora vào các sản phẩm của mình
  • Bao gồm phát triển công cụ phát hiện nội dung gây hiểu lầm, cũng như bộ phân loại có thể xác định liệu video có được tạo bởi Sora hay không

Công nghệ nghiên cứu

  • Sora là mô hình khuếch tán tạo video bằng cách bắt đầu từ một video đầy nhiễu rồi dần loại bỏ nhiễu
  • Sử dụng kiến trúc transformer tương tự các mô hình GPT để mang lại khả năng mở rộng vượt trội

Ý kiến của GN⁺

  • Sora là công nghệ AI đột phá tạo video từ chỉ dẫn bằng văn bản, mở ra những khả năng mới cho các chuyên gia sáng tạo
  • Thông qua các biện pháp an toàn và phản hồi, hệ thống có thể học cách được sử dụng trong thế giới thực và đóng vai trò quan trọng trong việc từng bước làm cho AI an toàn hơn
  • Công nghệ này có vẻ sẽ trở thành một cột mốc quan trọng trên con đường hướng tới AGI (trí tuệ nhân tạo tổng quát) trong tương lai

6 bình luận

 
draupnir 2024-02-17

Thật sự chỉ biết thốt lên đầy thán phục thôi.
Sắp nhận được 7 nghìn tỷ rồi chăng...?

 
laeyoung 2024-02-16

Nếu chỉ nhìn qua loa thì khó mà biết đó là video thật hay video do AI tạo ra.

 
edunga1 2024-02-16

Wow... mình muốn thử dùng sớm quá.
Vậy "mô hình khuếch tán" nghĩa là nó hoạt động theo cách giống như Stable Diffusion đúng không?

 
dothx 2024-02-16

Chắc thị trường stock photo và stock video sẽ khó khăn đây..

 
xguru 2024-02-16

Chất lượng tạo sinh thật đáng kinh ngạc. Công nghệ phát triển nhanh đến vậy sao?

 
GN⁺ 2024-02-16
Ý kiến trên Hacker News
  • Một người dùng bày tỏ lo ngại về tương lai dù thừa nhận thành tựu kỹ thuật này. Họ cho rằng mạng lưới an sinh xã hội còn thiếu và chúng ta cũng không tiến gần hơn tới thu nhập cơ bản phổ quát (UBI). Họ cũng thể hiện nỗi sợ về việc một công ty nắm quá nhiều quyền lực.
  • Một người dùng khác rất ấn tượng với chất lượng chuyển động do máy tính tạo ra. Đặc biệt, khác với motion capture, việc tái hiện chuyển động chân thực trong hoạt hình máy tính vốn rất khó, nhưng lần này lại cho cảm giác cực kỳ chân thật.
  • Một người dùng khác nữa nhấn mạnh tầm quan trọng của mô hình ở chỗ nó thể hiện sự hiểu biết về vật lý và mối quan hệ giữa các vật thể, vượt ra ngoài khía cạnh hình ảnh/video. Họ đánh giá rằng những ví dụ được nêu là ca thất bại thực ra lại là các trường hợp quan trọng cho thấy mô hình có hiểu biết rất mạnh về thế giới.
  • Theo The Hollywood Reporter, nhiều người trong ngành đang cảm thấy lo sợ cho công việc của mình do sự phát triển của các công cụ AI. Một số đang cân nhắc rời khỏi ngành, và các công cụ AI được dự đoán sẽ ảnh hưởng đến việc làm, đặc biệt trong lĩnh vực sản xuất quảng cáo.
  • Một người dùng nhắc đến việc kết quả này vượt xa các mô hình hiện đang được công bố.
  • Một người dùng khác chú ý đến những lỗi nhỏ được phát hiện trong video Tokyo, đồng thời đặt câu hỏi liệu nội dung được tạo ra có phải lúc nào cũng sẽ tồn tại những lỗi như vậy hay không, và liệu những đứa trẻ tiếp xúc với nội dung tạo sinh từ nhỏ có trở nên vô cảm với các lỗi đó hay không.
  • Một người dùng cho rằng mô hình Gemini 1.5 đã trở nên lỗi thời và bày tỏ sự ngạc nhiên khi Google công bố điều đó qua một bài blog.
  • Một lập trình viên bày tỏ cảm giác điềm gở trước sự phát triển của AI, và nói rằng điều đó vượt xa nỗi sợ đơn thuần về việc có thể mất việc. Về chất lượng video, họ đánh giá là ấn tượng đến mức khó tin.
  • Một người dùng đặt ra câu hỏi kỹ thuật về cách tạo video, tò mò về việc mô hình tách cấu trúc hình học của cảnh và camera theo cách nào.
  • Người dùng cuối cùng cho rằng sự phát triển của công nghệ sẽ mang lại thay đổi văn hóa, khiến mọi người muốn xem nhiều hơn các vở kịch do con người biểu diễn, các buổi diễn thuyết và hòa nhạc tại nhà hát. Giống như việc vinyl trở nên phổ biến trở lại, họ dự đoán nhà hát cũng có thể được ưa chuộng trở lại.