[Bản dịch] Road to Sora: Giới thiệu các nghiên cứu nền tảng để hiểu Sora của OpenAI (feat. Oxen.AI)

(discuss.pytorch.kr)

6 điểm bởi ninebow 2024-03-26 | 1 bình luận | Chia sẻ qua WhatsApp

Oxen.AI, đơn vị phát triển các công cụ bộ dữ liệu AI chất lượng cao, đang vận hành ArXiv Dives, nơi đọc các bài báo AI và chia sẻ insight vào mỗi thứ Sáu hằng tuần.
Bài viết này là bản dịch được chia sẻ với sự cho phép từ bài Road to Sora, đã được trình bày trong ArXiv Dives vào đầu tháng 3.
Bản dịch Road to Sora lần này hướng tới việc tìm hiểu những kiến thức cần thiết để hiểu mô hình Sora, dựa trên tài liệu kỹ thuật về Sora, mô hình tạo ảnh do OpenAI công bố.

Road to Sora: Những nghiên cứu để hiểu Sora của OpenAI / "Road to Sora" Paper Reading List

by Greg Schoeninger, Mar 5, 2024

Bài viết này là một phần trong nỗ lực tổng hợp danh sách đọc cho câu lạc bộ đọc paper thứ Sáu của chúng tôi mang tên ArXiv Dives. Vì hiện vẫn chưa có bài báo chính thức nào được công bố về Sora, mục tiêu là lần theo các manh mối từ báo cáo kỹ thuật về Sora của OpenAI. Trong vài tuần tới, chúng tôi dự định sẽ cùng xem lại một số bài báo nền tảng trong câu lạc bộ đọc paper thứ Sáu để phác họa rõ hơn những gì đang diễn ra phía sau bức màn của Sora.

This post is an effort to put together a reading list for our Friday paper club called ArXiv Dives. Since there has not been an official paper released yet for Sora, the goal is follow the bread crumbs from OpenAI's technical report on Sora. We plan on going over a few of the fundamental papers in the coming weeks during our Friday paper club, to help paint a better picture of what is going on behind the curtain of Sora.

Sora là gì? / What is Sora?

Sora là một mô hình đã tạo nên tiếng vang lớn trong lĩnh vực AI tạo sinh, với khả năng tạo video chất lượng cao từ prompt ngôn ngữ tự nhiên. Nếu bạn vẫn chưa xem ví dụ nào về Sora, hãy xem thử video rùa bơi trong rạn san hô bên dưới.

Sora has taken the Generative AI space by storm with it's ability to generate high fidelity videos from natural language prompts. If you haven't seen an example yet, here's a generated video of a turtle swimming in a coral reef for your enjoyment.

Dù đội ngũ OpenAI chưa công bố một bài báo nghiên cứu chính thức về các chi tiết kỹ thuật của chính mô hình này, họ đã phát hành một tài liệu kỹ thuật đề cập đến một số chi tiết ở mức độ cao về các kỹ thuật đã sử dụng cùng một số kết quả định tính.

While the team at OpenAI has not released an official research paper on the technical details of the model itself, they did release a technical report that covers some high level details of the techniques they used and some qualitative results.

https://openai.com/research/video-generation-models-as-world-simulators

Tổng quan kiến trúc Sora / Sora Architecture Overview

Sau khi đọc các bài báo bên dưới, kiến trúc của Sora sẽ bắt đầu trở nên dễ hiểu hơn. Tài liệu kỹ thuật là một cái nhìn rất khái quát, và tôi hy vọng mỗi bài báo sẽ phóng to vào các khía cạnh khác nhau để vẽ nên bức tranh toàn cảnh. Có một bài tổng quan tài liệu rất hay mang tên "Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models", trong đó cung cấp một sơ đồ cấp cao của kiến trúc được reverse-engineer.

After reading the papers below, the architecture here should start to make sense. The technical report is a 10,000 foot view and my hope is that each paper will zoom into different aspects and paint the full picture. There is a nice literature review called "Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models" that gives a high level diagram of a reverse engineered architecture.

Đội ngũ OpenAI cho biết Sora là một “Diffusion Transformer”, kết hợp nhiều khái niệm được liệt kê trong các bài báo ở trên, nhưng được áp dụng cho các latent spacetime patch được tạo ra từ video.

The team at OpenAI states that Sora is a "Diffusion Transformer" which combines many of the concepts listed in the papers above, but applied applied to latent spacetime patches generated from video.

Đây là sự kết hợp giữa kiểu patch được sử dụng trong bài báo Vision Transformer (ViT) và không gian latent tương tự như trong bài báo Latent Diffusion, nhưng được kết hợp theo kiểu của Diffusion Transformer. Không chỉ có patch theo chiều rộng (width) và chiều cao (height) của ảnh, nó còn mở rộng sang cả chiều thời gian của video.

This is a combination of the style of patches used in the Vision Transformer (ViT) paper, with latent spaces similar to the Latent Diffusion Paper, but combined in the style of the Diffusion Transformer. They not only have patches in width and height of the image but extend it to the time dimension of video.

Rất khó để nói chính xác họ đã thu thập dữ liệu huấn luyện cho tất cả những điều này như thế nào, nhưng có vẻ như họ không chỉ kết hợp các kỹ thuật trong bài báo DALL-E 3 mà còn dùng GPT-4 để mở rộng thành các mô tả văn bản chi tiết cho từng hình ảnh, rồi sau đó chuyển chúng thành video. Dữ liệu huấn luyện nhiều khả năng là bí quyết quan trọng nhất ở đây, vì vậy đây cũng là phần có ít chi tiết nhất trong báo cáo kỹ thuật.

It's hard to say how exactly they collected the training data for all of this, but it seems like a combination of the techniques in the Dalle-3 paper as well as using GPT-4 to elaborate on textual descriptions of images, that they then turn into videos. Training data is likely the main secret sauce here, hence has the least level of detail in the technical report.

Trường hợp sử dụng / Use Cases

Các công nghệ tạo video như Sora có rất nhiều trường hợp sử dụng và ứng dụng thú vị. Từ điện ảnh, giáo dục, game, y tế cho đến robot học, việc tạo ra các video chân thực từ prompt ngôn ngữ tự nhiên chắc chắn sẽ làm rung chuyển nhiều ngành công nghiệp.

There are many interesting use cases and applications for video generation technologies like Sora. Whether it be movies, education, gaming, healthcare or robotics, there is no doubt generating realistic videos from natural language prompts is going to shake up multiple industries.

Ghi chú ở cuối sơ đồ này cũng rất đúng với Oxen.ai. Nếu bạn chưa quen với Oxen.ai, chúng tôi đang xây dựng các công cụ mã nguồn mở để giúp bạn cộng tác và đánh giá dữ liệu đi vào và đi ra từ các mô hình machine learning. Chúng tôi tin rằng nhiều người cần có khả năng quan sát đối với dữ liệu này, và đó nên là một nỗ lực mang tính cộng tác. AI đang tác động đến rất nhiều lĩnh vực và ngành nghề khác nhau, và càng có nhiều người xem xét dữ liệu dùng để huấn luyện và đánh giá các mô hình này thì kết quả sẽ càng tốt hơn.

The note at the bottom of this diagram rings true for us at Oxen.ai. If you are not familiar with Oxen.ai we are building open source tools to help you collaborate on and evaluate data the comes in and out of machine learning models. We believe that many people need visibility into this data, and that it should be a collaborative effort. AI is touching many different fields and industries and the more eyes on the data that trains and evaluates these models, the better.

Bạn có thể xem thêm tại đây: https://oxen.ai

Check us out here: https://oxen.ai

Danh sách bài đọc / Paper Reading List

Trong phần tài liệu tham khảo của tài liệu kỹ thuật do OpenAI công bố, có rất nhiều bài báo được liên kết, nhưng khá khó để biết nên đọc bài nào trước hoặc bài nào là kiến thức nền quan trọng. Chúng tôi đã sàng lọc chúng và chọn ra những bài mà chúng tôi cho là có tác động lớn nhất và thú vị nhất để đọc, rồi sắp xếp chúng theo từng nhóm.

There are many papers linked in the references section of the OpenAI technical report but it is a bit hard to know which ones to read first or are important background knowledge. We've sifted through them and selected what we think are the most impactful and interesting ones to read, and organized them by type.

Các bài báo kiến thức nền / Background Papers

Chất lượng của ảnh và video được tạo ra đã liên tục được cải thiện kể từ năm 2015. Những bước tiến lớn nhất thu hút sự chú ý của công chúng bắt đầu từ năm 2022 với Midjourney, Stable Diffusion và DALL-E. Phần này bao gồm một số bài báo nền tảng và kiến trúc mô hình được nhắc đến lặp đi lặp lại trong các tài liệu. Dù không phải mọi bài báo đều liên quan trực tiếp đến kiến trúc của Sora, tất cả chúng đều là bối cảnh quan trọng để hiểu công nghệ tiên tiến nhất đã được cải thiện theo thời gian như thế nào.

The quality of generated images and video have been steadily increasing since 2015. The biggest gains that caught the general public's eyes began in 2022 with Midjourney, Stable Diffusion and Dalle. This section contains some foundational papers and model architectures that are referenced over and over again in the literature. While not all papers are directly involved in the Sora architecture, they are all important context for how the state of the art has improved over time.

Chúng tôi đã đề cập đến phần lớn các bài báo dưới đây trong các kỳ ArXiv Dives trước đó, vì vậy nếu muốn cập nhật thêm, hãy xem toàn bộ nội dung trên blog của Oxen.ai.

https://www.oxen.ai/community/arxiv-dives

U-Net

Bài báo "U-Net: Mạng tích chập cho phân đoạn ảnh y sinh (U-Net: Convolutional Networks for Biomedical Image Segmentatio)" là một ví dụ điển hình về một công trình ban đầu được dùng cho một tác vụ trong một lĩnh vực cụ thể (ở đây là ảnh y sinh) nhưng sau đó được áp dụng cho rất nhiều trường hợp sử dụng khác nhau. Điểm đáng chú ý nhất là nó trở thành kiến trúc xương sống của nhiều mô hình diffusion như Stable Diffusion, giúp việc học dự đoán và giảm nhiễu ở từng bước trở nên khả thi. Dù không được dùng trực tiếp trong kiến trúc Sora, đây vẫn là kiến thức nền quan trọng để hiểu thế hệ kỹ thuật tiên tiến trước đó.

"U-Net: Convolutional Networks for Biomedical Image Segmentation" là một ví dụ tuyệt vời về một bài báo được dùng cho một tác vụ trong một lĩnh vực (ảnh y sinh) rồi được áp dụng rộng rãi cho nhiều trường hợp sử dụng khác nhau. Đáng chú ý nhất là nó là kiến trúc nền của nhiều mô hình diffusion như Stable Diffusion, giúp học cách dự đoán và giảm nhiễu ở mỗi bước. Dù không được dùng trực tiếp trong kiến trúc Sora, đây là kiến thức nền quan trọng về trạng thái kỹ thuật tiên tiến trước đó.

https://arxiv.org/abs/1505.04597

Transformer ngôn ngữ / Language Transformers

Bài báo "Chỉ cần Attention là đủ (Attnetion is All You Need)" là một công trình khác ban đầu chứng minh hiệu quả trên tác vụ dịch máy, nhưng cuối cùng đã trở thành bài báo nền tảng cho toàn bộ lĩnh vực nghiên cứu xử lý ngôn ngữ tự nhiên. Transformer hiện là xương sống của nhiều ứng dụng LLM như ChatGPT. Sau đó, transformer được mở rộng sang nhiều phương thức khác nhau và được dùng như một thành phần trong kiến trúc Sora.

"Attention Is All You Need" là một bài báo khác đã chứng minh giá trị của mình trong tác vụ dịch máy, nhưng rồi trở thành một công trình nền tảng cho toàn bộ nghiên cứu xử lý ngôn ngữ tự nhiên. Transformer hiện là xương sống của nhiều ứng dụng LLM như ChatGPT. Transformer cuối cùng có thể mở rộng sang nhiều phương thức và được dùng như một thành phần của kiến trúc Sora.

https://arxiv.org/abs/1706.03762

Transformer thị giác / Vision Transformer (ViT)

Bài báo "Một bức ảnh đáng giá 16x16 từ: Transformer cho nhận dạng ảnh ở quy mô lớn (An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale)" là một trong những công trình đầu tiên áp dụng transformer vào nhận dạng hình ảnh, chứng minh rằng chúng có thể vượt qua ResNet và các mạng nơ-ron tích chập khác nếu được huấn luyện trên tập dữ liệu đủ lớn. Bài báo này lấy kiến trúc từ bài "Attention is All You Need" và áp dụng nó cho các tác vụ thị giác máy tính. Thay vì dùng token văn bản làm đầu vào, ViT dùng các patch ảnh 16x16 làm đầu vào.

"An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale" là một trong những bài báo đầu tiên áp dụng Transformer vào nhận dạng hình ảnh, chứng minh rằng chúng có thể vượt qua ResNet và các Mạng nơ-ron tích chập khác nếu bạn huấn luyện chúng trên các tập dữ liệu đủ lớn. Công trình này lấy kiến trúc từ bài báo "Attention Is All You Need" và khiến nó hoạt động cho các tác vụ thị giác máy tính. Thay vì đầu vào là các token văn bản, ViT sử dụng các patch ảnh 16x16 làm đầu vào.

https://arxiv.org/abs/2010.11929

Mô hình khuếch tán tiềm ẩn / Latent Diffusion Models

"Tổng hợp ảnh độ phân giải cao bằng mô hình khuếch tán tiềm ẩn (High-Resolution Image Synthesis with Latent Diffusion Models)" là công nghệ nền tảng phía sau nhiều mô hình tạo ảnh như Stable Diffusion. Công trình này cho thấy cách có thể tái cấu trúc việc tạo ảnh thành một chuỗi auto-encoder khử nhiễu từ một biểu diễn tiềm ẩn (latent representation). Các mô hình này dùng kiến trúc U-Net được nhắc ở trên làm xương sống cho quá trình sinh ảnh. Những mô hình như vậy có thể tạo ra hình ảnh chân thực khi được cung cấp đầu vào văn bản bất kỳ.

"High-Resolution Image Synthesis with Latent Diffusion Models" là kỹ thuật đứng sau nhiều mô hình tạo ảnh như Stable Diffusion. Chúng cho thấy cách bạn có thể tái biểu diễn quá trình tạo ảnh thành một chuỗi auto-encoder khử nhiễu từ một biểu diễn tiềm ẩn. Chúng sử dụng kiến trúc U-Net được nhắc tới ở trên làm xương sống của quá trình sinh. Các mô hình này có thể tạo ra hình ảnh chân thực như ảnh chụp với bất kỳ đầu vào văn bản nào.

https://arxiv.org/abs/2112.10752

CLIP

"Học các mô hình thị giác có khả năng chuyển giao từ giám sát ngôn ngữ tự nhiên (Learning Transferable Visual Models From Natural Language Supervision)" còn được gọi là tiền huấn luyện đối sánh ngôn ngữ-hình ảnh (CLIP; Contrastive Language-Image Pre-training), là một kỹ thuật nhúng dữ liệu văn bản và dữ liệu hình ảnh vào cùng một không gian tiềm ẩn. Kỹ thuật này giúp kết nối khả năng hiểu ngôn ngữ và khả năng hiểu thị giác của các mô hình sinh bằng cách đảm bảo độ tương đồng cosine giữa biểu diễn văn bản và hình ảnh là cao đối với các cặp văn bản-hình ảnh.

"Learning Transferable Visual Models From Natural Language Supervision" often referred to as Contrastive Language-Image Pre-training (CLIP) is a technique for embedding text data and image data into the same latent space as each other. This technique helps connect the language understanding half of generative models to the visual understanding half by making sure that the cosine similarity between the text and image representations are high between text and image pairs.

https://arxiv.org/abs/2103.00020

VQ-VAE

Theo tài liệu kỹ thuật của Sora, họ giảm số chiều của video thô bằng bộ mã hóa tự động biến phân lượng tử hóa vectơ (VQ-VAE, Vector Quantized Variational Auto Encoder). Mô hình VAE được biết đến là một phương pháp tiền huấn luyện không giám sát mạnh mẽ để học các biểu diễn tiềm ẩn.

According to the technical report, they reduce the dimensionality of the raw video with a Vector Quantised Variational Auto Encoder (VQ-VAE). VAEs have been shown to be a powerful unsupervised pre-training method to learn latent representations.

https://arxiv.org/abs/1711.00937

Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution

Tài liệu kỹ thuật của Sora giải thích cách họ tiếp nhận video với mọi tỷ lệ khung hình và cách điều đó cho phép họ huấn luyện trên một tập dữ liệu lớn hơn nhiều. Càng có thể đưa nhiều dữ liệu vào mô hình mà không cần cắt xén, họ càng đạt được kết quả tốt hơn. Bài báo này sử dụng cùng kỹ thuật đó cho hình ảnh, còn Sora mở rộng nó sang video.

The Sora technical report talks about how they take in videos of any aspect ratio, and how this allows them to train on a much larger set of data. The more data they can feed the model without having to crop it, the better results they get. This paper uses the same technique but for images, and Sora extends it for video.

https://arxiv.org/abs/2307.06304

Các bài báo trong lĩnh vực tạo video / Video Generation Papers

Họ nhắc đến một vài bài báo về tạo video đã truyền cảm hứng cho Sora và đưa các mô hình sinh ở trên lên một tầm cao mới bằng cách áp dụng chúng vào video.

ViViT: A Video Vision Transformer

Bài báo này trình bày chi tiết cách chia video thành các "spatio-temporal tokens" cần thiết cho các tác vụ video. Bài báo tập trung vào phân loại video, nhưng cùng cách token hóa đó cũng có thể được áp dụng cho tác vụ tạo video.

This paper goes into details about how you can chop the video into "spatio-temporal tokens" needed for video tasks. The paper focuses on video classification, but the same tokenization can be applied to generating video.

https://arxiv.org/abs/2103.15691

Imagen Video: High Definition Video Generation with Diffusion Models

Imagen là một hệ thống tạo video có điều kiện theo văn bản (text-conditional video generation system) dựa trên một chuỗi các mô hình khuếch tán video. Họ sử dụng tích chập theo chiều thời gian và kỹ thuật Super Resolution để tạo ra video chất lượng cao từ văn bản.

Imagen is a text-conditional video generation system based on a cascade of video diffusion models. They use convolutions in the temporal direction and super resolution to generate high quality videos from text.

https://arxiv.org/abs/2210.02303

Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models

Bài báo này lấy các mô hình khuếch tán tiềm ẩn từ những bài báo về tạo ảnh ở trên và đưa thêm một chiều thời gian (temporal dimension) vào không gian tiềm ẩn. Tại đây, họ áp dụng một số kỹ thuật thú vị trong chiều thời gian bằng cách căn chỉnh các không gian tiềm ẩn, nhưng vẫn chưa đạt tới mức độ nhất quán theo thời gian như Sora.

This paper takes the latent diffusion models from the image generation papers above and introduces a temporal dimension to the latent space. They apply some interesting techniques in the temporal dimension by aligning the latent spaces, but does not quite have the temporal consistency of Sora yet.

https://arxiv.org/abs/2304.08818

Photorealistic video generation with diffusion models

Bài báo này giới thiệu W.A.L.T, một cách tiếp cận dựa trên Transformer để tạo video chân thực bằng mô hình khuếch tán. Theo hiểu biết của tôi, đây có vẻ là kỹ thuật gần với Sora nhất trong danh sách tham khảo, và được các nhóm từ Google, Stanford và Georgia Tech công bố vào tháng 12 năm 2023.

They introduce W.A.L.T, a transformer-based approach for photorealistic video generation via diffusion modeling. This feels like the closest technique to Sora in the reference list as far as I can tell, and was released in December of 2023 by the teams at Google, Stanford and Georgia Tech.

https://arxiv.org/abs/2312.06662

Các bài báo trong lĩnh vực hiểu thị giác-ngôn ngữ / Vision-Language Understanding

Để tạo video từ prompt văn bản, cần thu thập các bộ dữ liệu quy mô lớn. Vì con người không thể trực tiếp gắn nhãn cho số lượng video lớn như vậy, có vẻ như người ta sử dụng các kỹ thuật dữ liệu tổng hợp tương tự như được mô tả trong bài báo DALL-E 3.

In order to Generate Videos from text prompts, they need to collect a large dataset. It is not feasible to have humans label that many videos, so it seems they use some synthetic data techniques similar to those described in the DALL·E 3 paper.

DALL·E 3

Để huấn luyện các hệ thống tạo văn bản thành video, cần một lượng lớn video đi kèm với các chú thích văn bản tương ứng. Họ áp dụng kỹ thuật re-captioning được giới thiệu trong DALL·E 3 cho video. Tương tự như DALL·E 3, họ cũng tận dụng GPT để chuyển các prompt ngắn của người dùng thành những chú thích dài và chi tiết hơn rồi gửi tới mô hình video.

Training text-to-video generation systems requires a large amount of videos with corresponding text captions. They apply the re-captioning technique introduced in DALL·E 3 to videos. Similar to DALL·E 3, they also leverage GPT to turn short user prompts into longer detailed captions that are sent to the video model.

https://openai.com/dall-e-3

Llava

Để mô hình có thể làm theo chỉ dẫn của người dùng, rất có thể họ đã thực hiện instruction fine-tuning tương tự như trong bài báo Llava. Bài báo này cũng cho thấy một số kỹ thuật dữ liệu tổng hợp để tạo ra các bộ dữ liệu chỉ dẫn quy mô lớn, có thể rất thú vị khi kết hợp với các phương pháp của DALL-E ở trên.

In order for the model to be able to follow user instructions, they likely did some instruction fine-tuning similar to the Llava paper. This paper also shows some synthetic data techniques to create a large instruction dataset that could be interesting in combination with the Dalle methods above.

https://arxiv.org/abs/2304.08485

Make-A-Video & Tune-A-Video

Các bài báo như Make-A-Video và Tune-A-Video cho thấy prompt engineering tận dụng khả năng hiểu ngôn ngữ tự nhiên của mô hình để giải mã các chỉ dẫn phức tạp và chuyển chúng thành những mạch truyện video mạch lạc, sống động và chất lượng cao. Ví dụ, có thể mở rộng một prompt đơn giản của người dùng bằng các tính từ và động từ để thể hiện cảnh quay phong phú hơn.

Papers like Make-A-Video and Tune-A-Video have shown how prompt engineering leverages model’s natural language understanding ability to decode complex instructions and render them into cohesive, lively, and high-quality video narratives. For example: taking a simple user prompt and extending it with adjectives and verbs to more fully flush out the scene.

https://arxiv.org/abs/2209.14792

https://arxiv.org/abs/2212.11565

Kết luận / Conclusion

Hy vọng bài viết này sẽ là điểm khởi đầu để bạn tìm hiểu về tất cả những thành phần quan trọng có thể tạo nên một hệ thống như Sora! Nếu bạn nghĩ rằng chúng tôi đã bỏ sót điều gì, hãy cứ gửi email cho chúng tôi theo địa chỉ hello@oxen.ai.

We hope this gives you a jumping off point for all the important components that could make up a system like Sora! If you think we missed anything, feel free to email us at hello@oxen.ai.

Những bài báo được giới thiệu ở đây hoàn toàn không phải là các tài liệu đọc nhẹ nhàng. Vì vậy vào mỗi thứ Sáu, chúng tôi chọn từng bài báo một, đọc chậm lại và diễn giải chủ đề bằng ngôn ngữ dễ hiểu để ai cũng có thể nắm bắt. Chúng tôi tin rằng bất kỳ ai cũng có thể đóng góp vào việc xây dựng các hệ thống AI, và bạn càng hiểu rõ nền tảng thì càng nhận ra nhiều quy luật hơn và tạo ra những sản phẩm tốt hơn.

It is by no means a light set of reading. This is why on Fridays we take one paper at a time, slow down, and break down the topics in plain speak so anyone can understand. We believe anyone can contribute to building AI systems, and the more you understand the fundamentals, the more patterns you will spot, and better products you will build.

https://www.oxen.ai/community

Hãy đồng hành cùng chúng tôi trên hành trình học hỏi bằng cách đăng ký ArXiv Dives hoặc đơn giản là tham gia cộng đồng Discord của Oxen.ai.

Join us on a learning journey either by signing up for ArXiv Dives or simply joining the Oxen.ai Discord community.

https://discord.com/invite/s3tBEn7Ptg

Bài gốc

https://www.oxen.ai/blog/road-to-sora-reading-list

⚠️Quảng cáo⚠️: Bài viết do :pytorch:Nhóm Người dùng PyTorch Hàn Quốc:kr: tổng hợp này có hữu ích với bạn không? Nếu đăng ký thành viên, chúng tôi sẽ gửi các bài viết nổi bật qua email :love_letter:! (Mặc định là Weekly, nhưng cũng có thể đổi sang Daily.)

1 bình luận

ninebow 2024-03-26

Sora của OpenAI: