3 điểm bởi ninebow 2024-05-22 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  • Chúng tôi đã thử dịch tự động bài viết về các bài báo ML được DAIR.AI công bố hằng tuần.

  • Xu hướng chính có thể quan sát từ các bài báo được công bố trong tuần này là có nhiều nghiên cứu tập trung vào xử lý ngôn ngữ tự nhiên (NLP) và học tăng cường (RL). Ví dụ, "GPT-4o", "Fine-tuning and Hallucinations" và "Zero-shot Tokenizer Transfer" đề cập đến các công nghệ và phương pháp mới nhất liên quan đến xử lý ngôn ngữ tự nhiên, đặc biệt khám phá những tiến bộ trong các lĩnh vực như mô hình sinh và học chuyển giao tokenizer. Ngoài ra, "RLHF Workflow" trình bày nghiên cứu về thiết kế quy trình học hiệu quả bằng cách tận dụng học tăng cường, có thể xem là một nỗ lực nhằm mở rộng khả năng ứng dụng thực tiễn của lĩnh vực RL.

  • Xu hướng này phản ánh tầm quan trọng ngày càng gia tăng của xử lý ngôn ngữ tự nhiên và học tăng cường, những thành tố đóng vai trò cốt lõi trong sự phát triển của công nghệ trí tuệ nhân tạo, đặc biệt là machine learning và deep learning. Cùng với sự tăng trưởng bùng nổ của các mô hình sinh ngôn ngữ như GPT trong những năm gần đây, phạm vi ứng dụng của chúng tiếp tục được mở rộng, và điều này cũng khiến các nhà nghiên cứu ngày càng quan tâm đến việc tinh chỉnh các mô hình này tinh vi hơn cũng như nghiên cứu để khắc phục điểm yếu của các mô hình hiện có. Đồng thời, học tăng cường đã trở thành một kỹ thuật quan trọng trong việc tối ưu hóa quá trình ra quyết định và nâng cao năng lực học trong môi trường phức tạp, phù hợp với xu hướng nghiên cứu hiện nay là tối đa hóa hiệu quả học tập.

  • Vì vậy, các bài báo được công bố trong tuần này cho thấy rõ nỗ lực R&D trong giới học thuật và công nghiệp đang tiến triển theo hướng nào. Xử lý ngôn ngữ tự nhiên là cốt lõi của công nghệ nhằm làm cho tương tác giữa con người và máy móc trở nên tự nhiên và hiệu quả hơn, còn học tăng cường đóng vai trò quan trọng trong việc tối ưu hóa quá trình ra quyết định dựa trên những tương tác đó. Những xu hướng nghiên cứu này sẽ tiếp tục là chỉ dấu quan trọng cho định hướng tương lai của công nghệ trí tuệ nhân tạo đang không ngừng tiến hóa.


GPT-4o

Giới thiệu

Một mô hình mới có khả năng suy luận đa phương thức với hỗ trợ thời gian thực trên âm thanh, thị giác và văn bản; mô hình này có thể nhận đầu vào là bất kỳ tổ hợp nào của văn bản, âm thanh, hình ảnh và video để tạo ra các tổ hợp đầu ra gồm văn bản, âm thanh và hình ảnh; theo báo cáo, mô hình đạt hiệu năng tương đương GPT-4 Turbo trong khi thông qua API lại nhanh hơn và rẻ hơn tới 50%.

A new model with multimodal reasoning capabilities with real-time support across audio, vision, and text; it can accept as input any combination of text, audio, image, and video to generate combinations of text, audio, and image outputs; it’s reported to match GPT-4 Turbo performance while being 50% much faster and cheaper via APIs.

Liên kết liên quan

https://openai.com/index/hello-gpt-4o/

Đọc thêm

https://discuss.pytorch.kr/t/openai-gpt-4o-gpt-4o/4362

https://x.com/OpenAI/status/1790072174117613963


Gemini 1.5 Flash / Gemini 1.5 Flash

Giới thiệu bài báo

Một mô hình decoder transformer nhẹ với cửa sổ ngữ cảnh 2M cùng khả năng đa phương thức; mô hình được thiết kế để tối ưu hiệu quả và cho tốc độ sinh đầu ra nhanh nhất trong số mọi mô hình trên nhiều ngôn ngữ được đánh giá; nhìn chung, Gemini 1.5 Flash thể hiện hiệu năng vượt trội đồng đều so với Gemini 1.0 Pro và thậm chí đạt mức tương đương 1.0 Ultra trên nhiều benchmark.

A lightweight transformer decoder model with a 2M context window with multimodal capabilities; it is designed for efficiency and yields the fastest output generation of all models on several evaluated languages; overall, Gemini 1.5 Flash performs uniformly better compared to Gemini 1.0 Pro and even performs at a similar level to 1.0 Ultra on several benchmarks.

Tóm tắt bài báo (Abstract)

Báo cáo này giới thiệu họ mô hình Gemini 1.5, đại diện cho thế hệ mô hình đa phương thức tiếp theo có hiệu quả tính toán cao, có khả năng ghi nhớ và suy luận trên thông tin chi tiết từ hàng triệu token ngữ cảnh, bao gồm nhiều tài liệu dài cùng nhiều giờ video và âm thanh. Họ mô hình này bao gồm hai mô hình mới: (1) Gemini 1.5 Pro đã được cập nhật, vượt phiên bản tháng 2 ở phần lớn tính năng và benchmark; (2) Gemini 1.5 Flash, một biến thể nhẹ hơn được thiết kế để tối ưu hiệu quả với mức suy giảm chất lượng tối thiểu. Các mô hình Gemini 1.5 đạt khả năng truy hồi gần như hoàn hảo trong các tác vụ truy xuất ngữ cảnh dài trên nhiều modality, cải thiện hiệu năng SOTA trong QA tài liệu dài, QA video dài và ASR ngữ cảnh dài, đồng thời sánh ngang hoặc vượt qua hiệu năng SOTA của Gemini 1.0 Ultra trên một tập benchmark rộng lớn. Khi nghiên cứu giới hạn khả năng ngữ cảnh dài của Gemini 1.5, kết quả cho thấy dự đoán token tiếp theo và truy xuất gần như hoàn hảo (>99%) tiếp tục được cải thiện ổn định tới ít nhất 10M token, tạo ra bước nhảy vọt cả một thế hệ so với các mô hình hiện có như Claude 3.0 (200k) và GPT-4 Turbo (128k). Cuối cùng, báo cáo nêu bật các trường hợp sử dụng thực tế, như việc Gemini 1.5 cộng tác với các chuyên gia để hoàn thành công việc của họ, giúp tiết kiệm từ 26 đến 75% thời gian trong 10 nhóm nghề nghiệp khác nhau, cũng như những năng lực mới đáng kinh ngạc ở biên giới của các mô hình ngôn ngữ lớn; khi được cung cấp một cẩm nang ngữ pháp của Kalamang, một ngôn ngữ có chưa đến 200 người sử dụng trên toàn thế giới, mô hình học cách dịch từ tiếng Anh sang Kalamang ở mức tương đương một người học từ cùng nội dung đó.

In this report, we introduce the Gemini 1.5 family of models, representing the next generation of highly compute-efficient multimodal models capable of recalling and reasoning over fine-grained information from millions of tokens of context, including multiple long documents and hours of video and audio. The family includes two new models: (1) an updated Gemini 1.5 Pro, which exceeds the February version on the great majority of capabilities and benchmarks; (2) Gemini 1.5 Flash, a more lightweight variant designed for efficiency with minimal regression in quality. Gemini 1.5 models achieve near-perfect recall on long-context retrieval tasks across modalities, improve the state-of-the-art in long-document QA, long-video QA and long-context ASR, and match or surpass Gemini 1.0 Ultra’s state-of-the-art performance across a broad set of benchmarks. Studying the limits of Gemini 1.5’s long-context ability, we find continued improvement in next-token prediction and near-perfect retrieval (>99%) up to at least 10M tokens, a generational leap over existing models such as Claude 3.0 (200k) and GPT-4 Turbo (128k). Finally, we highlight real-world use cases, such as Gemini 1.5 collaborating with professions on their completing their tasks achieving 26 to 75% time savings across 10 different job categories, as well as surprising new capabilities of large language models at the frontier; when given a grammar manual for Kalamang, a language with fewer than 200 speakers worldwide, the model learns to translate English to Kalamang at a similar level to a person who learned from the same content.

Liên kết bài báo

https://storage.googleapis.com/deepmind-media/gemini/…

Đọc thêm

https://discuss.pytorch.kr/t/gn-google-i-o-2024/4371

https://x.com/OriolVinyalsML/status/1791521517211107515


Veo

Giới thiệu

Mô hình tạo video mạnh nhất của Google DeepMind có thể tạo video chất lượng cao độ phân giải 1080p dài hơn 1 phút, hỗ trợ chỉnh sửa bằng mask trên video, cũng có thể tạo video từ hình ảnh đầu vào kèm văn bản, và có thể mở rộng các clip video lên hơn 60 giây trong khi vẫn duy trì tính nhất quán nhờ latent diffusion transformer.

Google Deepmind’s most capable video generation model generates high-quality, 1080p resolution videos beyond 1 minute; it supports masked editing on videos and can also generate videos with an input image along with text; the model can extend video clips to 60 seconds and more while keeping consistency with its latent diffusion transformer.

Liên kết liên quan

https://deepmind.google/technologies/veo/

Đọc thêm

https://discuss.pytorch.kr/t/veo-google-deepmind/4385

https://x.com/GoogleDeepMind/status/1790435824598716704


Chameleon: Mô hình nền tảng hợp nhất sớm đa phương thức pha trộn / Chameleon: Mixed-Modal Early-Fusion Foundation Models

Giới thiệu bài báo

Một họ mô hình đa phương thức pha trộn dựa trên token để tạo hình ảnh và văn bản theo bất kỳ trình tự tùy ý nào; báo cáo hiệu năng SOTA trong image captioning, vượt Llama 2 ở các tác vụ chỉ có văn bản và cũng cạnh tranh với Mixtral 8x7B và Gemini-Pro; vượt hiệu năng của Gemini Pro và GPT-4V trong một đánh giá mới về sinh đa phương thức dạng dài.

A family of token-based mixed-modal models for generating images and text in any arbitrary sequence; reports state-of-the-art performance in image captioning and outperforms Llama 2 in text-only tasks and is also competitive with Mixtral 8x7B and Gemini-Pro; exceeds the performance of Gemini Pro and GPT-4V on a new long-form mixed-modal generation evaluation.

Tóm tắt bài báo (Abstract)

Giới thiệu Chameleon, một họ mô hình đa phương thức hỗn hợp dựa trên token, hợp nhất sớm, có khả năng hiểu và tạo cả hình ảnh lẫn văn bản trong bất kỳ chuỗi tùy ý nào. Bài báo trình bày phương pháp huấn luyện ổn định ngay từ đầu, công thức alignment, và cách tham số hóa kiến trúc được tinh chỉnh cho thiết lập đa phương thức hỗn hợp dựa trên token, hợp nhất sớm. Mô hình được đánh giá trên một dải tác vụ toàn diện gồm trả lời câu hỏi trực quan, tạo chú thích ảnh, sinh văn bản, sinh ảnh và sinh đa phương thức hỗn hợp dạng dài. Chameleon cho thấy năng lực rộng và tổng quát, bao gồm hiệu năng tiên tiến nhất trên tác vụ tạo chú thích ảnh; vượt Llama-2 trong các tác vụ chỉ có văn bản đồng thời cạnh tranh với các mô hình như Mixtral 8x7B và Gemini-Pro; và cũng thực hiện được việc sinh ảnh không hề tầm thường, tất cả trong một mô hình duy nhất. Ngoài ra, theo đánh giá của con người trong một bài đánh giá mới về sinh đa phương thức hỗn hợp dạng dài — nơi prompt hoặc đầu ra chứa các chuỗi pha trộn cả hình ảnh và văn bản — mô hình này đạt hoặc vượt hiệu năng của những mô hình lớn hơn nhiều, bao gồm Gemini Pro và GPT-4V. Chameleon đánh dấu một bước tiến quan trọng hướng tới việc mô hình hóa thống nhất các tài liệu đa phương thức hoàn chỉnh.

We present Chameleon, a family of early-fusion token-based mixed-modal models capable of understanding and generating images and text in any arbitrary sequence. We outline a stable training approach from inception, an alignment recipe, and an architectural parameterization tailored for the early-fusion, token-based, mixed-modal setting. The models are evaluated on a comprehensive range of tasks, including visual question answering, image captioning, text generation, image generation, and long-form mixed modal generation. Chameleon demonstrates broad and general capabilities, including state-of-the-art performance in image captioning tasks, outperforms Llama-2 in text-only tasks while being competitive with models such as Mixtral 8x7B and Gemini-Pro, and performs non-trivial image generation, all in a single model. It also matches or exceeds the performance of much larger models, including Gemini Pro and GPT-4V, according to human judgments on a new long-form mixed-modal generation evaluation, where either the prompt or outputs contain mixed sequences of both images and text. Chameleon marks a significant step forward in a unified modeling of full multimodal documents.

Liên kết bài báo

https://arxiv.org/abs/2405.09818

Đọc thêm

https://x.com/AIatMeta/status/1791263344714014733


Việc fine-tuning LLM với kiến thức mới có khuyến khích ảo giác không? / Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?

Giới thiệu bài báo

Nghiên cứu xem việc fine-tuning trên kiến thức mới ảnh hưởng thế nào đến xu hướng ảo giác của mô hình, thiết lập các ví dụ fine-tuning có chứa kiến thức mới, chỉ ra rằng mô hình gặp khó khăn trong việc tiếp thu tri thức thực tế mới thông qua fine-tuning, đồng thời phát hiện rằng càng học thêm kiến thức mới thì xu hướng ảo giác của mô hình càng tăng.

Studies the impact of fine-tuning on new knowledge on the hallucination tendencies of LLMs; the setup includes fine-tuning examples that include new knowledge; shows that LLMs struggle to acquire new factual knowledge via fine-tuning; also finds that as new knowledge is learned it increases the model’s tendency to hallucinate.

Tóm tắt bài báo (Abstract)

Khi các mô hình ngôn ngữ lớn được căn chỉnh thông qua supervised fine-tuning, chúng có thể tiếp xúc với thông tin thực tế mới mà chưa thu nhận được trong giai đoạn pre-training. Trong trường hợp này, người ta thường phỏng đoán rằng điều đó có thể dạy cho mô hình hành vi tạo ra các câu trả lời sai sự thật theo kiểu ảo giác, vì mô hình được huấn luyện để sinh ra các sự kiện không dựa trên tri thức sẵn có của nó. Trong nghiên cứu này, chúng tôi xem xét tác động của việc tiếp xúc với kiến thức mới như vậy lên khả năng tận dụng tri thức sẵn có của mô hình đã fine-tuning. Để làm điều đó, chúng tôi thiết kế một thiết lập có kiểm soát, tập trung vào closed-book QA, trong đó thay đổi tỷ lệ các ví dụ fine-tuning đưa vào kiến thức mới. Chúng tôi chứng minh rằng các mô hình ngôn ngữ lớn gặp khó khăn trong việc tiếp thu tri thức thực tế mới thông qua fine-tuning, vì các ví dụ fine-tuning đưa vào kiến thức mới được học chậm hơn đáng kể so với các ví dụ phù hợp với tri thức hiện có của mô hình. Tuy nhiên, chúng tôi cũng phát hiện rằng khi các ví dụ chứa kiến thức mới cuối cùng cũng được học, chúng làm tăng tuyến tính xu hướng ảo giác của mô hình. Tổng hợp lại, các kết quả này nhấn mạnh rủi ro khi đưa tri thức thực tế mới vào thông qua fine-tuning, đồng thời củng cố quan điểm rằng các mô hình ngôn ngữ lớn chủ yếu tiếp thu tri thức thực tế qua pre-training, còn fine-tuning dạy chúng cách sử dụng tri thức đó hiệu quả hơn.

When large language models are aligned via supervised fine-tuning, they may encounter new factual information that was not acquired through pre-training. It is often conjectured that this can teach the model the behavior of hallucinating factually incorrect responses, as the model is trained to generate facts that are not grounded in its pre-existing knowledge. In this work, we study the impact of such exposure to new knowledge on the capability of the fine-tuned model to utilize its pre-existing knowledge. To this end, we design a controlled setup, focused on closed-book QA, where we vary the proportion of the fine-tuning examples that introduce new knowledge. We demonstrate that large language models struggle to acquire new factual knowledge through fine-tuning, as fine-tuning examples that introduce new knowledge are learned significantly slower than those consistent with the model's knowledge. However, we also find that as the examples with new knowledge are eventually learned, they linearly increase the model's tendency to hallucinate. Taken together, our results highlight the risk in introducing new factual knowledge through fine-tuning, and support the view that large language models mostly acquire factual knowledge through pre-training, whereas fine-tuning teaches them to use it more efficiently.

Liên kết bài báo

https://arxiv.org/abs/2405.05904

Đọc thêm

https://x.com/arankomatsuzaki/status/1788859706187882960


Chuyển giao bộ tách từ zero-shot / Zero-Shot Tokenizer Transfer

Giới thiệu bài báo

Huấn luyện một hypernetwork nhận bộ tách từ làm đầu vào và dự đoán embedding tương ứng, chứng minh khả năng tổng quát hóa sang các bộ tách từ mới thông qua encoder và decoder LLM, đồng thời cho thấy phương pháp này đạt hiệu năng gần với mô hình gốc trong các tác vụ đa ngôn ngữ và lập trình, trong khi giảm độ dài của chuỗi đã được token hóa.

Trains a hypernetwork taking a tokenizer as input and predicting the corresponding embeddings; it demonstrates generalization to new tokenizers both with encoder and decoder LLMs; reports that the method achieves performance close to the original models' performance in cross-lingual and coding tasks while reducing the length of the tokenized sequence.

Tóm tắt bài báo (Abstract)

Các mô hình ngôn ngữ (LM) bị ràng buộc với bộ tách từ, vốn ánh xạ văn bản thô thành một chuỗi các mục từ vựng (token). Ví dụ, một LM được huấn luyện chủ yếu trên tiếng Anh vẫn có thể hoạt động tốt trên các ngôn ngữ tự nhiên và ngôn ngữ lập trình khác, nhưng hiệu quả có thể giảm mạnh do bộ tách từ lấy tiếng Anh làm trung tâm. Để giảm thiểu điều này, cần có khả năng thay thế ngay bộ tách từ gốc của LM bằng một bộ tách từ bất kỳ mà không làm suy giảm hiệu năng. Vì vậy, trong công trình này, chúng tôi định nghĩa một bài toán mới: Chuyển giao bộ tách từ zero-shot (ZeTT). Thách thức cốt lõi của ZeTT là tìm embedding cho các token trong từ vựng của bộ tách từ mới. Do các phương pháp heuristic trước đây để khởi tạo embedding thường chỉ đạt mức ngẫu nhiên trong thiết lập ZeTT, chúng tôi đề xuất một lời giải mới: huấn luyện một hypernetwork nhận bộ tách từ làm đầu vào và dự đoán embedding tương ứng. Chúng tôi chứng minh thực nghiệm rằng hypernetwork này có thể tổng quát hóa sang các bộ tách từ mới với cả encoder (ví dụ: XLM-R) và decoder LLM (ví dụ: Mistral-7B). Phương pháp của chúng tôi đạt hiệu năng gần với các mô hình gốc trong các tác vụ đa ngôn ngữ và lập trình, đồng thời giảm đáng kể độ dài của chuỗi đã được token hóa. Chúng tôi cũng nhận thấy rằng phần chênh lệch còn lại có thể nhanh chóng được thu hẹp thông qua continued training trên ít hơn 1B token. Cuối cùng, chúng tôi cho thấy một hypernetwork ZeTT được huấn luyện cho (L)LM cơ sở cũng có thể áp dụng cho các biến thể đã fine-tune mà không cần huấn luyện bổ sung. Nhìn chung, các kết quả của chúng tôi là một bước tiến đáng kể hướng tới việc tách LM khỏi bộ tách từ của nó.

Language models (LMs) are bound to their tokenizer, which maps raw text to a sequence of vocabulary items (tokens). This restricts their flexibility: for example, LMs trained primarily on English may still perform well in other natural and programming languages, but have vastly decreased efficiency due to their English-centric tokenizer. To mitigate this, we should be able to swap the original LM tokenizer with an arbitrary one, on the fly, without degrading performance. Hence, in this work we define a new problem: Zero-Shot Tokenizer Transfer (ZeTT). The challenge at the core of ZeTT is finding embeddings for the tokens in the vocabulary of the new tokenizer. Since prior heuristics for initializing embeddings often perform at chance level in a ZeTT setting, we propose a new solution: we train a hypernetwork taking a tokenizer as input and predicting the corresponding embeddings. We empirically demonstrate that the hypernetwork generalizes to new tokenizers both with encoder (e.g., XLM-R) and decoder LLMs (e.g., Mistral-7B). Our method comes close to the original models' performance in cross-lingual and coding tasks while markedly reducing the length of the tokenized sequence. We also find that the remaining gap can be quickly closed by continued training on less than 1B tokens. Finally, we show that a ZeTT hypernetwork trained for a base (L)LM can also be applied to fine-tuned variants without extra training. Overall, our results make substantial strides toward detaching LMs from their tokenizer.

Liên kết bài báo

https://arxiv.org/abs/2405.07883

Đọc thêm

https://x.com/bminixhofer/status/1790267652587258343


WavCraft: Chỉnh sửa và tạo âm thanh bằng mô hình ngôn ngữ lớn / WavCraft: Audio Editing and Generation with Large Language Models

Giới thiệu bài báo

Tận dụng LLM để kết nối các mô hình chuyên biệt theo từng tác vụ cho việc tạo và chỉnh sửa nội dung âm thanh, phân rã chỉ dẫn của người dùng thành nhiều tác vụ và xử lý cộng tác từng tác vụ với mô-đun tương ứng, đồng thời cho phép người dùng tương tác và tạo nội dung âm thanh mà không cần các lệnh tường minh.

Leverages LLMs to connect task-specific models for audio content creation and editing; decomposes users' instructions into several tasks and tackles each task collaboratively with the particular module; it can enable users to interact and produce audio content without explicit commands

Tóm tắt bài báo (Abstract)

Giới thiệu WavCraft, một hệ thống tổng hợp tận dụng mô hình ngôn ngữ lớn (LLM) để kết nối nhiều mô hình chuyên biệt theo từng tác vụ cho việc tạo và chỉnh sửa nội dung âm thanh. Cụ thể, WavCraft mô tả nội dung của tư liệu âm thanh thô bằng ngôn ngữ tự nhiên và đưa prompt cho LLM dựa trên mô tả âm thanh cùng yêu cầu của người dùng. WavCraft tận dụng khả năng học trong ngữ cảnh của LLM để phân rã chỉ dẫn của người dùng thành nhiều tác vụ và phối hợp xử lý từng tác vụ với mô-đun tương ứng. Thông qua việc phân rã tác vụ cùng với một loạt mô hình chuyên biệt, WavCraft có thể tạo hoặc chỉnh sửa nội dung âm thanh theo chỉ dẫn đầu vào với nhiều chi tiết và cơ sở hơn, từ đó giúp người dùng kiểm soát tốt hơn. Ngoài ra, WavCraft có thể cộng tác với người dùng thông qua tương tác hội thoại và thậm chí tạo ra nội dung âm thanh mà không cần lệnh rõ ràng từ người dùng. Kết quả thực nghiệm cho thấy WavCraft đạt hiệu năng tốt hơn các phương pháp hiện có, đặc biệt khi điều chỉnh các vùng cục bộ của clip âm thanh. Hơn nữa, WavCraft có thể chỉnh sửa và tạo nội dung âm thanh trên nền bản ghi đầu vào theo các chỉ dẫn phức tạp, qua đó hỗ trợ nhà sản xuất âm thanh trong phạm vi ứng dụng rộng hơn. Phần triển khai và demo có thể xem tại đây (https://github.com/JinhuaLiang/WavCraft).

We introduce WavCraft, a collective system that leverages large language models (LLMs) to connect diverse task-specific models for audio content creation and editing. Specifically, WavCraft describes the content of raw audio materials in natural language and prompts the LLM conditioned on audio descriptions and user requests. WavCraft leverages the in-context learning ability of the LLM to decomposes users' instructions into several tasks and tackle each task collaboratively with the particular module. Through task decomposition along with a set of task-specific models, WavCraft follows the input instruction to create or edit audio content with more details and rationales, facilitating user control. In addition, WavCraft is able to cooperate with users via dialogue interaction and even produce the audio content without explicit user commands. Experiments demonstrate that WavCraft yields a better performance than existing methods, especially when adjusting the local regions of audio clips. Moreover, WavCraft can follow complex instructions to edit and create audio content on the top of input recordings, facilitating audio producers in a broader range of applications. Our implementation and demos are available at this https://github.com/JinhuaLiang/WavCraft.

Liên kết bài báo

https://arxiv.org/abs/2403.09527v3

Đọc thêm

https://github.com/JinhuaLiang/WavCraft


Quy trình RLHF: Từ mô hình hóa phần thưởng đến RLHF trực tuyến / RLHF Workflow: From Reward Modeling to Online RLHF

Giới thiệu bài báo

Cung cấp một công thức dễ tái lập cho RLHF lặp trực tuyến, đồng thời trình bày các góc nhìn lý thuyết, nguyên lý thuật toán và cách triển khai thực tế của RLHF lặp trực tuyến.

Provides an easily reproducible recipe for online iterative RLHF; discusses theoretical insights and algorithmic principles of online iterative RLHF and practical implementation.

Tóm tắt bài báo (Abstract)

Báo cáo kỹ thuật này giới thiệu quy trình Online Iterative Reinforcement Learning from Human Feedback (RLHF), vốn gần đây được báo cáo rộng rãi trong các tài liệu về large language model (LLM) là vượt trội hơn đáng kể so với phương pháp offline. Tuy nhiên, các dự án RLHF mã nguồn mở hiện có vẫn phần lớn bị giới hạn trong bối cảnh học offline. Báo cáo kỹ thuật này nhằm lấp đầy khoảng trống đó và cung cấp một công thức chi tiết, dễ tái lập cho online iterative RLHF. Cụ thể, do phản hồi từ con người theo hình thức online thường không khả thi với cộng đồng mã nguồn mở có nguồn lực hạn chế, nhóm tác giả bắt đầu bằng cách xây dựng các mô hình sở thích từ nhiều bộ dữ liệu mã nguồn mở đa dạng, rồi dùng mô hình sở thích proxy đã xây dựng để xấp xỉ phản hồi của con người. Sau đó, báo cáo thảo luận về các insight lý thuyết và nguyên lý thuật toán đằng sau online iterative RLHF, rồi đi vào phần triển khai thực tế chi tiết. Mô hình LLM được huấn luyện, SFR-Iterative-DPO-LLaMA-3-8B-R, đã đạt hiệu năng ấn tượng trên các benchmark chatbot LLM như AlpacaEval-2, Arena-Hard và MT-Bench, cũng như trên các benchmark học thuật khác như HumanEval và TruthfulQA. Nhóm tác giả cho thấy supervised fine-tuning (SFT) và iterative RLHF có thể đạt hiệu năng state-of-the-art với các bộ dữ liệu hoàn toàn mã nguồn mở. Ngoài ra, họ cũng đã công khai mô hình, bộ dữ liệu được tuyển chọn và bộ hướng dẫn mã nguồn từng bước toàn diện. Xem thêm tại https://github.com/RLHFlow/RLHF-Reward-Modelinghttps://github.com/RLHFlow/Online-RLHF.

We present the workflow of Online Iterative Reinforcement Learning from Human Feedback (RLHF) in this technical report, which is widely reported to outperform its offline counterpart by a large margin in the recent large language model (LLM) literature. However, existing open-source RLHF projects are still largely confined to the offline learning setting. In this technical report, we aim to fill in this gap and provide a detailed recipe that is easy to reproduce for online iterative RLHF. In particular, since online human feedback is usually infeasible for open-source communities with limited resources, we start by constructing preference models using a diverse set of open-source datasets and use the constructed proxy preference model to approximate human feedback. Then, we discuss the theoretical insights and algorithmic principles behind online iterative RLHF, followed by a detailed practical implementation. Our trained LLM, SFR-Iterative-DPO-LLaMA-3-8B-R, achieves impressive performance on LLM chatbot benchmarks, including AlpacaEval-2, Arena-Hard, and MT-Bench, as well as other academic benchmarks such as HumanEval and TruthfulQA. We have shown that supervised fine-tuning (SFT) and iterative RLHF can obtain state-of-the-art performance with fully open-source datasets. Further, we have made our models, curated datasets, and comprehensive step-by-step code guidebooks publicly available. Please refer to https://github.com/RLHFlow/RLHF-Reward-Modeling and https://github.com/RLHFlow/Online-RLHF for more detailed information.

Liên kết bài báo

https://arxiv.org/abs/2405.07863v1

Đọc thêm

https://github.com/RLHFlow/RLHF-Reward-Modelinghttps://github.com/RLHFlow/Online-RLHF

https://x.com/CaimingXiong/status/1790379121719361776


Chỉ cache một lần: kiến trúc decoder-decoder cho mô hình ngôn ngữ / You Only Cache Once: Decoder-Decoder Architectures for Language Models

Giới thiệu bài báo

Kiến trúc LLM decoder-decoder chỉ cache cặp key-value một lần có thể giảm đáng kể mức sử dụng bộ nhớ GPU mà không làm suy giảm năng lực, bằng cách xếp một cross-decoder lên trên self-decoder vốn mã hóa hiệu quả bộ nhớ đệm key-value toàn cục và để cross-decoder tái sử dụng cache thông qua cross-attention; đồng thời đạt hiệu năng tương đương Transformer trong nhiều thiết lập mở rộng kích thước mô hình và số lượng token huấn luyện.

A decoder-decoder LLM architecture that only caches key-value pairs once; it involves a cross-decoder stacked upon a self-decoder which efficiently encodes global key-value caches and the cross-encoder reuses the cache via cross-attention; this leads to a significant reduction in GPU memory use without sacrificing capabilities; achieves comparable performance to Transformer in various settings of scaling up model size and number of training token.

Tóm tắt bài báo(Abstract)

Giới thiệu YOCO, một kiến trúc decoder-decoder dành cho các mô hình ngôn ngữ lớn, chỉ lưu cache cặp key-value một lần. Kiến trúc này gồm hai thành phần: cross-decoder được xếp chồng lên self-decoder. Self-decoder mã hóa hiệu quả cache key-value (KV) toàn cục được cross-decoder tái sử dụng thông qua cross-attention. Toàn bộ mô hình hoạt động giống như một Transformer chỉ dùng decoder, nhưng YOCO chỉ cache một lần. Thiết kế này giúp giảm đáng kể nhu cầu bộ nhớ GPU trong khi vẫn duy trì khả năng attention toàn cục. Ngoài ra, luồng tính toán cho phép prefill đến early exit mà không làm thay đổi đầu ra cuối cùng, nhờ đó tăng tốc đáng kể giai đoạn prefill. Kết quả thực nghiệm cho thấy YOCO đạt hiệu năng thuận lợi so với Transformer trong nhiều thiết lập mở rộng kích thước mô hình và số lượng token huấn luyện. YOCO cũng được mở rộng lên độ dài ngữ cảnh 1M với độ chính xác truy xuất needle gần như hoàn hảo. Kết quả profiling cho thấy YOCO cải thiện bộ nhớ suy luận, độ trễ prefill và thông lượng lên nhiều bậc độ lớn trên các độ dài ngữ cảnh và kích thước mô hình khác nhau. Mã nguồn có tại https://aka.ms/YOCO.

We introduce a decoder-decoder architecture, YOCO, for large language models, which only caches key-value pairs once. It consists of two components, i.e., a cross-decoder stacked upon a self-decoder. The self-decoder efficiently encodes global key-value (KV) caches that are reused by the cross-decoder via cross-attention. The overall model behaves like a decoder-only Transformer, although YOCO only caches once. The design substantially reduces GPU memory demands, yet retains global attention capability. Additionally, the computation flow enables prefilling to early exit without changing the final output, thereby significantly speeding up the prefill stage. Experimental results demonstrate that YOCO achieves favorable performance compared to Transformer in various settings of scaling up model size and number of training tokens. We also extend YOCO to 1M context length with near-perfect needle retrieval accuracy. The profiling results show that YOCO improves inference memory, prefill latency, and throughput by orders of magnitude across context lengths and model sizes. Code is available at https://aka.ms/YOCO.

Liên kết bài báo

https://arxiv.org/abs/2405.05254

Đọc thêm

https://github.com/microsoft/unilm/tree/master/YOCO

https://x.com/arankomatsuzaki/status/1788435838474355098


CAT3D: Tạo mọi thứ ở dạng 3D bằng mô hình khuếch tán đa góc nhìn / CAT3D: Create Anything in 3D with Multi-View Diffusion Models

Giới thiệu bài báo

Bài báo trình bày một phương pháp tạo mọi thứ ở dạng 3D bằng cách mô phỏng quy trình thu nhận trong thế giới thực bằng mô hình khuếch tán đa góc nhìn; phương pháp này có thể tạo ra các góc nhìn mới nhất quán của một cảnh để dùng làm đầu vào cho các kỹ thuật tái dựng 3D, từ đó tạo ra biểu diễn 3D có thể được render theo thời gian thực; cảnh từ CAT3D có thể được tạo trong chưa đầy một phút và được báo cáo là vượt trội hơn các phương pháp hiện có trong các tác vụ tạo cảnh 3D từ một ảnh hoặc số ít góc nhìn.

Presents a method for creating anything in 3D by simulating the real-world capture process using a multi-view diffusion model; it can generate consistent novel views of a scene which can be used as input to 3D reconstruction techniques to produce 3D representation rendered in real-time; the scene from CAT3D can be generated in less than one minute and is reported to outperform existing methods on single image and few-view 3D scene creation tasks.

Tóm tắt bài báo (Abstract)

Những tiến bộ trong tái dựng 3D đã cho phép thu nhận 3D chất lượng cao, nhưng để tạo một cảnh 3D, người dùng cần thu thập từ hàng trăm đến hàng nghìn hình ảnh. Unity giới thiệu CAT3D, một phương pháp tạo mọi thứ ở dạng 3D bằng cách mô phỏng quy trình thu nhận ngoài đời thực này với mô hình khuếch tán đa góc nhìn. Với bất kỳ số lượng ảnh đầu vào nào và một tập các góc nhìn mới mục tiêu, mô hình của Unity tạo ra các góc nhìn mới cực kỳ nhất quán của cảnh. Các góc nhìn được tạo này có thể được dùng làm đầu vào cho các kỹ thuật tái dựng 3D mạnh mẽ để tạo ra các biểu diễn 3D có thể được render theo thời gian thực từ mọi góc nhìn. CAT3D có thể tạo toàn bộ cảnh 3D chỉ trong khoảng một phút và vượt trội hơn các phương pháp hiện có trong việc tạo cảnh 3D từ một ảnh hoặc số ít góc nhìn. Xem kết quả và demo tương tác tại trang dự án: https://cat3d.github.io.

Advances in 3D reconstruction have enabled high-quality 3D capture, but require a user to collect hundreds to thousands of images to create a 3D scene. We present CAT3D, a method for creating anything in 3D by simulating this real-world capture process with a multi-view diffusion model. Given any number of input images and a set of target novel viewpoints, our model generates highly consistent novel views of a scene. These generated views can be used as input to robust 3D reconstruction techniques to produce 3D representations that can be rendered from any viewpoint in real-time. CAT3D can create entire 3D scenes in as little as one minute, and outperforms existing methods for single image and few-view 3D scene creation. See our project page for results and interactive demos at https://cat3d.github.io .

Liên kết bài báo

https://arxiv.org/abs/2405.10314

Đọc thêm

https://cat3d.github.io

https://x.com/_akhaliq/status/1791294630614442009


Bài gốc

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-ed5


Bài viết này được tổng hợp bằng mô hình GPT nên có thể có sai sót, vì vậy hãy tham khảo thêm bài gốc ở cuối bài! Nếu trong lúc đọc bạn phát hiện nội dung gượng gạo hoặc sai, vui lòng cho biết qua phần bình luận. 🤗

⚠️Quảng cáo⚠️: Bạn thấy bài viết này do 🔥Cộng đồng người dùng PyTorch Hàn Quốc🇰🇷 tổng hợp có hữu ích không? Nếu đăng ký thành viên, chúng tôi sẽ gửi các bài viết chính qua email💌 cho bạn! (Mặc định là Weekly, nhưng cũng có thể đổi sang Daily.)

Chưa có bình luận nào.

Chưa có bình luận nào.