1 điểm bởi ninebow 2024-06-24 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  • Tôi đã tự động dịch bài viết về các bài báo ML được DAIR.AI công bố hằng tuần.

  • Xem các bài báo được chọn trong tuần này, có thể thấy rõ hai xu hướng chính. Trước hết, phần lớn bài báo tập trung vào các chủ đề liên quan đến xử lý ngôn ngữ tự nhiên (NLP). Đặc biệt, các phương pháp nhằm nâng cao hiệu quả của mô hình ngôn ngữ (LM) trong xử lý ngữ cảnh dài, cũng như các hệ thống truy hồi thông tin và hỏi đáp (QA), đang nổi lên như mối quan tâm trọng yếu. Chẳng hạn, các bài như ‘Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?’ khám phá tiềm năng của các mô hình ngôn ngữ có khả năng hiểu ngữ cảnh dài, còn ‘PlanRAG’ và ‘From RAG to Rich Parameters’ đưa ra những cách tiếp cận mới để cải thiện hệ thống truy hồi thông tin và hỏi đáp.

  • Một xu hướng đáng chú ý khác là các nỗ lực giảm hiện tượng memorization (ghi nhớ máy móc) của mô hình ngôn ngữ, hoặc cải thiện hiệu năng thông qua quá trình self-refine (tự tinh chỉnh). ‘Mitigating Memorization in LLMs’ và ‘Monte Carlos Tree Self-Refine’ là những ví dụ tiêu biểu theo hướng này. Việc giảm hiện tượng ghi nhớ máy móc rất quan trọng để mô hình ngôn ngữ không chỉ lặp lại dữ liệu huấn luyện, mà còn có thể học được tri thức khái quát hơn và tạo ra các phản hồi sáng tạo hơn. Đây là một trong những chìa khóa để tối đa hóa tính thực dụng và hữu ích của mô hình ngôn ngữ.

  • Những xu hướng này có lẽ đang được thúc đẩy bởi nhiều yếu tố. Thứ nhất, tầm quan trọng của xử lý ngôn ngữ tự nhiên trong lĩnh vực trí tuệ nhân tạo ngày càng tăng, và các tiến bộ kỹ thuật phục vụ lĩnh vực này cũng đang diễn ra rất nhanh. Thứ hai, khi lượng thông tin ngày càng khổng lồ, nhu cầu về các công nghệ có thể xử lý hiệu quả và cung cấp thông tin hữu ích cho người dùng cũng tăng theo. Cuối cùng, các mô hình ngôn ngữ gần đây ngày càng phức tạp và mạnh mẽ hơn, nhưng đồng thời vẫn liên tục cần những cách tiếp cận mới để giải quyết các vấn đề mà chúng đang đối mặt. Để đáp ứng nhu cầu đó, các nhà nghiên cứu đang không ngừng tìm kiếm những ý tưởng và phương pháp mới vượt ra ngoài các framework hiện có.


Claude 3.5 Sonnet / Claude 3.5 Sonnet

Giới thiệu bài báo

Đây là một mô hình mới đạt hiệu năng tiên tiến nhất trên nhiều benchmark phổ biến như MMLU và HumanEval; vượt Claude 3 Opus và GPT-4o trên nhiều benchmark, ngoại trừ các tác vụ giải toán đố bằng lời; đồng thời cho thấy hiệu năng mạnh trên các tác vụ thị giác, qua đó hỗ trợ nhiều tính năng mới như chép lại văn bản từ hình ảnh và tạo artifacts.

A new model that achieves state-of-the-art performance on several common benchmarks such as MMLU and HumanEval; it outperforms Claude 3 Opus and GPT-4o on several benchmarks with the exception of math word problem-solving tasks; achieves strong performance on vision tasks which also helps power several new features like image-text transcription and generation of artifacts.

Liên kết bài báo

https://www.anthropic.com/news/claude-3-5-sonnet

Đọc thêm

https://discuss.pytorch.kr/t/gn-claude-3-5-sonnet-gpt4o/4665

https://x.com/AnthropicAI/status/1803790676988920098


DeepSeek-Coder-V2

Giới thiệu bài báo

Cạnh tranh với các mô hình mã nguồn đóng trong các tác vụ sinh mã và toán học, đạt 90.2% trên HumanEval và 75.7% trên MATH; theo báo cáo, các kết quả này cao hơn hiệu năng của GPT-4-Turbo-0409; bao gồm các mô hình 16B và 236B tham số với độ dài ngữ cảnh 128K.

Competes with closed-sourced models on code and math generation tasks; achieves 90.2% on HumanEval and 75.7% on MATH; these results are higher than GPT-4-Turbo-0409 performance according to their report; includes a 16B and 236B parameter model with 128K context length.

Tóm tắt bài báo (Abstract)

Chúng tôi giới thiệu DeepSeek-Coder-V2, một mô hình ngôn ngữ mã nguồn Mixture-of-Experts (MoE) mã nguồn mở đạt hiệu năng tương đương GPT4-Turbo trong các tác vụ chuyên về mã. Cụ thể, DeepSeek-Coder-V2 được tiền huấn luyện bổ sung từ một checkpoint trung gian của DeepSeek-V2 với thêm 6 nghìn tỷ token. Thông qua quá trình tiền huấn luyện liên tục này, DeepSeek-Coder-V2 cải thiện đáng kể năng lực lập trình và suy luận toán học của DeepSeek-V2, đồng thời vẫn duy trì hiệu năng tương đương trên các tác vụ ngôn ngữ tổng quát. So với DeepSeek-Coder-33B, DeepSeek-Coder-V2 cho thấy những bước tiến đáng kể ở nhiều khía cạnh của các tác vụ liên quan đến mã, cũng như về khả năng suy luận và năng lực tổng quát. Ngoài ra, DeepSeek-Coder-V2 mở rộng hỗ trợ ngôn ngữ lập trình từ 86 lên 338, đồng thời kéo dài độ dài ngữ cảnh từ 16K lên 128K. Trong các đánh giá benchmark tiêu chuẩn, DeepSeek-Coder-V2 đạt hiệu năng vượt trội so với các mô hình mã nguồn đóng như GPT4-Turbo, Claude 3 Opus và Gemini 1.5 Pro trên các benchmark về lập trình và toán học.

We present DeepSeek-Coder-V2, an open-source Mixture-of-Experts (MoE) code language model that achieves performance comparable to GPT4-Turbo in code-specific tasks. Specifically, DeepSeek-Coder-V2 is further pre-trained from an intermediate checkpoint of DeepSeek-V2 with additional 6 trillion tokens. Through this continued pre-training, DeepSeek-Coder-V2 substantially enhances the coding and mathematical reasoning capabilities of DeepSeek-V2, while maintaining comparable performance in general language tasks. Compared to DeepSeek- Coder-33B, DeepSeek-Coder-V2 demonstrates significant advancements in various aspects of code-related tasks, as well as reasoning and general capabilities. Additionally, DeepSeek-Coder- V2 expands its support for programming languages from 86 to 338, while extending the context length from 16K to 128K. In standard benchmark evaluations, DeepSeek-Coder-V2 achieves superior performance compared to closed-source models such as GPT4-Turbo, Claude 3 Opus, and Gemini 1.5 Pro in coding and math benchmarks.

Liên kết bài báo

https://github.com/deepseek-ai/DeepSeek-Coder-V2/blob/main/paper.pdf

Đọc thêm

https://github.com/deepseek-ai/DeepSeek-Coder-V2

https://x.com/omarsar0/status/1803078095219417475


TextGrad: "Vi phân" tự động thông qua văn bản / TextGrad: Automatic "Differentiation" via Text

Giới thiệu bài báo

Thông qua lan truyền ngược trên phản hồi văn bản do LLM cung cấp, đây là một khung mới cho phép “vi phân” tự động; nó cải thiện các thành phần riêng lẻ và ngôn ngữ tự nhiên giúp tối ưu hóa đồ thị tính toán; hoạt động bằng cách cung cấp hàm mục tiêu mà không cần điều chỉnh prompt hay thành phần; tác giả cho rằng khi kết hợp với GPT-4o, hệ thống đạt điểm cao nhất trên LeetCodeHard và hiệu năng SoTA trên GPQA.

A new framework for automatic differentiation through backpropagation on textual feedback provided by an LLM; this improves individual components and the natural language helps to optimize the computation graph; it works by providing an objective function without tuning prompts or components; claims to achieve LeetCodeHard best scores and SoTA performance on GPQA when combined with GPT4o.

Tóm tắt bài báo(Abstract)

AI đang trải qua một sự chuyển dịch mô hình, với những đột phá đạt được nhờ các hệ thống điều phối nhiều mô hình ngôn ngữ lớn (LLM) và các thành phần phức tạp khác. Do đó, phát triển các phương pháp tối ưu hóa có nguyên tắc và tự động cho các hệ thống AI phức hợp là một trong những thách thức mới quan trọng nhất. Mạng nơ-ron cũng từng đối mặt với thách thức tương tự trong giai đoạn đầu, cho đến khi lan truyền ngược và vi phân tự động làm thay đổi lĩnh vực này bằng cách biến tối ưu hóa thành một quy trình gần như “cắm là chạy”. Lấy cảm hứng từ đó, chúng tôi giới thiệu TextGrad, một khung mạnh mẽ thực hiện “vi phân” tự động thông qua văn bản. TextGrad lan truyền ngược phản hồi dạng văn bản do LLM cung cấp để cải thiện các thành phần riêng lẻ của một hệ thống AI phức hợp. Trong khung này, LLM đưa ra các gợi ý phong phú, tổng quát bằng ngôn ngữ tự nhiên để tối ưu hóa các biến trong đồ thị tính toán, từ các đoạn mã cho đến cấu trúc phân tử. TextGrad tuân theo cú pháp và các trừu tượng của PyTorch, đồng thời linh hoạt và dễ sử dụng. Nó hoạt động ngay khi dùng cho nhiều tác vụ khác nhau, trong đó người dùng chỉ cần cung cấp hàm mục tiêu mà không phải tinh chỉnh các thành phần hay prompt của khung. Chúng tôi trình bày hiệu quả và tính tổng quát của TextGrad qua nhiều ứng dụng đa dạng, từ hỏi đáp và tối ưu hóa phân tử đến lập kế hoạch xạ trị. Không cần sửa đổi khung, TextGrad nâng độ chính xác zero-shot của GPT-4o trong Google-Proof Question Answering từ $51%$ lên $55%$, mang lại mức cải thiện hiệu năng tương đối $20%$ trong tối ưu hóa lời giải cho các bài toán lập trình LeetCode-Hard, cải thiện prompt cho suy luận, thiết kế các phân tử nhỏ giống thuốc mới với khả năng liên kết in silico mong muốn, và thiết kế kế hoạch điều trị ung thư bằng xạ trị với độ đặc hiệu cao. TextGrad đặt nền tảng để thúc đẩy việc phát triển thế hệ hệ thống AI tiếp theo.

AI is undergoing a paradigm shift, with breakthroughs achieved by systems orchestrating multiple large language models (LLMs) and other complex components. As a result, developing principled and automated optimization methods for compound AI systems is one of the most important new challenges. Neural networks faced a similar challenge in its early days until backpropagation and automatic differentiation transformed the field by making optimization turn-key. Inspired by this, we introduce TextGrad, a powerful framework performing automatic ``differentiation'' via text. TextGrad backpropagates textual feedback provided by LLMs to improve individual components of a compound AI system. In our framework, LLMs provide rich, general, natural language suggestions to optimize variables in computation graphs, ranging from code snippets to molecular structures. TextGrad follows PyTorch's syntax and abstraction and is flexible and easy-to-use. It works out-of-the-box for a variety of tasks, where the users only provide the objective function without tuning components or prompts of the framework. We showcase TextGrad's effectiveness and generality across a diverse range of applications, from question answering and molecule optimization to radiotherapy treatment planning. Without modifying the framework, TextGrad improves the zero-shot accuracy of GPT-4o in Google-Proof Question Answering from $51%$ to $55%$, yields $20%$ relative performance gain in optimizing LeetCode-Hard coding problem solutions, improves prompts for reasoning, designs new druglike small molecules with desirable in silico binding, and designs radiation oncology treatment plans with high specificity. TextGrad lays a foundation to accelerate the development of the next-generation of AI systems.

Liên kết bài báo

https://arxiv.org/abs/2406.07496v1

Đọc thêm

https://x.com/james_y_zou/status/1800917174124740667


Liệu mô hình ngôn ngữ ngữ cảnh dài có thể thay thế truy xuất, RAG, SQL và hơn thế nữa? / Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?

Giới thiệu bài báo

Thực hiện phân tích hiệu năng chuyên sâu của các LLM ngữ cảnh dài đối với truy xuất và suy luận trong ngữ cảnh; trước tiên tác giả đưa ra một benchmark với các tác vụ thực tế đòi hỏi ngữ cảnh 1 triệu token; báo cáo rằng các LLM ngữ cảnh dài có thể cạnh tranh với các hệ thống truy xuất và RAG hiện đại nhất mà không cần bất kỳ huấn luyện tường minh nào cho các tác vụ này; đồng thời cho thấy suy luận mang tính cấu hợp (cần thiết trong các tác vụ kiểu SQL) vẫn là điều khó đối với các LLM này; tác giả cũng nhấn mạnh sự cần thiết phải tiếp tục nghiên cứu các chiến lược prompt nâng cao, vì họ ghi nhận mức tăng hiệu năng đáng kể khi áp dụng chúng cho các bài toán ngữ cảnh dài.

Conducts a deep performance analysis of long-context LLMs on in-context retrieval and reasoning; they first present a benchmark with real-world tasks requiring 1M token context; reports that long-context LLMs can rival state-of-the-art retrieval and RAG systems, without any explicit training on the tasks; suggests that compositional reasoning (required in SQL-like tasks) is still challenging for these LLMs; they also encourage the need for continued research on advanced prompting strategies as they noted significant boosts in performance when applying them for long context problems.

Tóm tắt bài báo(Abstract)

Các mô hình ngôn ngữ ngữ cảnh dài (LCLM) có tiềm năng cách mạng hóa cách tiếp cận đối với những tác vụ vốn phụ thuộc vào các công cụ bên ngoài như hệ thống truy xuất hoặc cơ sở dữ liệu. Việc tận dụng khả năng tiếp nhận và xử lý nguyên bản toàn bộ kho thông tin của LCLM mang lại nhiều lợi ích. Nó cải thiện tính thân thiện với người dùng bằng cách loại bỏ nhu cầu về kiến thức chuyên môn đối với công cụ, cung cấp mô hình hóa end-to-end mạnh mẽ giúp giảm thiểu lỗi dây chuyền trong các pipeline phức tạp, và cho phép áp dụng các kỹ thuật prompting tinh vi trên toàn bộ hệ thống. Để đánh giá sự thay đổi mô hình này, chúng tôi giới thiệu LOFT, một benchmark gồm các tác vụ thực tế yêu cầu ngữ cảnh lên tới hàng triệu token, được thiết kế để đánh giá hiệu năng của LCLM trong truy xuất và suy luận trong ngữ cảnh. Kết quả nghiên cứu cho thấy LCLM có khả năng đáng ngạc nhiên trong việc cạnh tranh với các hệ thống truy xuất và RAG hiện đại nhất, dù chưa từng được huấn luyện tường minh cho các tác vụ này. Tuy nhiên, LCLM vẫn gặp khó khăn ở các lĩnh vực như suy luận tổ hợp, vốn cần thiết trong các tác vụ kiểu SQL. Đặc biệt, chiến lược prompt ảnh hưởng đáng kể đến hiệu năng, nhấn mạnh nhu cầu tiếp tục nghiên cứu khi độ dài ngữ cảnh tăng lên. Nhìn chung, LOFT cung cấp một môi trường kiểm thử nghiêm ngặt cho LCLM, cho thấy tiềm năng thay thế các mô hình hiện có và xử lý các tác vụ mới khi năng lực mô hình được mở rộng.

Long-context language models (LCLMs) have the potential to revolutionize our approach to tasks traditionally reliant on external tools like retrieval systems or databases. Leveraging LCLMs' ability to natively ingest and process entire corpora of information offers numerous advantages. It enhances user-friendliness by eliminating the need for specialized knowledge of tools, provides robust end-to-end modeling that minimizes cascading errors in complex pipelines, and allows for the application of sophisticated prompting techniques across the entire system. To assess this paradigm shift, we introduce LOFT, a benchmark of real-world tasks requiring context up to millions of tokens designed to evaluate LCLMs' performance on in-context retrieval and reasoning. Our findings reveal LCLMs' surprising ability to rival state-of-the-art retrieval and RAG systems, despite never having been explicitly trained for these tasks. However, LCLMs still face challenges in areas like compositional reasoning that are required in SQL-like tasks. Notably, prompting strategies significantly influence performance, emphasizing the need for continued research as context lengths grow. Overall, LOFT provides a rigorous testing ground for LCLMs, showcasing their potential to supplant existing paradigms and tackle novel tasks as model capabilities scale.

Liên kết bài báo

https://arxiv.org/abs/2406.13121

Đọc thêm

https://github.com/google-deepmind/loft

https://x.com/omarsar0/status/1804184820806766875


PlanRAG: Tạo sinh tăng cường truy xuất theo hướng lập kế hoạch trước dành cho các mô hình ngôn ngữ lớn tạo sinh với vai trò người ra quyết định / PlanRAG: A Plan-then-Retrieval Augmented Generation for Generative Large Language Models as Decision Makers

Giới thiệu bài báo

Đây là một kỹ thuật RAG mới nhằm cải thiện việc ra quyết định, gọi là lập kế hoạch lặp rồi mới RAG (PlanRAG), gồm hai bước: 1) LM xem xét schema dữ liệu và câu hỏi để tạo kế hoạch cho việc ra quyết định và 2) bộ truy xuất tạo các truy vấn để phân tích dữ liệu. Ở bước cuối, hệ thống kiểm tra xem có cần một kế hoạch mới cho việc phân tích bổ sung hay không, rồi lặp lại các bước trước hoặc đưa ra quyết định dựa trên dữ liệu. PlanRAG được xác định là hiệu quả hơn RAG lặp trên các tác vụ Decision QA được đề xuất.

Enhances decision making with a new RAG technique called iterative plan-then-RAG (PlanRAG); involves two steps: 1) an LM generates the plan for decision making by examining data schema and questions and 2) the retriever generates the queries for data analysis; the final step checks if a new plan for further analysis is needed and iterates on previous steps or makes a decision on the data; PlanRAG is found to be more effective than iterative RAG on the proposed Decision QA tasks.

Tóm tắt bài báo (Abstract)

Bài báo này nghiên cứu việc tận dụng LLM như một giải pháp cho ra quyết định đòi hỏi phân tích dữ liệu phức tạp. Nhóm tác giả định nghĩa Decision QA là bài toán tìm ra câu trả lời về quyết định tốt nhất, $d_{best}$, cho câu hỏi ra quyết định $Q$, các quy tắc kinh doanh $R$ và cơ sở dữ liệu $D$. Vì chưa có benchmark nào có thể đánh giá Decision QA, họ đề xuất benchmark Decision QA là DQA. Benchmark này gồm hai kịch bản, Locating và Building, được xây dựng từ hai trò chơi điện tử (Europa Universalis IV và Victoria 3) có mục tiêu gần như giống hệt Decision QA. Để xử lý hiệu quả Decision QA, nhóm tác giả cũng đề xuất một kỹ thuật RAG mới gọi là iterative plan-then-retrieval augmented generation (PlanRAG). Mô hình ngôn ngữ dựa trên PlanRAG trước tiên tạo kế hoạch cho việc ra quyết định, và ở bước thứ hai, bộ truy xuất tạo các truy vấn để phân tích dữ liệu. Phương pháp được đề xuất vượt trội hơn phương pháp iterative RAG hiện đại nhất, lần lượt 15.8% ở kịch bản Locating và 7.4% ở kịch bản Building. Mã nguồn và benchmark được công bố tại https://github.com/myeon9h/PlanRAG.

In this paper, we conduct a study to utilize LLMs as a solution for decision making that requires complex data analysis. We define Decision QA as the task of answering the best decision, $d_{best}$, for a decision-making question $Q$, business rules $R$ and a database $D$. Since there is no benchmark that can examine Decision QA, we propose Decision QA benchmark, DQA. It has two scenarios, Locating and Building, constructed from two video games (Europa Universalis IV and Victoria 3) that have almost the same goal as Decision QA. To address Decision QA effectively, we also propose a new RAG technique called the iterative plan-then-retrieval augmented generation (PlanRAG). Our PlanRAG-based LM generates the plan for decision making as the first step, and the retriever generates the queries for data analysis as the second step. The proposed method outperforms the state-of-the-art iterative RAG method by 15.8% in the Locating scenario and by 7.4% in the Building scenario, respectively. We release our code and benchmark at https://github.com/myeon9h/PlanRAG.

Link bài báo

https://arxiv.org/abs/2406.12430

Đọc thêm

https://github.com/myeon9h/PlanRAG

https://x.com/omarsar0/status/1803262374574448757


Đừng ghi nhớ như cá vàng! Giảm hiện tượng ghi nhớ trong LLM sinh sinh / Be like a Goldfish, Don't Memorize! Mitigating Memorization in Generative LLMs

Giới thiệu bài báo

Bài báo trình bày một sửa đổi cho mục tiêu dự đoán token tiếp theo gọi là goldfish loss nhằm giảm việc sinh nguyên văn dữ liệu huấn luyện đã bị ghi nhớ; phương pháp này dùng một kỹ thuật đơn giản là loại trừ một tập con giả ngẫu nhiên của các token huấn luyện trong lúc huấn luyện; nhóm tác giả cho thấy goldfish loss có khả năng chống ghi nhớ và vẫn giữ mô hình hữu dụng; tuy nhiên, có thể cần huấn luyện lâu hơn để học hiệu quả hơn từ dữ liệu huấn luyện.

Presents a modification of the next-token prediction objective called goldfish loss to help mitigate the verbatim generation of memorized training data; it uses a simple technique that excludes a pseudorandom subset of training tokens at training time; they show that the goldfish loss resists memorization and keeps the model useful; however, it may need to train for longer to more effectively learn from the training data.

Tóm tắt bài báo(Abstract)

Các mô hình ngôn ngữ lớn có thể ghi nhớ và lặp lại dữ liệu huấn luyện của chúng, gây ra rủi ro về quyền riêng tư và bản quyền. Để giảm hiện tượng ghi nhớ, nhóm tác giả đưa ra một sửa đổi tinh chỉnh cho mục tiêu huấn luyện token tiếp theo, gọi là goldfish loss. Trong quá trình huấn luyện, một tập con token được lấy mẫu ngẫu nhiên sẽ bị loại khỏi phép tính loss. Những token bị loại này sẽ không bị mô hình ghi nhớ, từ đó ngăn việc tái tạo nguyên văn toàn bộ chuỗi token từ tập huấn luyện. Nhóm tác giả đã thực hiện các thí nghiệm quy mô lớn, huấn luyện các mô hình Llama-2 cỡ hàng tỷ tham số, cả với mô hình đã tiền huấn luyện lẫn mô hình huấn luyện từ đầu, và chứng minh rằng lượng ghi nhớ có thể bị trích xuất giảm đáng kể trong khi hầu như không ảnh hưởng đến các benchmark downstream.

Large language models can memorize and repeat their training data, causing privacy and copyright risks. To mitigate memorization, we introduce a subtle modification to the next-token training objective that we call the goldfish loss. During training, a randomly sampled subset of tokens are excluded from the loss computation. These dropped tokens are not memorized by the model, which prevents verbatim reproduction of a complete chain of tokens from the training set. We run extensive experiments training billion-scale Llama-2 models, both pre-trained and trained from scratch, and demonstrate significant reductions in extractable memorization with little to no impact on downstream benchmarks.

Link bài báo

https://arxiv.org/abs/2406.10209

Đọc thêm

https://github.com/ahans30/goldfish-loss

https://x.com/omarsar0/status/1802729440163647754


Tiếp cận các lời giải Olympic Toán ở mức GPT-4 thông qua tự tinh chỉnh bằng cây Monte Carlo với LLaMa-3 8B / Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo Tree Self-refine with LLaMa-3 8B

Giới thiệu bài báo

Bài báo cho biết đã đạt được các lời giải Olympic Toán ở mức GPT-4 bằng cách sử dụng một cách tiếp cận tích hợp LLM với Monte Carlo Tree Search; cách tiếp cận này tập trung vào việc nâng cao năng lực suy luận toán học của hệ thống thông qua các khả năng như khám phá có hệ thống, tự tinh chỉnh và tự đánh giá.

Report to have achieved GPT-4 level mathematical olympiad solution using an approach that integrates LLMs with Monte Carlo Tree Search; this approach focuses on enhancing the mathematical reasoning performance of the system through capabilities such as systematic exploration, self-refinement, and self-evaluation.

Tóm tắt bài báo(Abstract)

Bài bạch thư này giới thiệu thuật toán MCT Self-Refine (MCTSr), một sự tích hợp đổi mới giữa mô hình ngôn ngữ lớn (LLM) và Monte Carlo Tree Search (MCTS), được thiết kế để cải thiện hiệu năng trong các tác vụ suy luận toán học phức tạp. Đặc biệt, nhằm giải quyết các vấn đề về độ chính xác và độ tin cậy của LLM trong suy luận chiến lược và toán học, MCTSr tận dụng cơ chế khám phá có hệ thống và tự tinh chỉnh theo heuristic để cải thiện khung ra quyết định bên trong LLM. Thuật toán này xây dựng cây tìm kiếm Monte Carlo thông qua quy trình lặp gồm Selection, self-refine, self-evaluation và Backpropagation, đồng thời sử dụng công thức Upper Confidence Bound (UCB) được cải tiến để tối ưu hóa sự cân bằng giữa exploration và exploitation. Các thí nghiệm mở rộng đã chứng minh hiệu quả của MCTSr trong việc giải các bài toán toán học cấp độ Olympic, giúp cải thiện đáng kể tỷ lệ thành công trên nhiều bộ dữ liệu, bao gồm GSM8K, GSM Hard, MATH và các benchmark cấp độ Olympic như Math Odyssey, AIME và OlympiadBench. Nghiên cứu này thúc đẩy việc ứng dụng LLM trong các tác vụ suy luận phức tạp và đặt nền tảng cho sự tích hợp AI trong tương lai, qua đó nâng cao độ chính xác và độ tin cậy của việc ra quyết định trong các ứng dụng dựa trên LLM.

This paper introduces the MCT Self-Refine (MCTSr) algorithm, an innovative integration of Large Language Models (LLMs) with Monte Carlo Tree Search (MCTS), designed to enhance performance in complex mathematical reasoning tasks. Addressing the challenges of accuracy and reliability in LLMs, particularly in strategic and mathematical reasoning, MCTSr leverages systematic exploration and heuristic self-refine mechanisms to improve decision-making frameworks within LLMs. The algorithm constructs a Monte Carlo search tree through iterative processes of Selection, self-refine, self-evaluation, and Backpropagation, utilizing an improved Upper Confidence Bound (UCB) formula to optimize the exploration-exploitation balance. Extensive experiments demonstrate MCTSr's efficacy in solving Olympiad-level mathematical problems, significantly improving success rates across multiple datasets, including GSM8K, GSM Hard, MATH, and Olympiad-level benchmarks, including Math Odyssey, AIME, and OlympiadBench. The study advances the application of LLMs in complex reasoning tasks and sets a foundation for future AI integration, enhancing decision-making accuracy and reliability in LLM-driven applications.

Liên kết bài báo

https://arxiv.org/abs/2406.07394v2

Đọc thêm

https://x.com/rohanpaul_ai/status/1801259208341373013


Từ RAG đến tham số phong phú: Khảo sát cách mô hình ngôn ngữ tận dụng tri thức bên ngoài thay vì thông tin tham số cho các truy vấn thực tế / From RAGs to rich parameters: Probing how language models utilize external knowledge over parametric information for factual queries

Giới thiệu bài báo

Kết quả khảo sát kỹ hơn về cách LLM tận dụng tri thức bên ngoài thay vì thông tin tham số cho các truy vấn thực tế cho thấy trong pipeline RAG, LLM có xu hướng mạnh mẽ chọn “đường tắt”, chỉ sử dụng thông tin ngữ cảnh để trả lời câu hỏi và phụ thuộc ở mức tối thiểu vào bộ nhớ tham số.

Investigates more closely how LLMs utilize external knowledge over parametric information for factual queries; finds that in a RAG pipeline, LLMs take a “shortcut” and display a strong bias towards utilizing only the context information to answer the question, while relying minimally on their parametric memory.

Tóm tắt bài báo (Abstract)

Retrieval Augmented Generation (RAG) tăng cường khả năng suy luận của mô hình ngôn ngữ bằng cách sử dụng ngữ cảnh bên ngoài để bổ sung cho phản hồi đối với một lời nhắc của người dùng. Cách tiếp cận này ngày càng phổ biến nhờ các ứng dụng thực tiễn của mô hình ngôn ngữ trong tìm kiếm, hỏi đáp và chatbot. Tuy nhiên, bản chất chính xác của cách tiếp cận này vận hành như thế nào vẫn chưa được hiểu rõ. Trong bài báo này, nhóm tác giả xem xét pipeline RAG theo góc nhìn cơ chế để làm nổi bật rằng các mô hình ngôn ngữ đi theo đường tắt và có thiên hướng mạnh mẽ chỉ sử dụng thông tin ngữ cảnh để trả lời câu hỏi, trong khi phụ thuộc rất ít vào bộ nhớ tham số. Chúng tôi khảo sát hành vi cơ chế này trong các mô hình ngôn ngữ bằng: (i) Causal Mediation Analysis để cho thấy bộ nhớ tham số được sử dụng ở mức tối thiểu khi trả lời một câu hỏi và (ii) Attention Contributions và Knockouts để cho thấy residual stream của token cuối cùng không được làm giàu từ token chủ thể trong câu hỏi mà được làm giàu từ các token thông tin khác trong ngữ cảnh. Chúng tôi nhận thấy hành vi đi đường tắt rõ rệt này đúng với cả hai họ mô hình LLaMa và Phi.

Retrieval Augmented Generation (RAG) enriches the ability of language models to reason using external context to augment responses for a given user prompt. This approach has risen in popularity due to practical applications in various applications of language models in search, question/answering, and chat-bots. However, the exact nature of how this approach works isn't clearly understood. In this paper, we mechanistically examine the RAG pipeline to highlight that language models take shortcut and have a strong bias towards utilizing only the context information to answer the question, while relying minimally on their parametric memory. We probe this mechanistic behavior in language models with: (i) Causal Mediation Analysis to show that the parametric memory is minimally utilized when answering a question and (ii) Attention Contributions and Knockouts to show that the last token residual stream do not get enriched from the subject token in the question, but gets enriched from other informative tokens in the context. We find this pronounced shortcut behaviour true across both LLaMa and Phi family of models.

Liên kết bài báo

https://arxiv.org/abs/2406.12824

Đọc thêm

https://x.com/omarsar0/status/1803254134289895555


Open-Sora

Giới thiệu bài báo

Mô hình tạo video mã nguồn mở có thể tạo video 720p dài 16 giây, là mô hình 1,1 tỷ tham số được huấn luyện trên hơn 30 triệu mẫu dữ liệu và hiện hỗ trợ image-to-video; cung cấp mô hình khuếch tán nâng cao và mạng nén video để nén theo không gian và thời gian, giúp tăng khả năng kiểm soát quá trình tạo và giảm chi phí huấn luyện.

An open-source video generation model that can generate 16-second 720p videos; it’s a 1.1B parameter model trained on more than 30m data and now supports image-to-video; presents an enhanced diffusion model and video compression network for spatial and temporal compression; increases controllability of generations and reduces training costs.

Liên kết bài báo

[IMG] Open-Sora 1.2 Report|1028x812

Đọc thêm

https://discuss.pytorch.kr/t/open-sora-feat-hpc-ai/3794

https://x.com/omarsar0/status/1803176105010171957


Tìm kiếm trên cây cho tác tử mô hình ngôn ngữ / Tree Search for Language Model Agents

Giới thiệu bài báo

Đề xuất một thuật toán tìm kiếm trên cây ở thời điểm suy luận cho tác tử LM để thực hiện khám phá và cho phép suy luận nhiều bước, kiểm thử trong môi trường web tương tác và áp dụng cho GPT-4o để cải thiện hiệu năng đáng kể, đồng thời chứng minh hiệu năng có thể mở rộng khi tăng lượng tính toán ở thời điểm kiểm thử.

Proposes an inference-time tree search algorithm for LM agents to perform exploration and enable multi-step reasoning; it’s tested on interactive web environments and applied to GPT-4o to significantly improve performance; demonstrates that performance scales when increasing test-time compute.

Tóm tắt bài báo (Abstract)

Các tác tử tự hành được vận hành bởi mô hình ngôn ngữ (LM) đã cho thấy nhiều hứa hẹn trong khả năng thực hiện các tác vụ ra quyết định như tự động hóa web. Tuy nhiên, vẫn còn một thách thức cơ bản: các LM, vốn chủ yếu được tối ưu cho việc hiểu và sinh ngôn ngữ tự nhiên, gặp khó khăn với suy luận nhiều bước, lập kế hoạch và tận dụng phản hồi từ môi trường khi cố giải quyết các tác vụ máy tính thực tế. Để giải quyết vấn đề này, chúng tôi đề xuất một thuật toán tìm kiếm ở thời điểm suy luận cho tác tử LM nhằm cho phép thực hiện rõ ràng việc khám phá và lập kế hoạch nhiều bước trong các môi trường web tương tác. Cách tiếp cận của chúng tôi là một dạng tìm kiếm cây ưu tiên tốt nhất hoạt động trong chính không gian môi trường thực, và có tính bổ trợ với hầu hết các tác tử tiên tiến hiện nay. Đây là thuật toán tìm kiếm trên cây đầu tiên dành cho tác tử LM cho thấy hiệu quả trên các tác vụ web thực tế. Trên benchmark VisualWebArena đầy thách thức, việc áp dụng thuật toán tìm kiếm của chúng tôi lên trên một tác tử GPT-4o mang lại mức tăng tương đối 39,7% về tỷ lệ thành công so với cùng đường cơ sở không dùng tìm kiếm, thiết lập tỷ lệ thành công SOTA là 26,4%. Trên WebArena, tìm kiếm cũng mang lại mức cải thiện tương đối 28,0% so với tác tử đường cơ sở, đạt tỷ lệ thành công cạnh tranh là 19,2%. Các thí nghiệm của chúng tôi nhấn mạnh hiệu quả của tìm kiếm đối với tác tử web, đồng thời chứng minh rằng hiệu năng mở rộng theo lượng tính toán ở thời điểm kiểm thử tăng lên. Chúng tôi tiến hành phân tích kỹ lưỡng kết quả để làm nổi bật các cải thiện do tìm kiếm mang lại, những hạn chế và các hướng đi đầy hứa hẹn cho công việc trong tương lai.

Autonomous agents powered by language models (LMs) have demonstrated promise in their ability to perform decision-making tasks such as web automation. However, a fundamental challenge remains: LMs, primarily optimized for natural language understanding and generation, struggle with multi-step reasoning, planning, and using environmental feedback when attempting to solve realistic computer tasks. Towards addressing this, we propose an inference-time search algorithm for LM agents to explicitly perform exploration and multi-step planning in interactive web environments. Our approach is a form of best-first tree search that operates within the actual environment space, and is complementary with most existing state-of-the-art agents. It is the first tree search algorithm for LM agents that shows effectiveness on realistic web tasks. On the challenging VisualWebArena benchmark, applying our search algorithm on top of a GPT-4o agent yields a 39.7% relative increase in success rate compared to the same baseline without search, setting a state-of-the-art success rate of 26.4%. On WebArena, search also yields a 28.0% relative improvement over a baseline agent, setting a competitive success rate of 19.2%. Our experiments highlight the effectiveness of search for web agents, and we demonstrate that performance scales with increased test-time compute. We conduct a thorough analysis of our results to highlight improvements from search, limitations, and promising directions for future work.

Liên kết bài báo

https://jykoh.com/search-agents/paper.pdf

Đọc thêm

https://jykoh.com/search-agents

https://x.com/kohjingyu/status/1803604487216701653


Bản gốc

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-c0f


Bài viết này được tổng hợp bằng mô hình GPT nên có thể có sai sót, vì vậy vui lòng tham khảo thêm bản gốc ở cuối bài. Nếu trong lúc đọc bạn phát hiện nội dung gượng gạo hoặc không chính xác, mong bạn để lại bình luận để thông báo cho chúng tôi! 🤗

⚠️Quảng cáo⚠️: Bạn thấy bài viết do 🔥Cộng đồng người dùng PyTorch Hàn Quốc🇰🇷 tổng hợp này hữu ích chứ? Nếu đăng ký thành viên, bạn sẽ nhận được các bài viết nổi bật qua email💌! (Mặc định là Weekly, nhưng cũng có thể đổi sang Daily.)

Chưa có bình luận nào.

Chưa có bình luận nào.