[2024/09/16 ~ 09/22] Các bài báo ML nổi bật trong tuần (Top ML Papers of the Week)
(discuss.pytorch.kr)-
Tôi đã tự động dịch các bài viết về các bài báo ML được DAIR.AI công bố hằng tuần.
-
Khi xem các bài báo được chọn trong tuần này, có thể nhận thấy một vài xu hướng nổi bật. Thứ nhất, nghiên cứu về mô hình ngôn ngữ lớn (LLM) chiếm tỷ trọng đáng kể. Nhiều bài báo như 'Training LLMs to Self-Correct via RL', 'Qwen2.5 Coder', 'A Comprehensive Evaluation of Quantized Instruction-Tuned LLMs' đề cập đến việc cải thiện hiệu năng và ứng dụng của LLM. Điều này phản ánh rằng LLM hiện là một trong những chủ đề cốt lõi của nghiên cứu AI.
-
Thứ hai, có nhiều nghiên cứu liên quan đến quá trình tư duy của trí tuệ nhân tạo. Các bài báo như 'Diagram of Thought (DoT)', 'Iteration of Thought', 'To CoT or not to CoT?' đi sâu khám phá cách thức tư duy hoặc quá trình suy luận của AI. Qua đó có thể thấy những nỗ lực nhằm nâng cao độ chính xác và hiệu quả của các hệ thống AI.
-
Có thể phân tích một vài lý do cho sự xuất hiện của các xu hướng này. Trước hết, mô hình ngôn ngữ lớn đang nhận được sự quan tâm lớn từ cả công nghiệp lẫn học thuật nhờ khả năng ứng dụng đa dạng và hiệu năng cao. Đặc biệt, nhiều kỹ thuật nhằm cải thiện hiệu năng hoặc năng lực tự hiệu chỉnh của mô hình đang được nghiên cứu rất sôi nổi. Bên cạnh đó, nghiên cứu về quá trình tư duy của AI gắn liền với mục tiêu tối hậu là phát triển AI có năng lực tư duy tương tự con người. Đây được xem là yếu tố thiết yếu để tự động hóa những tác vụ phức tạp và thông minh hơn.
-
Tóm lại, xu hướng chính của các bài báo tuần này có thể được tóm gọn là nâng cao hiệu năng của mô hình ngôn ngữ lớn và nghiên cứu về quá trình tư duy của AI. Đây là một ví dụ cho thấy rõ hướng phát triển hiện nay của nghiên cứu AI.
Moshi
Giới thiệu bài báo
Giới thiệu một mô hình nền tảng giọng nói-văn bản và khung hội thoại giọng nói song công hoàn toàn, nhiều thành phần của hệ thống, Helium là một LLM văn bản 7B tham số, Mimi là một mã âm thanh thần kinh ngữ nghĩa-âm học có hiệu năng hàng đầu về chất lượng âm thanh, cùng một kiến trúc đa luồng phân cấp có thể tạo ra các cuộc hội thoại tùy ý theo cách speech-to-speech.
> Introduces a speech-text foundation model and full-duplex spoken dialogue framework; they present several components of the systems; Helium is a 7B parameter text LLM; Mimi is a semantic-acoustic neural audio code with state-of-the-art performance on audio quality; a hierarchical multi-stream architecture that can generate arbitrary conversation in a speech-to-speech manner.
Tóm tắt bài báo (Abstract)
Chúng tôi giới thiệu Moshi, một mô hình nền tảng giọng nói-văn bản và khung hội thoại giọng nói song công hoàn toàn. Các hệ thống hội thoại bằng giọng nói hiện nay dựa vào các pipeline gồm những thành phần độc lập như phát hiện hoạt động giọng nói, nhận dạng giọng nói, hội thoại văn bản và chuyển văn bản thành giọng nói. Những khung như vậy không thể mô phỏng trải nghiệm của các cuộc trò chuyện thực. Thứ nhất, độ phức tạp của chúng tạo ra độ trễ vài giây giữa các lượt tương tác. Thứ hai, do văn bản là phương thức trung gian cho hội thoại, thông tin phi ngôn ngữ làm thay đổi ý nghĩa — chẳng hạn như cảm xúc hoặc các âm thanh không phải lời nói — bị mất đi trong quá trình tương tác. Cuối cùng, chúng dựa vào việc phân đoạn theo lượt nói của người nói, vốn không tính đến lời nói chồng lấn, ngắt lời và cảm thán. Moshi giải quyết đồng thời tất cả các vấn đề riêng lẻ này bằng cách biến hội thoại bằng giọng nói thành bài toán sinh speech-to-speech. Bắt đầu từ backbone mô hình ngôn ngữ văn bản, Moshi tạo giọng nói dưới dạng token từ residual quantizer của một neural audio codec, đồng thời mô hình hóa riêng giọng nói của chính nó và của người dùng thành các luồng song song. Điều này cho phép loại bỏ các lượt nói tường minh của người nói và mô hình hóa các động lực hội thoại tùy ý. Chúng tôi cũng mở rộng cách sinh token phân cấp từ ngữ nghĩa sang âm học của các công trình trước để trước hết dự đoán các token văn bản được căn chỉnh theo thời gian như một tiền tố của các token âm thanh. Phương pháp “Inner Monologue” này không chỉ cải thiện đáng kể chất lượng ngôn ngữ của giọng nói được tạo ra mà còn cho thấy cách nó có thể cung cấp nhận dạng giọng nói trực tuyến và chuyển văn bản thành giọng nói. Mô hình kết quả của chúng tôi là mô hình ngôn ngữ lớn giọng nói song công hoàn toàn thời gian thực đầu tiên, với độ trễ lý thuyết 160ms, thực tế 200ms, và có tại github.com/kyutai-labs/moshi.
> We introduce Moshi, a speech-text foundation model and full-duplex spoken dialogue framework. Current systems for spoken dialogue rely on pipelines of independent components, namely voice activity detection, speech recognition, textual dialogue and text-to-speech. Such frameworks cannot emulate the experience of real conversations. First, their complexity induces a latency of several seconds between interactions. Second, text being the intermediate modality for dialogue, non-linguistic information that modifies meaning— such as emotion or non-speech sounds— is lost in the interaction. Finally, they rely on a segmentation into speaker turns, which does not take into account overlapping speech, interruptions and interjections. Moshi solves these independent issues altogether by casting spoken dialogue as speech-to-speech generation. Starting from a text language model backbone, Moshi generates speech as tokens from the residual quantizer of a neural audio codec, while modeling separately its own speech and that of the user into parallel streams. This allows for the removal of explicit speaker turns, and the modeling of arbitrary conversational dynamics. We moreover extend the hierarchical semantic-to-acoustic token generation of previous work to first predict time-aligned text tokens as a prefix to audio tokens. Not only this “Inner Monologue” method significantly improves the linguistic quality of generated speech, but we also illustrate how it can provide streaming speech recognition and text-to-speech. Our resulting model is the first real-time full-duplex spoken large language model, with a theoretical latency of 160ms, 200ms in practice, and is available at github.com/kyutai-labs/moshi.
Liên kết bài báo
Đọc thêm
https://github.com/kyutai-labs/moshi
https://x.com/kyutai_labs/status/1836427396959932492
Huấn luyện mô hình ngôn ngữ tự tự sửa lỗi thông qua học tăng cường / Training Language Models to Self-Correct via Reinforcement Learning
Giới thiệu bài báo
Phát triển phương pháp học tăng cường trực tuyến nhiều lượt để cải thiện khả năng tự sửa lỗi của LLM, hoàn toàn dựa trên dữ liệu do chính mô hình tự sinh; cho thấy SFT không hiệu quả trong việc học tự sửa lỗi và gặp vấn đề do sự không khớp phân phối giữa dữ liệu huấn luyện và phản hồi của mô hình; đề xuất cách tiếp cận hai giai đoạn, trước tiên tối ưu hóa hành vi sửa lỗi rồi sử dụng phần thưởng thưởng thêm để khuếch đại khả năng tự sửa lỗi trong quá trình huấn luyện; khi áp dụng cho Gemini 1.0 Pro và 1.5 Flash, phương pháp này đạt hiệu năng tự sửa lỗi ở mức tốt nhất hiện nay, cải thiện khả năng tự sửa lỗi của các mô hình gốc lần lượt 15,6% và 9,1% trên các benchmark MATH và HumanEval.
> Phát triển phương pháp học tăng cường trực tuyến nhiều lượt để cải thiện khả năng tự sửa lỗi của LLM; hoàn toàn dựa trên dữ liệu do chính mô hình tự sinh; cho thấy SFT không hiệu quả trong việc học tự sửa lỗi và chịu ảnh hưởng từ sự không khớp phân phối giữa dữ liệu huấn luyện và phản hồi của mô hình; đề xuất cách tiếp cận hai giai đoạn, trước tiên tối ưu hóa hành vi sửa lỗi rồi sử dụng phần thưởng thưởng thêm để khuếch đại khả năng tự sửa lỗi trong quá trình huấn luyện; khi áp dụng cho Gemini 1.0 Pro và 1.5 Flash, phương pháp này đạt hiệu năng tự sửa lỗi ở mức tốt nhất hiện nay, cải thiện khả năng tự sửa lỗi của các mô hình gốc lần lượt 15,6% và 9,1% trên các benchmark MATH và HumanEval.
Tóm tắt bài báo (Abstract)
Tự sửa lỗi là một năng lực rất đáng mong muốn của các mô hình ngôn ngữ lớn (LLM), nhưng liên tục được phát hiện là hầu như không hiệu quả trong các LLM hiện đại. Các cách tiếp cận hiện có để huấn luyện khả năng tự sửa lỗi либо yêu cầu nhiều mô hình, либо phụ thuộc vào một mô hình mạnh hơn hoặc các hình thức giám sát khác. Nhằm giải quyết điều này, nhóm nghiên cứu đã phát triển SCoRe, một phương pháp học tăng cường (RL) trực tuyến nhiều lượt giúp cải thiện đáng kể khả năng tự sửa lỗi của LLM chỉ bằng dữ liệu hoàn toàn do chính mô hình tự sinh. Để xây dựng SCoRe, trước tiên họ cho thấy rằng các biến thể của supervised fine-tuning (SFT) trên các vết sửa lỗi do mô hình tạo ra ở chế độ offline là không đủ để đưa hành vi tự sửa lỗi vào mô hình. Cụ thể, họ quan sát thấy rằng huấn luyện bằng SFT либо gặp vấn đề không khớp phân phối giữa dữ liệu huấn luyện và các phản hồi do chính mô hình tạo ra, либо ngầm ưu tiên chỉ một kiểu hành vi sửa lỗi nhất định mà thường không hiệu quả ở thời điểm suy luận. SCoRe giải quyết các thách thức này bằng cách huấn luyện theo chính phân phối các vết sửa lỗi tự sinh của mô hình và sử dụng regularization phù hợp để điều hướng quá trình học nhằm học được chiến lược tự sửa lỗi hiệu quả khi suy luận, thay vì chỉ khớp với các phản hồi có phần thưởng cao cho một prompt nhất định. Cơ chế regularization này quy định việc chạy giai đoạn RL đầu tiên trên mô hình cơ sở để tạo ra một khởi tạo policy ít dễ bị sụp đổ hơn, sau đó sử dụng phần thưởng thưởng thêm để khuếch đại khả năng tự sửa lỗi trong quá trình huấn luyện. Khi áp dụng cho Gemini 1.0 Pro và 1.5 Flash, SCoRe cho thấy đạt hiệu năng tự sửa lỗi ở mức tốt nhất hiện nay, cải thiện khả năng tự sửa lỗi của các mô hình gốc lần lượt 15,6% và 9,1% trên các benchmark MATH và HumanEval.
> Tự sửa lỗi là một năng lực rất đáng mong muốn của các mô hình ngôn ngữ lớn (LLM), nhưng liên tục được phát hiện là hầu như không hiệu quả trong các LLM hiện đại. Các cách tiếp cận hiện có để huấn luyện khả năng tự sửa lỗi либо yêu cầu nhiều mô hình, либо phụ thuộc vào một mô hình mạnh hơn hoặc các hình thức giám sát khác. Nhằm giải quyết điều này, chúng tôi phát triển SCoRe, một phương pháp học tăng cường (RL) trực tuyến nhiều lượt giúp cải thiện đáng kể khả năng tự sửa lỗi của LLM chỉ bằng dữ liệu hoàn toàn do chính mô hình tự sinh. Để xây dựng SCoRe, trước tiên chúng tôi cho thấy rằng các biến thể của supervised fine-tuning (SFT) trên các vết sửa lỗi do mô hình tạo ra ở chế độ offline là không đủ để đưa hành vi tự sửa lỗi vào mô hình. Cụ thể, chúng tôi quan sát thấy rằng huấn luyện bằng SFT либо gặp vấn đề không khớp phân phối giữa dữ liệu huấn luyện và các phản hồi do chính mô hình tạo ra, либо ngầm ưu tiên chỉ một kiểu hành vi sửa lỗi nhất định mà thường không hiệu quả ở thời điểm suy luận. SCoRe giải quyết các thách thức này bằng cách huấn luyện theo chính phân phối các vết sửa lỗi tự sinh của mô hình và sử dụng regularization phù hợp để điều hướng quá trình học nhằm học được chiến lược tự sửa lỗi hiệu quả khi suy luận, thay vì chỉ khớp với các phản hồi có phần thưởng cao cho một prompt nhất định. Cơ chế regularization này quy định việc chạy giai đoạn RL đầu tiên trên mô hình cơ sở để tạo ra một khởi tạo policy ít dễ bị sụp đổ hơn, sau đó sử dụng phần thưởng thưởng thêm để khuếch đại khả năng tự sửa lỗi trong quá trình huấn luyện. Khi áp dụng cho Gemini 1.0 Pro và 1.5 Flash, chúng tôi nhận thấy SCoRe đạt hiệu năng tự sửa lỗi ở mức tốt nhất hiện nay, cải thiện khả năng tự sửa lỗi của các mô hình gốc lần lượt 15,6% và 9,1% trên các benchmark MATH và HumanEval.
Liên kết bài báo
https://arxiv.org/abs/2409.12917
Đọc thêm
https://x.com/omarsar0/status/1837228446839361984
Tài liệu kỹ thuật Qwen2.5-Coder / Qwen2.5-Coder Technical Report
Giới thiệu bài báo
Một loạt mô hình bao gồm các phiên bản 1.5B và 7B tham số; được xây dựng dựa trên kiến trúc Qwen2.5, liên tục được tiền huấn luyện trên 5,5 nghìn tỷ token; đạt hiệu năng tốt nhất hiện nay trên hơn 10 benchmark; sở hữu năng lực mạnh về sinh mã, hoàn thành mã, suy luận và sửa lỗi mã.
> Một loạt mô hình bao gồm các phiên bản 1.5B và 7B tham số; được xây dựng dựa trên kiến trúc Qwen2.5, liên tục được tiền huấn luyện trên 5,5 nghìn tỷ token; đạt hiệu năng tốt nhất hiện nay trên hơn 10 benchmark; sở hữu năng lực mạnh về sinh mã, hoàn thành mã, suy luận và sửa lỗi mã.
Tóm tắt bài báo (Abstract)
Báo cáo này giới thiệu dòng Qwen2.5-Coder, một bản nâng cấp lớn từ phiên bản trước là CodeQwen1.5. Dòng này gồm hai mô hình: Qwen2.5-Coder-1.5B và Qwen2.5-Coder-7B. Là một mô hình chuyên cho mã, Qwen2.5-Coder được xây dựng trên kiến trúc Qwen2.5 và tiếp tục được tiền huấn luyện trên một kho ngữ liệu khổng lồ gồm hơn 5,5 nghìn tỷ token. Thông qua quá trình làm sạch dữ liệu tỉ mỉ, tạo dữ liệu tổng hợp có thể mở rộng và phối trộn dữ liệu cân bằng, Qwen2.5-Coder cho thấy năng lực sinh mã ấn tượng trong khi vẫn giữ được tính đa dụng tổng quát. Mô hình đã được đánh giá trên nhiều tác vụ liên quan đến mã, đạt hiệu năng hàng đầu (SOTA) trên hơn 10 benchmark, bao gồm sinh mã, hoàn thành, suy luận và sửa lỗi, đồng thời liên tục vượt trội so với các mô hình lớn hơn có cùng kích thước mô hình. Unity tin rằng việc phát hành dòng Qwen2.5-Coder sẽ không chỉ mở rộng ranh giới nghiên cứu về code intelligence mà còn, thông qua giấy phép linh hoạt, khuyến khích việc được các nhà phát triển áp dụng rộng rãi hơn trong các ứng dụng thực tế.
> In this report, we introduce the Qwen2.5-Coder series, a significant upgrade from its predecessor, CodeQwen1.5. This series includes two models: Qwen2.5-Coder-1.5B and Qwen2.5-Coder-7B. As a code-specific model, Qwen2.5-Coder is built upon the Qwen2.5 architecture and continues pretrained on a vast corpus of over 5.5 trillion tokens. Through meticulous data cleaning, scalable synthetic data generation, and balanced data mixing, Qwen2.5-Coder demonstrates impressive code generation capabilities while retaining general versatility. The model has been evaluated on a wide range of code-related tasks, achieving state-of-the-art (SOTA) performance across more than 10 benchmarks, including code generation, completion, reasoning, and repair, consistently outperforming larger models of the same model size. We believe that the release of the Qwen2.5-Coder series will not only push the boundaries of research in code intelligence but also, through its permissive licensing, encourage broader adoption by developers in real-world applications.
Liên kết bài báo
https://arxiv.org/abs/2409.12186
Đọc thêm
https://x.com/huybery/status/1837170643563073960
Trên Sơ đồ Tư duy (DoT) / On the Diagram of Thought
Giới thiệu bài báo
Thông qua tính chặt chẽ toán học để nâng cao năng lực suy luận của LLM, DAT mô hình hóa suy luận lặp trong LLM như việc xây dựng một đồ thị có hướng không chu trình, đồng thời tích hợp mệnh đề, phê bình, tinh chỉnh và xác minh vào một cấu trúc DAG thống nhất, giúp nắm bắt suy luận logic phức tạp vượt ra ngoài các cách tiếp cận tuyến tính hoặc dựa trên cây.
> Enhances the reasoning capabilities of LLMs through mathematical rigor; DAT models iterative reasoning in LLM as the construction of a directed acyclic graph; it integrates propositions, critiques, refinement, and verification into a unified DAG structure; this allows DoT to capture complex logical deduction beyond linear or tree-based approaches.
Tóm tắt bài báo (Abstract)
Chúng tôi giới thiệu Diagram of Thought (DoT), một framework mô hình hóa suy luận lặp trong các mô hình ngôn ngữ lớn (LLM) như quá trình xây dựng một đồ thị có hướng không chu trình (DAG) trong một mô hình duy nhất. Khác với các cách tiếp cận truyền thống biểu diễn suy luận dưới dạng chuỗi tuyến tính hoặc cây, DoT tổ chức các mệnh đề, phê bình, tinh chỉnh và xác minh thành một cấu trúc DAG gắn kết, cho phép mô hình khám phá các lộ trình suy luận phức tạp trong khi vẫn duy trì tính nhất quán logic. Mỗi nút trong sơ đồ tương ứng với một mệnh đề đã được đề xuất, phê bình, tinh chỉnh hoặc xác minh, cho phép LLM cải thiện suy luận của mình một cách lặp lại thông qua phản hồi ngôn ngữ tự nhiên. Bằng cách tận dụng dự đoán token kế tiếp tự hồi quy với các token đặc thù theo vai trò, DoT tạo điều kiện cho sự chuyển đổi liền mạch giữa việc đề xuất ý tưởng và đánh giá phản biện, cung cấp phản hồi phong phú hơn so với các tín hiệu nhị phân. Ngoài ra, chúng tôi chính thức hóa framework DoT bằng Topos Theory, cung cấp một nền tảng toán học bảo đảm tính nhất quán logic và tính đúng đắn trong quá trình suy luận. Cách tiếp cận này nâng cao cả quá trình huấn luyện lẫn suy luận trong một LLM duy nhất, loại bỏ nhu cầu cần nhiều mô hình hoặc cơ chế điều khiển bên ngoài. DoT cung cấp một framework khái niệm để thiết kế các mô hình chuyên suy luận thế hệ tiếp theo, nhấn mạnh hiệu quả huấn luyện, năng lực suy luận mạnh mẽ và nền tảng lý thuyết. Mã nguồn có tại https://github.com/diagram-of-thought/diagram-of-thought.
> We introduce Diagram of Thought (DoT), a framework that models iterative reasoning in large language models (LLMs) as the construction of a directed acyclic graph (DAG) within a single model. Unlike traditional approaches that represent reasoning as linear chains or trees, DoT organizes propositions, critiques, refinements, and verifications into a cohesive DAG structure, allowing the model to explore complex reasoning pathways while maintaining logical consistency. Each node in the diagram corresponds to a proposition that has been proposed, critiqued, refined, or verified, enabling the LLM to iteratively improve its reasoning through natural language feedback. By leveraging auto-regressive next-token prediction with role-specific tokens, DoT facilitates seamless transitions between proposing ideas and critically evaluating them, providing richer feedback than binary signals. Furthermore, we formalize the DoT framework using Topos Theory, providing a mathematical foundation that ensures logical consistency and soundness in the reasoning process. This approach enhances both the training and inference processes within a single LLM, eliminating the need for multiple models or external control mechanisms. DoT offers a conceptual framework for designing next-generation reasoning-specialized models, emphasizing training efficiency, robust reasoning capabilities, and theoretical grounding. The code is available at https://github.com/diagram-of-thought/diagram-of-thought.
Liên kết bài báo
https://arxiv.org/abs/2409.10038
Đọc thêm
https://github.com/diagram-of-thought/diagram-of-thought
https://x.com/omarsar0/status/1835882277563179512
Tác nhân trong kỹ thuật phần mềm: khảo sát, bối cảnh và tầm nhìn / Agents in Software Engineering: Survey, Landscape, and Vision
Giới thiệu bài báo
Cung cấp cái nhìn tổng quan toàn diện về các framework của tác nhân dựa trên LLM trong kỹ thuật phần mềm.
> Provides a comprehensive overview of frameworks of LLM-based agents in software engineering.
Tóm tắt bài báo (Abstract)
Trong những năm gần đây, các mô hình ngôn ngữ lớn (LLM) đã đạt được thành công đáng kể và được sử dụng rộng rãi trong nhiều tác vụ downstream, đặc biệt là các tác vụ trong lĩnh vực kỹ thuật phần mềm (SE). Chúng tôi nhận thấy rằng nhiều nghiên cứu kết hợp LLM với SE đã sử dụng khái niệm tác nhân một cách tường minh hoặc hàm ý. Tuy nhiên, vẫn còn thiếu một khảo sát chuyên sâu để hệ thống hóa bối cảnh phát triển của các công trình hiện có, phân tích cách các công trình này kết hợp công nghệ tác nhân dựa trên LLM để tối ưu hóa nhiều tác vụ khác nhau, và làm rõ framework của các tác nhân dựa trên LLM trong SE. Trong bài báo này, chúng tôi thực hiện khảo sát đầu tiên về các nghiên cứu kết hợp tác nhân dựa trên LLM với SE và trình bày một framework cho tác nhân dựa trên LLM trong SE, bao gồm ba mô-đun then chốt: cảm nhận, bộ nhớ và hành động. Chúng tôi cũng tóm tắt các thách thức hiện tại trong việc kết hợp hai lĩnh vực này và đề xuất những cơ hội trong tương lai để ứng phó với các thách thức hiện có. Chúng tôi duy trì một kho GitHub về các bài báo liên quan tại: https://github.com/DeepSoftwareAnalytics/Awesome-Agent4SE.
> In recent years, Large Language Models (LLMs) have achieved remarkable success and have been widely used in various downstream tasks, especially in the tasks of the software engineering (SE) field. We find that many studies combining LLMs with SE have employed the concept of agents either explicitly or implicitly. However, there is a lack of an in-depth survey to sort out the development context of existing works, analyze how existing works combine the LLM-based agent technologies to optimize various tasks, and clarify the framework of LLM-based agents in SE. In this paper, we conduct the first survey of the studies on combining LLM-based agents with SE and present a framework of LLM-based agents in SE which includes three key modules: perception, memory, and action. We also summarize the current challenges in combining the two fields and propose future opportunities in response to existing challenges. We maintain a GitHub repository of the related papers at: https://github.com/DeepSoftwareAnalytics/Awesome-Agent4SE.
Liên kết bài báo
https://arxiv.org/abs/2409.09030
Đọc thêm
https://github.com/DeepSoftwareAnalytics/Awesome-Agent4SE
https://x.com/omarsar0/status/1835705359723319702
Có nên dùng CoT hay không? Chuỗi suy nghĩ chủ yếu giúp ích cho toán học và suy luận ký hiệu / To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning
Giới thiệu bài báo
Nghiên cứu loại tác vụ nào được hưởng lợi nhiều nhất từ prompting chuỗi suy nghĩ (CoT); sau một phân tích tổng hợp trên hơn 100 bài báo và nhiều bộ đánh giá, bài báo phát hiện rằng CoT mang lại lợi thế hiệu năng mạnh chủ yếu cho các tác vụ liên quan đến toán học và logic; đồng thời cho thấy phần lớn lợi ích của CoT đến từ việc cải thiện thực thi ký hiệu, nhưng một symbolic solver còn cho hiệu năng tốt hơn.
> Investigates what kinds of tasks benefit the most from chain-of-thought (CoT) prompting; after a meta-analysis on 100+ papers and several evaluations, it finds that CoT produces strong performance benefits primarily on tasks involving math and logic; they find that most of the CoT gain comes from improving symbolic execution, but a symbolic solver outperforms it.
Tóm tắt bài báo (Abstract)
Chuỗi suy nghĩ (CoT) thông qua prompt là phương pháp gần như mặc định để khơi gợi năng lực suy luận từ các mô hình ngôn ngữ lớn (LLM). Nhưng kiểu “suy nghĩ” bổ sung này thực sự hữu ích cho những loại tác vụ nào? Để phân tích điều này, chúng tôi đã thực hiện một phân tích tổng hợp định lượng bao phủ hơn 100 bài báo sử dụng CoT và tự tiến hành đánh giá trên 20 bộ dữ liệu với 14 mô hình. Kết quả cho thấy CoT chủ yếu mang lại lợi ích hiệu năng mạnh mẽ ở các tác vụ liên quan đến toán học hoặc logic, trong khi lợi ích ở các loại tác vụ khác nhỏ hơn nhiều. Trên MMLU, việc tạo trực tiếp câu trả lời mà không dùng CoT cho độ chính xác gần như tương đương với CoT, trừ khi câu hỏi hoặc phản hồi của mô hình có chứa dấu bằng, biểu thị các phép toán ký hiệu và suy luận. Dựa trên phát hiện này, chúng tôi phân tích hành vi của CoT trên các bài toán này bằng cách tách riêng khâu lập kế hoạch và thực thi, đồng thời so sánh với các LLM được tăng cường bằng công cụ. Phần lớn lợi ích của CoT đến từ việc cải thiện thực thi ký hiệu, nhưng vẫn kém hơn so với việc sử dụng bộ giải ký hiệu. Kết quả nghiên cứu cho thấy có thể áp dụng CoT một cách chọn lọc để duy trì hiệu năng đồng thời giảm chi phí suy luận. Ngoài ra, nghiên cứu cũng gợi ý nhu cầu chuyển dịch vượt ra ngoài CoT dựa trên prompt sang các mô hình mới tận dụng tốt hơn tính toán trung gian trên toàn bộ dải ứng dụng của LLM.
> Chain-of-thought (CoT) via prompting is the de facto method for eliciting reasoning capabilities from large language models (LLMs). But for what kinds of tasks is this extra ``thinking'' really helpful? To analyze this, we conducted a quantitative meta-analysis covering over 100 papers using CoT and ran our own evaluations of 20 datasets across 14 models. Our results show that CoT gives strong performance benefits primarily on tasks involving math or logic, with much smaller gains on other types of tasks. On MMLU, directly generating the answer without CoT leads to almost identical accuracy as CoT unless the question or model's response contains an equals sign, indicating symbolic operations and reasoning. Following this finding, we analyze the behavior of CoT on these problems by separating planning and execution and comparing against tool-augmented LLMs. Much of CoT's gain comes from improving symbolic execution, but it underperforms relative to using a symbolic solver. Our results indicate that CoT can be applied selectively, maintaining performance while saving inference costs. Furthermore, they suggest a need to move beyond prompt-based CoT to new paradigms that better leverage intermediate computation across the whole range of LLM applications.
Liên kết bài báo
https://arxiv.org/abs/2409.12183
Đọc thêm
https://x.com/omarsar0/status/1836599280477299013
Đánh giá toàn diện về các mô hình ngôn ngữ lớn đã tinh chỉnh theo chỉ thị được lượng tử hóa: Phân tích thực nghiệm lên tới 405B / A Comprehensive Evaluation of Quantized Instruction-Tuned Large Language Models: An Experimental Analysis up to 405B
Giới thiệu bài báo
Kết quả đánh giá hiệu năng của các LLM đã tinh chỉnh theo chỉ thị trên nhiều phương pháp lượng tử hóa khác nhau, với các mô hình từ 7B đến 405B, cho thấy: 1) lượng tử hóa một LLM lớn xuống kích thước tương tự một LLM FP16 nhỏ hơn nhìn chung cho hiệu năng tốt hơn trên phần lớn các benchmark; 2) hiệu năng khác biệt đáng kể tùy theo phương pháp lượng tử hóa, kích thước mô hình và độ rộng bit, trong đó các phương pháp chỉ lượng tử hóa trọng số thường cho kết quả tốt hơn ở các mô hình lớn; và 3) độ khó của tác vụ không ảnh hưởng đáng kể đến mức suy giảm độ chính xác do lượng tử hóa.
> Evaluates the performance of instruction-tuned LLMs across various quantization methods on models ranging from 7B to 405B; the key findings are 1) quantizing a larger LLM to a similar size as a smaller FP16 LLM generally performs better across most benchmarks, 2) performance varies significantly with different quantization methods, model size, and bit-width, with weight-only methods often yielding better results in larger models, and 3) task difficulty does not significantly impact accuracy degradation due to quantization.
Tóm tắt bài báo (Abstract)
Các nghiên cứu trước đây đã đánh giá LLM được lượng tử hóa bằng các thước đo hạn chế như độ hỗn loạn hoặc một vài tác vụ kiến thức cơ bản và các bộ dữ liệu cũ. Ngoài ra, những mô hình quy mô lớn gần đây như Llama 3.1 với kích thước lên tới 405B cũng chưa được kiểm chứng một cách kỹ lưỡng. Bài báo này đánh giá hiệu năng của các LLM đã tinh chỉnh theo chỉ thị trên nhiều phương pháp lượng tử hóa khác nhau (GPTQ, AWQ, SmoothQuant, FP8) với các mô hình từ 7B đến 405B. Sử dụng 13 benchmark, nghiên cứu đánh giá hiệu năng trên 6 loại tác vụ gồm hỏi đáp suy luận thường thức, kiến thức và hiểu ngôn ngữ, làm theo chỉ dẫn, phát hiện ảo giác, toán học và hội thoại. Các phát hiện chính cho thấy rằng (1) lượng tử hóa một LLM lớn xuống kích thước tương đương một LLM FP16 nhỏ hơn nhìn chung cho hiệu năng tốt hơn trên hầu hết benchmark, ngoại trừ phát hiện ảo giác và làm theo chỉ dẫn; (2) hiệu năng thay đổi đáng kể tùy theo phương pháp lượng tử hóa, kích thước mô hình và độ rộng bit, trong đó các phương pháp chỉ lượng tử hóa trọng số thường cho kết quả tốt hơn ở các mô hình lớn; (3) độ khó của tác vụ không ảnh hưởng đáng kể đến mức suy giảm độ chính xác do lượng tử hóa gây ra; và (4) phương pháp đánh giá MT-Bench có khả năng phân biệt hạn chế giữa các LLM hiệu năng cao gần đây.
> Prior research works have evaluated quantized LLMs using limited metrics such as perplexity or a few basic knowledge tasks and old datasets. Additionally, recent large-scale models such as Llama 3.1 with up to 405B have not been thoroughly examined. This paper evaluates the performance of instruction-tuned LLMs across various quantization methods (GPTQ, AWQ, SmoothQuant, and FP8) on models ranging from 7B to 405B. Using 13 benchmarks, we assess performance across six task types: commonsense Q&A, knowledge and language understanding, instruction following, hallucination detection, mathematics, and dialogue. Our key findings reveal that (1) quantizing a larger LLM to a similar size as a smaller FP16 LLM generally performs better across most benchmarks, except for hallucination detection and instruction following; (2) performance varies significantly with different quantization methods, model size, and bit-width, with weight-only methods often yielding better results in larger models; (3) task difficulty does not significantly impact accuracy degradation due to quantization; and (4) the MT-Bench evaluation method has limited discriminatory power among recent high-performing LLMs.
Liên kết bài báo
https://arxiv.org/abs/2409.11055
Đọc thêm
https://x.com/omarsar0/status/1836479309390995790
Lặp lại tư duy: Khai thác đối thoại nội tại cho suy luận tự chủ của mô hình ngôn ngữ lớn / Iteration of Thought: Leveraging Inner Dialogue for Autonomous Large Language Model Reasoning
Giới thiệu bài báo
Đề xuất khung Iteration of Thought (IoT) nhằm nâng cao phản hồi và năng lực suy luận của LLM bằng các lộ trình suy luận thích ứng; khung này tận dụng một tác nhân đối thoại nội tại đóng vai trò người dẫn đường để điều chỉnh động các lộ trình suy luận, từ đó cho phép khám phá thích ứng giữa các nhánh và cải thiện độ chính xác của câu trả lời; điểm khác biệt so với CoT và ToT (đều là các quy trình cố định) là việc tạo prompt của nó là một quá trình động có thể thích ứng.
> Proposes the Iteration of Thought (IoT) framework to enhance the LLM responses and reasoning capabilities with adaptive reasoning paths; it leverages an inner dialogue agent, acting as a guide, to dynamically adjust reasoning paths which allows adaptive cross-path exploration and enhance response accuracy; it's different from CoT and ToT (both rigid processes) in that its prompt generation is a dynamic process that allows it to adapt.
Tóm tắt bài báo(Abstract)
Việc con người tham gia lặp đi lặp lại là một phương thức phổ biến và hiệu quả để tận dụng năng lực xử lý ngôn ngữ tiên tiến của các mô hình ngôn ngữ lớn (LLM). Bằng cách sử dụng các prompt hội thoại được cấu trúc tốt, người dùng có thể tác động hiệu quả để LLM xây dựng các phản hồi sâu sắc và chính xác hơn. Được truyền cảm hứng từ nhận định này, chúng tôi đề xuất khung Iteration of Thought (IoT) nhằm cải thiện phản hồi của LLM bằng cách tạo ra các prompt khơi gợi "suy nghĩ" xoay quanh truy vấn đầu vào và vòng lặp phản hồi hiện tại của LLM. Không giống các cách tiếp cận tĩnh hoặc bán tĩnh như Chain of Thought (CoT) hay Tree of Thoughts (ToT), IoT điều chỉnh đường suy luận một cách động theo bối cảnh đang thay đổi, đồng thời không tạo ra các nhánh suy nghĩ khám phá thay thế rồi cuối cùng bị loại bỏ. Ba thành phần của khung IoT gồm: (1) IDA (Inner Dialogue Agent), chịu trách nhiệm tạo các prompt mang tính chỉ dẫn và đặc thù theo ngữ cảnh; (2) LLMA (LLM Agent), xử lý các prompt này để tinh chỉnh phản hồi; và (3) một vòng lặp prompt lặp lại để hiện thực hóa cuộc đối thoại giữa hai thành phần trên. Chúng tôi giới thiệu hai biến thể của khung này: Autonomous Iteration of Thought (AIoT), trong đó LLM tự quyết định khi nào dừng lặp; và Guided Iteration of Thought (GIoT), luôn áp đặt một số lần lặp cố định. Chúng tôi khảo sát hiệu năng của IoT trên nhiều bộ dữ liệu khác nhau, bao gồm các tác vụ suy luận phức tạp từ bộ dữ liệu GPQA, giải quyết vấn đề mang tính khám phá trong Game of 24, giải đố trong Mini Crosswords, và hỏi đáp đa bước từ bộ dữ liệu HotpotQA. Kết quả cho thấy IoT là một paradigm khả thi cho việc tự động tinh chỉnh phản hồi trong LLM, thể hiện mức cải thiện đáng kể so với CoT, từ đó mở đường cho các hệ thống suy luận thích ứng và hiệu quả hơn, với mức can thiệp của con người được giảm thiểu.
> Iterative human engagement is a common and effective means of leveraging the advanced language processing power of large language models (LLMs). Using well-structured prompts in a conversational manner, human users can effectively influence an LLM to develop more thoughtful and accurate responses. Motivated by this insight, we propose the Iteration of Thought (IoT) framework for enhancing LLM responses by generating "thought"-provoking prompts vis a vis an input query and the current iteration of an LLM's response. Unlike static or semi-static approaches, e.g. Chain of Thought (CoT) or Tree of Thoughts (ToT), IoT adapts its reasoning path dynamically, based on evolving context, and without generating alternate explorative thoughts which are ultimately discarded. The three components of the IoT framework are (1) an Inner Dialogue Agent (IDA) responsible for generating instructive, context-specific prompts; (2) an LLM Agent (LLMA) that processes these prompts to refine its responses; and (3) an iterative prompting loop that implements a conversation between the former two components. We introduce two variants of our framework: Autonomous Iteration of Thought (AIoT), where an LLM decides when to stop iterating, and Guided Iteration of Thought (GIoT), which always forces a fixed number iterations. We investigate the performance of IoT across various datasets, spanning complex reasoning tasks from the GPQA dataset, explorative problem-solving in Game of 24, puzzle solving in Mini Crosswords, and multi-hop question answering from the HotpotQA dataset. Our results show that IoT represents a viable paradigm for autonomous response refinement in LLMs, showcasing significant improvements over CoT and thereby enabling more adaptive and efficient reasoning systems that minimize human intervention.
Liên kết bài báo
https://arxiv.org/abs/2409.12618
Đọc thêm
https://x.com/omarsar0/status/1836977595847692671
Ký ức của Schrödinger: Mô hình ngôn ngữ lớn / Schrodinger's Memory: Large Language Models
Giới thiệu bài báo
Bài báo sử dụng Định lý xấp xỉ phổ quát để giải thích cơ chế bộ nhớ của LLM. Đồng thời, bài báo đề xuất một cách tiếp cận mới để đánh giá hiệu năng LLM bằng cách so sánh dung lượng bộ nhớ của các mô hình khác nhau; kiến trúc Transformer hoạt động như một mô hình UAT khớp động, với khả năng mạnh mẽ trong việc khớp đầu vào một cách thích ứng; điều này cho phép LLM hồi tưởng lại toàn bộ nội dung chỉ từ lượng thông tin đầu vào tối thiểu.
> Uses the Universal Approximation Theorem to explain the memory mechanism of LLMs. It also proposes a new approach to evaluate LLM performance by comparing the memory capacities of different models; the Transformer architecture functions as a dynamic fitting UAT model, with a strong ability to adaptively fit inputs; this enables LLMs to recall entire content based on minimal input information.
Tóm tắt bài báo (Abstract)
Trí nhớ là nền tảng của mọi hoạt động của con người; nếu không có trí nhớ, gần như không thể thực hiện bất kỳ công việc nào trong cuộc sống hằng ngày. Cùng với sự phát triển của các mô hình ngôn ngữ lớn (LLM), năng lực ngôn ngữ của chúng ngày càng trở nên tương đồng với con người. Nhưng LLM có trí nhớ hay không? Dựa trên hiệu năng hiện tại, LLM dường như thực sự thể hiện trí nhớ. Vậy cơ chế nền tảng của trí nhớ này là gì? Các nghiên cứu trước đây còn thiếu sự khám phá chuyên sâu về năng lực ghi nhớ của LLM và lý thuyết nền tảng của nó. Trong bài báo này, chúng tôi sử dụng Định lý xấp xỉ phổ quát (UAT) để giải thích cơ chế trí nhớ trong LLM. Chúng tôi cũng tiến hành các thí nghiệm để kiểm chứng năng lực ghi nhớ của nhiều LLM khác nhau, đồng thời đề xuất một phương pháp mới để đánh giá năng lực của chúng dựa trên khả năng ghi nhớ này. Chúng tôi lập luận rằng trí nhớ của LLM vận hành giống như trí nhớ Schr"odinger, tức là chỉ có thể quan sát được khi một ký ức cụ thể được truy vấn. Chúng ta chỉ có thể xác định liệu mô hình có lưu giữ một ký ức hay không dựa trên đầu ra của nó để đáp lại truy vấn; nếu không, nó vẫn ở trạng thái bất định. Cuối cùng, chúng tôi mở rộng khái niệm này bằng cách so sánh năng lực ghi nhớ của não người và LLM, làm nổi bật những điểm tương đồng và khác biệt trong cơ chế vận hành của chúng.
> Memory is the foundation of all human activities; without memory, it would be nearly impossible for people to perform any task in daily life. With the development of Large Language Models (LLMs), their language capabilities are becoming increasingly comparable to those of humans. But do LLMs have memory? Based on current performance, LLMs do appear to exhibit memory. So, what is the underlying mechanism of this memory? Previous research has lacked a deep exploration of LLMs' memory capabilities and the underlying theory. In this paper, we use Universal Approximation Theorem (UAT) to explain the memory mechanism in LLMs. We also conduct experiments to verify the memory capabilities of various LLMs, proposing a new method to assess their abilities based on these memory ability. We argue that LLM memory operates like Schr"odinger's memory, meaning that it only becomes observable when a specific memory is queried. We can only determine if the model retains a memory based on its output in response to the query; otherwise, it remains indeterminate. Finally, we expand on this concept by comparing the memory capabilities of the human brain and LLMs, highlighting the similarities and differences in their operational mechanisms.
Liên kết bài báo
https://arxiv.org/abs/2409.10482
Đọc thêm
https://x.com/omarsar0/status/1835882330323554321
Vượt ngục mô hình ngôn ngữ lớn bằng toán học ký hiệu / Jailbreaking Large Language Models with Symbolic Mathematics
Giới thiệu bài báo
Sử dụng GPT-4o để tạo các prompt được mã hóa bằng toán học, đóng vai trò như một kỹ thuật vượt ngục hiệu quả; cho thấy tỷ lệ tấn công thành công trung bình 73.6% trên 13 mô hình tối tân, qua đó nhấn mạnh rằng các cơ chế huấn luyện an toàn hiện tại không thể khái quát hóa với đầu vào được mã hóa bằng toán học.
> Uses GPT-4o to generate mathematically encoded prompts that serve as an effective jailbreaking technique; shows an average attack success rate of 73.6% across 13 state-of-the-art; this highlights the inability of existing safety training mechanisms to generalize to mathematically encoded inputs.
Tóm tắt bài báo (Abstract)
Những tiến bộ gần đây về an toàn AI đã dẫn đến việc gia tăng các nỗ lực huấn luyện và red-teaming đối với các mô hình ngôn ngữ lớn (LLM) nhằm giảm thiểu việc tạo ra nội dung không an toàn. Tuy nhiên, các cơ chế an toàn này có thể chưa toàn diện, khiến những lỗ hổng tiềm ẩn vẫn chưa được khám phá. Bài báo này giới thiệu MathPrompt, một kỹ thuật vượt ngục mới khai thác năng lực toán học ký hiệu nâng cao của LLM để vượt qua các cơ chế an toàn của chúng. Bằng cách mã hóa các prompt ngôn ngữ tự nhiên độc hại thành các bài toán, chúng tôi cho thấy một lỗ hổng nghiêm trọng trong các biện pháp an toàn AI hiện tại. Kết quả thí nghiệm trên 13 LLM tối tân cho thấy tỷ lệ tấn công thành công trung bình đạt 73.6%, qua đó làm nổi bật việc các cơ chế huấn luyện an toàn hiện có không thể khái quát hóa với đầu vào được mã hóa bằng toán học. Phân tích các vector embedding cho thấy có sự dịch chuyển ngữ nghĩa đáng kể giữa prompt gốc và prompt đã mã hóa, giúp giải thích sự thành công của cuộc tấn công. Công trình này nhấn mạnh tầm quan trọng của một cách tiếp cận toàn diện đối với an toàn AI, đồng thời kêu gọi mở rộng các nỗ lực red-teaming để phát triển các biện pháp bảo vệ vững chắc cho mọi loại đầu vào tiềm năng và các rủi ro liên quan của chúng.
> Recent advancements in AI safety have led to increased efforts in training and red-teaming large language models (LLMs) to mitigate unsafe content generation. However, these safety mechanisms may not be comprehensive, leaving potential vulnerabilities unexplored. This paper introduces MathPrompt, a novel jailbreaking technique that exploits LLMs' advanced capabilities in symbolic mathematics to bypass their safety mechanisms. By encoding harmful natural language prompts into mathematical problems, we demonstrate a critical vulnerability in current AI safety measures. Our experiments across 13 state-of-the-art LLMs reveal an average attack success rate of 73.6%, highlighting the inability of existing safety training mechanisms to generalize to mathematically encoded inputs. Analysis of embedding vectors shows a substantial semantic shift between original and encoded prompts, helping explain the attack's success. This work emphasizes the importance of a holistic approach to AI safety, calling for expanded red-teaming efforts to develop robust safeguards across all potential input types and their associated risks.
Liên kết bài báo
https://arxiv.org/abs/2409.11445
Đọc thêm
https://x.com/omarsar0/status/1836603922405806501
Bản gốc
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-277
Bài viết này được tổng hợp bằng mô hình GPT, nên có thể có một số chỗ chưa chính xác; vui lòng tham khảo cả nguyên văn ở phía dưới bài viết! Nếu trong lúc đọc bạn phát hiện nội dung gượng gạo hoặc sai sót, mong bạn cho biết qua phần bình luận. 🤗
⚠️Quảng cáo⚠️: Bạn thấy bài viết do 🔥Cộng đồng người dùng PyTorch Hàn Quốc🇰🇷 tổng hợp này hữu ích chứ? Nếu đăng ký thành viên, chúng tôi sẽ gửi các bài viết nổi bật qua email💌 cho bạn! (Mặc định là Weekly, nhưng cũng có thể đổi sang Daily.)
3 bình luận
Tiêu đề là tháng 6 nhưng bài đăng được liên kết lại là tháng 9. Có phải là do tự động hoàn thành không?
Ôi, đúng là vậy;;; cảm ơn bạn đã nhắc. T_T
Tiêu đề lẽ ra phải là '[2024/09/16 ~ 09/22] Các bài báo ML nổi bật trong tuần (Top ML Papers of the Week)', nhưng tôi đã dùng template nên bị nhầm. Nếu xguru có thấy thì mong bạn đổi giúp. 🙇♂️
Cảm ơn!!