24] Các bài báo ML nổi bật trong tuần (Top ML Papers of the Week)

(discuss.pytorch.kr)

1 điểm bởi ninebow 2024-03-27 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Tôi đã thử tự động dịch các bài viết về các bài báo ML được DAIR.AI công bố hằng tuần.

Các bài báo được chọn trong tuần này nhìn chung cho thấy khá nhiều nghiên cứu tận dụng mô hình ngôn ngữ lớn (LLMs). Đặc biệt, như có thể thấy từ các tiêu đề như 'Tool Use in LLMs', 'Step-by-Step Comparisons Make LLMs Better Reasoners', 'LLM4Decompile', 'Agent-FLAN', 'LLMs Leak Proprietary Information' và 'Retrieval-Augmented Fine-Tuning', các bài báo này dường như đề cập đến phạm vi ứng dụng đa dạng của LLMs, các phương pháp cải thiện hiệu năng, cũng như cả các vấn đề bảo mật.
Xu hướng này có thể được xem là kết quả của những nỗ lực trong nhiều lĩnh vực nghiên cứu nhằm tìm kiếm phạm vi ứng dụng cho LLMs, khi chúng đã thu hút sự chú ý trong lĩnh vực trí tuệ nhân tạo trong vài năm gần đây. Đặc biệt, không chỉ các phương pháp giúp xử lý những tác vụ hiện có hiệu quả hơn, mà cả việc nâng cao năng lực suy luận trong quá trình sử dụng công cụ hay giải quyết vấn đề, khám phá các lĩnh vực ứng dụng mới như đảo ngược phần mềm, cùng với nghiên cứu về độ ổn định và bảo mật của mô hình, đều đang mở rộng tiềm năng phát triển của LLMs. Ngoài ra, những nghiên cứu này còn đóng vai trò quan trọng trong việc đào sâu hiểu biết về cách LLMs có thể được sử dụng trong môi trường thực tế, cũng như những vấn đề tiềm ẩn liên quan.
Bên cạnh đó, các bài báo như 'Evolutionary Model Merge' và 'DROID' đề xuất nghiên cứu về quá trình hợp nhất và phát triển mô hình, cho thấy mối quan tâm đối với các phương pháp liên tục cải thiện và tối ưu hóa hiệu năng mô hình cũng đang gia tăng. Điều này không chỉ gợi mở một định hướng quan trọng cho sự phát triển và tích hợp của LLMs mà còn cho nhiều công nghệ AI khác, và dự kiến sẽ tiếp tục là một chủ đề quan trọng trong các nghiên cứu sắp tới. Vì vậy, các bài báo được chọn trong tuần này mang lại những góc nhìn giá trị về xu hướng hiện tại và định hướng tương lai của nghiên cứu liên quan đến LLMs.

Grok-1

Giới thiệu bài báo

Mô hình mixture-of-experts với 314B tham số, bao gồm việc phát hành công khai trọng số mô hình nền tảng và kiến trúc mạng; mô hình MoE kích hoạt 25% trọng số cho một token nhất định và mốc cắt dữ liệu tiền huấn luyện là tháng 10 năm 2023.

a mixture-of-experts model with 314B parameters which includes the open release of the base model weights and network architecture; the MoE model activates 25% of the weights for a given token and its pretraining cutoff date is October 2023.

Liên kết bài báo

https://x.ai/blog/grok-os

Đọc thêm

https://discuss.pytorch.kr/t/x-ai-grok/3793/1

https://x.com/ibab_ml/status/1769447989192675748

Tối ưu hóa tiến hóa cho công thức hợp nhất mô hình / Evolutionary Optimization of Model Merging Recipes

Giới thiệu bài báo

Một cách tiếp cận tự động hóa phát triển mô hình nền tảng bằng cách sử dụng tiến hóa để kết hợp các mô hình mã nguồn mở; thúc đẩy hợp nhất liên miền, trong đó một LLM toán học tiếng Nhật đã đạt hiệu năng hàng đầu trên các benchmark LLM tiếng Nhật và thậm chí vượt qua các mô hình có số lượng tham số lớn hơn đáng kể, dù không được huấn luyện tường minh cho các tác vụ này.

an approach for automating foundation model development using evolution to combine open-source models; facilitates cross-domain merging where a Japanese Math LLM achieved state-of-the-art performance on Japanese LLM benchmarks, even surpassing models with significantly more parameters, despite not explicitly trained for these tasks.

Tóm tắt bài báo (Abstract)

Giới thiệu một ứng dụng mới của thuật toán tiến hóa nhằm tự động hóa việc tạo ra các mô hình nền tảng mạnh mẽ. Dù hợp nhất mô hình đã nổi lên như một cách tiếp cận đầy hứa hẹn cho phát triển LLM nhờ tính hiệu quả về chi phí, hiện nó vẫn phụ thuộc vào trực giác con người và kiến thức miền, điều này làm hạn chế tiềm năng của nó. Tại đây, bài báo đề xuất một cách tiếp cận tiến hóa vượt qua hạn chế đó bằng cách tự động khám phá các tổ hợp hiệu quả giữa nhiều mô hình mã nguồn mở đa dạng, khai thác trí tuệ tập thể của chúng mà không cần lượng lớn dữ liệu huấn luyện bổ sung hay tài nguyên tính toán. Cách tiếp cận này hoạt động trong cả không gian tham số và không gian luồng dữ liệu, cho phép tối ưu hóa vượt ra ngoài chỉ các trọng số của từng mô hình riêng lẻ. Cách tiếp cận này thậm chí còn tạo điều kiện cho hợp nhất liên miền, sinh ra các mô hình như LLM tiếng Nhật có khả năng suy luận toán học. Đáng chú ý, LLM toán học tiếng Nhật của họ đã đạt hiệu năng hàng đầu trên nhiều benchmark LLM tiếng Nhật đã được thiết lập, thậm chí vượt qua các mô hình có số lượng tham số lớn hơn đáng kể, dù không được huấn luyện tường minh cho các tác vụ như vậy. Hơn nữa, VLM tiếng Nhật có nhận thức văn hóa được tạo ra bằng cách tiếp cận này cho thấy hiệu quả trong việc mô tả nội dung đặc thù của văn hóa Nhật Bản, vượt trội hơn các VLM tiếng Nhật trước đó. Công trình này không chỉ đóng góp trở lại cho cộng đồng mã nguồn mở những mô hình mới đạt trình độ tiên tiến nhất, mà còn giới thiệu một mô hình mới cho việc cấu thành mô hình tự động, mở đường cho việc khám phá các cách tiếp cận thay thế và hiệu quả đối với phát triển mô hình nền tảng.

We present a novel application of evolutionary algorithms to automate the creation of powerful foundation models. While model merging has emerged as a promising approach for LLM development due to its cost-effectiveness, it currently relies on human intuition and domain knowledge, limiting its potential. Here, we propose an evolutionary approach that overcomes this limitation by automatically discovering effective combinations of diverse open-source models, harnessing their collective intelligence without requiring extensive additional training data or compute. Our approach operates in both parameter space and data flow space, allowing for optimization beyond just the weights of the individual models. This approach even facilitates cross-domain merging, generating models like a Japanese LLM with Math reasoning capabilities. Surprisingly, our Japanese Math LLM achieved state-of-the-art performance on a variety of established Japanese LLM benchmarks, even surpassing models with significantly more parameters, despite not being explicitly trained for such tasks. Furthermore, a culturally-aware Japanese VLM generated through our approach demonstrates its effectiveness in describing Japanese culture-specific content, outperforming previous Japanese VLMs. This work not only contributes new state-of-the-art models back to the open-source community, but also introduces a new paradigm for automated model composition, paving the way for exploring alternative, efficient approaches to foundation model development.
Quảng cáo

Liên kết bài báo

https://arxiv.org/abs/2403.13187

Đọc thêm

https://x.com/SakanaAILabs/status/1770613032198279663

TacticAI: trợ lý AI cho chiến thuật bóng đá / TacticAI: an AI assistant for football tactics

Giới thiệu bài báo

Đây là một hệ thống hỗ trợ AI cho chiến thuật bóng đá được phát triển và đánh giá với sự hợp tác của các chuyên gia theo từng lĩnh vực của Liverpool FC; hệ thống cung cấp cho huấn luyện viên cách lấy mẫu và khám phá các phương án bố trí cầu thủ thay thế cho các bài phạt góc, đồng thời chọn ra chiến thuật có xác suất thành công dự đoán cao nhất; các đề xuất mô hình của TacticAI được ưa chuộng hơn chiến thuật hiện có trong 90% trường hợp và cung cấp một hệ thống truy xuất tình huống phạt góc hiệu quả.

an AI-powered assistant for football tactics developed and evaluated in collaboration with domain experts from Liverpool FC; the systems offer coaches a way to sample and explore alternative player setups for a corner kick routine and select the tactic with the highest predicted likelihood of success; TacticAI’s model suggestions are favored over existing tactics 90% of the time and it offers an effective corner kick retrieval system.

Tóm tắt bài báo (Abstract)

Việc xác định các mẫu chiến thuật chủ chốt mà đội đối thủ sử dụng và xây dựng các biện pháp đối phó hiệu quả là cốt lõi của bóng đá hiện đại. Tuy nhiên, việc thực hiện điều này bằng thuật toán vẫn là một bài toán nghiên cứu chưa được giải quyết. Để đáp ứng nhu cầu còn bỏ ngỏ này, Unity đề xuất TacticAI, một trợ lý chiến thuật bóng đá bằng AI được phát triển và đánh giá trong sự hợp tác chặt chẽ với các chuyên gia lĩnh vực của Liverpool FC. Nghiên cứu tập trung vào phân tích các tình huống phạt góc, vì đây là cơ hội trực tiếp nhất để huấn luyện viên can thiệp và cải thiện. TacticAI tích hợp cả thành phần dự đoán lẫn thành phần sinh, cho phép huấn luyện viên lấy mẫu và khám phá hiệu quả các phương án bố trí cầu thủ thay thế cho từng bài phạt góc, đồng thời chọn ra phương án có xác suất thành công dự đoán cao nhất. Unity xác thực TacticAI trên nhiều tác vụ benchmark liên quan như dự đoán người nhận bóng và cú sút, cũng như đề xuất điều chỉnh vị trí cầu thủ. Tính hữu ích của TacticAI được kiểm chứng thông qua một nghiên cứu định tính được thực hiện cùng các chuyên gia bóng đá của Liverpool FC. Kết quả cho thấy các đề xuất mô hình của TacticAI không chỉ không thể phân biệt với chiến thuật thực tế mà còn được ưa chuộng hơn các chiến thuật hiện có trong 90% trường hợp, đồng thời cung cấp một hệ thống truy xuất tình huống phạt góc hiệu quả. TacticAI đạt được những kết quả này dù dữ liệu chuẩn vàng có sẵn còn hạn chế, nhờ đạt hiệu quả dữ liệu thông qua geometric deep learning.

Identifying key patterns of tactics implemented by rival teams, and developing effective responses, lies at the heart of modern football. However, doing so algorithmically remains an open research challenge. To address this unmet need, we propose TacticAI, an AI football tactics assistant developed and evaluated in close collaboration with domain experts from Liverpool FC. We focus on analysing corner kicks, as they offer coaches the most direct opportunities for interventions and improvements. TacticAI incorporates both a predictive and a generative component, allowing the coaches to effectively sample and explore alternative player setups for each corner kick routine and to select those with the highest predicted likelihood of success. We validate TacticAI on a number of relevant benchmark tasks: predicting receivers and shot attempts and recommending player position adjustments. The utility of TacticAI is validated by a qualitative study conducted with football domain experts at Liverpool FC. We show that TacticAI’s model suggestions are not only indistinguishable from real tactics, but also favoured over existing tactics 90% of the time, and that TacticAI offers an effective corner kick retrieval system. TacticAI achieves these results despite the limited availability of gold-standard data, achieving data efficiency through geometric deep learning.

Liên kết bài báo

https://www.nature.com/articles/s41467-024-45965-x

Đọc thêm

https://discuss.pytorch.kr/t/tacticai-ai-feat-deepmind-fc/3841

https://x.com/GoogleDeepMind/status/1770121564085707082

Sử dụng công cụ trong LLM / Tool Use in LLMs

Giới thiệu bài báo

Bài viết cung cấp cái nhìn tổng quan về việc sử dụng công cụ trong LLM, bao gồm định nghĩa chính thức của mô hình sử dụng công cụ, các kịch bản mà LLM tận dụng việc dùng công cụ, cũng như những tác vụ mà cách tiếp cận này phát huy hiệu quả; đồng thời cung cấp phân tích về việc sử dụng công cụ phức tạp và tóm tắt các testbed cùng các chỉ số đánh giá trên các công trình về tooling cho LM.

provides an overview of tool use in LLMs, including a formal definition of the tool-use paradigm, scenarios where LLMs leverage tool usage, and for which tasks this approach works well; it also provides an analysis of complex tool usage and summarize testbeds and evaluation metrics across LM tooling works.

Quảng cáo

Tóm tắt bài báo (Abstract)

Mô hình ngôn ngữ (LM) rất mạnh mẽ nhưng chủ yếu được dùng cho các tác vụ tạo văn bản. Các công cụ đã cải thiện đáng kể hiệu năng của chúng đối với những tác vụ đòi hỏi kỹ năng phức tạp. Tuy nhiên, nhiều công trình lại sử dụng thuật ngữ “công cụ” theo những cách khác nhau, đặt ra câu hỏi: rốt cuộc công cụ là gì? Và tiếp theo, công cụ giúp LM ở đâu và bằng cách nào? Trong khảo sát này, chúng tôi đưa ra một định nghĩa thống nhất về công cụ như các chương trình bên ngoài được LM sử dụng, đồng thời thực hiện một tổng quan có hệ thống về các kịch bản và phương pháp sử dụng công cụ của LM. Dựa trên tổng quan này, chúng tôi nghiên cứu thực nghiệm hiệu quả của nhiều phương pháp dùng công cụ khác nhau bằng cách đo lường mức tính toán cần thiết và mức cải thiện hiệu năng trên nhiều bộ benchmark, đồng thời nêu bật một số thách thức và hướng nghiên cứu tiềm năng trong tương lai của lĩnh vực này.

Language models (LMs) are powerful yet mostly for text generation tasks. Tools have substantially enhanced their performance for tasks that require complex skills. However, many works adopt the term “tool” in different ways, raising the question: What is a tool anyway? Subsequently, where and how do tools help LMs? In this survey, we provide a unified definition of tools as external programs used by LMs, and perform a systematic review of LM tooling scenarios and approaches. Grounded on this review, we empirically study the efficiency of various tooling methods by measuring their required compute and performance gains on various benchmarks, and highlight some challenges and potential future research in the field.

Link bài báo

https://zorazrw.github.io/files/WhatAreToolsAnyway.pdf

Đọc thêm

https://x.com/omarsar0/status/1770497515898433896

RankPrompt: Biến mô hình ngôn ngữ thành những bộ suy luận tốt hơn thông qua so sánh từng bước / RankPrompt: Step-by-Step Comparisons Make Language Models Better Reasoners

Giới thiệu bài báo

Đề xuất RankPrompt, một phương pháp prompting cho phép LLM tự xếp hạng các câu trả lời của mình mà không cần thêm tài nguyên. Cách tự xếp hạng này xếp hạng các phương án thông qua đánh giá so sánh từng bước một cách có hệ thống; nó có vẻ hoạt động tốt nhờ tận dụng khả năng của LLM trong việc tạo ra các chuỗi so sánh làm ví dụ minh họa; RankPrompt cải thiện đáng kể hiệu năng suy luận của ChatGPT và GPT-4 trên nhiều tác vụ suy luận số học và suy luận thường thức.

proposes RankPrompt, a prompting method to enable LLMs to self-rank their responses without additional resources; this self-ranking approach ranks candidates through a systematic, step-by-step comparative evaluation; it seems to work well as it leverages the capabilities of LLMs to generate chains of comparisons as demonstrations; RankPrompt significantly enhances the reasoning performance of ChatGPT and GPT-4 on many arithmetic and commonsense reasoning tasks.

Tóm tắt bài báo (Abstract)

Các mô hình ngôn ngữ lớn (LLM) đã đạt được hiệu năng ấn tượng trên nhiều tác vụ suy luận khác nhau. Tuy nhiên, ngay cả những LLM tiên tiến như ChatGPT cũng dễ mắc lỗi logic trong quá trình suy luận. Các giải pháp hiện có, chẳng hạn như triển khai bộ kiểm chứng theo từng tác vụ hoặc bỏ phiếu trên nhiều lộ trình suy luận, либо đòi hỏi lượng lớn chú thích từ con người, либо thất bại trong các kịch bản có câu trả lời không nhất quán. Để giải quyết những thách thức này, chúng tôi giới thiệu RankPrompt, một phương pháp prompting mới cho phép LLM tự xếp hạng các câu trả lời của mình mà không cần thêm tài nguyên. RankPrompt chia nhỏ bài toán xếp hạng thành một chuỗi các phép so sánh giữa nhiều câu trả lời đa dạng, tận dụng khả năng vốn có của LLM trong việc tạo ra các chuỗi so sánh như những ví dụ theo ngữ cảnh. Kết quả thí nghiệm trên 11 tác vụ suy luận số học và thường thức cho thấy RankPrompt cải thiện đáng kể hiệu năng suy luận của ChatGPT và GPT-4, với mức cải thiện lên tới 13%. Hơn nữa, RankPrompt còn thể hiện xuất sắc trong các đánh giá tự động dựa trên LLM cho các tác vụ mở, trùng khớp với đánh giá của con người trong 74% trường hợp trên bộ dữ liệu AlpacaEval. Nó cũng cho thấy độ bền vững trước những thay đổi về thứ tự và tính nhất quán của câu trả lời. Tổng hợp lại, các kết quả này xác nhận RankPrompt là một phương pháp hiệu quả để khơi gợi phản hồi chất lượng cao từ các mô hình ngôn ngữ.

Large Language Models (LLMs) have achieved impressive performance across various reasoning tasks. However, even state-of-the-art LLMs such as ChatGPT are prone to logical errors during their reasoning processes. Existing solutions, such as deploying task-specific verifiers or voting over multiple reasoning paths, either require extensive human annotations or fail in scenarios with inconsistent responses. To address these challenges, we introduce RankPrompt, a new prompting method that enables LLMs to self-rank their responses without additional resources. RankPrompt breaks down the ranking problem into a series of comparisons among diverse responses, leveraging the inherent capabilities of LLMs to generate chains of comparison as contextual exemplars. Our experiments across 11 arithmetic and commonsense reasoning tasks show that RankPrompt significantly enhances the reasoning performance of ChatGPT and GPT-4, with improvements of up to 13%. Moreover, RankPrompt excels in LLM-based automatic evaluations for open-ended tasks, aligning with human judgments 74% of the time in the AlpacaEval dataset. It also exhibits robustness to variations in response order and consistency. Collectively, our results validate RankPrompt as an effective method for eliciting high-quality feedback from language models.

Link bài báo

https://arxiv.org/abs/2403.12373

Đọc thêm

https://x.com/omarsar0/status/1770492690129359135

LLM4Decompile: Giải biên dịch mã nhị phân bằng mô hình ngôn ngữ lớn / LLM4Decompile: Decompiling Binary Code with Large Language Models

Giới thiệu bài báo

Một họ LLM giải biên dịch truy cập mở với quy mô từ 1 tỷ đến 3,3 tỷ tham số; các mô hình này được huấn luyện trên 4 tỷ token mã nguồn C và mã assembly tương ứng; các tác giả cũng giới thiệu Decompile-Eval, một bộ dữ liệu để đánh giá khả năng biên dịch lại và thực thi lại cho giải biên dịch cũng như đánh giá từ góc nhìn ngữ nghĩa chương trình; LLM4Decompile cho thấy khả năng giải biên dịch 21% mã assembly, đạt mức cải thiện 50% so với GPT-4.

a family of open-access decompilation LLMs ranging from 1B to 33B parameters; these models are trained on 4 billion tokens of C source code and corresponding assembly code; the authors also introduce Decompile-Eval, a dataset for assessing re-compatibility and re-executability for decompilation and evaluating with a perspective of program semantics; LLM4Decompile demonstrates the capability to decompile 21% of the assembly code, achieving a 50% improvement over GPT-4.
Quảng cáo

Tóm tắt bài báo (Abstract)

Giải biên dịch nhằm khôi phục mã đã biên dịch thành mã nguồn mà con người có thể đọc được, nhưng gặp khó khăn với các chi tiết như tên và cấu trúc. Các mô hình ngôn ngữ lớn (LLM) cho thấy tiềm năng trong các tác vụ lập trình, từ đó thúc đẩy việc áp dụng chúng vào giải biên dịch. Tuy nhiên, hiện chưa có LLM mã nguồn mở nào dành cho giải biên dịch. Hơn nữa, các hệ thống đánh giá giải biên dịch hiện có chủ yếu xem xét độ chính xác ở mức token và gần như bỏ qua khả năng thực thi mã, vốn là đặc tính quan trọng nhất của mọi chương trình. Vì vậy, chúng tôi phát hành các LLM giải biên dịch truy cập mở đầu tiên, từ 1 tỷ đến 3,3 tỷ tham số, được tiền huấn luyện trên 4 tỷ token mã nguồn C và mã assembly tương ứng. Các LLM mã nguồn mở này có thể đóng vai trò là đường cơ sở cho những phát triển tiếp theo trong lĩnh vực. Để bảo đảm đánh giá chương trình mang tính thực tiễn, chúng tôi giới thiệu Decompile-Eval, bộ dữ liệu đầu tiên xem xét khả năng biên dịch lại và thực thi lại cho giải biên dịch. Bộ benchmark này nhấn mạnh tầm quan trọng của việc đánh giá mô hình giải biên dịch từ góc nhìn ngữ nghĩa chương trình. Kết quả thực nghiệm cho thấy LLM4Decompile có khả năng giải biên dịch chính xác 21% mã assembly, đạt mức cải thiện 50% so với GPT-4. Mã nguồn, bộ dữ liệu và các mô hình được công bố tại https://github.com/albertan017/LLM4Decompile

Decompilation aims to restore compiled code to human-readable source code, but struggles with details like names and structure. Large language models (LLMs) show promise for programming tasks, motivating their application to decompilation. However, there does not exist any open-source LLM for decompilation. Moreover, existing decompilation evaluation systems mainly consider token-level accuracy and largely ignore code executability, which is the most important feature of any program. Therefore, we release the first open-access decompilation LLMs ranging from 1B to 33B pre-trained on 4 billion tokens of C source code and the corresponding assembly code. The open-source LLMs can serve as baselines for further development in the field. To ensure practical program evaluation, we introduce Decompile-Eval, the first dataset that considers re-compilability and re-executability for decompilation. The benchmark emphasizes the importance of evaluating the decompilation model from the perspective of program semantics. Experiments indicate that our LLM4Decompile has demonstrated the capability to accurately decompile 21% of the assembly code, which achieves a 50% improvement over GPT-4. Our code, dataset, and models are released at https://github.com/albertan017/LLM4Decompile

Liên kết bài báo

https://arxiv.org/abs/2403.05286v1

Đọc thêm

https://discuss.pytorch.kr/t/llm4decompile-llm-decompile/3809

https://github.com/albertan017/LLM4Decompile

https://x.com/omarsar0/status/1771218791399092351

Agent-FLAN: Thiết kế dữ liệu và các phương pháp tinh chỉnh tác tử hiệu quả cho mô hình ngôn ngữ lớn / Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models

Giới thiệu bài báo

Thiết kế dữ liệu và phương pháp để tinh chỉnh hiệu quả các mô hình ngôn ngữ cho tác tử, được gọi là Agent-FLAN; nhờ đó, Llama2-7B đạt hiệu năng tốt hơn 3,5% so với các công trình tốt nhất trước đó trên nhiều bộ dữ liệu đánh giá tác tử; Agent-FLAN cũng giúp giảm đáng kể vấn đề ảo giác khi mở rộng kích thước mô hình và nhất quán cải thiện năng lực tác tử của LLM trong khi đồng thời cải thiện tổng thể mô hình;

Designs data and methods to effectively fine-tune language models for agents, referred to as Agent-FLAN; this enables Llama2-7B to outperform prior best works by 3.5% across various agent evaluation datasets; Agent-FLAN greatly alleviates the hallucination issues and consistently improves the agent capability of LLMs when scaling model sizes while generally improving the LLM;

Tóm tắt bài báo (Abstract)

Các mô hình ngôn ngữ lớn (LLM) mã nguồn mở đã đạt được thành công lớn trong nhiều tác vụ NLP khác nhau, tuy nhiên khi hoạt động như tác nhân thì chúng vẫn kém xa các mô hình dựa trên API. Cách tích hợp năng lực tác nhân vào các LLM phổ thông đã trở thành một vấn đề quan trọng và cấp bách. Bài báo này trước hết đưa ra ba quan sát chính: (1) tập dữ liệu huấn luyện tác nhân hiện tại đan xen cả việc tuân theo định dạng lẫn suy luận của tác nhân, khiến nó lệch đáng kể so với phân bố của dữ liệu tiền huấn luyện; (2) LLM thể hiện tốc độ học khác nhau đối với các năng lực cần thiết cho tác vụ tác nhân; và (3) các phương pháp hiện tại có tác dụng phụ khi cải thiện năng lực tác nhân bằng cách đưa vào hiện tượng ảo giác. Dựa trên các phát hiện trên, nhóm tác giả đề xuất Agent-FLAN để tinh chỉnh hiệu quả các mô hình ngôn ngữ cho tác nhân. Thông qua việc phân rã và thiết kế lại cẩn thận tập dữ liệu huấn luyện, Agent-FLAN giúp mô hình đạt hiệu năng vượt các công trình tốt nhất trước đó 3.5% trên nhiều bộ dữ liệu đánh giá tác nhân khác nhau. Với các mẫu âm được xây dựng một cách toàn diện, Agent-FLAN giảm đáng kể vấn đề ảo giác dựa trên bộ benchmark đánh giá đã được thiết lập. Ngoài ra, nó liên tục cải thiện năng lực tác nhân của LLM khi mở rộng kích thước mô hình, đồng thời hơi nâng cao năng lực tổng quát của LLM. Mã nguồn có tại https://github.com/InternLM/Agent-FLAN.

Open-sourced Large Language Models (LLMs) have achieved great success in various NLP tasks, however, they are still far inferior to API-based models when acting as agents. How to integrate agent ability into general LLMs becomes a crucial and urgent problem. This paper first delivers three key observations: (1) the current agent training corpus is entangled with both formats following and agent reasoning, which significantly shifts from the distribution of its pre-training data; (2) LLMs exhibit different learning speeds on the capabilities required by agent tasks; and (3) current approaches have side-effects when improving agent abilities by introducing hallucinations. Based on the above findings, we propose Agent-FLAN to effectively Fine-tune LANguage models for Agents. Through careful decomposition and redesign of the training corpus, Agent-FLAN enables Llama2-7B to outperform prior best works by 3.5% across various agent evaluation datasets. With comprehensively constructed negative samples, Agent-FLAN greatly alleviates the hallucination issues based on our established evaluation benchmark. Besides, it consistently improves the agent capability of LLMs when scaling model sizes while slightly enhancing the general capability of LLMs. The code will be available at https://github.com/InternLM/Agent-FLAN.

Quảng cáo

Liên kết bài báo

https://arxiv.org/abs/2403.12881v1

Đọc thêm

https://github.com/InternLM/Agent-FLAN

https://x.com/_akhaliq/status/1770302813152690259

Thông tin độc quyền bị rò rỉ do logit của LLM được bảo vệ bằng API / Logits of API-Protected LLMs Leak Proprietary Information

Giới thiệu bài báo

Chỉ ra rằng có thể suy ra một lượng lớn thông tin không công khai về LLM được bảo vệ bằng API thông qua logit; với số lượng truy vấn API tương đối nhỏ, phương pháp này ước tính kích thước embedding của gpt-3.5-turbo của OpenAI vào khoảng 4,096; bài báo cũng đề xuất các biện pháp bảo vệ chống lại những kiểu tấn công được sử dụng.

shows that it’s possible to learn a large amount of non-public information about an API-protected LLM using the logits; with a relatively small number of API queries, the approach estimates that the embedding size of OpenAI's gpt-3.5-turbo to be about 4,096; the paper also proposes guardrails against the attacks used.

Tóm tắt bài báo(Abstract)

Việc thương mại hóa các mô hình ngôn ngữ lớn (LLM) đã khiến hình thức chỉ cho phép truy cập API ở mức cao đối với các mô hình độc quyền trở thành thông lệ phổ biến. Nghiên cứu này cho thấy rằng ngay cả khi đưa ra các giả định thận trọng về kiến trúc mô hình, vẫn có thể học được một lượng đáng kinh ngạc thông tin không công khai về một LLM được bảo vệ bằng API chỉ với số lượng truy vấn API tương đối nhỏ (ví dụ: tốn dưới 1.000 USD đối với gpt-3.5-turbo của OpenAI). Trọng tâm của kết quả nghiên cứu này là một quan sát then chốt: phần lớn các LLM hiện đại đều gặp phải hiện tượng thắt cổ chai softmax, khiến đầu ra của mô hình bị giới hạn trong một không gian con tuyến tính của toàn bộ không gian đầu ra. Chúng tôi cho thấy điều này phù hợp để tạo ra model image hoặc model signature, từ đó mở ra nhiều khả năng với chi phí hợp lý: khám phá hiệu quả hidden size của LLM, thu được đầu ra cho toàn bộ từ vựng, phát hiện và phân biệt các bản cập nhật mô hình khác nhau, xác định LLM nguồn khi chỉ có một đầu ra LLM đầy đủ, và thậm chí ước lượng các tham số của lớp đầu ra. Các khảo sát thực nghiệm đã xác nhận hiệu quả của các phương pháp này, cho phép chúng tôi ước tính kích thước embedding của gpt-3.5-turbo của OpenAI vào khoảng 4.096. Cuối cùng, chúng tôi thảo luận về các cách để nhà cung cấp LLM có thể phòng thủ trước những kiểu tấn công này, cũng như cách những khả năng đó có thể được xem là một tính năng (thay vì lỗi) nhằm tăng cường tính minh bạch và trách nhiệm giải trình.

The commercialization of large language models (LLMs) has led to the common practice of high-level API-only access to proprietary models. In this work, we show that even with a conservative assumption about the model architecture, it is possible to learn a surprisingly large amount of non-public information about an API-protected LLM from a relatively small number of API queries (e.g., costing under $1,000 for OpenAI's gpt-3.5-turbo). Our findings are centered on one key observation: most modern LLMs suffer from a softmax bottleneck, which restricts the model outputs to a linear subspace of the full output space. We show that this lends itself to a model image or a model signature which unlocks several capabilities with affordable cost: efficiently discovering the LLM's hidden size, obtaining full-vocabulary outputs, detecting and disambiguating different model updates, identifying the source LLM given a single full LLM output, and even estimating the output layer parameters. Our empirical investigations show the effectiveness of our methods, which allow us to estimate the embedding size of OpenAI's gpt-3.5-turbo to be about 4,096. Lastly, we discuss ways that LLM providers can guard against these attacks, as well as how these capabilities can be viewed as a feature (rather than a bug) by allowing for greater transparency and accountability.

Liên kết bài báo

https://arxiv.org/abs/2403.09539

Đọc thêm

https://x.com/DimitrisPapail/status/1768654579254579385

DROID: Bộ dữ liệu thao tác robot quy mô lớn trong môi trường thực tế / DROID: A Large-Scale In-The-Wild Robot Manipulation Dataset

Giới thiệu bài báo

Đây là bộ dữ liệu thao tác robot mã nguồn mở quy mô lớn nhằm huấn luyện và xây dựng các chính sách thao tác robot có năng lực và độ bền vững cao hơn, bao gồm 76.000 quỹ đạo demo được thu thập từ 564 cảnh và 86 tác vụ; việc huấn luyện với DROID có thể dẫn đến các chính sách đạt hiệu năng cao hơn và khả năng tổng quát hóa tốt hơn.

an open-source, large-scale robot manipulation dataset to train and build more capable and robust robotic manipulation policies; it contains 76K demonstration trajectories, collected across 564 scenes and 86 tasks; training with DROID leads to higher performing policies and generalization.

Tóm tắt bài báo (Abstract)

Việc tạo ra các bộ dữ liệu thao tác robot quy mô lớn, đa dạng và chất lượng cao là một bước đệm quan trọng trên con đường hướng tới các chính sách thao tác robot có năng lực và độ bền vững cao hơn. Tuy nhiên, việc tạo ra các bộ dữ liệu như vậy là một thách thức: thu thập dữ liệu thao tác robot trong những môi trường đa dạng đặt ra các vấn đề về hậu cần và an toàn, đồng thời đòi hỏi đầu tư đáng kể về phần cứng và nhân lực. Kết quả là, ngay cả những chính sách thao tác robot tổng quát nhất hiện nay cũng chủ yếu được huấn luyện trên dữ liệu thu thập từ một số ít môi trường với sự đa dạng hạn chế về cảnh và tác vụ. Trong nghiên cứu này, chúng tôi giới thiệu DROID (Distributed Robot Interaction Dataset), một bộ dữ liệu thao tác robot đa dạng gồm 76.000 quỹ đạo demo, tương đương 350 giờ dữ liệu tương tác, được 50 người thu thập dữ liệu ở Bắc Mỹ, châu Á và châu Âu thu thập trong 12 tháng, trải rộng trên 564 cảnh và 84 tác vụ. Chúng tôi chứng minh rằng huấn luyện với DROID dẫn đến các chính sách có hiệu năng cao hơn và khả năng tổng quát hóa được cải thiện. Chúng tôi công bố mã nguồn mở cho toàn bộ bộ dữ liệu, mã học chính sách và hướng dẫn chi tiết để tái tạo cấu hình phần cứng robot của mình.

Liên kết bài báo

https://arxiv.org/abs/2403.12945

Đọc thêm

https://x.com/chelseabfinn/status/1770311755140575413

RAFT: Điều chỉnh mô hình ngôn ngữ cho RAG theo miền / RAFT: Adapting Language Model to Domain Specific RAG

Giới thiệu bài báo

Kết hợp các lợi thế của RAG và fine-tuning để cải thiện khả năng trả lời câu hỏi của mô hình trong bối cảnh “open-book” nội miền; khi kết hợp với phản hồi theo phong cách CoT của RAFT, điều này còn giúp cải thiện suy luận.

combines the benefits of RAG and fine-tuning to improve a model's ability to answer questions in "open-book" in-domain settings; combining it with RAFT's CoT-style response helps to improve reasoning.

Tóm tắt bài báo (Abstract)

Việc tiền huấn luyện các mô hình ngôn ngữ lớn (LLM) trên các kho ngữ liệu văn bản quy mô lớn nay đã trở thành một mô hình chuẩn. Khi sử dụng các LLM này cho nhiều ứng dụng downstream, người ta thường bổ sung tri thức mới (ví dụ: tin tức mang tính thời điểm hoặc tri thức miền riêng tư) vào mô hình đã tiền huấn luyện thông qua prompting dựa trên RAG hoặc fine-tuning. Tuy nhiên, phương pháp tối ưu để mô hình tiếp thu được loại tri thức mới này vẫn là một câu hỏi mở. Trong bài báo này, chúng tôi giới thiệu Retrieval Augmented FineTuning (RAFT), một công thức huấn luyện giúp cải thiện khả năng trả lời câu hỏi của mô hình trong bối cảnh “open-book” nội miền. Với RAFT, khi có một câu hỏi và một tập tài liệu đã được truy hồi, chúng tôi huấn luyện mô hình bỏ qua các tài liệu không giúp trả lời câu hỏi, gọi là các tài liệu gây nhiễu. RAFT thực hiện điều này bằng cách trích dẫn nguyên văn đúng đoạn trình tự từ tài liệu liên quan có ích cho việc trả lời câu hỏi. Cách làm này, kết hợp với phản hồi theo phong cách chain-of-thought của RAFT, giúp cải thiện khả năng suy luận của mô hình. Trong RAG theo miền, RAFT cải thiện ổn định hiệu năng của mô hình trên các bộ dữ liệu PubMed, HotpotQA và Gorilla, qua đó đưa ra một công thức hậu huấn luyện để nâng cấp các LLM đã tiền huấn luyện cho RAG nội miền. Mã nguồn và bản demo của RAFT được mã nguồn mở tại github.com/ShishirPatil/gorilla.

Pretraining Large Language Models (LLMs) on large corpora of textual data is now a standard paradigm. When using these LLMs for many downstream applications, it is common to additionally bake in new knowledge (e.g., time-critical news, or private domain knowledge) into the pretrained model either through RAG-based-prompting, or fine-tuning. However, the optimal methodology for the model to gain such new knowledge remains an open question. In this paper, we present Retrieval Augmented FineTuning (RAFT), a training recipe that improves the model's ability to answer questions in a "open-book" in-domain settings. In RAFT, given a question, and a set of retrieved documents, we train the model to ignore those documents that don't help in answering the question, which we call, distractor documents. RAFT accomplishes this by citing verbatim the right sequence from the relevant document that would help answer the question. This coupled with RAFT's chain-of-thought-style response helps improve the model's ability to reason. In domain-specific RAG, RAFT consistently improves the model's performance across PubMed, HotpotQA, and Gorilla datasets, presenting a post-training recipe to improve pre-trained LLMs to in-domain RAG. RAFT's code and demo are open-sourced at github.com/ShishirPatil/gorilla.

Bài viết này được tóm lược bằng mô hình GPT nên có thể có một số điểm chưa chính xác; vui lòng tham khảo thêm bài gốc ở phía dưới. Nếu trong lúc đọc bạn phát hiện nội dung nào còn gượng hoặc sai, mong bạn để lại bình luận để thông báo giúp.

⚠️Quảng cáo⚠️: Bài viết do Cộng đồng người dùng PyTorch Hàn Quốc tổng hợp này có hữu ích với bạn không? Nếu đăng ký thành viên, bạn sẽ nhận được các bài viết nổi bật qua email! (Mặc định là Weekly nhưng cũng có thể chuyển sang Daily.)

[2024/03/18 ~ 03/24] Các bài báo ML nổi bật trong tuần (Top ML Papers of the Week)

Grok-1

Giới thiệu bài báo

Liên kết bài báo

Đọc thêm

Tối ưu hóa tiến hóa cho công thức hợp nhất mô hình / Evolutionary Optimization of Model Merging Recipes

Giới thiệu bài báo

Tóm tắt bài báo (Abstract)

Liên kết bài báo

Đọc thêm

TacticAI: trợ lý AI cho chiến thuật bóng đá / TacticAI: an AI assistant for football tactics

Giới thiệu bài báo

Tóm tắt bài báo (Abstract)

Liên kết bài báo

Đọc thêm

Sử dụng công cụ trong LLM / Tool Use in LLMs

Giới thiệu bài báo

Tóm tắt bài báo (Abstract)

Link bài báo

Đọc thêm

RankPrompt: Biến mô hình ngôn ngữ thành những bộ suy luận tốt hơn thông qua so sánh từng bước / RankPrompt: Step-by-Step Comparisons Make Language Models Better Reasoners

Giới thiệu bài báo

Tóm tắt bài báo (Abstract)

Link bài báo

Đọc thêm

LLM4Decompile: Giải biên dịch mã nhị phân bằng mô hình ngôn ngữ lớn / LLM4Decompile: Decompiling Binary Code with Large Language Models

Giới thiệu bài báo

Tóm tắt bài báo (Abstract)

Liên kết bài báo

Đọc thêm

Agent-FLAN: Thiết kế dữ liệu và các phương pháp tinh chỉnh tác tử hiệu quả cho mô hình ngôn ngữ lớn / Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models

Giới thiệu bài báo

Tóm tắt bài báo (Abstract)

Liên kết bài báo

Đọc thêm

Thông tin độc quyền bị rò rỉ do logit của LLM được bảo vệ bằng API / Logits of API-Protected LLMs Leak Proprietary Information

Giới thiệu bài báo

Tóm tắt bài báo(Abstract)

Liên kết bài báo

Đọc thêm

DROID: Bộ dữ liệu thao tác robot quy mô lớn trong môi trường thực tế / DROID: A Large-Scale In-The-Wild Robot Manipulation Dataset

Giới thiệu bài báo

Tóm tắt bài báo (Abstract)

Liên kết bài báo

Đọc thêm

RAFT: Điều chỉnh mô hình ngôn ngữ cho RAG theo miền / RAFT: Adapting Language Model to Domain Specific RAG

Giới thiệu bài báo

Tóm tắt bài báo (Abstract)

Liên kết bài báo

Đọc thêm

Bài gốc

Bài viết liên quan

Chưa có bình luận nào.