[2025/01/13 ~ 01/19] Các bài báo ML nổi bật trong tuần (Top ML Papers of the Week)
(discuss.pytorch.kr)-
Chúng tôi đã thử dịch tự động bài viết về các bài báo ML được DAIR.AI công bố hằng tuần.
-
Xu hướng nổi bật của các bài báo được chọn trong tuần này là nghiên cứu về mô hình ngôn ngữ lớn (LLM, Large Language Models) và AI đa phương thức đang diễn ra rất sôi động. Ví dụ, các bài như "Self-Adaptive LLMs", "Foundations of LLMs", "Enhancing RAG", "VideoRAG" đề cập đến các chủ đề liên quan đến LLM và học đa phương thức. Ngoài ra, các bài như "Imagine while Reasoning in Space", "OmniThink" cũng khám phá các cách tiếp cận đa phương thức nhằm giải quyết những vấn đề phức hợp bằng cách tận dụng nhiều dạng dữ liệu khác nhau.
-
Xu hướng này cho thấy trong cộng đồng nghiên cứu AI hiện nay, tầm quan trọng của mô hình ngôn ngữ đang ngày càng tăng, đồng thời các nỗ lực nhằm đạt được sự hiểu biết toàn diện hơn bằng cách kết hợp nhiều loại dữ liệu cũng đang gia tăng. LLM đang dẫn dắt trình độ tiên tiến nhất trong xử lý ngôn ngữ tự nhiên (NLP), và dường như ngày càng có sự đồng thuận rằng để tiếp tục phát triển công nghệ này, cần có cách tiếp cận tích hợp tận dụng dữ liệu đa phương thức. Đặc biệt, AI đa phương thức đang đóng vai trò quan trọng trong việc giải quyết các bài toán phức tạp hơn bằng cách kết hợp khả năng hiểu qua hình ảnh và hiểu qua ngôn ngữ tự nhiên.
-
Kết luận lại, các bài báo trong tuần này cho thấy trọng tâm của nghiên cứu AI đang tập trung vào mô hình ngôn ngữ lớn và học đa phương thức. Điều này gợi ý rằng AI không còn dừng lại ở xử lý văn bản đơn thuần, mà đang tiến tới khả năng giải quyết vấn đề thông minh và phức hợp hơn thông qua việc hợp nhất với thông tin thị giác. Vì vậy, các nghiên cứu này được kỳ vọng sẽ tạo ảnh hưởng lớn đến sự phát triển của công nghệ AI trong tương lai.
$\text{Transformer}^2$: LLM tự thích ứng / $\text{Transformer}^2$: Self-adaptive LLMs
Giới thiệu bài báo
Giới thiệu $\text{Transformer}^2$, một khung tự thích ứng mới giúp điều chỉnh LLM theo thời gian thực cho các tác vụ chưa từng thấy bằng cách chọn lọc điều chỉnh các thành phần đơn của ma trận trọng số. Hệ thống này được xây dựng với hai giai đoạn chính: 1) một hệ thống điều phối phân tích và nhận diện các thuộc tính của tác vụ đầu vào, 2) một bước kết hợp các vector "chuyên gia" được huấn luyện bằng học tăng cường để tạo ra hành vi theo từng tác vụ; bài báo cho rằng cách này hiệu quả hơn LoRA với ít tham số hơn và có thể hoạt động trên nhiều kiến trúc LLM khác nhau.
Introduces $\text{Transformer}^2$, a novel self-adaptation framework that adapts LLMs for unseen tasks in real-time by selectively adjusting singular components of their weight matrices; it’s built with two key phases: 1) a dispatch system that analyzes and identifies the properties of the incoming task, and 2) a step that combines "expert" vectors (trained via reinforcement learning) to create task-specific behaviors; claims to be more efficient than LoRA with fewer parameters and can works across different LLM architectures.
Tóm tắt bài báo (Abstract)
Các mô hình ngôn ngữ lớn (LLM) tự thích ứng nhằm giải quyết những thách thức do các phương pháp fine-tuning truyền thống đặt ra, vốn thường tiêu tốn nhiều tài nguyên tính toán và mang tính tĩnh khi xử lý các tác vụ đa dạng. Ở đây, chúng tôi giới thiệu $\text{Transformer}^2$, một khung tự thích ứng mới giúp điều chỉnh LLM theo thời gian thực cho các tác vụ chưa từng thấy bằng cách chỉ chọn lọc điều chỉnh các thành phần đơn của ma trận trọng số. Trong quá trình suy luận, $\text{Transformer}^2$ sử dụng cơ chế hai lượt: đầu tiên, một hệ thống điều phối xác định các thuộc tính của tác vụ; sau đó, các vector "chuyên gia" theo từng tác vụ, được huấn luyện bằng học tăng cường, sẽ được phối trộn động để tạo ra hành vi mục tiêu cho prompt đầu vào. Phương pháp này vượt trội hơn các cách tiếp cận phổ biến như LoRA, với ít tham số hơn và hiệu quả cao hơn. $\text{Transformer}^2$ cho thấy tính linh hoạt trên nhiều kiến trúc LLM và phương thức khác nhau, bao gồm cả các tác vụ thị giác-ngôn ngữ. $\text{Transformer}^2$ đánh dấu một bước tiến quan trọng, mang đến một giải pháp có khả năng mở rộng và hiệu quả để nâng cao khả năng thích ứng và hiệu năng theo từng tác vụ của LLM, mở đường cho các hệ thống AI thực sự năng động và tự tổ chức.
Self-adaptive large language models (LLMs) aim to solve the challenges posed by traditional fine-tuning methods, which are often computationally intensive and static in their ability to handle diverse tasks. We introduce $\text{Transformer}^2$, a novel self-adaptation framework that adapts LLMs for unseen tasks in real-time by selectively adjusting only the singular components of their weight matrices. During inference, $\text{Transformer}^2$ employs a two-pass mechanism: first, a dispatch system identifies the task properties, and then task-specific "expert" vectors, trained using reinforcement learning, are dynamically mixed to obtain targeted behavior for the incoming prompt. Our method outperforms ubiquitous approaches such as LoRA, with fewer parameters and greater efficiency. $\text{Transformer}^2$ demonstrates versatility across different LLM architectures and modalities, including vision-language tasks. $\text{Transformer}^2$ represents a significant leap forward, offering a scalable, efficient solution for enhancing the adaptability and task-specific performance of LLMs, paving the way for truly dynamic, self-organizing AI systems.
Liên kết bài báo
https://arxiv.org/abs/2501.06252
Đọc thêm
https://discuss.pytorch.kr/t/…
https://x.com/hardmaru/status/1879331049383334187
MiniMax-01: mô hình nền tảng mở rộng với tốc độ như chớp / MiniMax-01: Scaling Foundation Models with Lightning Attention
Giới thiệu bài báo
Giới thiệu một loạt mô hình mới tích hợp Mixture-of-Experts, bao gồm mô hình với 32 chuyên gia và 456 tỷ tham số, trong đó 45,9 tỷ tham số được kích hoạt cho mỗi token; tuyên bố đạt hiệu năng tương đương các mô hình tiên tiến nhất như GPT-4o và Claude-3.5-Sonnet, đồng thời cung cấp cửa sổ ngữ cảnh dài hơn 20–32 lần với khả năng xử lý tối đa 4 triệu token; mô hình này tích hợp linear attention với việc tận dụng phần cứng được tối ưu hóa để cải thiện hiệu quả và khả năng mở rộng của LLM; ngoài ra còn có mô hình thị giác MiniMax-VL-01 được xây dựng thông qua huấn luyện tiếp tục với 51,2 tỷ token thị giác-ngôn ngữ.
Introduces a new series of models that integrate Mixture-of-Experts; introduces a model with 32 experts and 456B parameters, and 45.9B are activated for each token; claims match the performance of state-of-the-art models like GPT-4o and Claude-3.5-Sonnet while offering a 20-32x longer context window; it can handle context windows of up to 4 million tokens; it integrates linear attention with optimized hardware utilization which enhances the efficiency and scalability of the LLM; there is also a vision model called MiniMax-VL-01 built through continued training with 512 billion vision-language tokens.
Tóm tắt bài báo(Abstract)
Chúng tôi giới thiệu loạt MiniMax-01, bao gồm MiniMax-Text-01 và MiniMax-VL-01, có khả năng sánh ngang các mô hình hàng đầu đồng thời vượt trội trong xử lý ngữ cảnh dài. Cốt lõi của hệ thống nằm ở lightning attention và khả năng mở rộng hiệu quả của nó. Để tối đa hóa năng lực tính toán, chúng tôi tích hợp nó với Mixture of Experts (MoE), tạo ra một mô hình gồm 32 chuyên gia và tổng cộng 456 tỷ tham số, trong đó 45,9 tỷ được kích hoạt cho mỗi token. Chúng tôi phát triển một chiến lược song song được tối ưu hóa cùng các kỹ thuật chồng lấp tính toán-truyền thông có hiệu quả rất cao cho MoE và lightning attention. Cách tiếp cận này cho phép huấn luyện và suy luận hiệu quả trên các mô hình có hàng trăm tỷ tham số với ngữ cảnh trải dài hàng triệu token. Cửa sổ ngữ cảnh của MiniMax-Text-01 có thể đạt tới 1 triệu token trong quá trình huấn luyện và mở rộng suy luận tới 4 triệu token với chi phí hợp lý. Mô hình thị giác-ngôn ngữ MiniMax-VL-01 được xây dựng thông qua huấn luyện tiếp tục với 51,2 tỷ token thị giác-ngôn ngữ. Các thí nghiệm trên cả benchmark tiêu chuẩn và benchmark nội bộ cho thấy các mô hình của chúng tôi đạt hiệu năng tương đương những mô hình tiên tiến nhất như GPT-4o và Claude-3.5-Sonnet, đồng thời cung cấp cửa sổ ngữ cảnh dài hơn 20–32 lần. MiniMax-01 được phát hành công khai tại https://github.com/MiniMax-AI.
We introduce MiniMax-01 series, including MiniMax-Text-01 and MiniMax-VL-01, which are comparable to top-tier models while offering superior capabilities in processing longer contexts. The core lies in lightning attention and its efficient scaling. To maximize computational capacity, we integrate it with Mixture of Experts (MoE), creating a model with 32 experts and 456 billion total parameters, of which 45.9 billion are activated for each token. We develop an optimized parallel strategy and highly efficient computation-communication overlap techniques for MoE and lightning attention. This approach enables us to conduct efficient training and inference on models with hundreds of billions of parameters across contexts spanning millions of tokens. The context window of MiniMax-Text-01 can reach up to 1 million tokens during training and extrapolate to 4 million tokens during inference at an affordable cost. Our vision-language model, MiniMax-VL-01 is built through continued training with 512 billion vision-language tokens. Experiments on both standard and in-house benchmarks show that our models match the performance of state-of-the-art models like GPT-4o and Claude-3.5-Sonnet while offering 20-32 times longer context window. We publicly release MiniMax-01 at https://github.com/MiniMax-AI.
Liên kết bài báo
https://arxiv.org/abs/2501.08313
Đọc thêm
https://x.com/omarsar0/status/1879572512075587872
VideoRAG: Tạo sinh tăng cường truy xuất trên kho video / VideoRAG: Retrieval-Augmented Generation over Video Corpus
Giới thiệu bài báo
Đây là một framework nâng cao RAG bằng cách tận dụng nội dung video như một nguồn tri thức bên ngoài; khác với các cách tiếp cận RAG hiện có vốn chủ yếu tập trung vào văn bản hoặc hình ảnh, VideoRAG truy xuất động các video liên quan dựa trên truy vấn và tích hợp cả thành phần thị giác lẫn văn bản của chúng vào quá trình tạo sinh; framework này sử dụng Large Video Language Models (LVLM) để xử lý trực tiếp nội dung video, nhờ đó nắm bắt hiệu quả hơn các động lực theo thời gian, chi tiết không gian và tín hiệu đa phương thức mà các modality tĩnh thường không truyền tải được; với các video không có mô tả văn bản, nhóm tác giả đề xuất dùng nhận dạng giọng nói tự động để tạo bản chép lời, bảo đảm có thể khai thác cả modality thị giác và văn bản.
A framework that enhances RAG by leveraging video content as an external knowledge source; unlike existing RAG approaches that primarily focus on text or images, VideoRAG dynamically retrieves relevant videos based on queries and incorporates both their visual and textual elements into the generation process; the framework utilizes Large Video Language Models (LVLMs) to process video content directly, enabling more effective capture of temporal dynamics, spatial details, and multimodal cues that static modalities often fail to convey; for videos lacking textual descriptions, they propose using automatic speech recognition to generate transcripts, ensuring both visual and textual modalities can be leveraged.
Tóm tắt bài báo(Abstract)
Retrieval-Augmented Generation (RAG) là một chiến lược mạnh mẽ để giải quyết vấn đề các mô hình nền tảng tạo ra đầu ra sai lệch về mặt thực tế bằng cách truy xuất tri thức bên ngoài liên quan đến truy vấn và tích hợp nó vào quá trình sinh. Tuy nhiên, các phương pháp RAG hiện có chủ yếu tập trung vào thông tin văn bản; một số hướng tiếp cận gần đây bắt đầu xem xét hình ảnh, nhưng phần lớn vẫn bỏ qua video — một nguồn tri thức đa phương thức phong phú có thể biểu đạt sự kiện, quy trình và chi tiết ngữ cảnh hiệu quả hơn bất kỳ phương thức nào khác. Dù một vài nghiên cứu gần đây đã tìm cách tích hợp video vào quá trình tạo phản hồi, chúng либо là xác định trước các video liên quan đến truy vấn mà không truy xuất theo truy vấn, либо chuyển video thành mô tả văn bản mà không tận dụng được tính đa phương thức phong phú của video. Để giải quyết những vấn đề này, chúng tôi giới thiệu VideoRAG, một framework mới không chỉ truy xuất động các video liên quan dựa trên mức độ liên quan với truy vấn mà còn tận dụng cả thông tin hình ảnh lẫn văn bản của video trong quá trình tạo đầu ra. Ngoài ra, để hiện thực hóa điều này, phương pháp của chúng tôi xoay quanh những tiến bộ gần đây của Large Video Language Models (LVLM), cho phép xử lý trực tiếp nội dung video để biểu diễn phục vụ truy xuất và tích hợp liền mạch các video đã truy xuất cùng với truy vấn. Chúng tôi xác thực hiệu quả của VideoRAG bằng thực nghiệm và cho thấy nó vượt trội so với các baseline liên quan.
Retrieval-Augmented Generation (RAG) is a powerful strategy to address the issue of generating factually incorrect outputs in foundation models by retrieving external knowledge relevant to queries and incorporating it into their generation process. However, existing RAG approaches have primarily focused on textual information, with some recent advancements beginning to consider images, and they largely overlook videos, a rich source of multimodal knowledge capable of representing events, processes, and contextual details more effectively than any other modality. While a few recent studies explore the integration of videos in the response generation process, they either predefine query-associated videos without retrieving them according to queries, or convert videos into the textual descriptions without harnessing their multimodal richness. To tackle these, we introduce VideoRAG, a novel framework that not only dynamically retrieves relevant videos based on their relevance with queries but also utilizes both visual and textual information of videos in the output generation. Further, to operationalize this, our method revolves around the recent advance of Large Video Language Models (LVLMs), which enable the direct processing of video content to represent it for retrieval and seamless integration of the retrieved videos jointly with queries. We experimentally validate the effectiveness of VideoRAG, showcasing that it is superior to relevant baselines.
Liên kết bài báo
https://arxiv.org/abs/2501.05874
Đọc thêm
https://x.com/omarsar0/status/1878827350315659421
Titans: Học cách ghi nhớ ngay trong thời gian suy luận / Titans: Learning to Memorize at Test Time
Giới thiệu bài báo
Bài báo giới thiệu một mô-đun bộ nhớ dài hạn dạng neural để ghi nhớ ngữ cảnh trong quá khứ và hỗ trợ cơ chế attention tập trung vào ngữ cảnh hiện tại đồng thời tận dụng thông tin dài hạn từ trước đó; mô-đun bộ nhớ neural này đóng vai trò như một bộ nhớ dài hạn và bền vững hơn so với chỉ dùng attention (thường được xem là ngắn hạn); Titan, dựa trên bộ nhớ neural, cho kết quả tốt trong các tác vụ mô hình hóa ngôn ngữ, suy luận commonsense, genomics và chuỗi thời gian.
Introduces a neural long-term memory module to memorize historical context and help attention to attend to the current context while utilizing long past information; the neural memory module acts as a long-term, more persistent memory than just using attention alone (considered more short-term); Titan, which is based on neural memory, shows good results in language modeling, common-sense reasoning, genomics, and time series tasks.
Tóm tắt bài báo (Abstract)
Trong hơn một thập kỷ, đã có rất nhiều nghiên cứu về cách tận dụng hiệu quả các mô hình hồi quy và cơ chế attention. Trong khi các mô hình hồi quy hướng tới việc nén dữ liệu vào một bộ nhớ có kích thước cố định (gọi là trạng thái ẩn), attention cho phép chú ý đến toàn bộ cửa sổ ngữ cảnh, nắm bắt các phụ thuộc trực tiếp của mọi token. Tuy nhiên, việc mô hình hóa phụ thuộc chính xác hơn này đi kèm với chi phí bậc hai, khiến mô hình bị giới hạn trong ngữ cảnh có độ dài cố định. Chúng tôi giới thiệu một mô-đun bộ nhớ dài hạn thần kinh mới, học cách ghi nhớ ngữ cảnh lịch sử và hỗ trợ attention tập trung vào ngữ cảnh hiện tại trong khi vẫn tận dụng thông tin từ quá khứ xa. Chúng tôi cho thấy bộ nhớ thần kinh này có ưu điểm là huấn luyện nhanh và có thể song song hóa, đồng thời vẫn duy trì suy luận nhanh. Từ góc độ bộ nhớ, chúng tôi lập luận rằng attention, do có ngữ cảnh giới hạn nhưng mô hình hóa phụ thuộc chính xác, hoạt động như bộ nhớ ngắn hạn; trong khi bộ nhớ thần kinh, nhờ khả năng ghi nhớ dữ liệu, hoạt động như một bộ nhớ dài hạn bền vững hơn. Dựa trên hai mô-đun này, chúng tôi giới thiệu một họ kiến trúc mới có tên là Titans, đồng thời trình bày ba biến thể để giải quyết cách tích hợp bộ nhớ một cách hiệu quả vào kiến trúc này. Kết quả thực nghiệm trên các tác vụ mô hình ngôn ngữ, suy luận thường thức, genomics và chuỗi thời gian cho thấy Titans hiệu quả hơn Transformers và các mô hình hồi quy tuyến tính hiện đại gần đây. Ngoài ra, mô hình còn có thể mở rộng hiệu quả lên kích thước cửa sổ ngữ cảnh lớn hơn 2M với độ chính xác cao hơn trong các tác vụ needle-in-haystack so với các đường cơ sở.
Over more than a decade there has been an extensive research effort on how to effectively utilize recurrent models and attention. While recurrent models aim to compress the data into a fixed-size memory (called hidden state), attention allows attending to the entire context window, capturing the direct dependencies of all tokens. This more accurate modeling of dependencies, however, comes with a quadratic cost, limiting the model to a fixed-length context. We present a new neural long-term memory module that learns to memorize historical context and helps attention to attend to the current context while utilizing long past information. We show that this neural memory has the advantage of fast parallelizable training while maintaining a fast inference. From a memory perspective, we argue that attention due to its limited context but accurate dependency modeling performs as a short-term memory, while neural memory due to its ability to memorize the data, acts as a long-term, more persistent, memory. Based on these two modules, we introduce a new family of architectures, called Titans, and present three variants to address how one can effectively incorporate memory into this architecture. Our experimental results on language modeling, common-sense reasoning, genomics, and time series tasks show that Titans are more effective than Transformers and recent modern linear recurrent models. They further can effectively scale to larger than 2M context window size with higher accuracy in needle-in-haystack tasks compared to baselines.
Liên kết bài báo
https://arxiv.org/abs/2501.00663
Đọc thêm
https://x.com/omarsar0/status/1879896681010921742
Nền tảng của các mô hình ngôn ngữ lớn / Foundations of Large Language Models
Giới thiệu bài báo
Một khảo sát mới về các nền tảng của LLM, bao quát những lĩnh vực như tiền huấn luyện, prompt và các phương pháp căn chỉnh.
New survey on the foundations of LLMs covering areas such as pre-training, prompting, and alignment methods.
Tóm tắt bài báo (Abstract)
Đây là một cuốn sách về các mô hình ngôn ngữ lớn. Đúng như tiêu đề, cuốn sách chủ yếu tập trung vào các khái niệm nền tảng thay vì bao quát toàn diện mọi công nghệ tiên tiến nhất. Sách được cấu trúc thành bốn chương chính, mỗi chương khám phá một lĩnh vực then chốt: tiền huấn luyện, mô hình sinh, kỹ thuật prompting và các phương pháp căn chỉnh. Cuốn sách hướng tới sinh viên đại học, chuyên gia và người làm thực hành trong xử lý ngôn ngữ tự nhiên và các lĩnh vực liên quan, đồng thời có thể đóng vai trò như tài liệu tham khảo cho bất kỳ ai quan tâm đến các mô hình ngôn ngữ lớn.
This is a book about large language models. As indicated by the title, it primarily focuses on foundational concepts rather than comprehensive coverage of all cutting-edge technologies. The book is structured into four main chapters, each exploring a key area: pre-training, generative models, prompting techniques, and alignment methods. It is intended for college students, professionals, and practitioners in natural language processing and related fields, and can serve as a reference for anyone interested in large language models.
Liên kết bài báo
https://arxiv.org/abs/2501.09223
Đọc thêm
https://discuss.pytorch.kr/t/pdf-231p-feat-arxiv/5895
https://x.com/omarsar0/status/1880284477445767586
OmniThink: Mở rộng biên giới tri thức trong viết máy thông qua tư duy / OmniThink: Expanding Knowledge Boundaries in Machine Writing through Thinking
Giới thiệu bài báo
Một framework mới mô phỏng quá trình mở rộng và phản tư lặp đi lặp lại giống con người; được xây dựng để mô phỏng hành vi nhận thức của người học khi họ đào sâu kiến thức; so với RAG và role-playing, OmniThink có thể mở rộng biên giới tri thức thông qua phản tư và khám phá liên tục; điều này khiến nó trở nên lý tưởng cho các trường hợp sử dụng cần tạo sinh dài.
A new framework that emulates a human-like process of iterative expansion and reflection; it's built to simulate the cognitive behavior of learners as they deepen their knowledge; compared to RAG and role-playing, OmniThink can expand knowledge boundaries through continuous reflection and exploration; this makes it ideal for use cases that require long-form generation.
Tóm tắt bài báo (Abstract)
Viết lách bằng máy sử dụng mô hình ngôn ngữ lớn thường phụ thuộc vào retrieval-augmented generation. Tuy nhiên, các cách tiếp cận này vẫn bị giới hạn trong phạm vi được xác định sẵn của mô hình, làm hạn chế khả năng tạo ra nội dung giàu thông tin. Cụ thể, thông tin truy xuất kiểu vanilla thường thiếu chiều sâu, tính hữu ích và có xu hướng trùng lặp, điều này ảnh hưởng tiêu cực đến chất lượng bài viết được tạo ra, dẫn đến các đầu ra hời hợt, lặp lại và thiếu tính nguyên bản. Để giải quyết những vấn đề này, nhóm tác giả đề xuất OmniThink, một framework viết máy mô phỏng quá trình mở rộng và phản tư lặp đi lặp lại giống con người. Ý tưởng cốt lõi của OmniThink là mô phỏng hành vi nhận thức của người học khi họ dần đào sâu kiến thức về một chủ đề. Kết quả thực nghiệm cho thấy OmniThink cải thiện mật độ tri thức của các tài liệu được tạo ra mà không làm suy giảm các chỉ số như tính mạch lạc và chiều sâu. Đánh giá của con người và phản hồi từ chuyên gia càng nhấn mạnh tiềm năng của OmniThink trong việc giải quyết các thách thức thực tế khi tạo ra các bài viết dài.
Machine writing with large language models often relies on retrieval-augmented generation. However, these approaches remain confined within the boundaries of the model's predefined scope, limiting the generation of content with rich information. Specifically, vanilla-retrieved information tends to lack depth, utility, and suffers from redundancy, which negatively impacts the quality of generated articles, leading to shallow, repetitive, and unoriginal outputs. To address these issues, we propose OmniThink, a machine writing framework that emulates the human-like process of iterative expansion and reflection. The core idea behind OmniThink is to simulate the cognitive behavior of learners as they progressively deepen their knowledge of the topics. Experimental results demonstrate that OmniThink improves the knowledge density of generated articles without compromising metrics such as coherence and depth. Human evaluations and expert feedback further highlight the potential of OmniThink to address real-world challenges in the generation of long-form articles.
Liên kết bài báo
https://arxiv.org/abs/2501.09751
Đọc thêm
https://x.com/omarsar0/status/1880275861401923619
Cải thiện retrieval-augmented generation: Nghiên cứu về các thực tiễn tốt nhất / Enhancing Retrieval-Augmented Generation: A Study of Best Practices
Giới thiệu bài báo
Khảo sát một cách có hệ thống các yếu tố và phương pháp giúp cải thiện hệ thống RAG như chiến lược truy xuất, mở rộng truy vấn, contrastive in-context learning, thiết kế prompt và chunking.
Systematically explores the factors and methods that improve RAG systems such as retrieval strategies, query expansion, contrastive in-context learning, prompt design, and chunking.
Tóm tắt bài báo (Abstract)
Các hệ thống retrieval-augmented generation (RAG) gần đây đã đạt được những tiến bộ đáng kể nhờ tích hợp cơ chế truy xuất vào mô hình ngôn ngữ, nâng cao khả năng tạo ra các phản hồi chính xác hơn và phù hợp ngữ cảnh hơn. Tuy nhiên, ảnh hưởng của các thành phần và cấu hình khác nhau trong hệ thống RAG vẫn chưa được nghiên cứu đầy đủ. Việc hiểu toàn diện các yếu tố này là điều thiết yếu để điều chỉnh hệ thống RAG cho các tác vụ truy xuất phức tạp và bảo đảm hiệu năng tối ưu trên nhiều ứng dụng khác nhau. Trong bài báo này, nhóm tác giả phát triển một số thiết kế hệ thống RAG nâng cao có tích hợp mở rộng truy vấn, nhiều chiến lược truy xuất mới và một Contrastive In-Context Learning RAG mới. Nghiên cứu này khảo sát có hệ thống các yếu tố chính, bao gồm kích thước mô hình ngôn ngữ, thiết kế prompt, kích thước chunk tài liệu, kích thước cơ sở tri thức, retrieval stride, kỹ thuật mở rộng truy vấn, cơ sở tri thức cho contrastive in-context learning, cơ sở tri thức đa ngôn ngữ và Focus Mode truy xuất ngữ cảnh liên quan ở cấp độ câu. Thông qua các thí nghiệm quy mô lớn, nhóm tác giả cung cấp phân tích chi tiết về cách những yếu tố này ảnh hưởng đến chất lượng phản hồi. Các phát hiện mang lại những insight có thể áp dụng trực tiếp cho việc phát triển hệ thống RAG, giúp cân bằng giữa độ phong phú của ngữ cảnh và hiệu quả truy xuất-sinh, từ đó mở đường cho các framework RAG linh hoạt và hiệu năng cao hơn trong nhiều kịch bản thực tế khác nhau. Mã nguồn và chi tiết triển khai đã được công khai.
Retrieval-Augmented Generation (RAG) systems have recently shown remarkable advancements by integrating retrieval mechanisms into language models, enhancing their ability to produce more accurate and contextually relevant responses. However, the influence of various components and configurations within RAG systems remains underexplored. A comprehensive understanding of these elements is essential for tailoring RAG systems to complex retrieval tasks and ensuring optimal performance across diverse applications. In this paper, we develop several advanced RAG system designs that incorporate query expansion, various novel retrieval strategies, and a novel Contrastive In-Context Learning RAG. Our study systematically investigates key factors, including language model size, prompt design, document chunk size, knowledge base size, retrieval stride, query expansion techniques, Contrastive In-Context Learning knowledge bases, multilingual knowledge bases, and Focus Mode retrieving relevant context at sentence-level. Through extensive experimentation, we provide a detailed analysis of how these factors influence response quality. Our findings offer actionable insights for developing RAG systems, striking a balance between contextual richness and retrieval-generation efficiency, thereby paving the way for more adaptable and high-performing RAG frameworks in diverse real-world scenarios. Our code and implementation details are publicly available.
Liên kết bài báo
https://arxiv.org/abs/2501.07391
Đọc thêm
https://x.com/omarsar0/status/1879178916021318029
AutoCBT: khung đa tác tử tự trị cho liệu pháp hành vi nhận thức trong tư vấn tâm lý / AutoCBT: An Autonomous Multi-agent Framework for Cognitive Behavioral Therapy in Psychological Counseling
Giới thiệu bài báo
Đề xuất AutoCBT, một khung đa tác tử dành cho liệu pháp hành vi nhận thức. Nghiên cứu này đề xuất một khung đa tác tử tổng quát tạo ra phản hồi chất lượng cao cho các kịch bản tư vấn tâm lý một lượt, cải thiện năng lực tự trị của từng tác tử bằng cách kết hợp định tuyến động, bộ nhớ và cơ chế giám sát; kết quả thực nghiệm cho thấy AutoCBT có thể cung cấp dịch vụ tư vấn tâm lý tự động với chất lượng cao; AutoCBT cải thiện chất lượng hội thoại so với các khung tư vấn thuần dựa trên prompt khác.
Proposes a multi-agent framework, AutoCBT, for Cognitive Behavioral Therapy; the work proposes a general multi-agent framework that generates high-quality responses for single-turn psychological consultation scenarios; it uses a combination of dynamic routing, memory, and supervisory mechanisms to enhance the autonomous ability of each agent; experimental results show that AutoCBT can provide higher-quality automated psychological counseling services; AutoCBT improves dialogue quality compared to other purely prompt-based counseling frameworks.
Tóm tắt bài báo(Abstract)
Tư vấn tâm lý trực tiếp truyền thống nhìn chung vẫn chủ yếu là một lĩnh vực ngách được những người có vấn đề tâm lý lựa chọn, trong khi tư vấn tự động trực tuyến mang lại một giải pháp tiềm năng cho những người ngần ngại tìm kiếm sự giúp đỡ vì cảm giác xấu hổ. Liệu pháp hành vi nhận thức (CBT) là một phương pháp thiết yếu và được sử dụng rộng rãi trong tư vấn tâm lý. Sự xuất hiện của mô hình ngôn ngữ lớn (LLM) và công nghệ tác tử đã mở ra khả năng chẩn đoán và điều trị CBT tự động. Tuy nhiên, các hệ thống CBT dựa trên LLM hiện tại либо sử dụng các tác tử có cấu trúc cố định, làm hạn chế khả năng tự tối ưu hóa, либо đưa ra các gợi ý rỗng tuếch và không hữu ích do các mẫu phản hồi lặp lại dư thừa. Trong nghiên cứu này, chúng tôi sử dụng các mô hình tư vấn một lượt kiểu Quora và mô hình tư vấn một lượt YiXinLi để xây dựng một khung tác tử tổng quát tạo ra phản hồi chất lượng cao cho các kịch bản tư vấn tâm lý một lượt. Chúng tôi sử dụng một bộ dữ liệu song ngữ để đánh giá chất lượng của các phiên tư vấn phản hồi đơn được tạo ra bởi từng khung. Sau đó, chúng tôi tích hợp cơ chế định tuyến động và giám sát lấy cảm hứng từ tư vấn tâm lý thực tế để xây dựng một khung đa tác tử tự trị định hướng CBT, qua đó chứng minh tính áp dụng tổng quát của nó. Kết quả thực nghiệm cho thấy AutoCBT có thể cung cấp dịch vụ tư vấn tâm lý tự động chất lượng cao hơn.
Traditional in-person psychological counseling remains primarily niche, often chosen by individuals with psychological issues, while online automated counseling offers a potential solution for those hesitant to seek help due to feelings of shame. Cognitive Behavioral Therapy (CBT) is an essential and widely used approach in psychological counseling. The advent of large language models (LLMs) and agent technology enables automatic CBT diagnosis and treatment. However, current LLM-based CBT systems use agents with a fixed structure, limiting their self-optimization capabilities, or providing hollow, unhelpful suggestions due to redundant response patterns. In this work, we utilize Quora-like and YiXinLi single-round consultation models to build a general agent framework that generates high-quality responses for single-turn psychological consultation scenarios. We use a bilingual dataset to evaluate the quality of single-response consultations generated by each framework. Then, we incorporate dynamic routing and supervisory mechanisms inspired by real psychological counseling to construct a CBT-oriented autonomous multi-agent framework, demonstrating its general applicability. Experimental results indicate that AutoCBT can provide higher-quality automated psychological counseling services.
Liên kết bài báo
https://arxiv.org/abs/2501.09426
Đọc thêm
https://x.com/omarsar0/status/1880283025595867631
Hãy tưởng tượng trong khi suy luận trong không gian: trực quan hóa tư duy đa phương thức / Imagine while Reasoning in Space: Multimodal Visualization-of-Thought
Giới thiệu bài báo
Giới thiệu MVoT (Multimodal Visualization-of-Thought), một khung suy luận mới cho phép các mô hình AI "tư duy" bằng cả văn bản lẫn hình ảnh; MVoT cải tiến phương pháp Chain-of-Thought prompting truyền thống bằng cách cho phép mô hình tạo ra các biểu diễn trực quan cho từng bước suy luận cùng với phần giải thích bằng văn bản; khung này được triển khai trên Chameleon-7B, một mô hình ngôn ngữ đa phương thức, và đưa vào "token discrepancy loss" để cải thiện chất lượng của các hình ảnh trực quan được tạo ra; MVoT vượt trội đáng kể so với các phương pháp truyền thống, đặc biệt trong các kịch bản phức tạp; MVoT đạt độ chính xác trên 90% trong các tác vụ mê cung và cài đặt máy in.
Introduces MVoT (Multimodal Visualization-of-Thought), a new reasoning framework that enables AI models to "think" in both text and images; MVoT enhances the traditional Chain-of-Thought prompting by allowing models to generate visual representations of their reasoning steps alongside text explanations; the framework is implemented in Chameleon-7B, a multimodal language model, and introduces a "token discrepancy loss" to improve the quality of generated visualizations; MVoT significantly outperforms traditional approaches, especially in complex scenarios; MVoT achieves over 90% accuracy on maze and printer installation tasks.
Tóm tắt bài báo(Abstract)
Prompting Chuỗi suy nghĩ (CoT) đã được chứng minh là rất hiệu quả trong việc tăng cường suy luận phức tạp ở các mô hình ngôn ngữ lớn (LLM) và mô hình ngôn ngữ lớn đa phương thức (MLLM). Tuy nhiên, nó gặp khó khăn trong các tác vụ suy luận không gian phức tạp. Dù vậy, nhận thức của con người không chỉ giới hạn ở ngôn ngữ mà còn mở rộng để thể hiện khả năng tư duy đáng kinh ngạc bằng cả từ ngữ lẫn hình ảnh. Lấy cảm hứng từ cơ chế này, chúng tôi đề xuất một mô hình suy luận mới mang tên Multimodal Visualization-of-Thought (MVoT). Phương pháp này cho phép tư duy thị giác trong MLLM bằng cách tạo ra các hình ảnh trực quan hóa dấu vết suy luận của chúng. Để đảm bảo chất lượng trực quan hóa cao, chúng tôi đưa vào token discrepancy loss cho các MLLM tự hồi quy. Đổi mới này cải thiện đáng kể cả tính nhất quán thị giác lẫn độ trung thực. Chúng tôi xác thực cách tiếp cận này thông qua một số tác vụ suy luận không gian động. Kết quả thực nghiệm cho thấy MVoT đạt hiệu năng cạnh tranh trên nhiều tác vụ. Hơn nữa, nó thể hiện mức cải thiện mạnh mẽ và ổn định trong những kịch bản thách thức nhất, nơi CoT thất bại. Sau cùng, MVoT mở ra những khả năng mới cho các tác vụ suy luận phức tạp, nơi tư duy thị giác có thể bổ sung hiệu quả cho suy luận ngôn ngữ.
Chain-of-Thought (CoT) prompting has proven highly effective for enhancing complex reasoning in Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs). Yet, it struggles in complex spatial reasoning tasks. Nonetheless, human cognition extends beyond language alone, enabling the remarkable capability to think in both words and images. Inspired by this mechanism, we propose a new reasoning paradigm, Multimodal Visualization-of-Thought (MVoT). It enables visual thinking in MLLMs by generating image visualizations of their reasoning traces. To ensure high-quality visualization, we introduce token discrepancy loss into autoregressive MLLMs. This innovation significantly improves both visual coherence and fidelity. We validate this approach through several dynamic spatial reasoning tasks. Experimental results reveal that MVoT demonstrates competitive performance across tasks. Moreover, it exhibits robust and reliable improvements in the most challenging scenarios where CoT fails. Ultimately, MVoT establishes new possibilities for complex reasoning tasks where visual thinking can effectively complement verbal reasoning.
Liên kết bài báo
https://arxiv.org/abs/2501.07542
Đọc thêm
https://x.com/omarsar0/status/1879181711982129420
ChemAgent: Cải thiện suy luận hóa học trong mô hình ngôn ngữ lớn bằng thư viện tự cập nhật / ChemAgent: Self-updating Library in Large Language Models Improves Chemical Reasoning
Giới thiệu bài báo
Bài báo trình bày một khung làm việc mới được thiết kế để cải thiện hiệu năng của LLM trong suy luận hóa học thông qua một thư viện động tự cập nhật. Thư viện được xây dựng bằng cách phân rã các tác vụ hóa học thành các tác vụ con và biên soạn chúng thành một bộ sưu tập có cấu trúc để có thể tham chiếu cho các truy vấn trong tương lai; khi hệ thống được giao một bài toán mới, nó sẽ thử lại và tinh chỉnh thông tin liên quan từ thư viện để cho phép phân rã tác vụ hiệu quả hơn; thư viện được cập nhật động với các tác vụ con và lời giải mới khi chúng xuất hiện và được xác thực; các thí nghiệm trên SciBench cho thấy ChemAgent đạt mức cải thiện hiệu năng lên tới 46% (GPT-4), vượt trội đáng kể so với các phương pháp hiện có.
Presents a new framework designed to improve the performance of LLMs on chemical reasoning through a dynamic, self-updating library; the library is developed by decomposing chemical tasks into sub-tasks and compiling them into a structured collection that can be referenced for future queries; when the system is given a new problem, it retries and refines relevant information from the library to enable more effective task decomposition; the library is dynamically updated with new sub-tasks and solutions as they are encountered and validated; experiments on SciBench demonstrate that ChemAgent achieves performance gains of up to 46% (GPT-4), significantly outperforming existing methods.
Tóm tắt bài báo (Abstract)
Suy luận hóa học thường bao gồm các quy trình phức tạp, nhiều bước đòi hỏi các phép tính chính xác, trong đó ngay cả những lỗi nhỏ cũng có thể dẫn đến các thất bại dây chuyền. Ngoài ra, các mô hình ngôn ngữ lớn (LLM) gặp khó khăn khi xử lý các công thức đặc thù theo miền, thực hiện chính xác các bước suy luận và tích hợp mã hiệu quả khi giải quyết các tác vụ suy luận hóa học. Để giải quyết những thách thức này, Unity giới thiệu ChemAgent, một framework mới được thiết kế nhằm cải thiện hiệu năng của LLM thông qua một thư viện động tự cập nhật. Thư viện này được xây dựng bằng cách phân rã các tác vụ hóa học thành các tác vụ con và biên soạn các tác vụ con này thành một bộ sưu tập có cấu trúc để có thể tham chiếu cho các truy vấn trong tương lai. Sau đó, khi một bài toán mới được đưa ra, ChemAgent truy xuất và tinh chỉnh thông tin liên quan từ thư viện, mà nhóm nghiên cứu gọi là memory, giúp phân rã tác vụ hiệu quả và tạo ra lời giải. Phương pháp này thiết kế ba loại memory và một thành phần suy luận tăng cường bằng thư viện, cho phép LLM cải thiện theo thời gian thông qua kinh nghiệm. Kết quả thí nghiệm trên bốn bộ dữ liệu suy luận hóa học của SciBench cho thấy ChemAgent đạt mức cải thiện hiệu năng lên tới 46% (GPT-4), vượt trội đáng kể so với các phương pháp hiện có. Những phát hiện này cho thấy tiềm năng đáng kể cho các ứng dụng trong tương lai, bao gồm các tác vụ như khám phá thuốc và khoa học vật liệu. Bạn có thể xem chi tiết tại https://github.com/gersteinlab/chemagent
Suy luận hóa học thường bao gồm các quy trình phức tạp, nhiều bước đòi hỏi các phép tính chính xác, trong đó ngay cả những lỗi nhỏ cũng có thể dẫn đến các thất bại dây chuyền. Hơn nữa, các mô hình ngôn ngữ lớn (LLM) gặp khó khăn trong việc xử lý các công thức đặc thù theo miền, thực hiện chính xác các bước suy luận và tích hợp mã hiệu quả khi xử lý các tác vụ suy luận hóa học. Để giải quyết những thách thức này, chúng tôi giới thiệu ChemAgent, một framework mới được thiết kế để cải thiện hiệu năng của LLM thông qua một thư viện động tự cập nhật. Thư viện này được phát triển bằng cách phân rã các tác vụ hóa học thành các tác vụ con và biên soạn các tác vụ con này thành một bộ sưu tập có cấu trúc có thể được tham chiếu cho các truy vấn trong tương lai. Sau đó, khi gặp một bài toán mới, ChemAgent truy xuất và tinh chỉnh thông tin phù hợp từ thư viện, mà chúng tôi gọi là memory, qua đó hỗ trợ việc phân rã tác vụ hiệu quả và tạo ra lời giải. Phương pháp của chúng tôi thiết kế ba loại memory và một thành phần suy luận tăng cường bằng thư viện, cho phép LLM cải thiện theo thời gian thông qua kinh nghiệm. Kết quả thực nghiệm trên bốn bộ dữ liệu suy luận hóa học từ SciBench cho thấy ChemAgent đạt mức tăng hiệu năng lên tới 46% (GPT-4), vượt trội đáng kể so với các phương pháp hiện có. Các phát hiện của chúng tôi cho thấy tiềm năng lớn cho các ứng dụng trong tương lai, bao gồm những tác vụ như khám phá thuốc và khoa học vật liệu. Mã nguồn có tại https://github.com/gersteinlab/chemagent
Liên kết bài báo
https://arxiv.org/abs/2501.06590
Đọc thêm
https://github.com/gersteinlab/chemagent
https://x.com/omarsar0/status/1879188983705747754
Bài gốc
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-adb
- Bài viết này được tổng hợp bằng mô hình GPT, nên có thể có một số phần chưa chính xác; vui lòng tham khảo thêm bài gốc ở cuối bài! Nếu trong lúc đọc bạn phát hiện nội dung gượng gạo hoặc sai sót, mong bạn để lại bình luận để cho chúng tôi biết.* 🤗
⚠️Quảng cáo⚠️: Bài viết này do 🔥Cộng đồng người dùng PyTorch Hàn Quốc🇰🇷 tổng hợp, bạn thấy hữu ích chứ? Nếu đăng ký thành viên, chúng tôi sẽ gửi các bài viết nổi bật qua email💌 cho bạn! (Mặc định là Weekly, nhưng cũng có thể đổi sang Daily.)
Chưa có bình luận nào.