ML đáng chú ý trong tuần

(discuss.pytorch.kr)

7 điểm bởi ninebow 2025-10-01 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

[2025/09/22 ~ 28] Tuyển tập các bài báo AI/ML đáng chú ý trong tuần

PyTorchKR🔥🇰🇷 🤔💭

1️⃣ Sự phát triển của AI agent: Các nghiên cứu gần đây đang tìm cách chuyển đổi bài báo thành AI agent. Ví dụ, Paper2Agent biến kết quả nghiên cứu thành các hệ thống chủ động để người dùng có thể tận dụng dễ dàng hơn. Cách tiếp cận này thúc đẩy việc phổ biến và tái sử dụng kết quả nghiên cứu, đồng thời đề xuất một mô hình mới trong đó AI có thể đóng vai trò trợ lý nghiên cứu.

2️⃣ Tích hợp tư duy song song và học tăng cường: Các nghiên cứu như Parallel-R1 và ParaThinker đề xuất cách sử dụng tư duy song song để nâng cao năng lực suy luận của mô hình ngôn ngữ lớn (LLM). Chúng cải thiện hiệu năng bằng cách đồng thời khám phá nhiều lộ trình suy nghĩ cần thiết để giải quyết các vấn đề phức tạp thông qua học tăng cường (RL). Phương thức này đang góp phần đạt được độ chính xác cao hơn so với các mô hình suy luận tuần tự truyền thống.

3️⃣ Tích hợp truy xuất và cấu trúc hóa thông tin: Các nghiên cứu như Retrieval And Structuring (RAS) Augmented Generation đang tìm cách tích hợp truy xuất thông tin động và biểu diễn tri thức có cấu trúc để vượt qua các giới hạn của LLM. Cách tiếp cận này góp phần nâng cao hiệu năng của LLM bằng cách chuyển đổi văn bản phi cấu trúc thành dạng có tổ chức và khám phá nhiều cơ chế khác nhau để truy cập tri thức bên ngoài.

Paper2Agent: Tái hình dung bài báo nghiên cứu thành các AI agent có thể tương tác và đáng tin cậy / Paper2Agent: Reimagining Research Papers As Interactive and Reliable AI Agents

Giới thiệu bài báo

Paper2Agent là một framework tự động hóa chuyển đổi bài báo nghiên cứu thành các AI agent có thể tương tác, đưa ra một cách tiếp cận đổi mới nhằm tăng tốc việc ứng dụng và lan tỏa kết quả nghiên cứu. Các bài báo nghiên cứu truyền thống đòi hỏi người đọc phải bỏ ra nỗ lực đáng kể để hiểu và áp dụng nội dung, điều này trở thành rào cản đối với việc tái sử dụng và phổ biến kết quả nghiên cứu. Để giải quyết vấn đề này, Paper2Agent phân tích có hệ thống bài báo và codebase liên quan, đồng thời sử dụng nhiều agent để xây dựng máy chủ Model Context Protocol (MCP). Trong quá trình này, hệ thống cải thiện và củng cố MCP thông qua các vòng kiểm thử lặp lại, từ đó cuối cùng tạo ra một AI agent có thể thực hiện các truy vấn khoa học phức tạp bằng ngôn ngữ tự nhiên.

Framework này đã phát triển các agent thực hiện diễn giải biến thể bộ gen và phân tích đơn bào bằng cách tận dụng nhiều phương pháp như AlphaGenome, ScanPy và TISSUE. Các agent này không chỉ có thể tái lập kết quả của bài báo gốc mà còn cung cấp phản hồi chính xác cho các truy vấn mới từ người dùng. Bằng cách chuyển đổi các bài báo nghiên cứu tĩnh thành các AI agent động và có thể tương tác, Paper2Agent đề xuất một mô hình mới cho việc lan tỏa tri thức và đặt nền móng cho hệ sinh thái AI đồng khoa học gia.

Nghiên cứu này đang thay đổi một cách đột phá phương thức giao tiếp khoa học, góp phần chuyển đổi kết quả nghiên cứu từ tài liệu đơn thuần thành các hệ thống tri thức chủ động. Paper2Agent cho phép các nhà nghiên cứu tương tác với agent bằng ngôn ngữ tự nhiên để dễ dàng áp dụng phương pháp nghiên cứu mà không cần phải làm chủ các hệ sinh thái phần mềm phức tạp. Cách tiếp cận này đóng vai trò quan trọng trong việc nâng cao khả năng tiếp cận kết quả nghiên cứu, thúc đẩy dân chủ hóa các phương pháp tiên tiến và tăng tốc độ ứng dụng thực tế của nghiên cứu.

Kết quả là, Paper2Agent sẽ được định vị như một nền tảng đổi mới giúp tối đa hóa tính hữu dụng của bài báo nghiên cứu và cho phép lan tỏa tri thức khoa học theo hướng tương tác và cộng tác.

Tóm tắt bài báo (Abstract)

Chúng tôi giới thiệu Paper2Agent, một framework tự động hóa chuyển đổi bài báo nghiên cứu thành AI agent. Paper2Agent biến đầu ra nghiên cứu từ các sản phẩm thụ động thành các hệ thống chủ động có thể tăng tốc việc sử dụng, áp dụng và khám phá ở các bước tiếp theo. Các bài báo nghiên cứu truyền thống đòi hỏi người đọc phải đầu tư đáng kể công sức để hiểu code, dữ liệu và phương pháp của bài báo, rồi điều chỉnh chúng cho phù hợp với công việc của mình, từ đó tạo ra rào cản đối với việc phổ biến và tái sử dụng. Paper2Agent giải quyết thách thức này bằng cách tự động chuyển đổi bài báo thành một AI agent hoạt động như một trợ lý nghiên cứu am hiểu. Hệ thống sử dụng nhiều agent để phân tích có hệ thống bài báo và codebase liên quan nhằm xây dựng một máy chủ Model Context Protocol (MCP), sau đó lặp đi lặp lại việc tạo và chạy kiểm thử để tinh chỉnh và tăng độ vững chắc của MCP tạo ra. Các paper MCP này sau đó có thể được kết nối linh hoạt với một chat agent (ví dụ: Claude Code) để thực hiện các truy vấn khoa học phức tạp bằng ngôn ngữ tự nhiên trong khi gọi các công cụ và workflow từ bài báo gốc. Chúng tôi chứng minh hiệu quả của Paper2Agent trong việc tạo ra các paper agent đáng tin cậy và có năng lực thông qua các nghiên cứu tình huống chuyên sâu. Paper2Agent đã tạo ra một agent tận dụng AlphaGenome để diễn giải biến thể hệ gen, cùng các agent dựa trên ScanPy và TISSUE để thực hiện phân tích single-cell và spatial transcriptomics. Chúng tôi xác thực rằng các paper agent này có thể tái lập kết quả của bài báo gốc và thực hiện chính xác các truy vấn mới từ người dùng. Bằng cách biến các bài báo tĩnh thành các AI agent động và có tính tương tác, Paper2Agent mở ra một mô hình mới cho việc phổ biến tri thức và đặt nền tảng cho hệ sinh thái cộng tác của các AI đồng khoa học gia.
> We introduce Paper2Agent, an automated framework that converts research papers into AI agents. Paper2Agent transforms research output from passive artifacts into active systems that can accelerate downstream use, adoption, and discovery. Conventional research papers require readers to invest substantial effort to understand and adapt a paper's code, data, and methods to their own work, creating barriers to dissemination and reuse. Paper2Agent addresses this challenge by automatically converting a paper into an AI agent that acts as a knowledgeable research assistant. It systematically analyzes the paper and the associated codebase using multiple agents to construct a Model Context Protocol (MCP) server, then iteratively generates and runs tests to refine and robustify the resulting MCP. These paper MCPs can then be flexibly connected to a chat agent (e.g. Claude Code) to carry out complex scientific queries through natural language while invoking tools and workflows from the original paper. We demonstrate Paper2Agent's effectiveness in creating reliable and capable paper agents through in-depth case studies. Paper2Agent created an agent that leverages AlphaGenome to interpret genomic variants and agents based on ScanPy and TISSUE to carry out single-cell and spatial transcriptomics analyses. We validate that these paper agents can reproduce the original paper's results and can correctly carry out novel user queries. By turning static papers into dynamic, interactive AI agents, Paper2Agent introduces a new paradigm for knowledge dissemination and a foundation for the collaborative ecosystem of AI co-scientists.

Liên kết bài báo

https://arxiv.org/abs/2509.06917

Đọc thêm

https://github.com/jmiao24/Paper2Agent

https://huggingface.co/spaces/Paper2Agent/alphagenome_agent

Tư duy song song: Phương pháp nâng cao năng lực tư duy song song thông qua học tăng cường / Parallel-R1: Towards Parallel Thinking via Reinforcement Learning

Giới thiệu bài báo

Tư duy song song là một cách tiếp cận mang tính đổi mới nhằm nâng cao năng lực suy luận của mô hình ngôn ngữ lớn (LLM), với phương pháp khám phá đồng thời nhiều lộ trình suy luận. Tuy nhiên, phương pháp học có giám sát hiện có (Supervised Fine-Tuning, SFT) phụ thuộc vào dữ liệu tổng hợp, khiến mô hình chỉ dừng ở học bắt chước đơn thuần, từ đó cản trở khả năng khám phá và khái quát hóa. Để giải quyết vấn đề này, Parallel-R1 được đề xuất như khung học tăng cường (Reinforcement Learning, RL) đầu tiên, cho phép hành vi tư duy song song phục vụ giải quyết các bài toán thực tế phức tạp.

Parallel-R1 áp dụng quy trình huấn luyện hai giai đoạn với curriculum tiến dần: ban đầu học trên các bài toán dễ, sau đó thông qua RL để khám phá và khái quát hóa năng lực tư duy song song trên các bài toán khó hơn. Trong quá trình này, mô hình có xu hướng sử dụng tư duy song song như một chiến lược khám phá ở giai đoạn đầu, rồi phát triển thành chiến lược kiểm chứng đa góc nhìn ở giai đoạn sau. Kết quả thực nghiệm cho thấy Parallel-R1 đạt mức cải thiện độ chính xác 8,4% so với các mô hình tư duy tuần tự hiện có trên nhiều benchmark toán học khác nhau; riêng trên benchmark AIME25, mô hình ghi nhận mức cải thiện hiệu năng 42,9%.

Đóng góp chính của nghiên cứu này là đề xuất một khung RL cho tư duy song song, qua đó thúc đẩy mô hình tự học cách tư duy song song. Ngoài ra, thông qua cơ chế khám phá của tư duy song song, mô hình có thể được dẫn dắt tới những vùng hiệu quả hơn trong không gian chính sách, từ đó đóng vai trò cấu trúc cho việc học chính sách cuối cùng. Parallel-R1 có thể được sử dụng như tài liệu nền tảng quan trọng để nâng cao năng lực suy luận của LLM, đồng thời được kỳ vọng sẽ góp phần phát triển sâu hơn khái niệm tư duy song song trong các nghiên cứu tương lai.

Tóm tắt bài báo (Abstract)

Tư duy song song là một cách tiếp cận mới nhằm nâng cao năng lực suy luận của mô hình ngôn ngữ lớn (LLM), bằng cách khám phá đồng thời nhiều lộ trình suy luận. Tuy nhiên, việc kích hoạt năng lực này thông qua huấn luyện vẫn còn đầy thách thức, do các phương pháp hiện tại chủ yếu dựa vào tinh chỉnh có giám sát (SFT) trên dữ liệu tổng hợp, vốn khuyến khích việc bắt chước bị ép theo giáo viên hơn là khám phá và khái quát hóa. Khác với các phương pháp đó, chúng tôi đề xuất \textbf{Parallel-R1}, khung học tăng cường (RL) đầu tiên cho phép hành vi tư duy song song trong các tác vụ suy luận thực tế phức tạp. Khung của chúng tôi sử dụng một curriculum tiến dần để giải quyết rõ ràng bài toán khởi đầu nguội trong huấn luyện tư duy song song bằng RL. Trước tiên, chúng tôi dùng SFT trên các quỹ đạo sinh từ prompt ở những tác vụ dễ hơn để đưa năng lực tư duy song song vào mô hình, sau đó chuyển sang RL để khám phá và khái quát hóa kỹ năng này trên các bài toán khó hơn. Kết quả thực nghiệm trên nhiều benchmark toán học, bao gồm MATH, AMC23 và AIME, cho thấy Parallel-R1 đã đưa tư duy song song vào mô hình thành công, mang lại mức cải thiện độ chính xác 8,4% so với mô hình tư duy tuần tự được huấn luyện trực tiếp bằng RL trên các tác vụ khó. Phân tích sâu hơn cho thấy có sự thay đổi rõ rệt trong hành vi tư duy của mô hình: ở giai đoạn đầu, mô hình dùng tư duy song song như một chiến lược khám phá; còn ở giai đoạn sau, mô hình dùng chính năng lực đó để kiểm chứng đa góc nhìn. Quan trọng nhất, chúng tôi xác thực rằng tư duy song song đóng vai trò \textbf{giàn giáo khám phá ở giữa quá trình huấn luyện}, trong đó giai đoạn khám phá tạm thời này giúp mở ra trần hiệu năng cao hơn sau RL, mang lại mức cải thiện 42,9% so với baseline trên AIME25. Mô hình, dữ liệu và mã nguồn của chúng tôi sẽ được mã nguồn mở tại https://github.com/zhengkid/Parallel-R1.
> Parallel thinking has emerged as a novel approach for enhancing the reasoning capabilities of large language models (LLMs) by exploring multiple reasoning paths concurrently. However, activating such capabilities through training remains challenging, as existing methods predominantly rely on supervised fine-tuning (SFT) over synthetic data, which encourages teacher-forced imitation rather than exploration and generalization. Different from them, we propose \textbf{Parallel-R1}, the first reinforcement learning (RL) framework that enables parallel thinking behaviors for complex real-world reasoning tasks. Our framework employs a progressive curriculum that explicitly addresses the cold-start problem in training parallel thinking with RL. We first use SFT on prompt-generated trajectories from easier tasks to instill the parallel thinking ability, then transition to RL to explore and generalize this skill on harder problems. Experiments on various math benchmarks, including MATH, AMC23, and AIME, show that Parallel-R1 successfully instills parallel thinking, leading to 8.4% accuracy improvements over the sequential thinking model trained directly on challenging tasks with RL. Further analysis reveals a clear shift in the model's thinking behavior: at an early stage, it uses parallel thinking as an exploration strategy, while in a later stage, it uses the same capability for multi-perspective verification. Most significantly, we validate parallel thinking as a \textbf{mid-training exploration scaffold}, where this temporary exploratory phase unlocks a higher performance ceiling after RL, yielding a 42.9% improvement over the baseline on AIME25. Our model, data, and code will be open-source at https://github.com/zhengkid/Parallel-R1.

Liên kết bài báo

https://arxiv.org/abs/2509.07980

Đọc thêm

https://zhengkid.github.io/Parallel_R1.github.io/

https://github.com/zhengkid/Parallel-R1

Khảo sát về tạo sinh tăng cường truy xuất và cấu trúc hóa với mô hình ngôn ngữ lớn / A Survey on Retrieval And Structuring Augmented Generation with Large Language Models

Giới thiệu bài báo

Các mô hình ngôn ngữ lớn (LLM) đã tạo ra những bước tiến mang tính đột phá trong lĩnh vực xử lý ngôn ngữ tự nhiên, nhưng vẫn đang đối mặt với các vấn đề như sinh thông tin ảo giác (hallucination), kiến thức lỗi thời và chuyên môn miền hạn chế trong các ứng dụng thực tế. Để vượt qua những giới hạn này, cách tiếp cận tạo sinh tăng cường truy xuất và cấu trúc hóa (Retrieval And Structuring, RAS) được đề xuất nhằm tích hợp truy xuất thông tin động với biểu diễn tri thức có cấu trúc, qua đó góp phần nâng cao hiệu năng của LLM. Nghiên cứu này xem xét nhiều cơ chế truy xuất khác nhau để truy cập tri thức bên ngoài, bao gồm các cách tiếp cận sparse, dense và hybrid. Các cơ chế truy xuất này hỗ trợ LLM tạo ra thông tin chính xác và đáng tin cậy hơn.

Ngoài ra, công nghệ cấu trúc hóa văn bản, tức chuyển đổi văn bản phi cấu trúc thành biểu diễn có tổ chức, cũng đóng vai trò quan trọng. Thông qua các phương pháp như xây dựng taxonomy, phân loại phân cấp và trích xuất thông tin, LLM có thể nâng cao chuyên môn trong các miền cụ thể và cho phép suy luận nhiều bước đối với các truy vấn phức tạp. RAS tích hợp các biểu diễn có cấu trúc này với LLM để cải thiện khả năng tạo phản hồi của LLM thông qua các phương pháp dựa trên prompt, framework suy luận và kỹ thuật nhúng tri thức.

Nghiên cứu này xác định các thách thức kỹ thuật của RAS, đồng thời nhấn mạnh tầm quan trọng của hiệu quả truy xuất, chất lượng cấu trúc và tích hợp tri thức. Bên cạnh đó, nghiên cứu còn đề xuất các cơ hội nghiên cứu trong tương lai như truy xuất đa phương thức, cấu trúc xuyên ngôn ngữ và các hệ thống tương tác, nhằm mở rộng khả năng ứng dụng của LLMs. Cách tiếp cận RAS được kỳ vọng sẽ là một phương pháp luận đổi mới có thể tối đa hóa hiệu năng của LLM và góp phần vào sự phát triển của lĩnh vực xử lý ngôn ngữ tự nhiên.

Tóm tắt bài báo (Abstract)

Các mô hình ngôn ngữ lớn (LLM) đã tạo ra cuộc cách mạng trong xử lý ngôn ngữ tự nhiên nhờ khả năng vượt trội về sinh văn bản và suy luận. Tuy nhiên, khi được triển khai trong các ứng dụng thực tế, các mô hình này phải đối mặt với những thách thức nghiêm trọng như tạo ra ảo giác, tri thức lỗi thời và chuyên môn miền còn hạn chế. Sinh tăng cường bằng truy xuất và cấu trúc hóa (RAS) giải quyết các giới hạn này bằng cách tích hợp truy xuất thông tin động với các biểu diễn tri thức có cấu trúc. Khảo sát này (1) xem xét các cơ chế truy xuất, bao gồm các cách tiếp cận thưa, dày đặc và lai để truy cập tri thức bên ngoài; (2) khám phá các kỹ thuật cấu trúc hóa văn bản như xây dựng taxonomy, phân loại phân cấp và trích xuất thông tin, vốn chuyển đổi văn bản phi cấu trúc thành các biểu diễn có tổ chức; và (3) khảo sát cách các biểu diễn có cấu trúc này được tích hợp với LLM thông qua các phương pháp dựa trên prompt, framework suy luận và kỹ thuật nhúng tri thức. Nghiên cứu cũng xác định các thách thức kỹ thuật về hiệu quả truy xuất, chất lượng cấu trúc và tích hợp tri thức, đồng thời nhấn mạnh các cơ hội nghiên cứu trong truy xuất đa phương thức, cấu trúc xuyên ngôn ngữ và hệ thống tương tác. Tổng quan toàn diện này cung cấp cho các nhà nghiên cứu và người làm thực tiễn những hiểu biết về các phương pháp RAS, ứng dụng và định hướng tương lai.

Large Language Models (LLMs) have revolutionized natural language processing with their remarkable capabilities in text generation and reasoning. However, these models face critical challenges when deployed in real-world applications, including hallucination generation, outdated knowledge, and limited domain expertise. Retrieval And Structuring (RAS) Augmented Generation addresses these limitations by integrating dynamic information retrieval with structured knowledge representations. This survey (1) examines retrieval mechanisms including sparse, dense, and hybrid approaches for accessing external knowledge; (2) explore text structuring techniques such as taxonomy construction, hierarchical classification, and information extraction that transform unstructured text into organized representations; and (3) investigate how these structured representations integrate with LLMs through prompt-based methods, reasoning frameworks, and knowledge embedding techniques. It also identifies technical challenges in retrieval efficiency, structure quality, and knowledge integration, while highlighting research opportunities in multimodal retrieval, cross-lingual structures, and interactive systems. This comprehensive overview provides researchers and practitioners with insights into RAS methods, applications, and future directions.

Liên kết bài báo

https://arxiv.org/abs/2509.10697

ParaThinker: Tư duy song song bản địa như một mô hình mới để mở rộng năng lực tính toán thời gian kiểm thử của LLM / ParaThinker: Native Parallel Thinking as a New Paradigm to Scale LLM Test-time Compute

Giới thiệu bài báo

Sự phát triển của các mô hình ngôn ngữ lớn (LLM) gần đây phụ thuộc rất nhiều vào các chiến lược mở rộng tính toán ở thời gian kiểm thử, qua đó góp phần nâng cao năng lực suy luận của mô hình. Tuy nhiên, các cách tiếp cận này gặp phải nút thắt cổ chai khi mức cải thiện hiệu năng trở nên rất nhỏ trong khi lượng tính toán tăng lên. Vấn đề này được gọi là hiện tượng "tầm nhìn đường hầm (Tunnel Vision)", trong đó suy luận chưa hoàn chỉnh ở giai đoạn đầu khiến mô hình bị mắc kẹt trên những lộ trình không tối ưu. Để giải quyết điều này, một mô hình mới được đề xuất là Native Thought Parallelism, phương pháp tạo đồng thời nhiều lộ trình suy luận đa dạng rồi tổng hợp chúng để đưa ra câu trả lời cuối cùng.

Framework end-to-end có tên ParaThinker tập trung vào việc hiện thực hóa tính song song trong tư duy này. Hệ thống này được huấn luyện để mô hình có thể tạo ra nhiều luồng suy nghĩ đa dạng một cách độc lập, từ đó tránh hiệu quả vấn đề tầm nhìn đường hầm và tối đa hóa năng lực suy luận tiềm năng của mô hình. ParaThinker đạt được mục tiêu này thông qua ba đổi mới chính. Thứ nhất, nó đưa vào các control token có thể huấn luyện để bảo đảm tính độc đáo của từng lộ trình; thứ hai, nó sử dụng positional embedding đặc thù cho từng luồng suy nghĩ để phân biệt rõ nguồn gốc của mỗi lộ trình; và thứ ba, nó áp dụng chiến lược Supervised Fine-Tuning để giúp mô hình có thể tạo ra nhiều lộ trình song song hơn.

Cách tiếp cận này đã đạt mức cải thiện độ chính xác trung bình 12,3% với mô hình 1.5B và 7,5% với mô hình 7B trên các benchmark suy luận đầy thách thức so với các mô hình suy luận tự hồi quy hiện có, trong khi độ trễ chỉ tăng rất nhẹ ở mức 7,1%. Nhờ đó, ParaThinker cho thấy khả năng các mô hình nhỏ hơn có thể vượt qua những mô hình lớn hơn rất nhiều, đồng thời mở ra một hướng đi mới cho việc mở rộng LLM trong tương lai. Kết quả nghiên cứu không chỉ làm rõ nút thắt cổ chai phát sinh trong quá trình suy luận của LLM mà còn chứng minh rằng tính song song trong tư duy bản địa là một phương pháp mở rộng tốt hơn, qua đó đóng góp quan trọng cho lĩnh vực nghiên cứu LLM.

Tóm tắt bài báo (Abstract)

Những tiến bộ gần đây của mô hình ngôn ngữ lớn (LLM) được thúc đẩy bởi việc mở rộng năng lực tính toán tại thời điểm suy luận — một chiến lược cải thiện khả năng lập luận bằng cách tạo ra các chuỗi suy nghĩ tuần tự dài hơn. Dù hiệu quả, cách tiếp cận này gặp phải nút thắt đáng kể khi lượng tính toán tăng lên, trong đó phần tính toán bổ sung chỉ mang lại mức cải thiện hiệu năng rất nhỏ. Chúng tôi cho rằng trần giới hạn này không phải là giới hạn cố hữu của năng lực mô hình, mà là khiếm khuyết của chính chiến lược mở rộng, một hiện tượng mà chúng tôi gọi là "tầm nhìn đường hầm" (Tunnel Vision), nơi các bước khởi đầu chưa hoàn thiện của mô hình khiến nó bị khóa vào một lộ trình suy luận không tối ưu. Để vượt qua điều này, chúng tôi giới thiệu một mô thức mở rộng mới: tính song song suy nghĩ bản địa. Chúng tôi trình bày ParaThinker, một framework end-to-end huấn luyện LLM tạo ra nhiều lộ trình suy luận đa dạng song song và tổng hợp chúng thành câu trả lời cuối cùng tốt hơn. Bằng cách đồng thời khám phá các tuyến suy nghĩ khác nhau, ParaThinker né tránh hiệu quả vấn đề Tunnel Vision và khai mở tiềm năng suy luận tiềm ẩn của mô hình. Cách tiếp cận của chúng tôi cho thấy việc mở rộng tính toán theo song song (chiều rộng) là một phương thức hiệu quả và hiệu suất cao hơn để đạt suy luận vượt trội, so với chỉ mở rộng tuần tự (chiều sâu). Trên các benchmark suy luận đầy thách thức, ParaThinker đạt mức cải thiện độ chính xác đáng kể so với các LLM tuần tự (trung bình 12,3% với mô hình 1.5B và 7,5% với mô hình 7B khi dùng 8 lộ trình song song), trong khi chỉ thêm overhead độ trễ không đáng kể (7,1%). Điều này cho phép các mô hình nhỏ hơn vượt qua những mô hình lớn hơn rất nhiều, đồng thời xác lập tư duy song song như một chiều kích hiệu quả và quan trọng cho việc mở rộng LLM trong tương lai.

Recent advances in Large Language Models (LLMs) have been driven by test-time compute scaling - a strategy that improves reasoning by generating longer, sequential thought processes. While effective, this approach encounters a significant bottleneck as computation increases, where further computation offers only marginal performance gains. We argue this ceiling is not an inherent limit of the model's capability but a flaw in the scaling strategy itself, a phenomenon we term "Tunnel Vision", where a model's imperfect initial steps lock it into a suboptimal reasoning path. To overcome this, we introduce a new scaling paradigm: native thought parallelism. We present ParaThinker, an end-to-end framework that trains an LLM to generate multiple, diverse reasoning paths in parallel and synthesize them into a superior final answer. By exploring different lines of thoughts simultaneously, ParaThinker effectively sidesteps the Tunnel Vision issue and unlocks the model's latent reasoning potential. Our approach demonstrates that scaling compute in parallel (width) is a more effective and efficient way to superior reasoning than simply scaling sequentially (depth). On challenging reasoning benchmarks, ParaThinker achieves substantial accuracy improvements over sequential LLMs (12.3% for 1.5B and 7.5% for 7B models on average with 8 parallel paths), while adding only negligible latency overhead (7.1%). This enables smaller models to surpass much larger counterparts and establishes parallel thinking as a critical, efficient dimension for scaling future LLMs.

Liên kết bài báo

https://arxiv.org/abs/2509.04475

Fine-tuning trong ngữ cảnh cho mô hình foundation chuỗi thời gian / In-Context Fine-Tuning for Time-Series Foundation Models

Giới thiệu bài báo

Dự báo dữ liệu chuỗi thời gian là một bài toán quan trọng trong nhiều lĩnh vực, và những tiến bộ gần đây của các mô hình foundation cho chuỗi thời gian đang mở ra các khả năng mới cho vấn đề này. Trong nghiên cứu này, chúng tôi đề xuất $\textit{in-context fine-tuning}$, một phương pháp luận mới nhằm tối đa hóa hiệu năng của các mô hình này. Phương pháp này được thiết kế để mô hình foundation đã được tiền huấn luyện có thể sử dụng nhiều ví dụ chuỗi thời gian để dự báo tương lai của một chuỗi thời gian cụ thể.

Mô hình được đề xuất không chỉ sử dụng lịch sử của chuỗi thời gian mục tiêu mà còn tận dụng các ví dụ từ những chuỗi thời gian liên quan trong cửa sổ ngữ cảnh, từ đó được huấn luyện để có thể thích nghi với phân phối đặc thù của miền mục tiêu trong quá trình suy luận. Cách tiếp cận này cho phép mô hình học các mẫu từ nhiều chuỗi thời gian khác nhau và dựa trên đó thực hiện dự báo chính xác hơn. Kết quả thực nghiệm cho thấy mô hình này vượt trội so với các phương pháp học sâu dựa trên học có giám sát, các mô hình thống kê và cả những mô hình foundation chuỗi thời gian hiện có.

Đặc biệt, cách tiếp cận in-context fine-tuning còn thể hiện hiệu năng có thể cạnh tranh ngay cả với các mô hình được fine-tune tường minh cho miền mục tiêu, qua đó nhấn mạnh tính đổi mới của phương pháp này. Kiến trúc mô hình được xây dựng dựa trên TimesFM, được cấu hình để xử lý dữ liệu chuỗi thời gian một cách hiệu quả. Các ví dụ đầu vào được chia thành các patch có độ dài $p$ để xử lý, và độ chính xác dự báo được đảm bảo thông qua padding mask.

Trong quá trình token hóa, các token được tạo ra bằng cách kết hợp patch và mask sẽ được đưa vào các lớp transformer xếp chồng, từ đó sinh ra kết quả dự báo. Chuỗi quy trình này đóng vai trò quan trọng trong việc giúp mô hình xử lý dữ liệu đầu vào hiệu quả và dự báo chuỗi thời gian cho $h$ bước tiếp theo. Nghiên cứu này đề xuất một cách tiếp cận mới cho bài toán dự báo dữ liệu chuỗi thời gian, đồng thời chứng minh bằng thực nghiệm rằng in-context fine-tuning có thể đạt hiệu năng vượt trội hơn các phương pháp hiện có.

Tóm tắt(Abstract)

Được thúc đẩy bởi thành công gần đây của các mô hình foundation cho chuỗi thời gian trong dự báo zero-shot, chúng tôi trình bày một phương pháp $\textit{fine-tuning trong ngữ cảnh}$ cho mô hình foundation chuỗi thời gian. Cụ thể, chúng tôi thiết kế một mô hình foundation đã được tiền huấn luyện có thể được prompt bằng nhiều ví dụ chuỗi thời gian trong quá trình suy luận để dự báo chuỗi thời gian mục tiêu trong tương lai. Mô hình foundation của chúng tôi được huấn luyện đặc biệt để tận dụng các ví dụ từ nhiều chuỗi thời gian liên quan trong cửa sổ ngữ cảnh (ngoài lịch sử của chuỗi thời gian mục tiêu), giúp nó thích ứng với phân phối cụ thể của miền mục tiêu tại thời điểm suy luận. Chúng tôi cho thấy rằng một mô hình foundation sử dụng các ví dụ trong ngữ cảnh ở thời điểm suy luận như vậy có thể đạt hiệu năng tốt hơn nhiều trên các benchmark dự báo phổ biến so với các phương pháp deep learning có giám sát, các mô hình thống kê, cũng như các mô hình foundation chuỗi thời gian khác. Điều thú vị là cách tiếp cận fine-tuning trong ngữ cảnh của chúng tôi thậm chí còn cạnh tranh được với hiệu năng của một mô hình foundation được fine-tuning tường minh trên miền mục tiêu.
> Motivated by the recent success of time-series foundation models for zero-shot forecasting, we present a methodology for $\textit{in-context fine-tuning}$ of a time-series foundation model. In particular, we design a pretrained foundation model that can be prompted (at inference time) with multiple time-series examples, in order to forecast a target time-series into the future. Our foundation model is specifically trained to utilize examples from multiple related time-series in its context window (in addition to the history of the target time-series) to help it adapt to the specific distribution of the target domain at inference time. We show that such a foundation model that uses in-context examples at inference time can obtain much better performance on popular forecasting benchmarks compared to supervised deep learning methods, statistical models, as well as other time-series foundation models. Interestingly, our in-context fine-tuning approach even rivals the performance of a foundation model that is explicitly fine-tuned on the target domain.

Liên kết bài báo

https://arxiv.org/abs/2410.24087

Đọc thêm

https://research.google/blog/…

https://icml.cc/virtual/2025/poster/43707

Chỉ cần 1 bit: mạng nơ-ron chuẩn hóa nhị phân / 1 bit is all we need: binary normalized neural networks

Giới thiệu bài báo

Sự phát triển của các mô hình mạng nơ-ron quy mô lớn mang lại hiệu năng vượt trội trong nhiều lĩnh vực ứng dụng, nhưng sự gia tăng kích thước của các mô hình này cũng đặt ra thách thức về yêu cầu bộ nhớ và hiệu quả tính toán. Để giải quyết vấn đề này, nghiên cứu đề xuất một loại mô hình mạng nơ-ron mới là lớp chuẩn hóa nhị phân (binary normalized layer), trong đó tham số của mọi lớp được giới hạn ở một bit duy nhất. Lớp này được thiết kế để đặt tất cả tham số, bao gồm trọng số kernel và bias, thành 0 hoặc 1, qua đó giảm mạnh mức sử dụng bộ nhớ mà vẫn duy trì hiệu năng tương đương với các mô hình sử dụng tham số số thực dấu phẩy động 32 bit truyền thống.

Lớp chuẩn hóa nhị phân có thể được áp dụng cho nhiều kiến trúc mạng nơ-ron khác nhau như fully connected, convolution và attention; trong quá trình huấn luyện, nó sử dụng hai dạng giá trị là giá trị 32 bit full-precision và giá trị đã nhị phân hóa để bảo đảm học ổn định. Trong nghiên cứu này, hai mô hình sử dụng lớp chuẩn hóa nhị phân đã được xây dựng để giải quyết bài toán phân loại ảnh đa lớp và giải mã ngôn ngữ. Kết quả thực nghiệm cho thấy các mô hình này đạt hiệu năng gần như tương đương với các mô hình sử dụng tham số 32 bit truyền thống, trong khi mức sử dụng bộ nhớ giảm 32 lần.

Cách tiếp cận đổi mới này có tiềm năng cải thiện đáng kể hiệu quả của các mô hình mạng nơ-ron quy mô lớn, đồng thời có ưu điểm là có thể triển khai dễ dàng ngay cả trên phần cứng giá rẻ. Thông qua lớp chuẩn hóa nhị phân, nghiên cứu mở ra những khả năng mới trong việc giảm yêu cầu bộ nhớ của mô hình mạng nơ-ron và nâng cao tính thực tiễn trong nhiều lĩnh vực ứng dụng. Các nghiên cứu trong tương lai dự kiến sẽ tập trung vào việc cải thiện thêm hiệu năng của lớp chuẩn hóa nhị phân và khám phá các phương pháp có thể áp dụng nó trong nhiều lĩnh vực khác nhau.

Tóm tắt bài báo (Abstract)

Sau đây là phần tóm tắt các bài báo trong lĩnh vực AI/ML. Khi quy mô của các mô hình mạng nơ-ron lớn, đặc biệt là mô hình ngôn ngữ và mô hình hình ảnh nền tảng, tiếp tục tăng lên, các thách thức trong triển khai cũng phát sinh, từ đó thúc đẩy những nỗ lực nhằm giảm yêu cầu bộ nhớ và nâng cao hiệu quả tính toán. Những nỗ lực này có ý nghĩa quan trọng để bảo đảm việc triển khai thực tế và khai thác hiệu quả các mô hình này trong nhiều ứng dụng khác nhau. Trong nghiên cứu này, một loại tầng và mô hình mạng nơ-ron mới chỉ sử dụng tham số một bit đã được phát triển. Trong loại mô hình mới này, mọi tham số của mọi tầng, bao gồm trọng số kernel và bias, đều chỉ nhận giá trị 0 hoặc 1. Loại mô hình mới này sử dụng các tầng có tên là binary normalized layer. Các binary normalized layer này có thể thuộc bất kỳ kiểu nào, chẳng hạn như tầng kết nối đầy đủ, tầng tích chập, tầng attention, v.v., và được cấu thành từ những biến thể nhỏ của các tầng truyền thống tương ứng. Để chứng minh hiệu quả của binary normalized layer, hai mô hình khác nhau đã được cấu hình để giải quyết bài toán phân loại ảnh đa lớp, cùng với một bộ giải mã ngôn ngữ để dự đoán token tiếp theo của một chuỗi. Mô hình giải bài toán phân loại ảnh gồm các tầng tích chập và tầng kết nối đầy đủ, còn mô hình ngôn ngữ được tạo thành từ các khối transformer với multi-head attention. Kết quả cho thấy các mô hình có binary normalized layer cho kết quả gần như tương đương với các mô hình tương ứng sử dụng tham số thực 32 bit. Binary normalized layer cho phép phát triển các mô hình sử dụng ít bộ nhớ hơn 32 lần so với các mô hình hiện tại nhưng vẫn có hiệu năng tương đương. Ngoài ra, binary normalized layer có thể dễ dàng được triển khai trên các máy tính hiện nay bằng cách dùng mảng 1 bit và không cần phát triển phần cứng điện tử chuyên dụng. Loại tầng mới này mở ra một kỷ nguyên mới cho các mô hình mạng nơ-ron lớn với yêu cầu bộ nhớ thấp hơn, có thể được triển khai bằng phần cứng đơn giản và giá rẻ như thiết bị di động hoặc chỉ với CPU.
> The increasing size of large neural network models, specifically language models and foundational image models, poses deployment challenges, prompting efforts to reduce memory requirements and enhance computational efficiency. These efforts are critical to ensure practical deployment and effective utilization of these models across various applications. In this work, a novel type of neural network layers and models is developed that uses only single-bit parameters. In this novel type of models all parameters of all layers, including kernel weights and biases, only have values equal to zero or one. This novel type of models uses layers named as binary normalized layer. These binary normalized layers can be of any type, such as fully connected, convolutional, attention, etc., and they consist of slight variations of the corresponding conventional layers. To show the effectiveness of the binary normalized layers, two different models are configured to solve a multiclass image classification problem and a language decoder to predict the next token of a sequence. The model to solve the image classification has convolutional and fully connected layers, and the language model is composed of transformer blocks with multi-head attention. The results show that models with binary normalized layers present almost the same results obtained by equivalent models with real 32-bit parameters. The binary normalized layers allow to develop models that use 32 times less memory than current models and have equivalent performance. Besides, the binary normalized layers can be easily implemented on current computers using 1-bit arrays, and do not require the development of dedicated electronic hardware. This novel type of layers opens a new era for large neural network models with reduced memory requirements that can be deployed using simple and cheap hardware, such as mobile devices or only cpus.

Liên kết bài báo

https://arxiv.org/abs/2509.07025

Nội tại hóa tính tự nhất quán trong mô hình ngôn ngữ: căn chỉnh đồng thuận đa tác nhân / Internalizing Self-Consistency in Language Models: Multi-Agent Consensus Alignment

Giới thiệu bài báo

Các mô hình ngôn ngữ (LM) có xu hướng tạo ra những câu trả lời mâu thuẫn cho cùng một prompt, cho thấy suy luận thiếu nhất quán. Các phương pháp ở thời điểm suy luận hiện nay có thể giảm bớt sự không nhất quán này, nhưng không giải quyết được vấn đề cốt lõi là khó lựa chọn lộ trình suy luận dẫn đến kết quả nhất quán. Để giải quyết điều này, nghiên cứu này hình thức hóa tính tự nhất quán như một thuộc tính nội tại của mô hình suy luận được căn chỉnh tốt và giới thiệu một khung học tăng cường có tên Multi-Agent Consensus Alignment (MACA). MACA sử dụng các kết quả đa số/thiểu số để huấn luyện hậu kỳ, giúp mô hình ưu tiên các lộ trình suy luận phù hợp với đồng thuận nội bộ. Các lộ trình này xuất hiện từ những cuộc thảo luận chuyên sâu giữa các tác nhân và tạo ra tín hiệu đồng thuận phong phú hơn thông qua suy luận dựa trên lập luận của các tác nhân đồng cấp, thay vì chỉ là tập hợp các lần thử độc lập. MACA cho phép các tác nhân tự học một cách dứt khoát và ngắn gọn hơn mà không cần giám sát bên ngoài, đồng thời mang lại những cải thiện đáng kể trên nhiều thiết lập như tự nhất quán đa dạng, suy luận đơn tác nhân, suy luận dựa trên lấy mẫu và ra quyết định tập thể đa tác nhân. Những kết quả này cho thấy khả năng tự căn chỉnh mạnh mẽ, giúp khai thác năng lực suy luận tiềm ẩn của mô hình ngôn ngữ một cách đáng tin cậy hơn, cùng với khả năng tổng quát hóa mạnh trên các benchmark chưa từng thấy.

Tóm tắt(Abstract)

Mô hình ngôn ngữ (LLM) là những bộ suy luận thiếu tính nhất quán, thường tạo ra các câu trả lời mâu thuẫn cho cùng một prompt. Dù các phương pháp ở thời điểm suy luận có thể giảm bớt những bất nhất này, chúng không giải quyết được vấn đề cốt lõi: LLM gặp khó khăn trong việc chọn một cách đáng tin cậy các lộ trình suy luận dẫn đến kết quả nhất quán dưới điều kiện lấy mẫu khám phá. Để giải quyết điều này, chúng tôi hình thức hóa tính tự nhất quán như một thuộc tính nội tại của các mô hình suy luận được căn chỉnh tốt, và giới thiệu Multi-Agent Consensus Alignment (MACA). Đây là một khung học tăng cường hậu huấn luyện mô hình để ưu tiên các quỹ đạo suy luận phù hợp với đồng thuận nội bộ của chúng bằng cách sử dụng kết quả đa số/thiểu số từ tranh luận đa tác nhân. Các quỹ đạo này xuất hiện từ những trao đổi cân nhắc, nơi các tác nhân đặt nền tảng suy luận trên lập luận của đồng nghiệp, chứ không chỉ là sự tổng hợp của các lần thử độc lập, từ đó tạo ra tín hiệu đồng thuận phong phú hơn so với bỏ phiếu đa số một vòng. MACA cho phép các tác nhân tự dạy mình trở nên dứt khoát và ngắn gọn hơn, đồng thời tận dụng tốt hơn các hiểu biết từ đồng nghiệp trong bối cảnh đa tác nhân mà không cần giám sát bên ngoài, mang lại các cải thiện đáng kể về tự nhất quán (+27.6% trên GSM8K), suy luận đơn tác nhân (+23.7% trên MATH), suy luận dựa trên lấy mẫu (+22.4% Pass@20 trên MATH), và ra quyết định tổ hợp đa tác nhân (+42.7% trên MathQA). Những phát hiện này, cùng với khả năng khái quát hóa mạnh trên các benchmark chưa từng thấy (+16.3% trên GPQA, +11.6% trên CommonsenseQA), cho thấy một cơ chế tự căn chỉnh vững chắc giúp khai mở năng lực suy luận tiềm ẩn của mô hình ngôn ngữ một cách đáng tin cậy hơn.
> Language Models (LMs) are inconsistent reasoners, often generating contradictory responses to identical prompts. While inference-time methods can mitigate these inconsistencies, they fail to address the core problem: LMs struggle to reliably select reasoning pathways leading to consistent outcomes under exploratory sampling. To address this, we formalize self-consistency as an intrinsic property of well-aligned reasoning models and introduce Multi-Agent Consensus Alignment (MACA), a reinforcement learning framework that post-trains models to favor reasoning trajectories aligned with their internal consensus using majority/minority outcomes from multi-agent debate. These trajectories emerge from deliberative exchanges where agents ground reasoning in peer arguments, not just aggregation of independent attempts, creating richer consensus signals than single-round majority voting. MACA enables agents to teach themselves to be more decisive and concise, and better leverage peer insights in multi-agent settings without external supervision, driving substantial improvements across self-consistency (+27.6% on GSM8K), single-agent reasoning (+23.7% on MATH), sampling-based inference (+22.4% Pass@20 on MATH), and multi-agent ensemble decision-making (+42.7% on MathQA). These findings, coupled with strong generalization to unseen benchmarks (+16.3% on GPQA, +11.6% on CommonsenseQA), demonstrate robust self-alignment that more reliably unlocks latent reasoning potential of language models.

Liên kết bài báo

https://arxiv.org/abs/2509.15172

Nghiên cứu sâu phổ quát: Mang mô hình và chiến lược của riêng bạn / Universal Deep Research: Bring Your Own Model and Strategy

Giới thiệu bài báo

Universal Deep Research (UDR) là một hệ thống tác nhân tổng quát được phát triển để vượt qua giới hạn của các công cụ deep research hiện có, vốn được hard-code để thực hiện một chiến lược nghiên cứu cụ thể theo cách cố định. UDR cung cấp khả năng cho phép người dùng tạo, chỉnh sửa và cải tiến chiến lược deep research tùy biến của riêng mình, và điểm đột phá là quá trình này không cần thêm huấn luyện hay fine-tuning. Hệ thống này chứng minh tính tổng quát của mình thông qua nhiều ví dụ đa dạng, từ chiến lược nghiên cứu tối thiểu đến các chiến lược mở rộng và chuyên sâu.

Cốt lõi của UDR là hỗ trợ các nhà nghiên cứu tự do khám phá chiến lược nghiên cứu của riêng họ bằng cách tạo điều kiện thuận lợi cho việc thử nghiệm thông qua giao diện người dùng. Cách tiếp cận này mang đến cho các nhà nghiên cứu cơ hội phát triển phương pháp luận độc đáo của riêng mình mà không phải phụ thuộc vào các công cụ sẵn có. Đặc biệt, UDR bao bọc nhiều mô hình ngôn ngữ khác nhau, mang lại sự linh hoạt để người dùng lựa chọn và sử dụng mô hình mà họ ưa thích.

Nghiên cứu này đóng góp cho sự phát triển của các công cụ deep research và tập trung vào việc giúp các nhà nghiên cứu xây dựng các chiến lược nghiên cứu cá nhân hóa và sáng tạo hơn. Việc đưa UDR vào sử dụng được kỳ vọng sẽ đóng vai trò quan trọng trong việc nâng cao hiệu suất và hiệu quả nghiên cứu. Ở khía cạnh này, UDR sẽ trở thành một hệ thống đột phá, mở ra những khả năng mới trong lĩnh vực deep research.

Tóm tắt bài báo (Abstract)

Các công cụ deep research hiện là một trong những hệ thống tác nhân có ảnh hưởng lớn nhất và được bắt gặp phổ biến nhất hiện nay. Tuy nhiên, chúng tôi nhận thấy rằng mọi tác nhân deep research được giới thiệu cho đến nay đều được hard-code để thực hiện một chiến lược nghiên cứu cụ thể bằng cách sử dụng một lựa chọn công cụ cố định. Chúng tôi giới thiệu Universal Deep Research (UDR), một hệ thống tác nhân tổng quát bao quanh bất kỳ mô hình ngôn ngữ nào và cho phép người dùng tạo, chỉnh sửa, và tinh chỉnh các chiến lược deep research hoàn toàn tùy biến của riêng họ mà không cần thêm huấn luyện hay fine-tuning. Để thể hiện tính tổng quát của hệ thống, chúng tôi trang bị cho UDR các ví dụ về chiến lược nghiên cứu tối thiểu, mở rộng và chuyên sâu, đồng thời cung cấp một giao diện người dùng để hỗ trợ thử nghiệm với hệ thống.
> Deep research tools are among the most impactful and most commonly encountered agentic systems today. We observe, however, that each deep research agent introduced so far is hard-coded to carry out a particular research strategy using a fixed choice of tools. We introduce Universal Deep Research (UDR), a generalist agentic system that wraps around any language model and enables the user to create, edit, and refine their own entirely custom deep research strategies without any need for additional training or finetuning. To showcase the generality of our system, we equip UDR with example minimal, expansive, and intensive research strategies, and provide a user interface to facilitate experimentation with the system.

Liên kết bài báo

https://arxiv.org/abs/2509.00244

AlphaAgents: Multi-agent dựa trên mô hình ngôn ngữ lớn cho việc xây dựng danh mục cổ phiếu / AlphaAgents: Large Language Model based Multi-Agents for Equity Portfolio Constructions

Giới thiệu bài báo

Sự phát triển của mô hình ngôn ngữ lớn (LLM) đang góp phần tối đa hóa hiệu quả và khả năng thích ứng của các tác tử trí tuệ nhân tạo (AI), qua đó mở ra khả năng cộng tác đa tác tử để giải quyết các vấn đề phức tạp. Nghiên cứu này khám phá cách tiếp cận dựa trên vai trò trong lựa chọn cổ phiếu và quản lý danh mục bằng cách tận dụng hệ thống đa tác tử như vậy. Mục tiêu cốt lõi của nghiên cứu là đánh giá hiệu quả lựa chọn cổ phiếu khi nhiều tác tử AI phối hợp với nhau, và so sánh kết quả đó với các benchmark hiện có.

Hệ thống đa tác tử được cấu thành từ các tác tử có chuyên môn khác nhau như phân tích cơ bản, phân tích cảm xúc và định giá; các tác tử này thảo luận quan điểm của nhau để xây dựng danh mục tối ưu. Nghiên cứu chọn ngẫu nhiên 15 cổ phiếu công nghệ và đánh giá hiệu quả thông qua backtesting, đồng thời phân tích tính hiệu quả của danh mục dựa trên lợi nhuận điều chỉnh theo rủi ro và tỷ lệ Sharpe. Phương pháp này cho thấy tiềm năng rút ra chiến lược đầu tư tốt hơn thông qua quá trình ra quyết định hợp tác của nhiều tác tử.

Nghiên cứu này phân tích các ưu điểm và hạn chế của hệ thống đa tác tử, đồng thời đề xuất cách cải thiện việc ra quyết định bằng cách tích hợp các góc nhìn đa dạng do tác tử AI cung cấp. Tuy nhiên, việc triển khai các hệ thống như vậy vẫn tồn tại những thách thức như xác minh tính nhất quán logic thông qua khâu rà soát của con người. Kết quả nghiên cứu cho thấy hệ thống đa tác tử có thể mang lại một cách tiếp cận đổi mới trong xây dựng danh mục cổ phiếu, và trong các nghiên cứu tiếp theo, nhóm tác giả dự định khám phá chức năng điều chỉnh trọng số cổ phiếu theo độ tin cậy của LLM.

Nghiên cứu này đóng góp cho việc phát triển các chiến lược đầu tư dựa trên AI và cho thấy khả năng ứng dụng của các hệ thống đa tác tử.

Tóm tắt bài báo (Abstract)

Lĩnh vực các tác tử trí tuệ nhân tạo (AI) đang phát triển nhanh chóng nhờ năng lực của các mô hình ngôn ngữ lớn (LLM), cho phép chúng tự động thực hiện và cải thiện tác vụ với hiệu quả và khả năng thích ứng tương tự con người. Trong bối cảnh đó, cộng tác đa tác tử đang nổi lên như một cách tiếp cận đầy hứa hẹn, cho phép nhiều tác tử AI cùng phối hợp để giải quyết các thách thức phức tạp. Nghiên cứu này khảo sát việc áp dụng các hệ thống đa tác tử dựa trên vai trò nhằm hỗ trợ lựa chọn cổ phiếu trong nghiên cứu cổ phiếu và quản lý danh mục đầu tư. Chúng tôi trình bày một phân tích toàn diện do một nhóm tác tử chuyên biệt thực hiện và đánh giá hiệu quả chọn cổ phiếu của họ so với các benchmark đã được thiết lập dưới nhiều mức độ chấp nhận rủi ro khác nhau. Ngoài ra, chúng tôi xem xét các ưu điểm và hạn chế của việc sử dụng framework đa tác tử trong phân tích cổ phiếu, từ đó đưa ra những góc nhìn quan trọng về hiệu quả thực tiễn và các thách thức triển khai của chúng.
> The field of artificial intelligence (AI) agents is evolving rapidly, driven by the capabilities of Large Language Models (LLMs) to autonomously perform and refine tasks with human-like efficiency and adaptability. In this context, multi-agent collaboration has emerged as a promising approach, enabling multiple AI agents to work together to solve complex challenges. This study investigates the application of role-based multi-agent systems to support stock selection in equity research and portfolio management. We present a comprehensive analysis performed by a team of specialized agents and evaluate their stock-picking performance against established benchmarks under varying levels of risk tolerance. Furthermore, we examine the advantages and limitations of employing multi-agent frameworks in equity analysis, offering critical insights into their practical efficacy and implementation challenges.

Link bài báo

https://arxiv.org/abs/2508.11152

Khảo sát về học tăng cường cho các mô hình suy luận lớn / A Survey of Reinforcement Learning for Large Reasoning Models

Giới thiệu bài báo

Học tăng cường (Reinforcement Learning, RL) đang đóng vai trò quan trọng trong việc nâng cao năng lực suy luận của các mô hình ngôn ngữ lớn (Large Language Models, LLM), và bài báo này xem xét sự phát triển hướng tới các mô hình suy luận lớn (Large Reasoning Models, LRM) thông qua RL. RL đã cho thấy thành tích nổi bật trong các tác vụ logic phức tạp như giải toán và lập trình, qua đó trở thành phương pháp nền tảng để chuyển đổi LLM thành LRM. Tuy nhiên, việc mở rộng RL cho LRM đang phải đối mặt với nhiều thách thức về tài nguyên tính toán, thiết kế thuật toán, dữ liệu huấn luyện và hạ tầng.

Nghiên cứu này rà soát nhiều công trình áp dụng RL để nâng cao năng lực suy luận của LLM và LRM, đặc biệt phân tích các thành phần nền tảng của RL như thiết kế phần thưởng, tối ưu chính sách và chiến lược lấy mẫu, với trọng tâm là các tiến bộ gần đây bao gồm mô hình DeepSeek-R1. Thiết kế phần thưởng là tín hiệu quan trọng quyết định hướng học của mô hình, trong đó tầm quan trọng của cơ chế phần thưởng có thể kiểm chứng được được nhấn mạnh. Tối ưu chính sách là quá trình huấn luyện để mô hình chọn ra hành động tối ưu, bao gồm cả thuật toán dựa trên critic và thuật toán không dùng critic. Ngoài ra, chiến lược lấy mẫu cũng được thảo luận như một cách nâng cao hiệu quả của RL, bao gồm lấy mẫu động và điều chỉnh hyperparameter.

Bài báo này nhấn mạnh tầm quan trọng của quy trình huấn luyện tích hợp LLM bằng RL cũng như chất lượng và cấu trúc của tài nguyên huấn luyện, đồng thời cho thấy tính thực tiễn của RL thông qua các trường hợp ứng dụng trong kỹ thuật phần mềm và tác vụ robot. Đặc biệt, sự tích hợp giữa RL và paradigma tác tử đang thúc đẩy các bước tiến trong tạo sinh mã, đồng thời cũng mang lại kết quả thành công trong các tác vụ đa phương thức. Nghiên cứu này đề xuất những hướng đi mới để nâng cao năng lực suy luận của LLM và được kỳ vọng sẽ góp phần đặt nền móng cho việc đạt tới siêu trí tuệ nhân tạo (Artificial SuperIntelligence, ASI).

Tóm tắt bài báo (Abstract)

Bài báo này khảo sát những tiến bộ gần đây của học tăng cường (RL) cho suy luận với các mô hình ngôn ngữ lớn (LLM). RL đã đạt được thành công đáng kể trong việc mở rộng năng lực của LLM, đặc biệt trong việc giải quyết các tác vụ logic phức tạp như toán học và lập trình. Vì vậy, RL đã nổi lên như một phương pháp nền tảng để chuyển đổi LLM thành các mô hình suy luận lớn (LRM). Với tốc độ phát triển nhanh của lĩnh vực này, việc tiếp tục mở rộng RL cho LRM hiện đang đối mặt với những thách thức nền tảng không chỉ về tài nguyên tính toán mà còn về thiết kế thuật toán, dữ liệu huấn luyện và hạ tầng. Do đó, đây là thời điểm thích hợp để nhìn lại sự phát triển của lĩnh vực này, đánh giá lại quỹ đạo của nó và khám phá các chiến lược nhằm cải thiện khả năng mở rộng của RL hướng tới Siêu trí tuệ nhân tạo (ASI). Cụ thể, chúng tôi xem xét các nghiên cứu áp dụng RL cho LLM và LRM nhằm tăng cường khả năng suy luận, đặc biệt kể từ sau khi DeepSeek-R1 được phát hành, bao gồm các thành phần nền tảng, các vấn đề cốt lõi, tài nguyên huấn luyện và các ứng dụng hạ nguồn, nhằm xác định những cơ hội và định hướng tương lai cho lĩnh vực đang phát triển rất nhanh này. Chúng tôi hy vọng bài tổng quan này sẽ thúc đẩy các nghiên cứu tương lai về RL cho những mô hình suy luận rộng hơn. GitHub: https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs
> Trong bài báo này, chúng tôi khảo sát những tiến bộ gần đây của học tăng cường (RL) cho suy luận với các mô hình ngôn ngữ lớn (LLM). RL đã đạt được thành công đáng kể trong việc mở rộng biên giới năng lực của LLM, đặc biệt trong việc giải quyết các tác vụ logic phức tạp như toán học và lập trình. Do đó, RL đã nổi lên như một phương pháp nền tảng để chuyển đổi LLM thành LRM. Với sự tiến bộ nhanh chóng của lĩnh vực này, việc tiếp tục mở rộng RL cho LRM hiện đang đối mặt với các thách thức nền tảng không chỉ ở tài nguyên tính toán mà còn ở thiết kế thuật toán, dữ liệu huấn luyện và hạ tầng. Vì vậy, đây là thời điểm thích hợp để nhìn lại sự phát triển của lĩnh vực này, đánh giá lại quỹ đạo của nó và khám phá các chiến lược nhằm nâng cao khả năng mở rộng của RL hướng tới Siêu trí tuệ nhân tạo (ASI). Cụ thể, chúng tôi xem xét các nghiên cứu áp dụng RL cho LLM và LRM để phát triển năng lực suy luận, đặc biệt kể từ khi DeepSeek-R1 ra mắt, bao gồm các thành phần nền tảng, các vấn đề cốt lõi, tài nguyên huấn luyện và các ứng dụng hạ nguồn, nhằm xác định các cơ hội và định hướng tương lai cho lĩnh vực đang phát triển nhanh chóng này. Chúng tôi hy vọng bài tổng quan này sẽ thúc đẩy nghiên cứu tương lai về RL cho các mô hình suy luận rộng hơn. Github: https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs

Liên kết bài báo

https://arxiv.org/abs/2509.08827

Đọc thêm

https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs

⚠️Quảng cáo⚠️: Bạn thấy bài viết này do 🔥Cộng đồng người dùng PyTorch Hàn Quốc🇰🇷 tổng hợp có hữu ích không? Nếu đăng ký thành viên, chúng tôi sẽ gửi các bài viết nổi bật qua email💌 cho bạn! (Mặc định là Weekly nhưng cũng có thể đổi sang Daily.)

[2025/09/22 ~ 28] Tuyển tập các bài báo AI/ML đáng chú ý trong tuần