ML đáng chú ý trong tuần này

(discuss.pytorch.kr)

7 điểm bởi ninebow 2025-12-24 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

[2025/12/15 ~ 21] Tuyển tập các bài báo AI/ML đáng chú ý trong tuần này

PyTorchKR🔥🇰🇷 🤔💭

1️⃣ Tầm quan trọng của thích ứng tác tử: Các bài báo được chọn trong tuần này nhấn mạnh sự cần thiết của thích ứng (adaptation) nhằm nâng cao hiệu năng và độ tin cậy của các hệ thống AI dựa trên tác tử. Một framework có hệ thống tích hợp cả thích ứng tác tử và thích ứng công cụ đã được đề xuất, qua đó làm rõ không gian thiết kế của nhiều chiến lược thích ứng khác nhau và cung cấp hướng dẫn thực tiễn.

2️⃣ Sự phát triển của hệ thống bộ nhớ: Bộ nhớ của tác tử đang trở thành một chức năng cốt lõi của các hệ thống AI, và nhiều dạng cũng như chức năng của hệ thống bộ nhớ đang được nghiên cứu. Nhận thấy cách phân loại bộ nhớ hiện có chưa đủ để nắm bắt sự đa dạng của bộ nhớ tác tử hiện đại, các nghiên cứu đang phân tích tích hợp hình thức, chức năng và động lực của bộ nhớ để đề xuất những hướng nghiên cứu mới.

3️⃣ Chuyển đổi và tối ưu hóa mô hình hiệu quả: Các bài báo gần đây đang tìm cách đồng thời cải thiện tốc độ và độ chính xác thông qua việc chuyển từ mô hình ngôn ngữ tự hồi quy (AR) sang mô hình ngôn ngữ khuếch tán (dLM). Đặc biệt, nghiên cứu đang tiến triển theo hướng tối đa hóa hiệu năng mô hình bằng cách so sánh nhiều mẫu attention và chiến lược huấn luyện khác nhau, đồng thời đề xuất các nguyên tắc và phương pháp luận cho việc chuyển đổi hiệu quả.

Thích ứng của AI tác tử / Adaptation of Agentic AI

Giới thiệu bài báo

Các hệ thống AI tác tử tiên tiến nhất được xây dựng trên foundation model và ngày càng có khả năng thực hiện những tác vụ phức tạp, chuyên biệt hơn. Để cải thiện hiệu năng, độ tin cậy và khả năng khái quát hóa của các hệ thống này, thích ứng đã trở thành một cơ chế then chốt. Nghiên cứu này trình bày một framework có hệ thống bao trùm cả thích ứng tác tử và thích ứng công cụ, qua đó làm rõ không gian thiết kế của nhiều chiến lược thích ứng khác nhau và chỉ ra rõ các đánh đổi giữa chúng. Framework này được phân tách thành thích ứng dựa trên tín hiệu thực thi công cụ và thích ứng dựa trên tín hiệu đầu ra của tác tử, đồng thời cũng chia thành thích ứng công cụ dưới dạng tác tử phản biện và tác tử giám sát.

Nghiên cứu này xem xét các cách tiếp cận tiêu biểu trong từng nhóm, phân tích điểm mạnh và hạn chế của chúng, đồng thời nhấn mạnh các bài toán mở quan trọng và những cơ hội trong tương lai. Cụ thể, các phương pháp kiểu A1 giai đoạn đầu tập trung vào supervised fine-tuning (Supervised Fine-Tuning) và direct preference optimization (Direct Preference Optimization), và các phương pháp này đã phát triển theo hướng thu thập phản hồi của mô hình liên quan đến việc sử dụng công cụ để tạo tín hiệu học. Những mô hình ban đầu như Toolformer đã cố gắng cải thiện việc sử dụng công cụ bằng cách tận dụng tín hiệu học tự giám sát, nhưng vẫn có giới hạn khi áp dụng trong môi trường thực tế.

Để vượt qua những hạn chế này, các mô hình tiếp theo như TRICE và ToolAlpaca đã đưa học tăng cường với phản hồi thực thi vào nhằm trực tiếp cải thiện năng lực sử dụng công cụ. TP-LLaMA đề xuất một cách tiếp cận mới tận dụng các quỹ đạo thất bại để mô hình có thể học từ thất bại, còn Gorilla nhấn mạnh tính đúng đắn có cấu trúc để tạo ra các lệnh gọi API chính xác từ tập hợp lớn các API machine learning. CodeAct đề xuất một paradigm học thông qua tương tác trực tiếp với môi trường mã có thể thực thi, cho phép thiết lập mục tiêu học dựa trên các kết quả có thể kiểm chứng.

Cuối cùng, các phương pháp dựa trên RLVR (phần thưởng có thể kiểm chứng) cho phép mô hình học trực tiếp thông qua tương tác trực tuyến với công cụ và môi trường, từ đó khiến quá trình thích ứng trở nên động và có khả năng nhận biết ngữ cảnh. Những nghiên cứu này góp phần thúc đẩy sự phát triển của các hệ thống AI tác tử và cung cấp nền tảng quan trọng cho các nghiên cứu tương lai cũng như khả năng ứng dụng trong thực tiễn.

Tóm tắt bài báo(Abstract)

Các hệ thống AI tác tử tiên tiến nhất được xây dựng trên các foundation model có thể được điều chỉnh để lập kế hoạch, suy luận và tương tác với các công cụ bên ngoài nhằm thực hiện những tác vụ ngày càng phức tạp và chuyên biệt hơn. Khi các hệ thống này mở rộng về năng lực và phạm vi, thích ứng trở thành cơ chế trung tâm để cải thiện hiệu năng, độ tin cậy và khả năng khái quát hóa. Trong bài báo này, chúng tôi thống nhất bức tranh nghiên cứu đang mở rộng nhanh chóng thành một framework có hệ thống bao trùm cả thích ứng tác tử và thích ứng công cụ. Chúng tôi tiếp tục phân rã chúng thành các dạng thích ứng tác tử dựa trên tín hiệu thực thi công cụ và dựa trên tín hiệu đầu ra của tác tử, cũng như các dạng thích ứng công cụ độc lập với tác tử và được tác tử giám sát. Chúng tôi cho thấy framework này giúp làm rõ không gian thiết kế của các chiến lược thích ứng trong AI tác tử, chỉ ra rõ các đánh đổi của chúng và cung cấp hướng dẫn thực tiễn để lựa chọn hoặc chuyển đổi giữa các chiến lược trong quá trình thiết kế hệ thống. Sau đó, chúng tôi xem xét các cách tiếp cận tiêu biểu ở từng nhóm, phân tích điểm mạnh và hạn chế của chúng, đồng thời nhấn mạnh các thách thức mở quan trọng và những cơ hội trong tương lai. Nhìn chung, bài báo này nhằm cung cấp nền tảng khái niệm và lộ trình thực tiễn cho các nhà nghiên cứu và người làm thực tế đang tìm cách xây dựng các hệ thống AI tác tử có năng lực tốt hơn, hiệu quả hơn và đáng tin cậy hơn.

Cutting-edge agentic AI systems are built on foundation models that can be adapted to plan, reason, and interact with external tools to perform increasingly complex and specialized tasks. As these systems grow in capability and scope, adaptation becomes a central mechanism for improving performance, reliability, and generalization. In this paper, we unify the rapidly expanding research landscape into a systematic framework that spans both agent adaptations and tool adaptations. We further decompose these into tool-execution-signaled and agent-output-signaled forms of agent adaptation, as well as agent-agnostic and agent-supervised forms of tool adaptation. We demonstrate that this framework helps clarify the design space of adaptation strategies in agentic AI, makes their trade-offs explicit, and provides practical guidance for selecting or switching among strategies during system design. We then review the representative approaches in each category, analyze their strengths and limitations, and highlight key open challenges and future opportunities. Overall, this paper aims to offer a conceptual foundation and practical roadmap for researchers and practitioners seeking to build more capable, efficient, and reliable agentic AI systems.

Liên kết bài báo

https://arxiv.org/abs/2512.16301

Đọc thêm

https://github.com/pat-jj/Awesome-Adaptation-of-Agentic-AI

Bộ nhớ trong kỷ nguyên AI tác tử / Memory in the Age of AI Agents

Giới thiệu bài báo

Bộ nhớ tác tử đang trở thành một thành phần thiết yếu trong các hệ thống trí tuệ nhân tạo (AI) hiện đại, và nghiên cứu này nhằm mục tiêu hệ thống hóa, phân tích một cách có cấu trúc sự phức tạp và đa dạng của loại bộ nhớ này. Các nghiên cứu trước đây có sự khác biệt lớn về động cơ, cách triển khai và giao thức đánh giá của bộ nhớ tác tử, khiến cho sự rõ ràng về mặt khái niệm vẫn còn thiếu. Vì vậy, bài báo này xác định rõ phạm vi của bộ nhớ tác tử, đồng thời nhấn mạnh sự khác biệt của nó so với bộ nhớ của mô hình ngôn ngữ lớn (LLM), retrieval-augmented generation (RAG) và context engineering.

Nghiên cứu phân tích bộ nhớ tác tử từ ba góc độ: hình thức, chức năng và động lực. Ở góc độ hình thức, bài báo trình bày ba dạng chính gồm bộ nhớ ở mức token, bộ nhớ tham số và bộ nhớ tiềm ẩn, đồng thời giải thích đặc điểm và cách vận hành của từng dạng. Ở góc độ chức năng, bộ nhớ được chia thành bộ nhớ sự kiện, bộ nhớ kinh nghiệm và bộ nhớ tác vụ để làm rõ vai trò mà từng loại đảm nhiệm. Ở góc độ động lực, nghiên cứu khám phá quá trình bộ nhớ được hình thành, tiến hóa và truy xuất, từ đó phân tích cách bộ nhớ hoạt động khi tác tử tương tác với môi trường.

Nghiên cứu này cũng cung cấp bản tổng hợp toàn diện về các benchmark bộ nhớ và framework mã nguồn mở nhằm hỗ trợ phát triển thực tiễn, đồng thời đưa ra triển vọng về các hướng nghiên cứu mới như tự động hóa bộ nhớ, tích hợp học tăng cường, bộ nhớ đa phương thức và bộ nhớ đa tác nhân. Cách tiếp cận này đặt nền tảng để tái tư duy bộ nhớ như một khái niệm nguyên thủy hạng nhất trong thiết kế các hệ thống bộ nhớ tác nhân, đồng thời gợi mở định hướng cho các nghiên cứu trong tương lai.

Kết quả là, bài báo này được kỳ vọng sẽ góp phần phát triển các hệ thống bộ nhớ của tác nhân AI bằng cách tổng hợp toàn diện hiện trạng nghiên cứu về bộ nhớ tác nhân và cung cấp những hiểu biết sâu sắc cho các nghiên cứu tương lai.

Tóm tắt bài báo(Abstract)

Bộ nhớ đã nổi lên như một năng lực cốt lõi của các tác nhân dựa trên foundation model, và sẽ tiếp tục giữ vai trò quan trọng trong tương lai. Trong bối cảnh nghiên cứu về bộ nhớ tác nhân đang mở rộng nhanh chóng và thu hút sự chú ý chưa từng có, lĩnh vực này cũng ngày càng trở nên phân mảnh. Các công trình hiện có thuộc phạm trù bộ nhớ tác nhân thường khác biệt đáng kể về động cơ, cách triển khai và giao thức đánh giá, trong khi sự gia tăng của các thuật ngữ bộ nhớ được định nghĩa lỏng lẻo càng làm mờ đi tính rõ ràng về mặt khái niệm. Các phân loại truyền thống như bộ nhớ dài hạn/ngắn hạn đã được chứng minh là không đủ để nắm bắt sự đa dạng của các hệ thống bộ nhớ tác nhân đương đại. Công trình này nhằm cung cấp một bức tranh cập nhật về bối cảnh nghiên cứu bộ nhớ tác nhân hiện nay. Chúng tôi bắt đầu bằng việc phân định rõ phạm vi của bộ nhớ tác nhân và phân biệt nó với các khái niệm liên quan như bộ nhớ LLM, retrieval augmented generation (RAG) và context engineering. Sau đó, chúng tôi xem xét bộ nhớ tác nhân qua lăng kính thống nhất gồm hình thức, chức năng và động học. Từ góc nhìn hình thức, chúng tôi xác định ba cách hiện thực hóa chủ đạo của bộ nhớ tác nhân, gồm bộ nhớ cấp token, bộ nhớ tham số và bộ nhớ tiềm ẩn. Từ góc nhìn chức năng, chúng tôi đề xuất một hệ phân loại chi tiết hơn, phân biệt bộ nhớ sự kiện, bộ nhớ trải nghiệm và bộ nhớ làm việc. Từ góc nhìn động học, chúng tôi phân tích cách bộ nhớ được hình thành, tiến hóa và được truy xuất theo thời gian. Để hỗ trợ phát triển thực tiễn, chúng tôi biên soạn một bản tổng hợp toàn diện về các benchmark bộ nhớ và framework mã nguồn mở. Vượt ra ngoài việc hệ thống hóa, chúng tôi trình bày một góc nhìn hướng tới tương lai về các biên giới nghiên cứu mới nổi, bao gồm tự động hóa bộ nhớ, tích hợp học tăng cường, bộ nhớ đa phương thức, bộ nhớ đa tác nhân và các vấn đề về độ tin cậy. Chúng tôi hy vọng khảo sát này không chỉ đóng vai trò như một tài liệu tham khảo cho các nghiên cứu hiện có, mà còn là nền tảng khái niệm cần thiết để tái tư duy bộ nhớ như một nguyên thủy hạng nhất trong thiết kế trí tuệ tác nhân trong tương lai.
> Memory has emerged, and will continue to remain, a core capability of foundation model-based agents. As research on agent memory rapidly expands and attracts unprecedented attention, the field has also become increasingly fragmented. Existing works that fall under the umbrella of agent memory often differ substantially in their motivations, implementations, and evaluation protocols, while the proliferation of loosely defined memory terminologies has further obscured conceptual clarity. Traditional taxonomies such as long/short-term memory have proven insufficient to capture the diversity of contemporary agent memory systems. This work aims to provide an up-to-date landscape of current agent memory research. We begin by clearly delineating the scope of agent memory and distinguishing it from related concepts such as LLM memory, retrieval augmented generation (RAG), and context engineering. We then examine agent memory through the unified lenses of forms, functions, and dynamics. From the perspective of forms, we identify three dominant realizations of agent memory, namely token-level, parametric, and latent memory. From the perspective of functions, we propose a finer-grained taxonomy that distinguishes factual, experiential, and working memory. From the perspective of dynamics, we analyze how memory is formed, evolved, and retrieved over time. To support practical development, we compile a comprehensive summary of memory benchmarks and open-source frameworks. Beyond consolidation, we articulate a forward-looking perspective on emerging research frontiers, including memory automation, reinforcement learning integration, multimodal memory, multi-agent memory, and trustworthiness issues. We hope this survey serves not only as a reference for existing work, but also as a conceptual foundation for rethinking memory as a first-class primitive in the design of future agentic intelligence.

Liên kết bài báo

https://arxiv.org/abs/2512.13564

Đọc thêm

https://github.com/Shichun-Liu/Agent-Memory-Paper-List

Cân bằng chi tiết trong các tác nhân được dẫn dắt bởi mô hình ngôn ngữ lớn / Detailed balance in large language model-driven agents

Giới thiệu bài báo

Các tác nhân dựa trên mô hình ngôn ngữ lớn (LLM) đang mang đến một cách tiếp cận đột phá trong việc giải quyết các vấn đề phức tạp, nhưng bất chấp thành công thực nghiệm của những hệ thống này, vẫn còn thiếu một khung lý thuyết tương ứng. Nghiên cứu này đề xuất một phương pháp luận mới để ước lượng tính định hướng sinh của LLM dựa trên nguyên lý tác dụng tối thiểu. Phương pháp này chứng minh thống kê về cân bằng chi tiết được phát hiện trong các chuyển tiếp sinh của LLM bằng cách đo thực nghiệm xác suất chuyển tiếp giữa các trạng thái do LLM tạo ra. Phát hiện này cho thấy LLM có thể đạt được điều đó không phải bằng cách học một bộ quy tắc hay chiến lược cụ thể, mà bằng cách ngầm học một lớp hàm thế có thể vượt qua sự khác biệt giữa nhiều kiến trúc LLM và template prompt.

Nghiên cứu này là trường hợp đầu tiên phát hiện ra các định luật vật lý vĩ mô trong động lực học sinh của LLM, đồng thời thể hiện nỗ lực thiết lập một lý thuyết về động lực học vĩ mô cho các hệ thống trí tuệ nhân tạo (AI) phức tạp. Qua đó, công trình hướng tới việc đặt nền tảng để nghiên cứu tác nhân AI có thể phát triển từ một tập hợp các thực hành kỹ thuật đơn thuần thành một ngành khoa học có thể dự đoán và định lượng. Việc hiểu động lực học của các chuyển tiếp xảy ra trong quá trình sinh của LLM là điều thiết yếu để làm sáng tỏ nguyên lý vận hành của các hệ thống này.

Công trình này đề xuất một khung lý thuyết mới có thể giải thích động lực học sinh của LLM, qua đó mở ra một định hướng mới cho nghiên cứu AI. Dữ liệu được thu thập thông qua cách tiếp cận thực nghiệm đóng góp quan trọng vào việc hiểu nguyên lý hoạt động của LLM và có thể được sử dụng làm tư liệu nền tảng cho các nghiên cứu tiếp theo. Những kết quả này được kỳ vọng sẽ mang lại các hiểu biết quan trọng cho việc thiết kế và ứng dụng các tác nhân dựa trên LLM, đồng thời góp phần thúc đẩy sự phát triển của công nghệ AI.

Tóm tắt bài báo(Abstract)

Các tác nhân dựa trên mô hình ngôn ngữ lớn (LLM) đang nổi lên như một mô hình mới mạnh mẽ để giải quyết các vấn đề phức tạp. Dù các thực tiễn này đã thành công về mặt thực nghiệm, vẫn còn thiếu một khung lý thuyết có thể giúp hiểu và thống nhất các động lực học vĩ mô của chúng. Bài báo này đề xuất một phương pháp dựa trên nguyên lý tác dụng tối thiểu để ước lượng tính định hướng sinh cơ bản của LLM được nhúng bên trong tác nhân. Bằng cách đo thực nghiệm xác suất chuyển tiếp giữa các trạng thái do LLM tạo ra, chúng tôi đã phát hiện một cách thống kê sự cân bằng chi tiết trong các chuyển tiếp do LLM tạo ra; điều này cho thấy việc tạo sinh của LLM nhìn chung có thể không đạt được bằng cách học các tập quy tắc và chiến lược, mà bằng cách ngầm học một lớp các hàm thế tiềm ẩn cơ bản có thể vượt qua sự khác biệt giữa nhiều kiến trúc LLM và mẫu prompt khác nhau. Theo hiểu biết của chúng tôi, đây là phát hiện đầu tiên về một định luật vật lý vĩ mô trong động lực học tạo sinh của LLM mà không phụ thuộc vào chi tiết của mô hình cụ thể. Công trình này là một nỗ lực nhằm thiết lập lý thuyết động lực học vĩ mô cho các hệ thống AI phức tạp, với mục tiêu nâng nghiên cứu về tác nhân AI từ một tập hợp các thực hành kỹ thuật thành một ngành khoa học dựa trên các phép đo hiệu quả có thể dự đoán và định lượng.
> Các tác nhân được dẫn dắt bởi mô hình ngôn ngữ lớn (LLM) đang nổi lên như một mô hình mới mạnh mẽ để giải quyết các vấn đề phức tạp. Mặc dù các thực hành này đã thành công về mặt thực nghiệm, vẫn còn thiếu một khung lý thuyết để hiểu và thống nhất các động lực học vĩ mô của chúng. Bức thư này đề xuất một phương pháp dựa trên nguyên lý tác dụng tối thiểu để ước lượng tính định hướng tạo sinh nền tảng của các LLM được nhúng trong tác nhân. Bằng cách đo thực nghiệm xác suất chuyển tiếp giữa các trạng thái do LLM tạo ra, chúng tôi phát hiện một cách thống kê sự cân bằng chi tiết trong các chuyển tiếp do LLM tạo ra, cho thấy rằng quá trình tạo sinh của LLM có thể nhìn chung không đạt được bằng việc học các tập quy tắc và chiến lược, mà bằng việc ngầm học một lớp các hàm thế nền tảng có thể vượt lên trên các kiến trúc LLM và mẫu prompt khác nhau. Theo hiểu biết của chúng tôi, đây là phát hiện đầu tiên về một định luật vật lý vĩ mô trong động lực học tạo sinh của LLM mà không phụ thuộc vào chi tiết mô hình cụ thể. Công trình này là một nỗ lực nhằm thiết lập một lý thuyết động lực học vĩ mô cho các hệ thống AI phức tạp, với mục tiêu nâng nghiên cứu về các tác nhân AI từ một tập hợp các thực hành kỹ thuật thành một ngành khoa học được xây dựng trên những phép đo hiệu quả có thể dự đoán và định lượng.

Liên kết bài báo

https://arxiv.org/abs/2512.10047

Efficient-DLM hiệu quả: Từ tự hồi quy đến mô hình ngôn ngữ diffusion, và vượt xa cả tốc độ / Efficient-DLM: From Autoregressive to Diffusion Language Models, and Beyond in Speed

Giới thiệu bài báo

Mô hình ngôn ngữ diffusion (Diffusion Language Models, dLM) đang nổi lên như một mô hình đầy hứa hẹn nhờ khả năng tạo sinh song song không tự hồi quy, nhưng lại gặp vấn đề về hiệu quả huấn luyện thấp hơn khi so với mô hình ngôn ngữ tự hồi quy (Autoregressive Language Models, AR). Để giải quyết vấn đề này, một phương pháp luận chuyển đổi mô hình AR thành dLM hiệu quả đã được đề xuất. Các nhà nghiên cứu đã phân tích những hạn chế của các phương pháp chuyển đổi AR-to-dLM hiện có và phát hiện rằng việc duy trì phân phối trọng số đã được tiền huấn luyện của mô hình AR là yếu tố thiết yếu cho quá trình chuyển đổi hiệu quả.

Dựa trên điều này, họ đã đưa vào một phương thức tiền huấn luyện liên tục giúp duy trì mẫu attention theo từng khối. Cách làm này cho phép mô hình hóa hai chiều trong từng khối, từ đó bảo toàn tốt hơn phân phối trọng số của mô hình AR. Ngoài ra, nó còn cho phép KV caching, mang lại lợi ích đồng thời về cả độ chính xác lẫn hiệu quả. Để giảm sự khác biệt trong phân phối token mask khi huấn luyện, một chiến lược che token phụ thuộc vị trí cũng được đề xuất; chiến lược này gán xác suất che cao hơn cho các token ở phía sau trong quá trình huấn luyện để có thể mô phỏng tốt hơn hành vi ở thời điểm suy luận.

Thông qua phương pháp này, một nghiên cứu quy mô lớn về mẫu attention, động lực học huấn luyện và các lựa chọn thiết kế của dLM đã được thực hiện, cung cấp những hiểu biết thực tiễn cho việc chuyển đổi có khả năng mở rộng từ AR sang dLM. Cuối cùng, họ Efficient-DLM cho thấy hiệu năng vượt qua các mô hình AR và dLM tiên tiến nhất, đặc biệt Efficient-DLM 8B đạt độ chính xác cao hơn lần lượt +5.4% và +2.7%, đồng thời thông lượng cao hơn 4.5 lần và 2.7 lần so với Dream 7B và Qwen3 4B. Nghiên cứu này đưa ra một phương pháp luận mới cho việc chuyển đổi hiệu quả từ mô hình AR sang dLM, đồng thời góp phần cải thiện cả hiệu quả huấn luyện lẫn hiệu năng mô hình.

Tóm tắt(Abstract)

Mô hình ngôn ngữ khuếch tán (dLM) đã nổi lên như một mô hình đầy hứa hẹn cho phép sinh song song, không tự hồi quy, nhưng hiệu quả học của chúng kém hơn so với mô hình ngôn ngữ tự hồi quy (AR) khi được huấn luyện từ đầu. Để giải quyết vấn đề này, chúng tôi nghiên cứu chuyển đổi AR-to-dLM nhằm biến các mô hình AR đã được tiền huấn luyện thành các dLM hiệu quả, vượt trội về tốc độ trong khi vẫn giữ được độ chính xác tác vụ của mô hình AR. Chúng tôi đạt được điều này bằng cách xác định những hạn chế trong mẫu attention và mục tiêu của các phương pháp AR-to-dLM hiện có, sau đó đề xuất các nguyên tắc và phương pháp luận để chuyển đổi AR-to-dLM hiệu quả hơn. Cụ thể, trước hết chúng tôi so sánh một cách có hệ thống các mẫu attention khác nhau và nhận thấy rằng việc duy trì phân bố trọng số của mô hình AR đã tiền huấn luyện là yếu tố then chốt cho chuyển đổi AR-to-dLM hiệu quả. Vì vậy, chúng tôi giới thiệu một sơ đồ tiếp tục tiền huấn luyện với mẫu attention theo khối, vẫn giữ tính nhân quả giữa các khối đồng thời cho phép mô hình hóa hai chiều trong từng khối. Chúng tôi nhận thấy cách tiếp cận này có thể bảo toàn tốt hơn phân bố trọng số của các mô hình AR đã tiền huấn luyện so với mô hình hóa hai chiều hoàn toàn, đồng thời ngoài lợi ích đã biết là cho phép KV caching, còn mang lại kết quả đôi bên cùng có lợi về cả độ chính xác lẫn hiệu quả. Thứ hai, để giảm khoảng cách giữa huấn luyện và kiểm thử trong phân bố token mask (đồng đều so với lệch mạnh từ trái sang phải), chúng tôi đề xuất chiến lược masking token phụ thuộc vị trí, gán xác suất mask cao hơn cho các token về sau trong quá trình huấn luyện để mô phỏng tốt hơn hành vi khi suy luận. Tận dụng khung này, chúng tôi tiến hành các nghiên cứu mở rộng về mẫu attention, động lực huấn luyện và các lựa chọn thiết kế khác của dLM, từ đó cung cấp những hiểu biết có thể áp dụng cho chuyển đổi AR-to-dLM có khả năng mở rộng. Những nghiên cứu này đã dẫn tới họ Efficient-DLM, vượt trội hơn các mô hình AR và dLM tiên tiến nhất hiện nay. Chẳng hạn, Efficient-DLM 8B của chúng tôi đạt độ chính xác cao hơn +5.4%/+2.7% cùng thông lượng cao hơn 4.5x/2.7x so với Dream 7B và Qwen3 4B tương ứng.
> Diffusion language models (dLMs) have emerged as a promising paradigm that enables parallel, non-autoregressive generation, but their learning efficiency lags behind that of autoregressive (AR) language models when trained from scratch. To this end, we study AR-to-dLM conversion to transform pretrained AR models into efficient dLMs that excel in speed while preserving AR models' task accuracy. We achieve this by identifying limitations in the attention patterns and objectives of existing AR-to-dLM methods and then proposing principles and methodologies for more effective AR-to-dLM conversion. Specifically, we first systematically compare different attention patterns and find that maintaining pretrained AR weight distributions is critical for effective AR-to-dLM conversion. As such, we introduce a continuous pretraining scheme with a block-wise attention pattern, which remains causal across blocks while enabling bidirectional modeling within each block. We find that this approach can better preserve pretrained AR models' weight distributions than fully bidirectional modeling, in addition to its known benefit of enabling KV caching, and leads to a win-win in accuracy and efficiency. Second, to mitigate the training-test gap in mask token distributions (uniform vs. highly left-to-right), we propose a position-dependent token masking strategy that assigns higher masking probabilities to later tokens during training to better mimic test-time behavior. Leveraging this framework, we conduct extensive studies of dLMs' attention patterns, training dynamics, and other design choices, providing actionable insights into scalable AR-to-dLM conversion. These studies lead to the Efficient-DLM family, which outperforms state-of-the-art AR models and dLMs, e.g., our Efficient-DLM 8B achieves +5.4%/+2.7% higher accuracy with 4.5x/2.7x higher throughput compared to Dream 7B and Qwen3 4B, respectively.

Liên kết bài báo

https://arxiv.org/abs/2512.14067

Mọi thứ đều là ngữ cảnh: Trừu tượng hóa hệ thống tệp mang tính tác tử cho kỹ nghệ ngữ cảnh / Everything is Context: Agentic File System Abstraction for Context Engineering

Giới thiệu bài báo

Sự phát triển của Generative AI (GenAI) đã mang đến những thay đổi mang tính cách mạng trong thiết kế hệ thống phần mềm, đặc biệt là việc tái định nghĩa kiến trúc và vận hành thông qua các foundation model. Thách thức chính hiện nay đang chuyển từ việc tinh chỉnh mô hình sang “kỹ nghệ ngữ cảnh”, tức là nắm bắt và cấu trúc hiệu quả tri thức bên ngoài, bộ nhớ, công cụ và đầu vào từ con người. Các cách tiếp cận hiện có như prompt engineering hay retrieval-augmented generation (RAG) còn rời rạc, khiến các tạo tác ngữ cảnh được sinh ra thường mang tính tạm thời và khó kiểm chứng.

Nghiên cứu này lấy cảm hứng từ triết lý “mọi thứ đều là tệp” của Unix, và đề xuất một lớp trừu tượng hệ thống tệp cho kỹ nghệ ngữ cảnh. Lớp trừu tượng này cung cấp hạ tầng bền vững và có thể quản lý để xử lý các tạo tác ngữ cảnh không đồng nhất, từ đó cho phép mounting nhất quán, metadata và kiểm soát truy cập. Được triển khai trong framework AIGNE, kiến trúc này thực hiện chức năng lắp ráp, truyền và xác minh ngữ cảnh dưới các ràng buộc token thông qua một pipeline kỹ nghệ ngữ cảnh có thể kiểm chứng, bao gồm bộ tạo ngữ cảnh, bộ nạp và bộ đánh giá.

Khi GenAI trở thành một cộng tác viên chủ động trong hỗ trợ ra quyết định, con người sẽ giữ vai trò trung tâm với tư cách là người tuyển chọn, người xác minh và đồng suy luận. Nghiên cứu này chứng minh tính thực tiễn của kiến trúc được đề xuất thông qua các tác tử có bộ nhớ và trợ lý GitHub dựa trên MCP, cho thấy khả năng vận hành trong môi trường phát triển và công nghiệp. Cách tiếp cận này thiết lập một nền tảng có thể tái sử dụng cho hợp tác AI có trách nhiệm và lấy con người làm trung tâm, đồng thời góp phần hỗ trợ các hệ thống GenAI có thể kiểm chứng và dễ bảo trì.

Tóm lại, nghiên cứu này nhấn mạnh tầm quan trọng của kỹ nghệ ngữ cảnh trong thiết kế hệ thống GenAI, đồng thời cho thấy cách một lớp trừu tượng dựa trên hệ thống tệp có thể đặt nền móng cho việc quản lý ngữ cảnh bền vững và minh bạch.

Tóm tắt bài báo (Abstract)

Generative AI (GenAI) đã tái cấu trúc thiết kế hệ thống phần mềm bằng cách đưa foundation model vào như những hệ thống con được tiền huấn luyện. Thách thức mới không còn là fine-tuning mô hình, mà là context engineering: cách hệ thống thu thập, cấu trúc và quản lý tri thức bên ngoài, bộ nhớ, công cụ và đầu vào từ con người để cho phép suy luận đáng tin cậy. Các thực hành hiện có như prompt engineering, retrieval-augmented generation (RAG) và tích hợp công cụ vẫn còn rời rạc, tạo ra các tạo tác tạm thời làm hạn chế khả năng truy vết và trách nhiệm giải trình. Bài báo này đề xuất một phép trừu tượng hệ thống tệp cho context engineering, lấy cảm hứng từ quan niệm Unix rằng "mọi thứ đều là tệp". Phép trừu tượng này cung cấp một hạ tầng bền vững, có quản trị để quản lý các tạo tác ngữ cảnh không đồng nhất thông qua cơ chế mount đồng nhất, metadata và kiểm soát truy cập. Được triển khai trong framework mã nguồn mở AIGNE, kiến trúc này hiện thực hóa một pipeline context engineering có thể kiểm chứng, gồm Context Constructor, Loader và Evaluator, để lắp ráp, phân phối và xác thực ngữ cảnh dưới các ràng buộc về token. Khi GenAI trở thành cộng tác viên chủ động trong hỗ trợ ra quyết định, con người giữ vai trò trung tâm với tư cách người tuyển chọn, người xác minh và đồng suy luận. Kiến trúc được đề xuất xây dựng một nền tảng có thể tái sử dụng cho sự hợp tác AI có trách nhiệm và lấy con người làm trung tâm, được minh họa qua hai ví dụ: một agent có bộ nhớ và một trợ lý GitHub dựa trên MCP. Việc triển khai trong framework AIGNE cho thấy kiến trúc này có thể được vận hành như thế nào trong môi trường nhà phát triển và công nghiệp, hỗ trợ các hệ thống GenAI có thể kiểm chứng, dễ bảo trì và sẵn sàng cho triển khai trong ngành.
> Generative AI (GenAI) has reshaped software system design by introducing foundation models as pre-trained subsystems that redefine architectures and operations. The emerging challenge is no longer model fine-tuning but context engineering-how systems capture, structure, and govern external knowledge, memory, tools, and human input to enable trustworthy reasoning. Existing practices such as prompt engineering, retrieval-augmented generation (RAG), and tool integration remain fragmented, producing transient artefacts that limit traceability and accountability. This paper proposes a file-system abstraction for context engineering, inspired by the Unix notion that 'everything is a file'. The abstraction offers a persistent, governed infrastructure for managing heterogeneous context artefacts through uniform mounting, metadata, and access control. Implemented within the open-source AIGNE framework, the architecture realises a verifiable context-engineering pipeline, comprising the Context Constructor, Loader, and Evaluator, that assembles, delivers, and validates context under token constraints. As GenAI becomes an active collaborator in decision support, humans play a central role as curators, verifiers, and co-reasoners. The proposed architecture establishes a reusable foundation for accountable and human-centred AI co-work, demonstrated through two exemplars: an agent with memory and an MCP-based GitHub assistant. The implementation within the AIGNE framework demonstrates how the architecture can be operationalised in developer and industrial settings, supporting verifiable, maintainable, and industry-ready GenAI systems.

Liên kết bài báo

https://arxiv.org/abs/2512.05470

Hướng tới một khoa học về mở rộng hệ thống agent / Towards a Science of Scaling Agent Systems

Giới thiệu bài báo

Các hệ thống dựa trên agent và language model đang ngày càng giữ vai trò quan trọng trong các ứng dụng trí tuệ nhân tạo thực tế, nhưng những nguyên tắc quyết định hiệu năng của các hệ thống này vẫn chưa được khám phá đầy đủ. Nghiên cứu này hướng tới việc giải quyết khoảng trống đó bằng cách rút ra các nguyên tắc scaling định lượng cho hệ thống agent, qua đó hỗ trợ các nhà thực hành đưa ra lựa chọn thiết kế có cơ sở nguyên tắc thay vì dựa vào phương pháp kinh nghiệm. Nghiên cứu được thực hiện trên bốn benchmark đa dạng là Finance-Agent, BrowseComp-Plus, PlanCraft và Workbench, với năm kiến trúc điển hình (đơn, độc lập, tập trung, phân tán, lai) được áp dụng trên ba họ language model để tiến hành đánh giá có kiểm soát đối với 180 cấu hình.

Trọng tâm của nghiên cứu này là suy ra một mô hình dự báo bằng cách sử dụng các metric điều phối theo kinh nghiệm. Mô hình này xem xét nhiều yếu tố khác nhau như hiệu quả, overhead, khuếch đại lỗi và tính dư thừa, đồng thời đạt giá trị R² được kiểm định chéo là 0.513. Nghiên cứu xác nhận ba hiệu ứng chính. Thứ nhất, trade-off giữa công cụ và điều phối cho thấy dưới ngân sách tính toán cố định, các tác vụ thiên về công cụ bị ảnh hưởng mạnh không cân xứng bởi overhead của đa agent. Thứ hai, hiện tượng bão hòa năng lực cho thấy khi hiệu năng của agent đơn vượt khoảng 45%, việc điều phối sẽ giảm hiệu quả hoặc thậm chí mang lại lợi ích âm. Thứ ba, hiện tượng khuếch đại lỗi phụ thuộc topo cho thấy các agent độc lập khuếch đại lỗi lên 17.2 lần, trong khi điều phối tập trung giới hạn mức này ở 4.4 lần.

Điều phối tập trung giúp cải thiện hiệu năng tới 80.9% trong các tác vụ có thể song song hóa như suy luận tài chính, trong khi điều phối phân tán cho thấy hiệu năng tương đối tốt hơn trong điều hướng web động. Tuy nhiên, ở các tác vụ suy luận tuần tự, mọi biến thể đa agent đều làm giảm hiệu năng từ 39-70%. Những phát hiện này đóng góp quan trọng vào việc dự đoán hiệu năng của hệ thống agent và đề xuất chiến lược điều phối tối ưu, đồng thời cung cấp các nguyên tắc dự báo dựa trên đặc tính của tác vụ agentic. Bằng cách rút ra định lượng các nguyên tắc scaling của hệ thống agent, nghiên cứu này đặt nền tảng để các nhà thực hành có thể thiết kế và tối ưu hóa hệ thống hiệu quả hơn.

Tóm tắt bài báo (Abstract)

Các agent, tức các hệ thống dựa trên language model (LM) có khả năng suy luận, lập kế hoạch và hành động, đang trở thành mô hình chủ đạo cho các ứng dụng AI trong thế giới thực. Dù được áp dụng rộng rãi, những nguyên tắc quyết định hiệu năng của chúng vẫn chưa được nghiên cứu đầy đủ, khiến người làm thực tế phải dựa vào heuristic thay vì các lựa chọn thiết kế có cơ sở nguyên tắc. Chúng tôi lấp khoảng trống này bằng cách suy ra các nguyên tắc mở rộng định lượng cho hệ thống agent. Chúng tôi đánh giá điều này trên bốn benchmark đa dạng: Finance-Agent, BrowseComp-Plus, PlanCraft và Workbench. Sử dụng năm kiến trúc chuẩn (Single, Independent, Centralized, Decentralized, Hybrid) được triển khai trên ba họ LLM, chúng tôi thực hiện một đánh giá có kiểm soát bao quát 180 cấu hình với công cụ và ngân sách token được chuẩn hóa. Chúng tôi xây dựng một mô hình dự đoán bằng các chỉ số phối hợp thực nghiệm, bao gồm hiệu suất, overhead, khuếch đại lỗi và dư thừa, đạt $R^2=0.513$ qua cross-validation. Chúng tôi xác định ba hiệu ứng chi phối chính: (1) đánh đổi giữa công cụ và điều phối: dưới ngân sách tính toán cố định, các tác vụ dùng nhiều công cụ bị ảnh hưởng bất cân xứng bởi overhead của đa agent. (2) bão hòa năng lực: điều phối cho lợi ích giảm dần hoặc thậm chí âm (beta=-0.408, p<0.001) khi mức nền của single-agent vượt khoảng 45%. (3) khuếch đại lỗi phụ thuộc topo: các agent độc lập khuếch đại lỗi lên 17.2 lần do lan truyền không kiểm soát, trong khi điều phối tập trung giới hạn mức này ở 4.4 lần. Điều phối tập trung cải thiện hiệu năng 80.9% trong các tác vụ có thể song song hóa như suy luận tài chính, còn điều phối phân tán vượt trội trong điều hướng web động (+9.2% so với +0.2%). Tuy nhiên, với các tác vụ suy luận tuần tự, mọi biến thể đa agent đều làm hiệu năng giảm từ 39-70%. Khung này dự đoán chiến lược điều phối tối ưu cho 87% cấu hình hold-out, đưa ra một nguyên tắc dự báo về agentic scaling dựa trên các thuộc tính tác vụ có thể đo lường.
> Agents, language model (LM)-based systems that are capable of reasoning, planning, and acting are becoming the dominant paradigm for real-world AI applications. Despite this widespread adoption, the principles that determine their performance remain underexplored, leaving practitioners to rely on heuristics rather than principled design choices. We address this gap by deriving quantitative scaling principles for agent systems. We evaluate this across four diverse benchmarks: Finance-Agent, BrowseComp-Plus, PlanCraft, and Workbench. Using five canonical architectures (Single, Independent, Centralized, Decentralized, Hybrid) instantiated across three LLM families, we perform a controlled evaluation spanning 180 configurations with standardized tools and token budgets. We derive a predictive model using empirical coordination metrics, including efficiency, overhead, error amplification, and redundancy, that achieves cross-validated $R^2=0.513$. We identify three dominant effects: (1) a tool-coordination trade-off: under fixed computational budgets, tool-heavy tasks suffer disproportionately from multi-agent overhead. (2) a capability saturation: coordination yields diminishing or negative returns (beta=-0.408, p<0.001) once single-agent baselines exceed ~45%. (3) topology-dependent error amplification: independent agents amplify errors 17.2x through unchecked propagation, while centralized coordination contains this to 4.4x. Centralized coordination improves performance by 80.9% on parallelizable tasks like financial reasoning, while decentralized coordination excels on dynamic web navigation (+9.2% vs. +0.2%). Yet for sequential reasoning tasks, all multi-agent variants degraded performance by 39-70%. The framework predicts the optimal coordination strategy for 87% of held-out configurations, providing a predictive principle of agentic scaling based on measurable task properties.

Link bài báo

https://arxiv.org/abs/2512.08296

LMCache: lớp bộ nhớ đệm KV hiệu quả cho suy luận LLM ở quy mô doanh nghiệp / LMCache: An Efficient KV Cache Layer for Enterprise-Scale LLM Inference

Giới thiệu bài báo

LMCache được đề xuất như một cách tiếp cận mới nhằm nâng cao hiệu quả suy luận của large language model (LLM). Theo truyền thống, bộ nhớ đệm KV được lưu trong bộ nhớ GPU để tăng tốc giai đoạn decoding của LLM, nhưng gần đây lượng KV cache mà người dùng lưu trữ đã vượt quá dung lượng bộ nhớ GPU. Trong bối cảnh đó, LMCache đã trở thành giải pháp mã nguồn mở đầu tiên cho phép đưa KV cache ra ngoài GPU để có thể tái sử dụng giữa các truy vấn khác nhau và giữa các engine suy luận.

Chức năng cốt lõi của LMCache là hỗ trợ cache offloading và phân tán prefill-decode (PD). Nhờ đó, việc tái sử dụng tiền tố giữa các truy vấn trở nên khả thi và việc truyền cache giữa các GPU khác nhau cũng dễ dàng hơn. LMCache tối đa hóa hiệu năng thông qua ba đóng góp chính. Thứ nhất, nó tối ưu việc di chuyển dữ liệu KV cache thông qua các thao tác chuyển dữ liệu theo lô cùng với pipeline hóa tính toán và nhập/xuất (I/O). Thứ hai, nó đưa vào bộ kết nối KV cache dạng mô-đun để có thể linh hoạt thích ứng với sự phát triển của nhiều engine suy luận khác nhau. Thứ ba, nó cung cấp API điều khiển hạng nhất cho việc điều phối cache giữa các tầng GPU, CPU, storage và network, mang lại sự linh hoạt cho người dùng.

Hiệu năng của LMCache khi kết hợp với vLLM cho thấy mức cải thiện throughput lên tới 15 lần trong nhiều tác vụ như hỏi đáp nhiều vòng và phân tích tài liệu. Thông qua các trường hợp sử dụng thực tế, nghiên cứu xác nhận rằng việc lấy KV cache từ remote storage có hiệu quả trong việc giảm độ trễ prefill, đồng thời cũng đưa ra một nhận định quan trọng rằng kỹ thuật cắt ngắn ngữ cảnh vốn được sử dụng rộng rãi trong công nghiệp có thể làm giảm một nửa tỷ lệ trúng cache tiền tố.

Tóm lại, LMCache là một giải pháp đổi mới có thể cải thiện đáng kể hiệu quả suy luận LLM và được kỳ vọng sẽ đóng góp cho nhiều ngành công nghiệp thông qua việc được áp dụng quy mô lớn trong môi trường doanh nghiệp. Nó biến các engine LLM thành một hệ sinh thái điện toán và lưu trữ phân tán, đồng thời gợi mở khả năng dữ liệu AI-native trong tương lai sẽ trở thành nền tảng của suy luận LLM.

Tóm tắt(Abstract)

KV cache theo truyền thống được lưu trong bộ nhớ GPU để tăng tốc giai đoạn giải mã của suy luận mô hình ngôn ngữ lớn (LLM). Tuy nhiên, nhu cầu đưa KV cache ra ngoài thiết bị GPU ngày càng tăng nhằm cho phép tái sử dụng cache giữa các truy vấn và các inference engine khác nhau. Thống kê sử dụng thực tế của chúng tôi xác nhận xu hướng này: theo thời gian, tổng lượng KV cache do người dùng lưu trữ đã tăng rất nhanh, vượt xa dung lượng bộ nhớ GPU. Dù có nhu cầu như vậy, vẫn thiếu một giải pháp hiệu quả để offload và truyền KV cache. Chúng tôi giới thiệu LMCACHE, giải pháp KV caching mã nguồn mở đầu tiên và cho đến nay là hiệu quả nhất, có khả năng trích xuất và lưu trữ KV cache được tạo bởi các LLM engine hiện đại (vLLM và SGLang) ra ngoài bộ nhớ GPU, đồng thời chia sẻ chúng giữa các engine và truy vấn. LMCACHE hỗ trợ cả cache offloading (tái sử dụng tiền tố giữa các truy vấn) lẫn prefill-decode (PD) disaggregation (truyền cache giữa các engine/GPU). Hiệu năng cao và mức độ được chấp nhận rộng rãi của LMCACHE đến từ các đóng góp sau: (1) cơ chế di chuyển dữ liệu KV cache được tối ưu hóa cao, dựa trên các thao tác di chuyển dữ liệu theo lô, cùng pipeline tính toán và I/O; (2) thành phần KV cache connector dạng mô-đun, tách LMCACHE khỏi tốc độ phát triển nhanh của các inference engine; (3) API điều khiển cấp một cho phép điều phối cache linh hoạt giữa các lớp GPU, CPU, lưu trữ và mạng. Đánh giá của chúng tôi cho thấy việc kết hợp LMCACHE với vLLM có thể đạt mức cải thiện thông lượng lên tới 15 lần trên các tác vụ như hỏi đáp nhiều vòng và phân tích tài liệu. Việc LMCACHE được áp dụng ở quy mô lớn trong môi trường doanh nghiệp cũng mang lại những hiểu biết giá trị, chẳng hạn như việc lấy KV cache từ lưu trữ từ xa rõ ràng có lợi cho độ trễ prefill, và kỹ thuật context truncation vốn được áp dụng rộng rãi trong ngành có thể làm giảm mạnh tỷ lệ trúng prefix cache xuống còn một nửa. Mã nguồn của LMCACHE có tại liên kết sau: https://github.com/LMCache/LMCache.
> KV cache theo truyền thống được lưu trong bộ nhớ GPU để tăng tốc giai đoạn giải mã của suy luận mô hình ngôn ngữ lớn (LLM). Tuy nhiên, ngày càng cần phải chuyển KV cache ra ngoài thiết bị GPU để cho phép tái sử dụng cache giữa các truy vấn và các inference engine khác nhau. Thống kê sử dụng thực tế của chúng tôi xác nhận xu hướng này: theo thời gian, tổng lượng KV cache do người dùng lưu trữ đã tăng nhanh, vượt xa dung lượng bộ nhớ GPU. Mặc dù có nhu cầu này, hiện vẫn thiếu một giải pháp hiệu quả để offload và truyền KV cache. Chúng tôi giới thiệu LMCACHE, giải pháp KV caching mã nguồn mở đầu tiên và cho đến nay là hiệu quả nhất, có khả năng trích xuất và lưu trữ KV cache do các LLM engine hiện đại (vLLM và SGLang) tạo ra ra ngoài bộ nhớ GPU và chia sẻ chúng giữa các engine và truy vấn. LMCACHE hỗ trợ cả cache offloading (tái sử dụng tiền tố giữa các truy vấn) và prefill-decode (PD) disaggregation (truyền cache giữa các engine/GPU). Hiệu năng cao và mức độ áp dụng rộng rãi của LMCACHE đến từ các đóng góp sau: (1) cơ chế di chuyển dữ liệu KV cache được tối ưu hóa cao nhờ các thao tác di chuyển dữ liệu theo lô, cùng pipeline tính toán và I/O; (2) thành phần KV cache connector dạng mô-đun, giúp tách LMCACHE khỏi sự phát triển nhanh của các inference engine; (3) API điều khiển cấp một cho phép điều phối cache linh hoạt giữa các lớp GPU, CPU, lưu trữ và mạng. Đánh giá của chúng tôi cho thấy việc kết hợp LMCACHE với vLLM đạt mức cải thiện thông lượng lên tới 15x trên các khối lượng công việc như hỏi đáp nhiều vòng và phân tích tài liệu. Việc áp dụng LMCACHE ở quy mô lớn trong môi trường doanh nghiệp mang lại cho chúng tôi những hiểu biết giá trị; ví dụ, việc lấy KV cache từ lưu trữ từ xa rõ ràng có lợi cho độ trễ prefill, và context truncation, một kỹ thuật được áp dụng rộng rãi trong ngành, có thể làm giảm mạnh tỷ lệ trúng prefix cache xuống còn một nửa. Mã nguồn của LMCACHE tại: https://github.com/LMCache/LMCache.

Liên kết bài báo

https://arxiv.org/abs/2510.09665

Đọc thêm

https://github.com/LMCache/LMCache

https://discuss.pytorch.kr/t/lmcache-llm/7179

ReFusion: Mô hình ngôn ngữ lớn khuếch tán với giải mã tự hồi quy song song / ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding

Giới thiệu bài báo

ReFusion là một mô hình mask diffusion mang tính đột phá, tận dụng giải mã tự hồi quy song song để vượt qua những hạn chế của các mô hình tự hồi quy truyền thống (ARM) và các mô hình mask diffusion (MDM). Các ARM truyền thống có tốc độ suy luận chậm do phương thức giải mã tuần tự, trong khi MDM giả định tính độc lập có điều kiện nhưng lại bị giảm hiệu quả vì các nút thắt kiến trúc và vấn đề sinh không nhất quán. Để giải quyết những vấn đề này, ReFusion nâng giải mã song song lên mức slot, được thực hiện thông qua các slot là những dãy con liên tiếp có độ dài cố định.

Cốt lõi của ReFusion là quy trình giải mã "lập kế hoạch và điền khuyết (plan-and-infill)". Trong quy trình này, giai đoạn đầu tiên là xác định các slot có mức phụ thuộc yếu, và ở giai đoạn thứ hai, các slot này được giải mã song song. Thiết kế dựa trên slot này cho phép tái sử dụng Key-Value (KV) cache, nhờ đó không cần phải tính toán lại trạng thái KV của toàn bộ ngữ cảnh ở mỗi lần. Kết quả là, độ phức tạp huấn luyện được giảm từ không gian tổ hợp token xuống không gian hoán vị ở mức slot, giúp hiệu quả tăng lên đáng kể.

Kết quả thực nghiệm cho thấy ReFusion đạt mức cải thiện hiệu năng 34% so với các MDM trước đây và tăng tốc trung bình 18 lần, đồng thời thu hẹp khoảng cách hiệu năng với các ARM mạnh mẽ và đạt mức tăng tốc trung bình 2,33 lần. Những kết quả này cho thấy ReFusion vượt qua các giới hạn của các mô hình hiện có và mở ra tiềm năng mới cho các mô hình khuếch tán.

ReFusion mang lại đóng góp đột phá cả về hiệu năng lẫn tốc độ thông qua việc tái sử dụng KV cache và giảm độ phức tạp huấn luyện, đồng thời cung cấp những góc nhìn quan trọng cho các hướng nghiên cứu trong tương lai. Mô hình này được kỳ vọng sẽ góp phần thúc đẩy sự phát triển của các mô hình ngôn ngữ lớn bằng cách kết hợp ưu điểm của mô hình khuếch tán và mô hình tự hồi quy.

Tóm tắt (Abstract)

Các mô hình tự hồi quy (ARMs) bị hạn chế bởi quá trình suy luận tuần tự chậm. Các mô hình khuếch tán có mặt nạ (MDMs) cung cấp một lựa chọn thay thế song song, nhưng tồn tại những nhược điểm nghiêm trọng: chi phí tính toán cao do không thể dùng bộ nhớ đệm khóa-giá trị (KV caching), và việc sinh thiếu nhất quán do học các phụ thuộc trên một không gian tổ hợp token khó xử lý. Để giải quyết những hạn chế này, chúng tôi giới thiệu ReFusion, một mô hình khuếch tán có mặt nạ mới, đạt hiệu năng và hiệu quả vượt trội bằng cách nâng giải mã song song từ cấp độ token lên cấp độ slot cao hơn, trong đó mỗi slot là một chuỗi con liên tiếp có độ dài cố định. Điều này được thực hiện thông qua quy trình giải mã lặp kiểu "lập kế hoạch và điền vào": trước tiên, bước lập kế hoạch dựa trên khuếch tán xác định một tập slot có mức phụ thuộc yếu, sau đó bước điền tự hồi quy giải mã song song các slot đã chọn. Thiết kế dựa trên slot đồng thời mở ra khả năng tái sử dụng toàn bộ bộ nhớ đệm KV trong một khung nhân quả thống nhất, đồng thời giảm độ phức tạp học từ không gian tổ hợp token xuống không gian hoán vị ở mức slot dễ quản lý hơn. Kết quả thực nghiệm mở rộng trên bảy benchmark đa dạng cho thấy ReFusion không chỉ vượt trội áp đảo so với các MDM trước đây với mức cải thiện hiệu năng 34% và tốc độ nhanh hơn trung bình hơn 18 lần, mà còn thu hẹp khoảng cách hiệu năng với các ARM mạnh trong khi vẫn duy trì tốc độ nhanh hơn trung bình 2,33 lần.

Autoregressive models (ARMs) are hindered by slow sequential inference. While masked diffusion models (MDMs) offer a parallel alternative, they suffer from critical drawbacks: high computational overhead from precluding Key-Value (KV) caching, and incoherent generation arising from learning dependencies over an intractable space of token combinations. To address these limitations, we introduce ReFusion, a novel masked diffusion model that achieves superior performance and efficiency by elevating parallel decoding from the token level to a higher slot level, where each slot is a fixed-length, contiguous sub-sequence. This is achieved through an iterative ``plan-and-infill'' decoding process: a diffusion-based planning step first identifies a set of weakly dependent slots, and an autoregressive infilling step then decodes these selected slots in parallel. The slot-based design simultaneously unlocks full KV cache reuse with a unified causal framework and reduces the learning complexity from the token combination space to a manageable slot-level permutation space. Extensive experiments on seven diverse benchmarks show that ReFusion not only overwhelmingly surpasses prior MDMs with 34% performance gains and an over 18$\times$ speedup on average, but also bridges the performance gap to strong ARMs while maintaining a 2.33$\times$ average speedup.

Liên kết bài báo

https://arxiv.org/abs/2512.13586

Đọc thêm

https://github.com/ML-GSAI/ReFusion

https://huggingface.co/GSAI-ML/ReFusion

Phương pháp tiền huấn luyện có khả năng mở rộng cho bộ mã hóa token thị giác phục vụ sinh nội dung / Towards Scalable Pre-training of Visual Tokenizers for Generation

Giới thiệu bài báo

Chất lượng không gian tiềm ẩn của bộ mã hóa token thị giác có ảnh hưởng đáng kể đến hiệu năng của các mô hình sinh hiện đại. Tuy nhiên, các phương pháp học dựa trên tái tạo hiện có tạo ra không gian tiềm ẩn thiên về thông tin mức thấp, dẫn đến vấn đề là độ chính xác ở mức pixel tốt hơn không nhất thiết đảm bảo chất lượng sinh cao hơn. Hiện tượng này được định nghĩa là "vấn đề mở rộng trong tiền huấn luyện", và đặt ra yêu cầu rằng không gian tiềm ẩn phải biểu đạt cô đọng ngữ nghĩa mức cao để phục vụ các mô hình sinh hiệu quả.

Trong nghiên cứu này, nhóm tác giả đề xuất VTP (Visual Tokenizer Pre-training), một khung tiền huấn luyện thống nhất mới cho bộ mã hóa token thị giác. VTP áp dụng cách tiếp cận đổi mới bằng cách cùng tối ưu tương phản ảnh-văn bản, học tự giám sát và loss tái tạo, từ đó góp phần cải thiện hiệu năng sinh. Thông qua nghiên cứu quy mô lớn, tác giả rút ra hai phát hiện chính. Thứ nhất, hiểu biết ngữ nghĩa là động lực chính của quá trình sinh. Thứ hai, VTP cho thấy đặc tính mở rộng vượt trội khi hiệu năng sinh được cải thiện hiệu quả theo tài nguyên tính toán, số lượng tham số mô hình và kích thước dữ liệu.

VTP đạt độ chính xác zero-shot 78,2% và rFID 0,36 trên ImageNet, đồng thời ghi nhận tốc độ hội tụ nhanh hơn 4,1 lần so với các phương pháp chưng cất tiên tiến hiện có. Ngoài ra, VTP đạt mức cải thiện FID 65,8% ở tác vụ sinh downstream chỉ bằng cách đầu tư nhiều FLOPS hơn vào giai đoạn tiền huấn luyện mà không cần sửa đổi đặc tả huấn luyện DiT tiêu chuẩn. Những kết quả này cho thấy VTP mang lại hiệu năng vượt trội so với cách tiếp cận autoencoder truyền thống và có thể trở thành một mô hình có khả năng mở rộng cao.

Tóm lại, VTP góp phần giải quyết vấn đề mở rộng trong tiền huấn luyện của bộ mã hóa token thị giác, đồng thời thiết lập mối tương quan mạnh giữa khả năng hiểu không gian tiềm ẩn và năng lực sinh. Nghiên cứu này đề xuất một hướng đi mới để cải thiện hiệu năng của các mô hình sinh và có thể được sử dụng làm nền tảng quan trọng cho các nghiên cứu trong tương lai.

Tóm tắt bài báo (Abstract)

Trong các visual tokenizer (ví dụ: VAE), chất lượng của không gian tiềm ẩn là yếu tố cực kỳ quan trọng đối với các mô hình sinh hiện đại. Tuy nhiên, mô hình huấn luyện tiêu chuẩn dựa trên tái tạo lại tạo ra một không gian tiềm ẩn thiên về thông tin cấp thấp, dẫn đến một khiếm khuyết nền tảng: độ chính xác tốt hơn ở mức pixel không dẫn đến chất lượng sinh cao hơn. Điều này có nghĩa là việc đổ nhiều tài nguyên tính toán vào tiền huấn luyện visual tokenizer không chuyển hóa hiệu quả thành cải thiện hiệu năng sinh. Chúng tôi gọi đây là “vấn đề mở rộng tiền huấn luyện” và đề xuất một sự thay đổi cần thiết: để hiệu quả cho tác vụ sinh, không gian tiềm ẩn phải biểu diễn cô đọng ngữ nghĩa cấp cao. Chúng tôi giới thiệu VTP, một khung tiền huấn luyện visual tokenizer thống nhất, tiên phong trong tối ưu hóa chung các hàm mất mát tương phản ảnh-văn bản, tự giám sát và tái tạo. Nghiên cứu quy mô lớn của chúng tôi cho thấy hai phát hiện chính: (1) khả năng hiểu là động lực cốt lõi của sinh, và (2) các đặc tính mở rộng tốt hơn nhiều, trong đó hiệu năng sinh có thể mở rộng hiệu quả theo lượng compute, số tham số và dữ liệu được phân bổ cho tiền huấn luyện visual tokenizer. Sau tiền huấn luyện quy mô lớn, tokenizer của chúng tôi đạt hồ sơ cạnh tranh (độ chính xác zero-shot 78.2 và 0.36 rFID trên ImageNet) và hội tụ nhanh hơn 4.1 lần trong tác vụ sinh so với các phương pháp chưng cất tiên tiến. Quan trọng hơn, nó có khả năng mở rộng hiệu quả: không cần sửa đổi đặc tả huấn luyện DiT tiêu chuẩn, chỉ cần đầu tư thêm FLOPS vào tiền huấn luyện VTP cũng đạt được mức cải thiện 65.8% FID trong tác vụ sinh downstream, trong khi autoencoder truyền thống chững lại rất sớm ở mức 1/10 FLOPS. Các mô hình đã tiền huấn luyện của chúng tôi có tại https://github.com/MiniMax-AI/VTP.

Chất lượng của không gian tiềm ẩn trong các visual tokenizer (ví dụ: VAE) là yếu tố then chốt đối với các mô hình sinh hiện đại. Tuy nhiên, mô hình huấn luyện tiêu chuẩn dựa trên tái tạo tạo ra một không gian tiềm ẩn bị lệch về thông tin cấp thấp, dẫn đến một lỗi nền tảng: độ chính xác ở mức pixel tốt hơn không dẫn đến chất lượng sinh cao hơn. Điều này hàm ý rằng việc rót lượng lớn compute vào tiền huấn luyện visual tokenizer chỉ chuyển đổi rất kém thành cải thiện hiệu năng sinh. Chúng tôi xác định đây là vấn đề mở rộng tiền huấn luyện và cho rằng cần có một thay đổi tất yếu: để hiệu quả cho sinh, không gian tiềm ẩn phải biểu diễn cô đọng các ngữ nghĩa cấp cao. Chúng tôi giới thiệu VTP, một khung tiền huấn luyện visual tokenizer thống nhất, tiên phong trong việc tối ưu hóa chung các hàm mất mát tương phản ảnh-văn bản, tự giám sát và tái tạo. Nghiên cứu quy mô lớn của chúng tôi cho thấy hai phát hiện chính: (1) khả năng hiểu là động lực chính của sinh, và (2) các đặc tính mở rộng tốt hơn nhiều, trong đó hiệu năng sinh mở rộng hiệu quả theo compute, tham số và dữ liệu được phân bổ cho tiền huấn luyện visual tokenizer. Sau tiền huấn luyện quy mô lớn, tokenizer của chúng tôi mang lại một hồ sơ cạnh tranh (độ chính xác zero-shot 78.2 và 0.36 rFID trên ImageNet) cùng tốc độ hội tụ nhanh hơn 4.1 lần trong tác vụ sinh so với các phương pháp chưng cất tiên tiến. Quan trọng hơn, nó mở rộng hiệu quả: không cần sửa đổi đặc tả huấn luyện DiT tiêu chuẩn, chỉ riêng việc đầu tư thêm FLOPS vào tiền huấn luyện VTP đã đạt được mức cải thiện 65.8% FID trong tác vụ sinh downstream, trong khi autoencoder truyền thống chững lại rất sớm ở mức 1/10 FLOPS. Các mô hình đã tiền huấn luyện của chúng tôi có tại https://github.com/MiniMax-AI/VTP.

Liên kết bài báo

https://arxiv.org/abs/2512.13687

Đọc thêm

https://github.com/MiniMax-AI/VTP

CLaRa: Hợp nhất tìm kiếm và sinh bằng suy luận tiềm ẩn liên tục / CLaRa: Bridging Retrieval and Generation with Continuous Latent Reasoning

Giới thiệu bài báo

CLaRa (Continuous Latent Reasoning) là một framework đổi mới được phát triển nhằm vượt qua các giới hạn của hệ thống retrieval-augmented generation (RAG). Các cách tiếp cận RAG hiện có gặp khó khăn trong việc xử lý ngữ cảnh dài, đồng thời tối ưu hóa giữa truy hồi và sinh bị tách rời nên hiệu quả bị suy giảm. Để giải quyết vấn đề này, CLaRa đề xuất một phương pháp mới tích hợp truy hồi và sinh thông qua nén dựa trên embedding và tối ưu hóa chung trong một không gian liên tục được chia sẻ.

Một trong những thành phần cốt lõi của CLaRa là SCP (tổng hợp dữ liệu bảo toàn khóa), sử dụng question-answering (QA) và paraphrase (supervision) để tạo ra các vector nén giàu ngữ nghĩa và có thể truy hồi. Quá trình này góp phần nâng cao độ chính xác của truy hồi trong khi vẫn duy trì tính đa dạng và chất lượng của dữ liệu. Sau đó, CLaRa huấn luyện reranker và generator theo cách end-to-end thông qua một hàm mất mát mô hình hóa ngôn ngữ duy nhất, từ đó tối ưu hóa luồng gradient giữa hai mô-đun. Cách tiếp cận tối ưu hóa tích hợp này đóng vai trò quan trọng trong việc căn chỉnh độ liên quan của truy hồi với chất lượng của câu trả lời được sinh ra.

Kết quả thực nghiệm cho thấy CLaRa đạt hiệu năng nén và reranking ở mức state-of-the-art, vượt qua các phương pháp dựa trên văn bản trước đây trên nhiều benchmark question-answering (QA). Đặc biệt, CLaRa cho thấy kết quả thuận lợi trong việc xử lý ngữ cảnh dài một cách hiệu quả, qua đó chứng minh rằng phương thức tối ưu hóa tích hợp của CLaRa thực sự hiệu quả. Những thành tựu này cho thấy CLaRa có tiềm năng cải thiện đáng kể hiệu năng của các hệ thống RAG.

Cách tiếp cận của CLaRa khác biệt với các nghiên cứu RAG hiện có và là phương pháp đầu tiên tối ưu hóa trực tiếp cả truy hồi lẫn sinh, cho thấy khả năng được áp dụng trong nhiều lĩnh vực ứng dụng khác nhau trong tương lai. Nghiên cứu này mở ra những khả năng mới cho hệ thống RAG và được kỳ vọng sẽ trở thành tài liệu nền tảng quan trọng cho các nghiên cứu tiếp theo.

Tóm tắt bài báo (Abstract)

RAG (retrieval-augmented generation) tăng cường kiến thức bên ngoài cho các mô hình ngôn ngữ lớn (LLM), nhưng vẫn gặp khó khăn với ngữ cảnh dài và bài toán tối ưu hóa tách rời giữa truy xuất và sinh. Nghiên cứu này đề xuất CLaRa (Continuous Latent Reasoning). CLaRa là một khung hợp nhất thực hiện nén dựa trên embedding và tối ưu hóa chung trong một không gian liên tục được chia sẻ. Để thu được các vector nén giàu ngữ nghĩa và có thể truy xuất, nghiên cứu giới thiệu SCP, một khung tổng hợp dữ liệu bảo toàn key sử dụng giám sát QA và paraphrase. Sau đó, CLaRa huấn luyện reranker và generator end-to-end thông qua một hàm mất mát mô hình ngôn ngữ duy nhất, với gradient chảy qua cả hai mô-đun bằng bộ ước lượng top-k khả vi. Về mặt lý thuyết, tối ưu hóa hợp nhất này căn chỉnh độ liên quan của truy xuất với chất lượng câu trả lời. Kết quả thực nghiệm trên nhiều benchmark QA cho thấy CLaRa đạt hiệu năng nén và reranking ở mức SOTA, thường vượt qua các baseline fine-tuning dựa trên văn bản.
> Retrieval-augmented generation (RAG) enhances large language models (LLMs) with external knowledge but still suffers from long contexts and disjoint retrieval-generation optimization. In this work, we propose CLaRa (Continuous Latent Reasoning), a unified framework that performs embedding-based compression and joint optimization in a shared continuous space. To obtain semantically rich and retrievable compressed vectors, we introduce SCP, a key-preserving data synthesis framework using QA and paraphrase supervision. CLaRa then trains the reranker and generator end-to-end via a single language modeling loss, with gradients flowing through both modules using a differentiable top-k estimator. Theoretically, this unified optimization aligns retrieval relevance with answer quality. Experiments across multiple QA benchmarks show that CLaRa achieves state-of-the-art compression and reranking performance, often surpassing text-based fine-tuned baselines.

Liên kết bài báo

https://arxiv.org/abs/2511.18659

Đọc thêm

https://github.com/apple/ml-clara

⚠️Quảng cáo⚠️: Thấy bài viết này do 🔥Cộng đồng người dùng PyTorch Hàn Quốc🇰🇷 tổng hợp có hữu ích không? Nếu đăng ký thành viên, bạn sẽ nhận được các bài viết nổi bật qua email💌! (Mặc định là Weekly, nhưng cũng có thể đổi sang Daily.)

[2025/12/15 ~ 21] Tuyển tập các bài báo AI/ML đáng chú ý trong tuần này