[2025/09/29 ~ 10/05] Tuyển tập các bài báo AI/ML đáng chú ý trong tuần này
(discuss.pytorch.kr)[2025/09/29 ~ 10/05] Tuyển tập các bài báo AI/ML đáng chú ý trong tuần này
PyTorchKR🔥🇰🇷 🤔💭
1️⃣ Cải thiện tính chân thực và độ tin cậy của thông tin: Nhiều bài báo đang đề xuất các cách tiếp cận đa dạng để nâng cao độ chính xác và độ tin cậy của thông tin. Ví dụ, trong "Incentive-Aligned Multi-Source LLM Summaries", khung Truthful Text Summarization (TTS) được sử dụng để bảo đảm tính trung thực của thông tin, còn "AgentMaster" hỗ trợ truy xuất và phân tích thông tin đáng tin cậy bằng cách tận dụng hệ thống đa tác tử.
2️⃣ Sự phát triển của hệ thống đa tác tử: Việc ứng dụng hệ thống đa tác tử (MAS, Multi-Agent System) đang gia tăng trong nhiều nghiên cứu, và điều này giúp ích rất nhiều trong việc giải quyết các tác vụ phức tạp. Các bài báo "TUMIX" và "AgentMaster" trình bày những cách cải thiện hiệu năng thông qua sự cộng tác và tương tác giữa các tác tử khi sử dụng nhiều công cụ khác nhau.
3️⃣ Tiêm tri thức và học liên tục: Các bài báo "How to inject knowledge efficiently?" và "Continual Learning for VLMs" đang nghiên cứu cách tiêm tri thức miền một cách hiệu quả và cách tiếp tục học từ dữ liệu bất thường. Các nghiên cứu này tập trung vào việc cải thiện hiệu năng mô hình đồng thời tránh làm mất đi tri thức sẵn có.
ARE: Mở rộng môi trường và đánh giá tác tử / ARE: Scaling Up Agent Environments and Evaluations
Giới thiệu bài báo
Meta Superintelligence Lab đã công bố Meta Agents Research Environments (ARE), một nền tảng nghiên cứu đột phá cho phép mở rộng khả năng xây dựng môi trường tác tử, hỗ trợ tích hợp các ứng dụng tổng hợp hoặc thực tế, và thực thi điều phối tác tử. ARE cung cấp các trừu tượng hóa đơn giản để xây dựng những môi trường phức tạp và đa dạng, trong đó mỗi môi trường có các quy tắc, công cụ, nội dung và bộ kiểm chứng riêng, từ đó góp phần thu hẹp khoảng cách giữa phát triển mô hình và triển khai thực tế.
Một trong những đổi mới quan trọng của ARE là việc giới thiệu benchmark Gaia2. Gaia2 được thiết kế để đo lường năng lực tổng quát của tác tử, và vượt xa các bài toán tìm kiếm và thực thi đơn giản khi yêu cầu tác tử phải xử lý sự mơ hồ và nhiễu, thích ứng với môi trường động, cộng tác với các tác tử khác, và hoàn thành nhiệm vụ trong những ràng buộc về thời gian. Đặc biệt, Gaia2 vận hành bất đồng bộ, nhờ đó bộc lộ các kiểu lỗi mới mà môi trường tĩnh không thể phát hiện, giúp đánh giá hiệu năng tác tử một cách tinh vi hơn.
Kết quả thực nghiệm cho thấy không có hệ thống nào chiếm ưu thế trên toàn bộ phổ trí năng, và khả năng suy luận mạnh thường phải đánh đổi bằng hiệu quả. Hiện tượng các đường cong mở rộng theo ngân sách bị chững lại nhấn mạnh nhu cầu về các kiến trúc mới và chiến lược tính toán thích ứng. Những phát hiện này gợi mở định hướng cho nghiên cứu AI và làm nổi bật tầm quan trọng của ARE cùng Gaia2.
Các trừu tượng hóa của ARE cho phép liên tục mở rộng Gaia2 sang những môi trường khác, giúp cộng đồng nghiên cứu nhanh chóng tạo ra các benchmark mới phù hợp với từng miền ứng dụng. Sự phát triển của AI ngày càng phụ thuộc vào việc xác định những tác vụ có ý nghĩa và các phương pháp đánh giá vững chắc, và điều này sẽ trở nên khả thi nhờ các khả năng của ARE. Trong bối cảnh đó, ARE sẽ cung cấp các công cụ cần thiết cho phát triển và đánh giá tác tử, đồng thời đóng vai trò quan trọng ở tuyến đầu của nghiên cứu AI.
Tóm tắt bài báo(Abstract)
Chúng tôi giới thiệu Meta Agents Research Environments (ARE), một nền tảng nghiên cứu dành cho việc tạo môi trường có khả năng mở rộng, tích hợp các ứng dụng tổng hợp hoặc thực tế, và thực thi điều phối tác tử. ARE cung cấp các trừu tượng hóa đơn giản để xây dựng những môi trường phức tạp và đa dạng, mỗi môi trường có các quy tắc, công cụ, nội dung và bộ kiểm chứng riêng, từ đó giúp thu hẹp khoảng cách giữa phát triển mô hình và triển khai ngoài thực tế. Chúng tôi cũng đề xuất Gaia2, một benchmark được xây dựng trên ARE và được thiết kế để đo lường năng lực tổng quát của tác tử. Vượt ra ngoài tìm kiếm và thực thi, Gaia2 yêu cầu tác tử xử lý sự mơ hồ và nhiễu, thích ứng với môi trường động, cộng tác với các tác tử khác và vận hành dưới các ràng buộc thời gian. Không giống các benchmark trước đây, Gaia2 chạy bất đồng bộ, qua đó làm lộ ra các kiểu lỗi mới vốn không thể thấy trong môi trường tĩnh. Kết quả thực nghiệm của chúng tôi cho thấy không có hệ thống nào chiếm ưu thế trên toàn bộ phổ trí năng: suy luận mạnh hơn thường phải trả giá bằng hiệu quả, còn các đường cong mở rộng theo ngân sách thì chững lại, làm nổi bật nhu cầu về các kiến trúc mới và chiến lược tính toán thích ứng. Có lẽ quan trọng hơn, các trừu tượng hóa của ARE cho phép Gaia2 được mở rộng liên tục sang các môi trường khác, trao quyền cho cộng đồng nhanh chóng tạo ra những benchmark mới phù hợp với miền của mình. Trong nửa sau của kỷ nguyên AI, tiến bộ sẽ ngày càng phụ thuộc vào việc xác định các tác vụ có ý nghĩa và những đánh giá vững chắc để thúc đẩy các năng lực tuyến đầu tiến xa hơn.
We introduce Meta Agents Research Environments (ARE), a research platform for scalable creation of environments, integration of synthetic or real applications, and execution of agentic orchestrations. ARE provides simple abstractions to build complex and diverse environments, each with their own rules, tools, content, and verifiers, helping to bridge the gap between model development and real-world deployment. We also propose Gaia2, a benchmark built in ARE and designed to measure general agent capabilities. Beyond search and execution, Gaia2 requires agents to handle ambiguities and noise, adapt to dynamic environments, collaborate with other agents, and operate under temporal constraints. Unlike prior benchmarks, Gaia2 runs asynchronously, surfacing new failure modes that are invisible in static settings. Our experiments show that no system dominates across the intelligence spectrum: stronger reasoning often comes at the cost of efficiency, and budget scaling curves plateau, highlighting the need for new architectures and adaptive compute strategies. Perhaps more importantly, ARE abstractions enable continuous extension of Gaia2 to other environments, empowering the community to rapidly create new benchmarks tailored to their domains. In AI's second half, progress increasingly depends on defining meaningful tasks and robust evaluations to drive frontier capabilities forward.
Link bài báo
https://arxiv.org/abs/2509.17158
Tóm tắt LLM đa nguồn căn chỉnh theo động lực khuyến khích / Incentive-Aligned Multi-Source LLM Summaries
Giới thiệu bài báo
Các mô hình ngôn ngữ lớn (LLM) đang được sử dụng rộng rãi trong các hệ thống tìm kiếm và trả lời thông tin hiện đại để tích hợp văn bản từ nhiều nguồn thành một phản hồi duy nhất. Tuy nhiên, các hệ thống hiện có vẫn bị hạn chế trong việc bảo đảm độ chính xác của nguồn và tồn tại vấn đề dễ bị tổn thương trước nội dung đối kháng. Để giải quyết những vấn đề này, khung Truthful Text Summarization (TTS) được đề xuất mang đến một cách tiếp cận đổi mới có thể cải thiện độ vững chắc về mặt sự thật mà vẫn hoạt động không cần nhãn thực tế. TTS phân rã bản tóm tắt nháp thành các tuyên bố nguyên tử, đánh giá các tuyên bố từ từng nguồn, rồi chấm điểm nguồn thông qua một cơ chế dự đoán đồng cấp đa nhiệm đã được điều chỉnh để thưởng cho sự nhất quán thông tin. Quá trình này, trong đó các nguồn không đáng tin cậy được lọc bỏ trước khi tóm tắt lại, giúp căn chỉnh động cơ của nguồn với tính trung thực của thông tin, để việc báo cáo trung thực trở thành chiến lược tối đa hóa lợi ích.
Phương pháp luận của TTS đưa ra một cách tiếp cận mới để bảo đảm tính chân thực của thông tin, đồng thời nhấn mạnh sự khác biệt với các nghiên cứu hiện có về tóm tắt thông tin và LLM. Kết quả thực nghiệm cho thấy TTS đã thành công trong việc cải thiện độ chính xác thực tế và độ vững chắc trong khi vẫn duy trì sự trôi chảy, qua đó góp phần ngăn chặn thao túng thông qua việc xác minh và căn chỉnh thông tin. Nghiên cứu này cho thấy tiềm năng có thể nâng cao đáng kể độ tin cậy của các hệ thống tóm tắt thông tin, đồng thời đặt nền tảng quan trọng để khám phá khả năng ứng dụng trong nhiều lĩnh vực khác trong tương lai. TTS vừa nâng cao tính chân thực của thông tin vừa căn chỉnh động cơ của nguồn, qua đó cho thấy khả năng cải thiện đáng kể độ tin cậy của các hệ thống tóm tắt thông tin.
Tóm tắt bài báo (Abstract)
Các mô hình ngôn ngữ lớn (LLM) ngày càng được sử dụng nhiều trong các hệ thống tìm kiếm và trả lời hiện đại để tổng hợp nhiều văn bản, đôi khi mâu thuẫn với nhau, thành một phản hồi duy nhất, nhưng các pipeline hiện nay đưa ra động lực yếu để các nguồn phải chính xác và dễ bị tổn thương trước nội dung đối kháng. Chúng tôi giới thiệu Truthful Text Summarization (TTS). TTS là một khung căn chỉnh động cơ giúp cải thiện độ vững chắc về mặt sự thật mà không cần nhãn ground-truth. TTS (i) phân rã bản tổng hợp nháp thành các tuyên bố nguyên tử, (ii) khai thác lập trường của từng nguồn đối với từng tuyên bố, (iii) chấm điểm nguồn bằng một cơ chế dự đoán đồng cấp đa nhiệm thích ứng, thưởng cho sự đồng thuận mang tính thông tin, và (iv) lọc các nguồn không đáng tin cậy trước khi tóm tắt lại. Chúng tôi thiết lập các bảo đảm hình thức nhằm căn chỉnh động cơ của nguồn với sự trung thực giàu thông tin, khiến việc báo cáo trung thực trở thành chiến lược tối đa hóa lợi ích. Kết quả thực nghiệm cho thấy TTS cải thiện độ chính xác thực tế và độ vững chắc trong khi vẫn giữ được độ trôi chảy, căn chỉnh mức độ hiển thị với sự xác thực mang tính thông tin và làm giảm động cơ thao túng.
Large language models (LLMs) are increasingly used in modern search and answer systems to synthesize multiple, sometimes conflicting, texts into a single response, yet current pipelines offer weak incentives for sources to be accurate and are vulnerable to adversarial content. We introduce Truthful Text Summarization (TTS), an incentive-aligned framework that improves factual robustness without ground-truth labels. TTS (i) decomposes a draft synthesis into atomic claims, (ii) elicits each source's stance on every claim, (iii) scores sources with an adapted multi-task peer-prediction mechanism that rewards informative agreement, and (iv) filters unreliable sources before re-summarizing. We establish formal guarantees that align a source's incentives with informative honesty, making truthful reporting the utility-maximizing strategy. Experiments show that TTS improves factual accuracy and robustness while preserving fluency, aligning exposure with informative corroboration and disincentivizing manipulation.
Link bài báo
https://arxiv.org/abs/2509.25184
TUMIX: Mở rộng thời gian suy luận đa tác nhân thông qua trộn sử dụng công cụ / TUMIX: Multi-Agent Test-Time Scaling with Tool-Use Mixture
Giới thiệu bài báo
Tool-Use Mixture (TUMIX) là một khung ensemble vận hành nhiều tác nhân song song, trong đó mỗi tác nhân áp dụng các chiến lược sử dụng công cụ và lộ trình trả lời khác nhau. Phương pháp này tập trung vào việc cung cấp lời giải hiệu quả cho nhiều loại câu hỏi thông qua việc tích hợp suy luận dựa trên văn bản, lập trình và tìm kiếm. Các tác nhân trong TUMIX lặp đi lặp lại việc chia sẻ và tinh chỉnh phản hồi dựa trên câu hỏi và các câu trả lời trước đó, từ đó cho phép tích hợp sâu hơn và khám phá nhiều lộ trình suy luận đa dạng hơn.
TUMIX đạt mức cải thiện độ chính xác trung bình 3.55% so với các phương pháp tăng cường bằng công cụ và test-time scaling hiện có, đồng thời cho thấy hiệu năng vượt trội trên các benchmark suy luận chủ chốt với các mô hình Gemini-2.5-Pro và Gemini-2.5-Flash. Những kết quả này cho thấy tính đa dạng và chất lượng của tác nhân là các yếu tố quan trọng, đồng thời đề xuất một phương pháp tự động tối ưu hóa thiết kế tác nhân bằng cách tận dụng LLM (mô hình ngôn ngữ lớn). Nhờ đó, TUMIX mang lại thêm mức cải thiện độ chính xác trung bình 1.2%.
TUMIX đưa ra một cách tiếp cận đổi mới có thể dừng quá trình tinh chỉnh khi đạt đủ độ tin cậy, qua đó giảm chi phí suy luận xuống còn 49% mà vẫn duy trì hiệu năng. Dù có thể đạt hiệu năng cao hơn thông qua mở rộng thêm, chi phí gia tăng trong trường hợp đó là một yếu tố quan trọng cần được xem xét trong các nghiên cứu tương lai.
Nghiên cứu này trình bày một phương pháp tối đa hóa khả năng sử dụng công cụ và suy luận của LLM, góp phần cung cấp lời giải hiệu quả cho nhiều loại câu hỏi khác nhau. TUMIX cho thấy khả năng được tổng quát hóa tốt hơn vào các ứng dụng thực tế thông qua một cách tiếp cận khác biệt so với các phương pháp hiện có.
Tóm tắt bài báo (Abstract)
Việc tích hợp các công cụ như Code Interpreter và Search đã cải thiện đáng kể khả năng suy luận của mô hình ngôn ngữ lớn (LLM) trong các mô hình như ChatGPT Agent và Gemini-Pro, nhưng vẫn còn thiếu hướng dẫn thực tiễn về cách sử dụng công cụ tối ưu. Thách thức cốt lõi là kết hợp hiệu quả suy luận bằng văn bản, lập trình và tìm kiếm cho nhiều loại câu hỏi khác nhau. Trong bài báo này, nhóm tác giả đề xuất Tool-Use Mixture (TUMIX), một khung ensemble chạy song song nhiều agent, mỗi agent sử dụng các chiến lược dùng công cụ và lộ trình trả lời khác nhau. Các agent trong TUMIX lặp lại quá trình chia sẻ và tinh chỉnh phản hồi dựa trên câu hỏi và các câu trả lời trước đó. Kết quả thực nghiệm cho thấy TUMIX đạt được mức cải thiện đáng kể so với các phương pháp tăng cường bằng công cụ và mở rộng ở thời điểm suy luận hiện đại nhất, mang lại mức tăng độ chính xác trung bình lên tới 3,55% so với baseline tốt nhất trên Gemini-2.5-Pro và Gemini-2.5-Flash qua các benchmark suy luận chủ chốt, với chi phí suy luận gần như tương đương. Chúng tôi nhận thấy tính đa dạng và chất lượng của agent là rất quan trọng, và có thể được cải thiện bằng cách dùng LLM để tự động tối ưu thiết kế agent. Ngoài ra, TUMIX có thể dừng tinh chỉnh khi đạt mức độ tin cậy đủ cao, nhờ đó giữ nguyên hiệu năng chỉ với 49% chi phí suy luận. Việc mở rộng thêm có thể đạt hiệu năng cao hơn, nhưng chi phí cũng sẽ tăng theo.
> Mặc dù việc tích hợp các công cụ như Code Interpreter và Search đã cải thiện đáng kể khả năng suy luận của Large Language Model (LLM) trong các mô hình như ChatGPT Agent và Gemini-Pro, nhưng vẫn thiếu hướng dẫn thực tiễn về cách sử dụng công cụ tối ưu. Thách thức cốt lõi là kết hợp hiệu quả suy luận bằng văn bản, lập trình và tìm kiếm cho nhiều loại câu hỏi khác nhau. Trong bài báo này, chúng tôi đề xuất Tool-Use Mixture (TUMIX), một khung ensemble chạy song song nhiều agent, mỗi agent sử dụng các chiến lược dùng công cụ và lộ trình trả lời riêng biệt. Các agent trong TUMIX lặp lại việc chia sẻ và tinh chỉnh phản hồi dựa trên câu hỏi và các câu trả lời trước đó. Trong các thí nghiệm, TUMIX đạt được mức cải thiện đáng kể so với các phương pháp tăng cường bằng công cụ và test-time scaling hiện đại nhất, mang lại mức tăng độ chính xác trung bình lên tới 3,55% so với baseline tốt nhất trên Gemini-2.5-Pro và Gemini-2.5-Flash ở các benchmark suy luận chủ chốt, với chi phí suy luận gần như tương đương. Chúng tôi nhận thấy tính đa dạng và chất lượng của agent là yếu tố then chốt, và có thể được nâng cao bằng cách sử dụng LLM để tự động tối ưu thiết kế agent. Hơn nữa, TUMIX có thể dừng quá trình tinh chỉnh khi đạt đủ độ tin cậy, qua đó duy trì hiệu năng chỉ với 49% chi phí suy luận. Việc mở rộng thêm có thể đạt hiệu năng cao hơn, dù phải đánh đổi bằng chi phí lớn hơn.
Liên kết bài báo
https://arxiv.org/abs/2510.01279
Bằng chính ngôn ngữ của mình: Dấu vết suy luận được thiết kế riêng cho mô hình nhỏ giúp chúng suy luận tốt hơn / In Their Own Words: Reasoning Traces Tailored for Small Models Make Them Better Reasoners
Giới thiệu bài báo
Việc chuyển giao năng lực suy luận từ mô hình ngôn ngữ lớn sang mô hình nhỏ thường gặp vấn đề là làm suy giảm hiệu năng trái với kỳ vọng. Hiện tượng này bắt nguồn từ sự lệch phân phối (Distributional Misalignment) phát sinh trong quá trình Supervised Fine-Tuning (SFT), bởi các dấu vết suy luận của mô hình lớn chứa những token xác suất thấp không khớp với phân phối xác suất của mô hình nhỏ. Vì vậy, mô hình nhỏ không thể học hiệu quả các mẫu suy luận nâng cao của mô hình lớn, mà ngược lại còn vấp phải rào cản trong quá trình học.
Để giải quyết vấn đề này, phương pháp được đề xuất là Reverse Speculative Decoding (RSD), trong đó mô hình giáo viên đề xuất các token ứng viên, còn mô hình học sinh quyết định có chấp nhận hay không dựa trên phân phối xác suất của chính nó. Trong quá trình này, các token xác suất thấp bị lọc bỏ, giúp giữ lại những bước suy luận hữu ích trong phạm vi mà mô hình nhỏ có thể xử lý. RSD đã được áp dụng cho mô hình Qwen3-0.6B, và trong khi dữ liệu dấu vết suy luận được tạo bằng phương pháp chưng cất trực tiếp hiện có làm giảm hiệu năng trung bình 20,5%, thì việc học từ dấu vết suy luận được tạo bằng RSD lại cho thấy mức cải thiện hiệu năng có ý nghĩa là 4,9%.
Hiệu quả của RSD được thể hiện nhất quán trên nhiều benchmark suy luận khác nhau, nhấn mạnh rằng các token xác suất thấp là nút thắt cổ chai chính trong việc chuyển giao suy luận hiệu quả. Ngoài ra, RSD cũng cho thấy cần phải tối ưu theo từng mô hình, và cần có sự căn chỉnh phân phối phù hợp với biểu diễn nội tại riêng của từng mô hình học sinh. Các kết quả nghiên cứu này được đánh giá là một phương pháp luận quan trọng có thể góp phần cải thiện hiệu năng của mô hình nhỏ, đồng thời gợi mở khả năng ứng dụng trong các nghiên cứu tương lai.
Tóm lại, RSD là một cách tiếp cận đổi mới có thể chuyển giao hiệu quả năng lực suy luận của mô hình lớn sang mô hình nhỏ, góp phần nâng cao khả năng suy luận của mô hình nhỏ thông qua việc lọc bỏ các token xác suất thấp. Nghiên cứu này đưa ra một hướng đi mới cho việc cải thiện hiệu năng của mô hình nhỏ và sẽ là tài liệu nền tảng quan trọng giúp mở rộng khả năng ứng dụng trong lĩnh vực AI và machine learning trong tương lai.
Tóm tắt bài báo (Abstract)
Việc chuyển giao năng lực suy luận từ các mô hình ngôn ngữ lớn sang các mô hình nhỏ hơn thông qua supervised fine-tuning thường thất bại một cách trái với trực giác, với hiệu năng suy giảm dù có thể tiếp cận các minh họa từ mô hình giáo viên chất lượng cao. Chúng tôi xác định rằng thất bại này bắt nguồn từ sự lệch phân phối: các dấu vết suy luận từ mô hình lớn hơn chứa những token có xác suất thấp dưới phân phối của mô hình học sinh, vượt quá năng lực biểu diễn nội tại của các kiến trúc nhỏ hơn và tạo ra rào cản học tập thay vì sự dẫn dắt hữu ích. Chúng tôi đề xuất Reverse Speculative Decoding (RSD), một cơ chế tạo ra các dấu vết suy luận thân thiện với mô hình học sinh, trong đó mô hình giáo viên đề xuất các token ứng viên nhưng mô hình học sinh quyết định chấp nhận dựa trên phân phối xác suất của chính nó, qua đó lọc bỏ các token có xác suất thấp. Khi áp dụng cho Qwen3-0.6B, chưng cất trực tiếp dữ liệu dấu vết suy luận s1K-1.1 làm giảm hiệu năng trung bình trên các benchmark suy luận chính xuống 20.5%, trong khi cùng mô hình đó khi được huấn luyện trên các dấu vết suy luận do RSD tạo ra lại đạt mức cải thiện đáng kể 4.9%. Phân tích của chúng tôi cho thấy các token có xác suất thấp chính là nút thắt cổ chai quan trọng trong việc chuyển giao năng lực suy luận. Tuy nhiên, các thí nghiệm liên mô hình cho thấy các dấu vết RSD mang tính đặc thù theo mô hình chứ không thể áp dụng phổ quát, cho thấy việc căn chỉnh phân phối phải được điều chỉnh theo biểu diễn nội tại riêng của từng kiến trúc học sinh.
> Việc chuyển giao năng lực suy luận từ các mô hình ngôn ngữ lớn sang các mô hình nhỏ hơn thông qua supervised fine-tuning thường thất bại một cách trái với trực giác, với hiệu năng suy giảm dù có thể tiếp cận các minh họa từ mô hình giáo viên chất lượng cao. Chúng tôi xác định rằng thất bại này bắt nguồn từ sự lệch phân phối: các dấu vết suy luận từ mô hình lớn hơn chứa những token có xác suất thấp dưới phân phối của mô hình học sinh, vượt quá năng lực biểu diễn nội tại của các kiến trúc nhỏ hơn và tạo ra rào cản học tập thay vì sự dẫn dắt hữu ích. Chúng tôi đề xuất Reverse Speculative Decoding (RSD), một cơ chế tạo ra các dấu vết suy luận thân thiện với mô hình học sinh, trong đó mô hình giáo viên đề xuất các token ứng viên nhưng mô hình học sinh quyết định chấp nhận dựa trên phân phối xác suất của chính nó, qua đó lọc bỏ các token có xác suất thấp. Khi áp dụng cho Qwen3-0.6B, chưng cất trực tiếp dữ liệu dấu vết suy luận s1K-1.1 làm giảm hiệu năng trung bình trên các benchmark suy luận chính xuống 20.5%, trong khi cùng mô hình đó khi được huấn luyện trên các dấu vết suy luận do RSD tạo ra lại đạt mức cải thiện đáng kể 4.9%. Phân tích của chúng tôi cho thấy các token có xác suất thấp chính là nút thắt cổ chai quan trọng trong việc chuyển giao năng lực suy luận. Tuy nhiên, các thí nghiệm liên mô hình cho thấy các dấu vết RSD mang tính đặc thù theo mô hình chứ không thể áp dụng phổ quát, cho thấy việc căn chỉnh phân phối phải được điều chỉnh theo biểu diễn nội tại riêng của từng kiến trúc học sinh.
Liên kết bài báo
https://arxiv.org/abs/2509.22230
AgentMaster: Khung hội thoại đa tác nhân sử dụng các giao thức A2A và MCP cho truy xuất và phân tích thông tin đa phương thức / AgentMaster: A Multi-Agent Conversational Framework Using A2A and MCP Protocols for Multimodal Information Retrieval and Analysis
Giới thiệu bài báo
Trong lĩnh vực trí tuệ nhân tạo (AI), sự phát triển của Multi-Agent Systems (MAS) đang đóng vai trò quan trọng trong việc giúp nhiều tác nhân thông minh hợp tác để giải quyết các vấn đề phức tạp. Tuy nhiên, các MAS hiện tại đang đối mặt với nhiều thách thức trong giao tiếp liền mạch giữa các tác nhân, điều phối, cũng như tương tác với nhiều công cụ và tài nguyên khác nhau. Để giải quyết các vấn đề này, nghiên cứu này đề xuất một khung MAS mô-đun mới mang tên AgentMaster. Khung này tích hợp giao thức giao tiếp Agent-to-Agent (A2A) và Model Context Protocol (MCP) để cho phép điều phối động và giao tiếp linh hoạt.
AgentMaster cung cấp một giao diện hội thoại tích hợp được thiết kế để người dùng có thể tương tác với hệ thống bằng ngôn ngữ tự nhiên mà không cần kiến thức chuyên môn kỹ thuật. Nhờ đó, hệ thống hỗ trợ phản hồi cho nhiều truy vấn đa phương thức khác nhau như truy xuất thông tin, hỏi đáp và phân tích hình ảnh. Đóng góp cốt lõi của nghiên cứu này là sử dụng A2A và MCP để cho phép điều phối hiệu quả giữa các tác nhân và giao tiếp liền mạch giữa các tác nhân truy xuất chuyên biệt. Ngoài ra, AgentMaster còn phân rã truy vấn của người dùng thành các workflow chuyên biệt, qua đó hỗ trợ phân rã truy vấn tự động, phân công tác vụ và định tuyến động.
Kết quả thực nghiệm cho thấy AgentMaster đạt hiệu quả cao với 96.3% trên BERTScore F1 và 87.1% trên LLM-as-a-Judge G-Eval. Những kết quả này chứng minh khả năng điều phối tự động mạnh mẽ giữa các tác nhân và các phản hồi liên quan theo từng miền cụ thể, góp phần mở rộng tiềm năng của MAS. Nghiên cứu này cho thấy tính đổi mới của một khung MAS tích hợp A2A và MCP, và được kỳ vọng sẽ đóng góp quan trọng vào sự phát triển của AI hội thoại mang tính hợp tác và có khả năng mở rộng.
Tóm tắt(Abstract)
Sự trỗi dậy của các hệ thống đa tác tử (MAS) khi được tích hợp với các mô hình ngôn ngữ lớn (LLM) đã giúp việc giải quyết các tác vụ phức tạp trở nên dễ dàng hơn đáng kể. Tuy nhiên, các hệ thống hiện tại vẫn đang gặp khó khăn trong giao tiếp, điều phối giữa các tác tử và tương tác với các công cụ, tài nguyên không đồng nhất. Gần đây, giao thức Model Context Protocol (MCP) của Anthropic và giao thức giao tiếp Agent-to-Agent (A2A) của Google đã được giới thiệu, và theo hiểu biết của chúng tôi, vẫn còn rất ít trường hợp cả hai giao thức được sử dụng đồng thời trong một khung MAS duy nhất. Chúng tôi trình bày một nghiên cứu thí điểm về AgentMaster, một khung MAS đa giao thức dạng mô-đun mới với A2A và MCP do nhóm tự triển khai, cho phép điều phối động, giao tiếp linh hoạt và lặp nhanh. Thông qua giao diện hội thoại hợp nhất, hệ thống hỗ trợ tương tác ngôn ngữ tự nhiên mà không cần chuyên môn kỹ thuật trước đó, đồng thời phản hồi các truy vấn đa phương thức cho những tác vụ như truy xuất thông tin, trả lời câu hỏi và phân tích hình ảnh. Các thí nghiệm được kiểm chứng bằng cả đánh giá của con người lẫn các chỉ số định lượng, bao gồm BERTScore F1 (96.3%) và LLM-as-a-Judge G-Eval (87.1%). Những kết quả này cho thấy khả năng điều phối tự động mạnh mẽ giữa các tác tử, phân rã truy vấn, phân bổ tác vụ, định tuyến động và tạo phản hồi phù hợp theo từng miền. Nhìn chung, khung mà chúng tôi đề xuất góp phần mở rộng tiềm năng của AI hội thoại theo miền, có tính hợp tác và khả năng mở rộng, được vận hành bởi MAS.
> Sự trỗi dậy của các hệ thống đa tác tử (MAS) trong Trí tuệ nhân tạo (AI), đặc biệt khi được tích hợp với các mô hình ngôn ngữ lớn (LLM), đã thúc đẩy mạnh mẽ việc giải quyết các tác vụ phức tạp. Tuy nhiên, các hệ thống hiện nay vẫn đang đối mặt với những thách thức về giao tiếp giữa các tác tử, điều phối và tương tác với các công cụ và tài nguyên không đồng nhất. Gần đây, Model Context Protocol (MCP) của Anthropic và giao thức giao tiếp Agent-to-Agent (A2A) của Google đã được giới thiệu, và theo hiểu biết tốt nhất của chúng tôi, có rất ít ứng dụng mà cả hai giao thức được sử dụng trong cùng một khung MAS. Chúng tôi trình bày một nghiên cứu thí điểm về AgentMaster, một khung MAS đa giao thức dạng mô-đun mới với A2A và MCP do nhóm tự triển khai, cho phép điều phối động, giao tiếp linh hoạt và phát triển nhanh với tốc độ lặp nhanh hơn. Thông qua một giao diện hội thoại thống nhất, hệ thống hỗ trợ tương tác ngôn ngữ tự nhiên mà không cần kiến thức kỹ thuật trước đó và phản hồi các truy vấn đa phương thức cho các tác vụ bao gồm truy xuất thông tin, trả lời câu hỏi và phân tích hình ảnh. Các thí nghiệm được xác thực thông qua cả đánh giá của con người và các chỉ số định lượng, bao gồm BERTScore F1 (96.3%) và LLM-as-a-Judge G-Eval (87.1%). Những kết quả này cho thấy khả năng điều phối tự động mạnh mẽ giữa các tác tử, phân rã truy vấn, phân bổ tác vụ, định tuyến động và phản hồi phù hợp theo từng miền. Nhìn chung, khung được đề xuất của chúng tôi đóng góp vào tiềm năng của AI hội thoại theo miền, có tính hợp tác và khả năng mở rộng, được thúc đẩy bởi MAS.
Liên kết bài báo
https://arxiv.org/abs/2507.21105
Phương pháp truyền tri thức hiệu quả: Định luật tỷ lệ truyền tri thức cho tiền huấn luyện mô hình ngôn ngữ lớn / How to inject knowledge efficiently? Knowledge Infusion Scaling Law for Pre-training Large Language Models
Giới thiệu bài báo
Các mô hình ngôn ngữ lớn (LLM) thể hiện hiệu năng vượt trội trên nhiều tác vụ, nhưng khi thiếu tối ưu hóa chuyên biệt theo miền, chúng có thể cho kết quả kém trên các benchmark tri thức chuyên môn và gây ra hiện tượng ảo giác (hallucination). Nghiên cứu này đề xuất một phương pháp luận nhằm truyền tri thức miền một cách chiến lược trong quá trình tiền huấn luyện (pre-training), đồng thời tập trung vào hiện tượng sụp đổ ký ức (memory collapse) phát sinh trong quá trình này. Sụp đổ ký ức xảy ra do truyền tri thức quá mức, làm suy giảm mạnh khả năng duy trì tri thức của mô hình. Nhóm nghiên cứu đã rút ra hai quan sát chính. Thứ nhất, mỗi mô hình đều có một ngưỡng mà tại đó khả năng duy trì tri thức giảm mạnh; thứ hai, các điểm sụp đổ này tỷ lệ nhất quán theo kích thước mô hình.
Dựa trên những hiểu biết này, nghiên cứu đề xuất định luật tỷ lệ truyền tri thức (knowledge infusion scaling law). Định luật này giúp dự đoán lượng tri thức miền tối ưu cần truyền vào các LLM quy mô lớn, và hiệu quả cùng tính tổng quát của nó đã được kiểm chứng thông qua các thí nghiệm về ngân sách token liên quan đến nhiều kích thước mô hình khác nhau. Đặc biệt, nghiên cứu cho thấy hiện tượng sụp đổ ký ức phát sinh do truyền tri thức quá mức, qua đó gợi ý rằng truyền tri thức thưa ở mức token là đã đủ ngay cả với các tập dữ liệu quy mô lớn.
Nghiên cứu cũng đánh giá hiệu năng duy trì ký ức theo nhiều kích thước tập dữ liệu huấn luyện và tần suất truyền khác nhau, đồng thời phát hiện rằng các mô hình lớn có thể đạt trạng thái bão hòa chỉ với một lượng tri thức nhỏ. Những kết quả này mang lại các góc nhìn quan trọng cho việc chuyên biệt hóa theo miền và tối ưu hóa LLM, đồng thời được kỳ vọng sẽ đóng góp vào việc thiết kế các chiến lược truyền tri thức trong các nghiên cứu tương lai. Nghiên cứu này tập trung vào việc đánh giá hiệu quả truyền tri thức cho các mô hình ngôn ngữ lớn, đề xuất phương pháp luận để đánh giá khả năng duy trì ký ức và dự đoán điểm sụp đổ, cũng như phân tích tác động của nhiều mẫu template khác nhau.
Tóm tắt bài báo (Abstract)
Các mô hình ngôn ngữ lớn (LLM) đã thu hút sự chú ý đáng kể nhờ năng lực tổng quát ấn tượng trên nhiều tác vụ hạ nguồn khác nhau. Tuy nhiên, nếu không được tối ưu hóa theo miền, chúng thường cho kết quả kém trên các bộ chuẩn kiến thức chuyên biệt và thậm chí còn tạo ra hiện tượng ảo giác. Các nghiên cứu gần đây cho thấy việc đưa kiến thức theo miền vào một cách chiến lược trong giai đoạn tiền huấn luyện có thể cải thiện đáng kể hiệu năng ở các tác vụ hạ nguồn. Thách thức quan trọng là cân bằng lượng kiến thức được đưa vào này: nếu bổ sung quá ít dữ liệu đặc thù miền thì mức độ chuyên biệt hóa sẽ không đủ, còn nếu bổ sung quá mức thì sẽ dẫn đến hiện tượng quên thảm khốc đối với kiến thức đã học trước đó. Nghiên cứu này tập trung vào hiện tượng sụp đổ trí nhớ do đưa vào quá mức. Thông qua các thí nghiệm có hệ thống, chúng tôi rút ra hai quan sát chính. Thứ nhất, điểm sụp đổ tới hạn: mỗi mô hình đều có một ngưỡng mà vượt qua đó khả năng duy trì kiến thức suy giảm mạnh. Thứ hai, tương quan theo quy mô: các điểm sụp đổ này tỷ lệ nhất quán với kích thước của mô hình. Dựa trên những hiểu biết này, chúng tôi đề xuất một định luật tỷ lệ cho việc đưa kiến thức vào, giúp dự đoán lượng kiến thức theo miền tối ưu cần bổ sung vào các LLM lớn bằng cách phân tích các mô hình nhỏ hơn. Các thí nghiệm diện rộng trên nhiều kích thước mô hình và ngân sách token tương ứng đã xác thực cả tính hiệu quả lẫn khả năng khái quát của định luật tỷ lệ mà chúng tôi đề xuất.
> Large language models (LLMs) have attracted significant attention due to their impressive general capabilities across diverse downstream tasks. However, without domain-specific optimization, they often underperform on specialized knowledge benchmarks and even produce hallucination. Recent studies show that strategically infusing domain knowledge during pretraining can substantially improve downstream performance. A critical challenge lies in balancing this infusion trade-off: injecting too little domain-specific data yields insufficient specialization, whereas excessive infusion triggers catastrophic forgetting of previously acquired knowledge. In this work, we focus on the phenomenon of memory collapse induced by over-infusion. Through systematic experiments, we make two key observations, i.e. 1) Critical collapse point: each model exhibits a threshold beyond which its knowledge retention capabilities sharply degrade. 2) Scale correlation: these collapse points scale consistently with the model's size. Building on these insights, we propose a knowledge infusion scaling law that predicts the optimal amount of domain knowledge to inject into large LLMs by analyzing their smaller counterparts. Extensive experiments across different model sizes and pertaining token budgets validate both the effectiveness and generalizability of our scaling law.
Liên kết bài báo
https://arxiv.org/abs/2509.19371
Bifrost-1: Kết nối MLLM và mô hình khuếch tán bằng biến tiềm ẩn CLIP ở cấp độ patch / Bifrost-1: Bridging Multimodal LLMs and Diffusion Models with Patch-level CLIP Latents
Giới thiệu bài báo
Bifrost-1 đề xuất một framework đột phá kết nối mô hình ngôn ngữ lớn đa phương thức (MLLM) được tiền huấn luyện sẵn với mô hình khuếch tán thông qua embedding hình ảnh CLIP (Contrastive Language-Image Pretraining) ở cấp độ patch. Các phương pháp trước đây gặp phải chi phí huấn luyện cao và vấn đề hiệu quả do LLM chưa từng trải nghiệm biểu diễn hình ảnh trong quá trình tiền huấn luyện. Để giải quyết vấn đề này, Bifrost-1 tận dụng embedding hình ảnh cấp độ patch được căn chỉnh tự nhiên với bộ mã hóa thị giác CLIP của MLLM và tích hợp chúng vào mô hình khuếch tán. Trong quá trình này, thông qua một bản thích nghi gọn nhẹ của ControlNet, mô hình vừa giữ được năng lực suy luận đa phương thức ban đầu của MLLM, vừa bổ sung một nhánh sinh ảnh để dự đoán embedding hình ảnh ở cấp độ patch.
Đổi mới cốt lõi của Bifrost-1 là cho phép kết nối hiệu quả giữa MLLM và mô hình khuếch tán bằng cách sử dụng biến tiềm ẩn CLIP ở cấp độ patch. Nhờ đó, mô hình hiện thực hóa việc sinh ảnh có thể kiểm soát với độ trung thực cao, đồng thời cải thiện đáng kể hiệu quả huấn luyện. Kết quả thực nghiệm cho thấy Bifrost-1 đạt hiệu năng tương đương hoặc tốt hơn các phương pháp trước đó về độ trung thực thị giác và khả năng hiểu đa phương thức, đồng thời giảm mạnh chi phí tính toán trong quá trình huấn luyện.
Ngoài ra, thông qua các nghiên cứu ablation toàn diện, nhóm tác giả đã chứng minh các lựa chọn thiết kế của Bifrost-1 là hiệu quả. Những nghiên cứu này nhấn mạnh tầm quan trọng của xử lý thông tin đa phương thức và sẽ góp phần xây dựng các hệ thống AI tiên tiến hơn thông qua việc tích hợp giữa LLM và mô hình khuếch tán. Bifrost-1 đặt ra một chuẩn mực mới cho sinh và hiểu đa phương thức, và được kỳ vọng sẽ trở thành một cột mốc quan trọng cho các nghiên cứu trong tương lai.
Tóm tắt(Abstract)
Ngày càng có nhiều quan tâm đến việc tích hợp khả năng tổng hợp hình ảnh độ trung thực cao vào các mô hình ngôn ngữ lớn (LLM) theo cách không làm suy giảm năng lực suy luận mạnh mẽ của chúng. Các phương pháp hiện có thường huấn luyện trực tiếp LLM hoặc cố gắng kết nối giữa LLM và mô hình khuếch tán (diffusion model), nhưng gặp phải bài toán huấn luyện tốn kém vì backbone LLM không được tiếp xúc với biểu diễn hình ảnh trong giai đoạn tiền huấn luyện (pretraining). Chúng tôi đề xuất Bifrost-1, một khung hợp nhất kết nối mô hình ngôn ngữ lớn đa phương thức (MLLM) đã được tiền huấn luyện với mô hình khuếch tán bằng cách sử dụng embedding hình ảnh CLIP ở mức patch làm biến tiềm ẩn. Các embedding hình ảnh ở mức patch này vốn đã được căn chỉnh tự nhiên với bộ mã hóa thị giác CLIP của MLLM. Những embedding hình ảnh mức patch này được tích hợp vào mô hình khuếch tán thông qua một bản thích nghi nhẹ của ControlNet. Để duy trì năng lực suy luận đa phương thức ban đầu của MLLM, chúng tôi gắn vào MLLM một nhánh tạo sinh thị giác được khởi tạo từ các tham số MLLM gốc khi dự đoán các embedding hình ảnh mức patch. Bằng cách tích hợp liền mạch MLLM đã tiền huấn luyện và mô hình khuếch tán bằng các biến tiềm ẩn CLIP ở mức patch, khung của chúng tôi cho phép tạo ảnh có thể điều khiển với độ trung thực cao, đồng thời cải thiện đáng kể hiệu quả huấn luyện. Kết quả thực nghiệm cho thấy Bifrost-1 đạt hiệu năng tương đương hoặc tốt hơn các phương pháp trước đó về độ trung thực thị giác và khả năng hiểu đa phương thức, đồng thời giảm đáng kể chi phí tính toán trong quá trình huấn luyện. Chúng tôi cũng cung cấp các nghiên cứu loại bỏ (ablation studies) toàn diện để chứng minh hiệu quả của các lựa chọn thiết kế.
> There is growing interest in integrating high-fidelity visual synthesis capabilities into large language models (LLMs) without compromising their strong reasoning capabilities. Existing methods that directly train LLMs or bridge LLMs and diffusion models usually suffer from costly training since the backbone LLMs have not seen image representations during pretraining. We present Bifrost-1, a unified framework that bridges pretrained multimodal LLMs (MLLMs) and diffusion models using patch-level CLIP image embeddings as latent variables, which are natively aligned with the MLLM's CLIP visual encoder. These patch-level image embeddings are integrated into the diffusion model with a lightweight adaptation of its ControlNet. To retain the original multimodal reasoning capabilities of MLLMs, we equip the MLLM with a visual generation branch initialized from the original MLLM parameters when predicting the patch-level image embeddings. By seamlessly integrating pretrained MLLMs and diffusion models with patch-level CLIP latents, our framework enables high-fidelity controllable image generation with significant training efficiency. Our experiments demonstrate that Bifrost-1 achieves comparable or better performance than previous methods in terms of visual fidelity and multimodal understanding, with substantially lower compute during training. We also provide comprehensive ablation studies showing the effectiveness of our design choices.
Liên kết bài báo
https://arxiv.org/abs/2508.05954
Đọc thêm
Học liên tục cho VLM: Khảo sát và phân loại vượt ra ngoài quên lãng / Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting
Giới thiệu bài báo
Các mô hình thị giác-ngôn ngữ (Vision-Language Models, VLM) cho thấy hiệu năng vượt trội trên nhiều tác vụ đa phương thức nhờ tiền huấn luyện quy mô lớn, nhưng vẫn tồn tại nhiều thách thức khi liên tục học từ dữ liệu không dừng. Vấn đề này đặc biệt nổi bật vì căn chỉnh xuyên phương thức và khả năng khái quát hóa rất dễ bị tổn hại bởi hiện tượng quên thảm khốc. Học liên tục cho VLM (VLM-CL) mang những bài toán riêng khác với học liên tục đơn phương thức truyền thống, và bài báo này xác định ba chế độ thất bại chính của VLM-CL, đồng thời đề xuất một hệ phân loại dựa trên thách thức để giải quyết chúng.
Hệ phân loại được đề xuất bao gồm: (1) chiến lược replay đa phương thức, (2) chuẩn hóa xuyên phương thức, và (3) thích nghi hiệu quả về tham số. Chiến lược replay đa phương thức góp phần giảm lệch trôi đặc trưng xuyên phương thức bằng cách phát lại thông tin từ các tác vụ trước đó, trong khi chuẩn hóa xuyên phương thức tập trung vào việc duy trì căn chỉnh giữa các modality trong quá trình cập nhật. Thích nghi hiệu quả về tham số là phương pháp cố định các mô hình tiền huấn luyện chủ chốt và chỉ cập nhật một số lượng nhỏ tham số mới nhằm giải quyết vấn đề can nhiễu giữa các mô-đun dùng chung.
Bài báo này cung cấp một tổng quan toàn diện về VLM-CL, đồng thời phân tích các giao thức đánh giá, bộ dữ liệu và chỉ số hiện tại để nhấn mạnh nhu cầu về các benchmark tốt hơn có thể nắm bắt hiện tượng quên đặc thù của VLM và khả năng khái quát hóa tổ hợp. Bài báo cũng đề xuất các hướng nghiên cứu tương lai, bao gồm tiền huấn luyện liên tục và học zero-shot tổ hợp, nhằm trở thành tài liệu tham khảo hữu ích cho các nhà nghiên cứu trong việc phát triển các hệ thống thị giác-ngôn ngữ học tập suốt đời. Cách tiếp cận có hệ thống và mang tính chẩn đoán này sẽ góp phần thúc đẩy đổi mới trong lĩnh vực học liên tục cho VLM, đồng thời đặt nền tảng cho việc xây dựng các hệ thống AI đa phương thức học tập suốt đời thực sự.
Tóm tắt bài báo (Abstract)
Các mô hình thị giác-ngôn ngữ (VLM) đã đạt được hiệu năng ấn tượng trên nhiều tác vụ đa phương thức nhờ tận dụng tiền huấn luyện quy mô lớn. Tuy nhiên, việc giúp chúng có thể liên tục học từ dữ liệu phi tĩnh vẫn là một thách thức lớn, vì khả năng căn chỉnh liên phương thức và khái quát hóa của chúng đặc biệt dễ bị ảnh hưởng bởi hiện tượng quên thảm khốc. Khác với học liên tục (CL) đơn phương thức truyền thống, VLM phải đối mặt với những thách thức riêng như trôi đặc trưng liên phương thức, nhiễu tham số do kiến trúc dùng chung và suy giảm năng lực zero-shot. Bài báo khảo sát này cung cấp bản tổng quan có hệ thống và tập trung đầu tiên về học liên tục cho VLM (VLM-CL). Trước tiên, chúng tôi xác định ba dạng lỗi cốt lõi có thể làm suy giảm hiệu năng trong VLM-CL. Dựa trên đó, chúng tôi đề xuất một hệ phân loại theo thách thức để giải quyết vấn đề: (1) \textit{các chiến lược phát lại đa phương thức} xử lý hiện tượng trôi liên phương thức thông qua các cơ chế bộ nhớ tường minh hoặc hàm ẩn; (2) \textit{chuẩn hóa liên phương thức} duy trì sự căn chỉnh giữa các phương thức trong quá trình cập nhật; (3) \textit{thích ứng hiệu quả tham số} giảm nhiễu tham số thông qua các cập nhật mô-đun hoặc hạng thấp. Chúng tôi cũng phân tích thêm các giao thức đánh giá, bộ dữ liệu và thước đo hiện tại, đồng thời nhấn mạnh nhu cầu về các benchmark tốt hơn có thể nắm bắt hiện tượng quên đặc thù của VLM và khả năng khái quát hóa theo tổ hợp. Cuối cùng, chúng tôi trình bày các bài toán mở và định hướng tương lai, bao gồm tiền huấn luyện liên tục và học zero-shot theo tổ hợp. Bài khảo sát này hướng tới việc trở thành một tài liệu tham khảo toàn diện và có tính chẩn đoán cho các nhà nghiên cứu đang phát triển các hệ thống thị giác-ngôn ngữ học suốt đời. Mọi tài nguyên đều có tại liên kết sau: https://github.com/YuyangSunshine/….
> Các mô hình thị giác-ngôn ngữ (VLM) đã đạt được hiệu năng ấn tượng trên nhiều tác vụ đa phương thức nhờ tận dụng tiền huấn luyện quy mô lớn. Tuy nhiên, việc giúp chúng có thể liên tục học từ dữ liệu phi tĩnh vẫn là một thách thức lớn, vì khả năng căn chỉnh liên phương thức và khái quát hóa của chúng đặc biệt dễ bị ảnh hưởng bởi hiện tượng quên thảm khốc. Khác với học liên tục (CL) đơn phương thức truyền thống, VLM phải đối mặt với những thách thức riêng như trôi đặc trưng liên phương thức, nhiễu tham số do kiến trúc dùng chung và suy giảm năng lực zero-shot. Bài khảo sát này mang đến bản tổng quan có hệ thống và tập trung đầu tiên về học liên tục cho VLM (VLM-CL). Trước tiên, chúng tôi xác định ba dạng lỗi cốt lõi làm suy giảm hiệu năng trong VLM-CL. Dựa trên đó, chúng tôi đề xuất một hệ phân loại theo thách thức, ánh xạ các lời giải tới đúng vấn đề mục tiêu của chúng: (1) \textit{Multi-Modal Replay Strategies} xử lý hiện tượng trôi liên phương thức thông qua các cơ chế bộ nhớ tường minh hoặc hàm ẩn; (2) \textit{Cross-Modal Regularization} duy trì sự căn chỉnh giữa các phương thức trong quá trình cập nhật; và (3) \textit{Parameter-Efficient Adaptation} giảm nhiễu tham số bằng các cập nhật mô-đun hoặc hạng thấp. Chúng tôi cũng phân tích thêm các giao thức đánh giá, bộ dữ liệu và thước đo hiện tại, đồng thời nhấn mạnh nhu cầu về các benchmark tốt hơn có thể nắm bắt hiện tượng quên đặc thù của VLM và khả năng khái quát hóa theo tổ hợp. Cuối cùng, chúng tôi phác thảo các bài toán mở và định hướng tương lai, bao gồm tiền huấn luyện liên tục và học zero-shot theo tổ hợp. Bài khảo sát này hướng tới việc trở thành một tài liệu tham khảo toàn diện và có tính chẩn đoán cho các nhà nghiên cứu đang phát triển các hệ thống thị giác-ngôn ngữ học suốt đời. Mọi tài nguyên đều có tại: https://github.com/YuyangSunshine/….
Link bài báo
https://arxiv.org/abs/2508.04227
Đọc thêm
https://github.com/YuyangSunshine/…
Liên bang tác tử: Kiến trúc truyền thông nhận biết ngữ nghĩa cho AI tác tử quy mô lớn / Federation of Agents: A Semantics-Aware Communication Fabric for Large-Scale Agentic AI
Giới thiệu bài báo
Federation of Agents (FoA) là một khung điều phối phân tán mang tính đột phá, chuyển điều phối đa tác tử tĩnh thành sự cộng tác động dựa trên năng lực. Hệ thống này giới thiệu Versioned Capability Vectors (VCVs), chuyển đổi năng lực của tác tử thành các hồ sơ mà máy có thể đọc được, cho phép tác tử quảng bá hiệu quả năng lực, chi phí và giới hạn của mình. Kiến trúc của FoA bao gồm ba đổi mới chính. Thứ nhất, thông qua định tuyến ngữ nghĩa (semantic routing), hệ thống ghép tác vụ với tác tử bằng cách sử dụng chỉ mục HNSW được phân mảnh, đồng thời thực hiện tối ưu hóa lệch chi phí trong khi vẫn tuân thủ các ràng buộc vận hành. Thứ hai, thông qua kỹ thuật phân rã tác vụ động (dynamic task decomposition), các tác tử tương thích có thể phân rã các tác vụ phức tạp thành các tác vụ con dưới dạng DAG (Directed Acyclic Graph) và cùng phối hợp thực hiện công việc thông qua cơ chế hợp nhất dựa trên đồng thuận. Thứ ba, thông qua kỹ thuật phân cụm thông minh (smart clustering), hệ thống nhóm các tác tử thực hiện những tác vụ con tương tự vào các kênh cộng tác và tiếp tục tinh chỉnh công việc qua k vòng lặp.
FoA hỗ trợ truyền thông điệp có khả năng mở rộng dựa trên ngữ nghĩa publish-subscribe của MQTT, đồng thời đạt được độ phức tạp dưới tuyến tính thông qua đối sánh năng lực phân cấp và quản lý duy trì chỉ mục hiệu quả. Kết quả đánh giá trên HealthBench cho thấy FoA cải thiện hiệu năng gấp 13 lần so với đường cơ sở mô hình đơn, đặc biệt chứng minh rằng cộng tác tăng cường bằng phân cụm rất hiệu quả đối với các tác vụ suy luận phức tạp đòi hỏi nhiều góc nhìn. Hệ thống này có thể mở rộng theo chiều ngang trong khi vẫn duy trì hiệu năng ổn định, qua đó cho thấy điều phối ngữ nghĩa thông qua cộng tác có cấu trúc có thể khai thác hiệu quả trí tuệ tập thể của một liên bang các tác tử AI dị thể. Nghiên cứu này được kỳ vọng sẽ góp phần thúc đẩy sự phát triển của lĩnh vực AI bằng cách tối đa hóa hiệu quả của các hệ thống đa tác tử và đề xuất phương pháp luận giúp xử lý các tác vụ phức tạp hiệu quả hơn.
Tóm tắt(Abstract)
Sau đây là phần tóm tắt của một bài báo trong lĩnh vực AI/ML. Chúng tôi giới thiệu Federation of Agents (FoA), một khung điều phối phân tán chuyển đổi sự phối hợp đa tác tử tĩnh thành cộng tác động dựa trên năng lực. FoA giới thiệu Versioned Capability Vectors (VCV), các hồ sơ có thể được máy đọc giúp khả năng của tác tử có thể được tìm kiếm thông qua semantic embedding, cho phép các tác tử công bố năng lực, chi phí và giới hạn của mình. Kiến trúc của chúng tôi kết hợp ba đổi mới chính: (1) semantic routing khớp tác vụ với tác tử trên các chỉ mục HNSW phân mảnh đồng thời áp đặt các ràng buộc vận hành thông qua tối ưu hóa thiên lệch chi phí, (2) dynamic task decomposition trong đó các tác tử tương thích cùng nhau phân rã các tác vụ phức tạp thành các DAG của tác vụ con thông qua hợp nhất dựa trên đồng thuận, và (3) smart clustering nhóm các tác tử đang xử lý các tác vụ con tương tự vào các kênh cộng tác để tinh chỉnh qua k vòng trước khi tổng hợp. Được xây dựng trên ngữ nghĩa publish-subscribe của MQTT, FoA đạt được độ phức tạp dưới tuyến tính thông qua khớp năng lực phân cấp và quản lý duy trì chỉ mục hiệu quả. Kết quả đánh giá trên HealthBench cho thấy cải thiện gấp 13 lần so với các đường cơ sở một mô hình, đồng thời chứng minh rằng cộng tác tăng cường bằng phân cụm đặc biệt hiệu quả với các tác vụ suy luận phức tạp đòi hỏi nhiều góc nhìn. Hệ thống mở rộng theo chiều ngang trong khi vẫn duy trì hiệu năng nhất quán, cho thấy điều phối ngữ nghĩa với cộng tác có cấu trúc có thể khai mở trí tuệ tập thể của các liên minh tác tử AI dị thể.
> Chúng tôi giới thiệu Federation of Agents (FoA), một khung điều phối phân tán chuyển đổi sự phối hợp đa tác tử tĩnh thành cộng tác động dựa trên năng lực. FoA giới thiệu Versioned Capability Vectors (VCV): các hồ sơ có thể được máy đọc giúp khả năng của tác tử có thể được tìm kiếm thông qua semantic embedding, cho phép tác tử công bố năng lực, chi phí và giới hạn của mình. Kiến trúc của chúng tôi kết hợp ba đổi mới chính: (1) semantic routing khớp tác vụ với tác tử trên các chỉ mục HNSW phân mảnh đồng thời áp đặt các ràng buộc vận hành thông qua tối ưu hóa thiên lệch chi phí, (2) dynamic task decomposition trong đó các tác tử tương thích cùng nhau phân rã các tác vụ phức tạp thành DAG các tác vụ con thông qua hợp nhất dựa trên đồng thuận, và (3) smart clustering nhóm các tác tử đang xử lý các tác vụ con tương tự vào các kênh cộng tác để tinh chỉnh qua k vòng trước khi tổng hợp. Được xây dựng trên ngữ nghĩa publish-subscribe của MQTT cho truyền thông điệp có khả năng mở rộng, FoA đạt được độ phức tạp dưới tuyến tính thông qua khớp năng lực phân cấp và quản lý chỉ mục hiệu quả. Đánh giá trên HealthBench cho thấy mức cải thiện gấp 13 lần so với các đường cơ sở một mô hình, với cộng tác tăng cường bằng phân cụm đặc biệt hiệu quả cho các tác vụ suy luận phức tạp đòi hỏi nhiều góc nhìn. Hệ thống mở rộng theo chiều ngang trong khi vẫn duy trì hiệu năng nhất quán, cho thấy điều phối ngữ nghĩa với cộng tác có cấu trúc có thể khai mở trí tuệ tập thể của các liên minh tác tử AI dị thể.
Liên kết bài báo
https://arxiv.org/abs/2509.20175
Khảo sát các cơ chế attention hiệu quả cho mô hình ngôn ngữ lớn / Efficient Attention Mechanisms for Large Language Models: A Survey
Giới thiệu bài báo
Kiến trúc dựa trên Transformer là cốt lõi của các mô hình ngôn ngữ lớn, nhưng độ phức tạp thời gian và bộ nhớ bậc hai của self-attention là một ràng buộc lớn đối với việc xử lý ngữ cảnh dài. Để giải quyết vấn đề này, các nghiên cứu gần đây đã đề xuất hai nhóm kỹ thuật attention hiệu quả chính: linear attention sử dụng xấp xỉ kernel, cấu trúc hồi quy và động lực fast-weight; và sparse attention thông qua mẫu cố định, định tuyến theo khối và phân cụm. Bài báo khảo sát này hệ thống hóa các phương pháp đó bằng cách tích hợp cả đổi mới thuật toán lẫn góc nhìn phần cứng, đồng thời phân tích nhiều cách thiết kế khác nhau của các mô hình ngôn ngữ tiền huấn luyện quy mô lớn có áp dụng attention hiệu quả. Qua đó, bài báo cung cấp tài liệu nền tảng kết nối lý thuyết và chiến lược thực tiễn cho việc thiết kế các mô hình ngôn ngữ có khả năng mở rộng và hiệu quả.
Tóm tắt bài báo (Abstract)
Các kiến trúc dựa trên Transformer đã trở thành backbone chủ đạo của các mô hình ngôn ngữ lớn. Tuy nhiên, độ phức tạp bậc hai về thời gian và bộ nhớ của self-attention vẫn là một trở ngại căn bản đối với việc mô hình hóa ngữ cảnh dài một cách hiệu quả. Để giải quyết hạn chế này, các nghiên cứu gần đây đã đề xuất hai nhóm cơ chế attention hiệu quả chính. Các phương pháp linear attention đạt được độ phức tạp tuyến tính thông qua xấp xỉ kernel, công thức hồi quy hoặc fastweight dynamics, qua đó cho phép suy luận có khả năng mở rộng với chi phí tính toán thấp hơn. Ngược lại, các kỹ thuật sparse attention giới hạn việc tính toán attention chỉ trên các tập con token được chọn dựa trên các mẫu cố định, định tuyến theo khối hoặc chiến lược phân cụm, giúp tăng hiệu quả trong khi vẫn giữ được phạm vi ngữ cảnh. Bài báo khảo sát này cung cấp một cái nhìn tổng quan có hệ thống và toàn diện về những tiến bộ đó, tích hợp cả các đổi mới ở cấp độ thuật toán lẫn các cân nhắc ở cấp độ phần cứng. Ngoài ra, bài viết còn phân tích việc tích hợp attention hiệu quả vào các mô hình ngôn ngữ tiền huấn luyện quy mô lớn, bao gồm cả các kiến trúc được xây dựng hoàn toàn trên attention hiệu quả và các thiết kế lai kết hợp các thành phần local và global. Bằng cách gắn kết nền tảng lý thuyết với các chiến lược triển khai thực tiễn, công trình này hướng tới việc trở thành một tài liệu tham khảo nền tảng cho việc thúc đẩy thiết kế các mô hình ngôn ngữ có khả năng mở rộng và hiệu quả.
> Transformer-based architectures have become the prevailing backbone of large language models. However, the quadratic time and memory complexity of self-attention remains a fundamental obstacle to efficient long-context modeling. To address this limitation, recent research has introduced two principal categories of efficient attention mechanisms. Linear attention methods achieve linear complexity through kernel approximations, recurrent formulations, or fastweight dynamics, thereby enabling scalable inference with reduced computational overhead. Sparse attention techniques, in contrast, limit attention computation to selected subsets of tokens based on fixed patterns, block-wise routing, or clustering strategies, enhancing efficiency while preserving contextual coverage. This survey provides a systematic and comprehensive overview of these developments, integrating both algorithmic innovations and hardware-level considerations. In addition, we analyze the incorporation of efficient attention into largescale pre-trained language models, including both architectures built entirely on efficient attention and hybrid designs that combine local and global components. By aligning theoretical foundations with practical deployment strategies, this work aims to serve as a foundational reference for advancing the design of scalable and efficient language models.
Liên kết bài báo
https://arxiv.org/abs/2507.19595
⚠️Quảng cáo⚠️: Bạn thấy bài viết này do 🔥Cộng đồng người dùng PyTorch Hàn Quốc🇰🇷 tổng hợp có hữu ích không? Nếu đăng ký thành viên, bạn sẽ nhận được các bài viết nổi bật qua email💌! (Mặc định là Weekly, nhưng cũng có thể chuyển sang Daily.)
Chưa có bình luận nào.