ML đáng chú ý trong tuần này

(discuss.pytorch.kr)

13 điểm bởi ninebow 2026-06-09 | 2 bình luận | Chia sẻ qua WhatsApp

PyTorchKR🔥🇰🇷 🤔💭

Nhìn vào 10 bài báo được chọn trong tuần này, có thể thấy xu hướng đang nhanh chóng hội tụ quanh việc quản lý trạng thái của tác nhân dựa trên mô hình ngôn ngữ lớn (LLM), tối ưu hiệu quả suy luận, và tính an toàn cũng như khả năng kiểm chứng trong môi trường thực tế. Đặc biệt, có thể nhận ra những dòng nghiên cứu rất thú vị, từ các thay đổi mang tính cấu trúc để tối đa hóa hiệu quả của tác nhân, đến việc tái thiết kế căn bản kiến trúc transformer, và cả việc bảo đảm độ bền vững để thích nghi với môi trường động trong thế giới thực.

:one: Đổi mới quy trình tác nhân: ngoại hóa trạng thái và nội tại hóa logic suy luận (Internalization) Trong các bài báo tuần này, nổi bật lên hai cách tiếp cận đối lập nhưng bổ sung cho nhau nhằm giải quyết chi phí và nút thắt ngữ cảnh phát sinh khi tác nhân thực hiện các tác vụ phức tạp và dài hạn. Harness-1 và AdaCoM nâng cao tính ổn định cho các tác vụ đường dài bằng cách chuyển bớt gánh nặng ghi nhớ trạng thái hoặc quản lý ngữ cảnh của tác nhân sang môi trường bên ngoài hoặc một mô hình quản lý riêng biệt. Ngược lại, Latent Agents và nghiên cứu nội tại hóa quy trình agentic (Subterranean Agents) đề xuất một phương pháp hậu huấn luyện, trong đó toàn bộ quá trình điều phối bên ngoài hoặc giao tiếp phức tạp giữa nhiều tác nhân được biên dịch trực tiếp vào bên trong trọng số (Weights) của một mô hình đơn lẻ. Nhờ đó, mô hình có thể tự tranh luận hoặc thực hiện suy luận theo quy trình mà không cần phụ thuộc vào prompt hay điều phối bên ngoài, qua đó mở ra hướng đi giúp duy trì hiệu năng ở mức mô hình frontier nhưng đồng thời cắt giảm mạnh chi phí suy luận và lượng token sử dụng.

:two: Tái thiết kế kiến trúc nền tảng: hợp nhất cơ chế attention và tối ưu hóa tham số Nghiên cứu nền tảng nhằm vượt qua sự kém hiệu quả tính toán cốt lõi của transformer và giảm sử dụng bộ nhớ cũng đang là một xu hướng rất mạnh. Bài báo SISA(Forget Attention) đề xuất “hợp nhất ở mức điểm số”, trong đó tín hiệu mức độ quan trọng tuần tự từ mô hình không gian trạng thái (SSM) được bơm trực tiếp vào phép tính điểm attention, nhờ vậy đồng thời đạt được cả khả năng truy xuất toàn cục lẫn đánh giá mức ưu tiên theo thứ tự. Ngoài ra, nghiên cứu về biến thể QKV (Do Transformers Need Three Projections?) đặt câu hỏi với tiêu chuẩn vốn được xem là hiển nhiên trước nay, rằng query, key và value đều phải tách biệt; nghiên cứu này chứng minh bằng thực nghiệm rằng cách chiếu dùng chung key và value (Q-K=V) có thể giảm mạnh KV cache trong khi mức suy giảm hiệu năng là tối thiểu. Những cải tiến cấu trúc ở cấp độ kiến trúc như vậy không chỉ đơn thuần giúp tăng hiệu năng, mà còn mở rộng đáng kể khả năng triển khai thực tế trên các thiết bị edge có bộ nhớ hạn chế hoặc trong môi trường AI on-device.

:three: Thích ứng thời gian thực trong môi trường động và bảo đảm độ bền vững ở cấp hệ thống Vượt ra ngoài việc chỉ tạo ra câu trả lời đúng, các nghiên cứu có khả năng chủ động đối phó với tình huống thay đổi và mối đe dọa, đồng thời làm cho chính hệ thống tiếp tục tiến hóa, đang đặc biệt thu hút chú ý. MOSS mở rộng khái niệm tự tiến hóa vốn trước đây chỉ dừng ở sửa prompt sang mức viết lại mã nguồn, cho phép hệ thống tác nhân tự chữa lành các lỗi cấu trúc của chính mình; còn FuzzingBrain V2 tận dụng đa tác nhân để phát hiện và sửa các lỗ hổng phần mềm thực tế theo cách có thể tái hiện 100%. Bên cạnh đó, AdvGame tiếp cận bài toán căn chỉnh an toàn của mô hình ngôn ngữ như một trò chơi không hợp tác thời gian thực giữa bên tấn công và bên phòng thủ, qua đó tăng cường năng lực phòng vệ động; nghiên cứu Plan, Watch, Recover thì giới thiệu mô hình trợ lý chủ động có thể can thiệp và hướng dẫn theo thời gian thực khi người dùng đi chệch khỏi quy trình đã định. Những kết quả này cho thấy AI đang dần trở thành một hệ thống chủ động và đáng tin cậy, có thể hoạt động ngoài phòng thí nghiệm được kiểm soát, ngay cả giữa những lỗi bất ngờ và mối đe dọa bảo mật trong thế giới thực khó đoán.

Tóm tắt trọng tâm theo từng bài báo

Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses: Đây là tác nhân tìm kiếm dựa trên học tăng cường, trong đó phần harness chứ không phải policy đảm nhiệm gánh nặng ghi nhớ của tác nhân tìm kiếm. Mô hình đạt curated recall trung bình 0.730 trên 8 benchmark, đặc biệt thể hiện năng lực chuyển giao rất mạnh.
Forget Attention: Importance-Aware Attention Is All You Need: Bài báo đề xuất SISA, trong đó tín hiệu mức độ quan trọng của mô hình không gian trạng thái (SSM) được bơm trực tiếp vào điểm attention. Cách làm này có thể triển khai chỉ với một lệnh gọi SDPA duy nhất nhưng vẫn cải thiện đáng kể hiệu năng truy xuất và khả năng khôi phục phụ thuộc dài hạn.
Do Transformers Need Three Projections? Systematic Study of QKV Variants: Đây là nghiên cứu phân tích có hệ thống mức độ có thể chia sẻ phép chiếu QKV. Biến thể Q-K=V gần như giữ nguyên hiệu năng nhưng giảm đáng kể KV cache, và khi kết hợp với GQA/MQA thì hiệu quả tiết kiệm bộ nhớ còn lớn hơn nữa.
Compiling Agentic Workflows into LLM Weights: Bài báo này bàn về cách tiếp cận biên dịch chính quy trình tác vụ vào trọng số mô hình thay vì điều phối bên ngoài. Cách làm đó giúp giảm các lần gọi lặp và tiêu hao ngữ cảnh dài mà vẫn đạt chất lượng ở mức near-frontier.
Learning Agent-Compatible Context Management for Long-Horizon Tasks: Nghiên cứu đề xuất AdaCoM, trong đó một LLM bên ngoài sẽ chỉnh sửa ngữ cảnh một cách động cho một tác nhân cố định. Trong các bài toán tìm kiếm web dài hạn và nghiên cứu, phương pháp này giảm bớt thông tin quá khứ không cần thiết trong khi vẫn giữ được các ràng buộc của nhiệm vụ.
Latent Agents: A Post-Training Procedure for Internalized Multi-Agent Debate: Đây là phương pháp hậu huấn luyện chưng cất tranh luận đa tác nhân vào bên trong một LLM đơn lẻ. Phương pháp này đạt hiệu năng tương đương hoặc tốt hơn explicit debate dù dùng ít token hơn tới 93%.
MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems: Đây là hệ thống tác nhân tự tiến hóa ở mức mã nguồn thay vì prompt. Hệ thống viết lại cấu trúc mã dựa trên bằng chứng thất bại thực tế và triển khai theo cách có thể rollback sau khi kiểm chứng.
Safety Alignment of LMs via Non-cooperative Games: Nghiên cứu tái định nghĩa căn chỉnh an toàn như một trò chơi không hợp tác, trong đó LM tấn công và LM phòng thủ thích nghi lẫn nhau. Thông qua học tăng cường dựa trên preference, nghiên cứu đồng thời đẩy xa Pareto frontier của cả an toàn lẫn tính hữu dụng.
Plan, Watch, Recover: A Benchmark and Architectures for Proactive Procedural Assistance: Đây là hệ thống hỗ trợ đa phương thức chủ động, học cách xác định khi nào cần can thiệp và làm thế nào để đưa người dùng quay lại quy trình khi họ đi chệch khỏi thủ tục. Nghiên cứu đánh giá năng lực hướng dẫn quay lại thực tế thông qua EgoProactive và Pro²Bench.
FuzzingBrain V2: A Multi-Agent LLM System for Automated Vulnerability Discovery and Reproduction: Đây là hệ thống bảo mật dùng LLM đa tác nhân để tự động hóa việc phát hiện và tái hiện lỗ hổng. Hệ thống kết hợp xác minh dựa trên OSS-Fuzz, định vị lỗ hổng chính xác và fuzzing phân cấp để đạt tỷ lệ phát hiện cao cùng kết quả phát hiện lỗ hổng thực tế.

Harness-1: Học tăng cường cho tác nhân tìm kiếm với harness ngoại hóa trạng thái / Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses

Giới thiệu bài báo

Các tác nhân tìm kiếm thường được huấn luyện như một policy vận hành trên transcript ngày càng dài ra; mô hình vừa phải quyết định cách tìm kiếm, vừa phải nhớ những gì mình đã thấy, bằng chứng nào hữu ích, những ràng buộc nào vẫn còn mở, và những khẳng định nào đã thực sự được kiểm chứng. Các tác giả cho rằng thiết lập như vậy đặt quá nhiều gánh nặng quản lý trạng thái vào bên trong policy, đồng thời buộc học tăng cường phải tối ưu hóa cùng lúc cả các quyết định tìm kiếm có ý nghĩa lẫn việc quản lý hồ sơ có thể phục hồi, vốn là phần mà môi trường có thể xử lý ổn định hơn.

Để giải quyết vấn đề này, họ đề xuất Harness-1, một tác nhân tìm kiếm 20B được huấn luyện bằng học tăng cường bên trong một state-externalizing harness. Harness này quản lý bộ nhớ làm việc ở phía môi trường, bao gồm tập ứng viên, tập đã tuyển chọn có gắn thẻ mức độ quan trọng, các liên kết bằng chứng đã nén, hồ sơ xác minh, các quan sát đã được nén và khử trùng lặp, cũng như việc dựng ngữ cảnh có tính đến ngân sách.

Ngược lại, policy đảm nhiệm các quyết định mang tính ngữ nghĩa như sẽ tìm kiếm gì, giữ lại hay loại bỏ tài liệu nào, xác minh điều gì và khi nào dừng lại. Trên 8 benchmark truy xuất bao gồm web, tài chính, bằng sáng chế và hỏi đáp đa bước, Harness-1 đạt curated recall trung bình 0.730, cao hơn 11,4 điểm so với retrieval subagent mã nguồn mở mạnh kế tiếp. Đặc biệt, mức cải thiện nổi bật trên các benchmark chuyển giao ngoài miền huấn luyện, cho thấy học tăng cường trên trạng thái tìm kiếm tường minh có thể tạo ra hành vi truy xuất tổng quát hóa tốt hơn.

Tóm tắt(Abstract)

Các tác tử tìm kiếm thường được huấn luyện như những policy hoạt động trên các transcript ngày càng dài: tức là mô hình vừa phải quyết định tìm kiếm gì, vừa phải ghi nhớ những gì đã thấy, bằng chứng nào hữu ích, những ràng buộc nào vẫn còn bỏ ngỏ, và những khẳng định nào thực sự đã được kiểm tra.

Bài báo cho rằng cách định式 hóa này nhồi nhét quá nhiều công việc quản lý trạng thái thường nhật vào bên trong policy. Nói cách khác, học tăng cường (RL) bị buộc phải tối ưu đồng thời cả các quyết định tìm kiếm mang tính ngữ nghĩa lẫn việc ghi sổ có thể phục hồi mà môi trường có thể duy trì ổn định hơn.

Bài báo giới thiệu Harness-1, một tác tử tìm kiếm 20B (retrieval subagent) được huấn luyện bằng học tăng cường bên trong một harness tìm kiếm có trạng thái (stateful search harness). Harness này duy trì bộ nhớ làm việc phía môi trường, bao gồm một candidate pool, một tập tuyển chọn được gắn thẻ mức độ quan trọng, các liên kết bằng chứng gọn nhẹ, hồ sơ xác minh, các quan sát đã được nén và khử trùng lặp, cùng cơ chế dựng ngữ cảnh có nhận thức về ngân sách. Policy giữ lại các quyết định ngữ nghĩa như tìm kiếm gì, giữ hay loại bỏ tài liệu nào, xác minh điều gì và khi nào dừng lại.

Trên 8 benchmark truy xuất trải rộng từ web, tài chính, bằng sáng chế đến QA đa bước, Harness-1 đạt curated recall trung bình 0.730, vượt retrieval subagent tìm kiếm mở xếp thứ hai +11,4 điểm và vẫn cho hiệu năng cạnh tranh với các searcher dựa trên frontier model lớn hơn rất nhiều. Mức cải thiện đặc biệt rõ trên các benchmark chuyển giao chưa từng thấy, cho thấy học tăng cường trên trạng thái tìm kiếm tường minh có thể tạo ra các hành vi truy xuất tổng quát hóa vượt ra ngoài các miền huấn luyện. Mã nguồn: https://github.com/pat-jj/harness-1

Các tác tử tìm kiếm thường được huấn luyện như những policy hoạt động trên các transcript ngày càng dài: mô hình phải quyết định cách tìm kiếm trong khi vẫn phải ghi nhớ những gì đã thấy, bằng chứng nào hữu ích, những ràng buộc nào còn bỏ ngỏ, và những khẳng định nào thực sự đã được kiểm tra. Chúng tôi cho rằng cách định thức hóa này đặt quá nhiều công việc quản lý trạng thái thường nhật vào bên trong policy: học tăng cường bị buộc phải tối ưu đồng thời cả các quyết định tìm kiếm ngữ nghĩa lẫn phần ghi sổ có thể phục hồi mà môi trường có thể duy trì một cách đáng tin cậy hơn. Chúng tôi giới thiệu Harness-1, một tác tử tìm kiếm 20B (retrieval subagent) được huấn luyện bằng học tăng cường bên trong một harness tìm kiếm có trạng thái. Harness này duy trì bộ nhớ làm việc ở phía môi trường, bao gồm một candidate pool, một tập tuyển chọn được gắn thẻ tầm quan trọng, các liên kết bằng chứng cô đọng, hồ sơ xác minh, các quan sát đã được nén và khử trùng lặp, cùng cơ chế dựng ngữ cảnh có nhận thức về ngân sách. Policy giữ lại các quyết định ngữ nghĩa: tìm kiếm gì, giữ hay loại bỏ tài liệu nào, xác minh điều gì và khi nào dừng lại. Trên 8 benchmark truy xuất bao trùm web, tài chính, bằng sáng chế và QA đa bước, Harness-1 đạt curated recall trung bình 0.730, vượt tác tử tìm kiếm mở mạnh kế tiếp +11,4 điểm và vẫn cạnh tranh được với các searcher dùng frontier model lớn hơn nhiều. Mức tăng đặc biệt mạnh trên các benchmark chuyển giao được giữ lại, cho thấy học tăng cường trên trạng thái tìm kiếm tường minh có thể tạo ra các hành vi truy xuất tổng quát hóa vượt ra ngoài miền huấn luyện. Mã nguồn của chúng tôi có tại https://github.com/pat-jj/harness-1.

Liên kết bài báo

https://arxiv.org/abs/2606.02373

Đọc thêm

https://github.com/pat-jj/harness-1

https://huggingface.co/pat-jj/harness-1

Hãy quên attention đi: chỉ cần Importance-Aware Attention là đủ / Forget Attention: Importance-Aware Attention Is All You Need

Giới thiệu bài báo

Trong mô hình hóa ngôn ngữ lai kết hợp Transformer và State Space Model (SSM), thách thức cốt lõi là làm sao đồng thời tận dụng được khả năng dò tìm thông tin trên phạm vi toàn cục và khả năng phân biệt điều gì là quan trọng trong chuỗi. Transformer hiện có thể nhìn tới mọi nơi nhưng có hạn chế trong việc đặt ưu tiên, còn SSM có thể tích lũy các tín hiệu quan trọng nhưng lại khó tham chiếu lại một cách tinh vi tới thông tin đã đi qua, vì thế hai bên mang tính bổ sung cho nhau. Tuy nhiên, các cách lai trước đây chủ yếu chỉ đặt hai cơ chế song song ở cấp block hoặc cấp head, nên vào đúng thời điểm tính điểm attention thì tín hiệu độ quan trọng từ SSM vẫn chưa thể được phản ánh trực tiếp. Từ vấn đề đó, các tác giả đề xuất SSM-Informed Softmax Attention (SISA), đồng thời thiết kế một cách kết hợp mới trong đó tín hiệu độ quan trọng tuần tự do SSM cung cấp được đưa không phải vào đầu ra attention mà vào chính score. Ý tưởng cốt lõi là ngoài hạng tử tích vô hướng tiêu chuẩn biểu diễn độ tương đồng nội dung, còn cộng thêm một hạng tử tích vô hướng của vector độ quan trọng suy ra từ SSM, qua đó mở rộng quan hệ giữa các token từ chỗ chỉ phản ánh sự khớp nội dung sang cả việc “điều gì hiện đang quan trọng”.

Điểm quan trọng của phương pháp này là nó có thể được triển khai chỉ với một lần gọi Scaled Dot-Product Attention (SDPA) bằng cách xây dựng query và key mở rộng, mà không cần thêm trạng thái đệ quy hay custom kernel. Nói cách khác, về mặt toán học SISA khai thác thông tin tuần tự của SSM, nhưng ở góc độ triển khai nó được thiết kế để ăn khớp tốt với luồng toán tử Transformer tiêu chuẩn, nên vẫn duy trì khả năng tương thích với các tối ưu hóa dòng FlashAttention. Ngoài ra, kênh SSM tính toán các thành phần decay và rotation từ đầu vào để tạo thành tín hiệu độ quan trọng, rồi khiến tín hiệu này hoạt động ở cấp score của attention nhằm trực tiếp nâng cao hiệu năng retrieval. Kết quả thực nghiệm cũng cho thấy rõ hiệu quả của thiết kế này: ở quy mô 152M và điều kiện 5B token, SISA đạt 17,3% trên LAMBADA-greedy, vượt qua Transformer tiêu chuẩn và Mamba-3; còn trên NIAH(Needle-in-a-Haystack), mô hình đạt 100% ngay từ mốc huấn luyện 1K step, cho thấy khả năng hội tụ truy xuất rất nhanh.

Xa hơn nữa, dù SISA ở quy mô 369M cũng không phải chỉ cho thấy các chỉ số vượt trội tuyệt đối, nhưng ít nhất nó vẫn duy trì hiệu năng mạnh một cách ổn định trên các tác vụ truy hồi quan trọng mà không đánh mất khả năng chạy với stock SDPA, nên có ý nghĩa thực tiễn lớn. Thông qua đó, các tác giả đề xuất một trục thiết kế thứ ba vượt ra ngoài cấp độ block và cấp độ head, tức score-level fusion, như một phương án thay thế khả thi cho các mô hình ngôn ngữ lai. Rốt cuộc, đóng góp của bài báo này không chỉ nằm ở việc trộn hai họ mô hình, mà ở chỗ đưa tín hiệu độ quan trọng do SSM cung cấp vào trung tâm của quá trình hình thành điểm attention, qua đó tích hợp truy hồi toàn cục và đánh giá mức độ ưu tiên theo trình tự vào trong một phép toán duy nhất. Cách tiếp cận này có thể được xem là một ví dụ quan trọng cho thấy cấu trúc lai có thể tiến hóa tinh vi hơn theo cách nào trong các bài toán mô hình ngôn ngữ, nơi việc khôi phục phụ thuộc dài hạn và theo dõi thông tin cốt lõi là rất quan trọng.

Tóm tắt(Abstract)

Việc kết hợp năng lực truy hồi toàn cục của attention với tín hiệu độ quan trọng theo trình tự của state space model (SSM) là một bài toán còn bỏ ngỏ trong mô hình ngôn ngữ lai. Transformer có thể nhìn thấy mọi thứ nhưng không thể ưu tiên; SSM biết điều gì quan trọng nhưng không thể xem lại. Các mô hình lai hiện có như Jamba (cấp độ block) và Hymba (cấp độ head) đặt hai cơ chế này vào các ngăn tách biệt, nên trong chính quá trình tính attention, bên này không thể cung cấp thông tin cho bên kia. Chúng tôi đề xuất SISA (SSM-Informed Softmax Attention), phương pháp trực tiếp thêm một hạng độ quan trọng được suy ra từ SSM vào bên trong điểm attention, và hiện thực toàn bộ phép toán bằng một lệnh gọi SDPA duy nhất trên các vector query/key đã được mở rộng. Không cần trạng thái đệ quy, cũng không cần kernel tùy biến. Ở mức 152M / 5 tỷ token, SISA đạt LAMBADA-greedy 17.3% (so với Transformer 13.9 và Mamba-3 15.5), đồng thời đạt NIAH 100% từ bước 1K, nhanh hơn 7 lần so với tốc độ hội tụ truy hồi của Transformer. Ở mức 369M, Mamba-3 dẫn đầu trên LAMBADA, nhưng SISA vẫn duy trì NIAH hoàn hảo và khả năng chạy bằng SDPA mặc định. Vì vậy, vượt ra ngoài các mô hình cấp độ block và cấp độ head vốn đã thống trị lĩnh vực này, SISA đưa ra trục thiết kế thứ ba cho hybrid SSM-attention: score-level fusion.

Combining attention's global retrieval with the sequential importance signal of state space models (SSMs) is the open challenge of hybrid language modeling. Transformers see everywhere but cannot prioritize; SSMs know what matters but cannot revisit. Existing hybrids -- Jamba (block level) and Hymba (head level) -- place the two in separate compartments, so neither informs the other during the attention computation itself. We propose SISA (SSM-Informed Softmax Attention), which adds an SSM-derived importance term directly inside the attention score and realizes the full operation as a single SDPA call on augmented query/key vectors -- no recurrent state, no custom kernel. At 152M / 5B tokens, SISA reaches LAMBADA-greedy 17.3% (vs. Transformer 13.9 and Mamba-3 15.5) and attains NIAH 100% from step 1K, 7x faster than Transformer's retrieval convergence; at 369M, Mamba-3 leads LAMBADA while SISA preserves perfect NIAH and stock-SDPA execution. SISA thus defines a third design axis for SSM-attention hybrids -- score-level fusion -- beyond the block-level and head-level paradigms that have dominated the field.

Link bài báo

https://arxiv.org/abs/2606.02332

Transformer có cần ba phép chiếu không? Nghiên cứu có hệ thống về các biến thể QKV / Do Transformers Need Three Projections? Systematic Study of QKV Variants

Giới thiệu bài báo

Thành phần cốt lõi nâng đỡ hiệu năng của Transformer là attention QKV(query-key-value) gồm query, key và value, nhưng đến nay vẫn chưa có nhiều đánh giá mang tính hệ thống về mức độ cần thiết của sự độc lập giữa từng phép chiếu này trên thực tế. Nghiên cứu này nhắm trực tiếp vào khoảng trống đó, phân tích chi tiết ảnh hưởng của việc buộc chia sẻ trọng số(weight tying) bên trong attention đối với năng lực biểu đạt và hiệu quả suy luận, xoay quanh ba ràng buộc chia sẻ phép chiếu là Q-K=V, Q=K-V và Q=K=V. Đặc biệt, nghiên cứu chú ý đến việc hai biến thể sau dễ khiến attention map trở nên đối xứng, từ đó cùng xem xét cả thiết kế bổ sung tính định hướng bằng two-dimensional positional encoding, mở rộng thảo luận từ bài toán giảm tham số đơn thuần sang vấn đề thay đổi chính cấu trúc của không gian biểu diễn. Cách tiếp cận này có ý nghĩa ở chỗ không dừng lại ở câu hỏi liệu việc chia sẻ phép chiếu có gây suy giảm hiệu năng hay không, mà còn tách bạch để giải thích trong điều kiện nào chất lượng được giữ vững và trong điều kiện nào tính định hướng cũng như tính chọn lọc của attention bị tổn hại.

Các thí nghiệm được thiết kế để bao quát nhiều lĩnh vực khác nhau gồm tác vụ tổng hợp, thị giác máy tính và mô hình ngôn ngữ, qua đó kiểm chứng rằng hiệu ứng của việc chia sẻ phép chiếu không phải là hiện tượng chỉ giới hạn trong một miền dữ liệu cụ thể. Ở các tác vụ tổng hợp, nghiên cứu sử dụng các bài toán thao tác như đảo ngược thứ tự, sắp xếp, thay thế, hoán đổi và sao chép để xem mô hình học các quan hệ cấu trúc tốt đến mức nào. Trong các thí nghiệm thị giác, nghiên cứu đánh giá hiệu năng tổng quát hóa trên MNIST, CIFAR, TinyImageNet và phát hiện bất thường(anomaly detection), tức các môi trường mà thông tin vị trí không gian đóng vai trò quan trọng. Với mô hình ngôn ngữ, các mô hình quy mô 300M và 1.2B tham số được huấn luyện trên 10B token để xác nhận liệu cùng một xu hướng có còn giữ nguyên trong bối cảnh quy mô lớn hay không. Kết quả cho thấy phương pháp Q-K=V nhìn chung cho hiệu năng tương đương, thậm chí đôi khi tốt hơn Transformer QKV cơ bản; trong mô hình ngôn ngữ, nó giảm 50% KV cache trong khi độ xấu đi của perplexity chỉ là 3.1%.

Quan trọng hơn, hiệu quả cắt giảm này còn có thể kết hợp theo hướng bổ sung với grouped query attention (GQA) hoặc multi-query attention (MQA). Khi dùng Q-K=V cùng với GQA-4, KV cache có thể được giảm tới 87.5%; khi kết hợp với MQA, mức giảm đạt tới 96.9%, mang lại lợi ích thực tế cho suy luận on-device. Từ các kết quả này, các tác giả cho rằng key và value trên thực tế có thể chia sẻ không gian biểu diễn tương tự nhau, và vì attention vận hành trong một cấu trúc low-rank nên không nhất thiết phải tách biệt hoàn toàn QKV. Ngược lại, Q=K-V tỏ ra bất lợi hơn về hiệu năng và độ ổn định vì nó ràng buộc query và key quá chặt, làm suy yếu tính định hướng của attention.

Tóm lại, nghiên cứu này khiến người ta nhìn cấu trúc QKV của Transformer không còn như một chuẩn mực hiển nhiên mà như một không gian thiết kế có thể được xem xét lại, đồng thời đưa ra cơ sở thực nghiệm về việc nên chia sẻ phép chiếu nào và nên tách biệt vai trò nào. Đặc biệt, ở chỗ có thể giảm mạnh mức sử dụng bộ nhớ trong khi gần như vẫn giữ nguyên hiệu năng, kết quả này có thể được đọc như một chỉ dẫn thiết kế quan trọng cho việc triển khai hiệu quả trong các môi trường bị hạn chế tài nguyên như edge device.

Tóm tắt(Abstract)

Transformer đã trở thành lời giải tiêu chuẩn cho nhiều tác vụ AI, trong đó công thức attention query, key và value (QKV) đóng vai trò trung tâm. Tuy nhiên, đóng góp riêng của ba phép chiếu này và tác động của việc lược bỏ một phần trong số đó vẫn chưa được hiểu đầy đủ. Chúng tôi đã đánh giá có hệ thống ba ràng buộc chia sẻ phép chiếu: a) Q-K=V (chia sẻ key-value), b) Q=K-V (chia sẻ query-key), và c) Q=K=V (một phép chiếu duy nhất). Hai biến thể sau tạo ra các attention map đối xứng, vì vậy để xử lý điều này, chúng tôi cũng khảo sát attention bất đối xứng thông qua mã hóa vị trí 2D. Thông qua các thí nghiệm trên các tác vụ tổng hợp, thị giác máy tính (MNIST, CIFAR, TinyImageNet, phát hiện bất thường), và mô hình hóa ngôn ngữ (các mô hình 300M và 1.2B tham số trên 10B token), chúng tôi phát hiện rằng các transformer của mình đạt hiệu năng ngang bằng, đôi khi còn tốt hơn transformer QKV. Trong mô hình hóa ngôn ngữ, chia sẻ phép chiếu Q-K=V giúp giảm 50% KV cache với mức suy giảm perplexity chỉ 3,1%. Quan trọng hơn, chia sẻ phép chiếu mang tính bổ trợ với chia sẻ head (GQA/MQA). Khi kết hợp Q-K=V với GQA-4, có thể giảm cache 87,5%, và khi kết hợp Q-K=V với MQA, mức giảm đạt tới 96,9%, mở đường cho suy luận on-device thực tiễn. Chúng tôi cho thấy Q-K=V duy trì chất lượng vì key và value có thể chiếm giữ các không gian biểu diễn tương tự nhau và attention hoạt động trong miền hạng thấp, trong khi Q=K-V lại phá vỡ tính định hướng của attention. Kết quả của chúng tôi hệ thống hóa việc chia sẻ phép chiếu như một trường hợp buộc trọng số dùng chung (weight tying) còn ít được khám phá trong attention, đồng thời cho thấy lợi ích bộ nhớ suy luận trực tiếp và có thể định lượng, đặc biệt hữu ích cho triển khai ở edge. Mã nguồn được công bố tại https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections.

Transformers đã trở thành lời giải tiêu chuẩn cho nhiều tác vụ AI, với công thức attention query, key và value (QKV) giữ vai trò trung tâm. Tuy nhiên, đóng góp riêng của ba phép chiếu này và tác động của việc lược bỏ một phần vẫn chưa được hiểu rõ. Chúng tôi đánh giá có hệ thống ba ràng buộc chia sẻ phép chiếu: a) Q-K=V (chia sẻ key-value), b) Q=K-V (chia sẻ query-key), và c) Q=K=V (một phép chiếu duy nhất). Hai biến thể cuối tạo ra attention map đối xứng; để khắc phục điều này, chúng tôi cũng khảo sát attention bất đối xứng thông qua positional encoding 2D. Qua các thí nghiệm trên tác vụ tổng hợp, thị giác máy tính (MNIST, CIFAR, TinyImageNet, anomaly), và mô hình hóa ngôn ngữ (mô hình 300M và 1.2B tham số trên 10B token), chúng tôi phát hiện rằng các transformer của mình đạt hiệu năng ngang bằng hoặc đôi khi tốt hơn transformer QKV. Trong mô hình hóa ngôn ngữ, chia sẻ phép chiếu Q-K=V giúp giảm 50% KV cache với mức suy giảm perplexity chỉ 3,1%. Điều quan trọng là chia sẻ phép chiếu bổ trợ cho chia sẻ head (GQA/MQA): kết hợp Q-K=V với GQA-4 cho mức giảm cache 87,5%, trong khi Q-K=V + MQA đạt 96,9%, cho phép suy luận on-device khả thi trong thực tế. Chúng tôi chỉ ra rằng Q-K=V giữ được chất lượng vì key và value có thể nằm trong các không gian biểu diễn tương tự, còn attention vận hành trong chế độ hạng thấp, trong khi Q=K-V làm mất tính định hướng của attention. Kết quả của chúng tôi mô tả có hệ thống chia sẻ phép chiếu như một ví dụ về weight tying trong attention vốn chưa được khám phá đầy đủ, với lợi ích bộ nhớ suy luận trực tiếp và có thể định lượng, đặc biệt có giá trị cho triển khai ở edge. Mã nguồn được công khai tại https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections

Liên kết bài báo

https://arxiv.org/abs/2606.04032

Đọc thêm

https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections

Biên dịch quy trình agentic vào trọng số LLM: chất lượng gần mức frontier với chi phí thấp hơn 100 lần / Compiling Agentic Workflows into LLM Weights: Near-Frontier Quality at Two Orders of Magnitude Less Cost

Giới thiệu bài báo

Sự lan rộng gần đây của các framework điều phối agent cho thấy cách dùng bộ điều phối bên ngoài để kiểm soát các tác vụ phức tạp trên mô hình ngôn ngữ lớn (Large Language Model, LLM) gần như đã được xem là tiêu chuẩn trên thực tế, nhưng bài báo này đặt vấn đề rằng với các công việc mang tính thủ tục, cấu trúc đó chưa chắc đã là lựa chọn tối ưu. Cách mà bộ điều phối bên ngoài chèn chỉ thị và quyết định định tuyến ở mỗi lượt có ưu điểm là dễ kiểm soát và gỡ lỗi, nhưng cũng có những giới hạn như liên tục tiêu tốn context window, phải gọi frontier model cho mỗi cuộc hội thoại, và quy trình thủ tục có thể bị lộ cho nhà cung cấp bên thứ ba. Từ đó, các tác giả đề xuất một hướng tiếp cận trong đó thay vì đặt quy trình tác vụ vào prompt, họ biên dịch trực tiếp nó vào trọng số (weights) của một mô hình fine-tune nhỏ, để khi chạy thực tế có thể tạo ra một agent đã nội tại hóa quy trình mà không cần điều phối bổ sung. Cách làm này mang lại lợi thế về cấu trúc vì không cần tiếp tục bơm quy trình từ bên ngoài, nhờ đó giảm mạnh chi phí, không chiếm dụng ngữ cảnh dài, và không làm lộ luồng công việc nhạy cảm cho các dịch vụ bên ngoài. Các tác giả gọi những agent mà quy trình vận hành được ẩn bên trong mô hình như vậy là subterranean agent, nhằm phân biệt rõ với các thiết kế hiện nay tập trung vào điều phối.

Phương pháp cốt lõi không chỉ dừng ở việc nêu ý tưởng, mà còn kiểm chứng trong môi trường công việc thực tế ba rào cản nhận thức khiến các nhà phát triển do dự với cách tiếp cận này. Thứ nhất là lo ngại về hiệu năng, tức liệu một mô hình nhỏ có thể đạt chất lượng ở mức frontier hay không. Thứ hai là vấn đề nội tại hóa tri thức, tức liệu có thể đưa vào trọng số những thông tin thay đổi thường xuyên như kiến thức đặc thù của sản phẩm hay không. Thứ ba là kiểm chứng liệu phương pháp này có thể mở rộng tới các workflow lớn với nhiều nhánh và hub phức tạp hay không. Để làm điều đó, nhóm nghiên cứu chọn ba lĩnh vực có tính chất khác nhau là đặt vé du lịch, hỗ trợ Zoom và yêu cầu bồi thường bảo hiểm, nhằm so sánh hiệu quả của cách biên dịch trong những điều kiện có độ sâu thủ tục và mức độ yêu cầu kiến thức miền khác nhau. Bài toán đặt vé du lịch sử dụng một luồng thủ tục tiêu chuẩn gồm 14 node để kiểm tra độ ổn định của chuyển trạng thái và ra quyết định theo từng bước. Hỗ trợ Zoom nhấn mạnh rằng ngay cả với workflow cùng quy mô, vẫn cần đồng thời có tri thức về chính sách và tính năng theo từng sản phẩm. Yêu cầu bồi thường bảo hiểm là một cấu trúc phức tạp hơn với 55 node và 6 hub ra quyết định, đóng vai trò như một bài stress test thực tế, nơi các nhánh điều kiện và tính toán chính sách cùng được yêu cầu.

Hàm ý của kết quả thực nghiệm là rất rõ ràng. Một mô hình nhỏ đã nội hóa quy trình vào trọng số có thể duy trì chất lượng ở mức near-frontier quality, tức chất lượng tiệm cận các mô hình frontier, đồng thời giảm chi phí xuống mức hàng chục lần, điều này buộc chúng ta phải suy nghĩ lại về sự đánh đổi truyền thống giữa hiệu năng và hiệu quả. Đặc biệt, như thể hiện trong trường hợp yêu cầu bồi thường bảo hiểm, mô hình không chỉ đơn thuần tạo ra câu trả lời mà còn có thể nhất quán thực hiện suy luận mang tính thủ tục, bao gồm xác minh, phân nhánh, tính toán bồi thường và hướng dẫn chi trả. Những kết quả này gợi ý rằng với các công việc có thể lặp lại và cấu trúc tương đối ổn định, cách biên dịch học trực tiếp quy trình có thể phù hợp hơn so với orchestration phải điều phối từ bên ngoài mỗi lần. Đồng thời, vẫn còn những hạn chế như có thể cần huấn luyện lại khi quy trình thay đổi, và có thể bất lợi hơn so với cách tiếp cận dựa trên prompt về khả năng chỉnh sửa tức thời và khả năng diễn giải, nhưng đóng góp của nghiên cứu nằm ở chỗ đã mở rộng các lựa chọn trong thiết kế agent. Cuối cùng, bài báo này thách thức quan niệm phổ biến rằng workflow của agent luôn phải được lắp ghép từ bên ngoài, đồng thời đưa ra bằng chứng thực nghiệm rằng cách đưa quy trình vào bên trong mô hình có thể là một phương án thay thế hoàn toàn khả thi ở cấp độ ứng dụng thực tế.

Tóm tắt(Abstract)

Các framework orchestration cho agent đã lan rộng nhanh chóng, với tổng số GitHub star của LangGraph, CrewAI, Google ADK, OpenAI Agents SDK, Semantic Kernel, Strands và LlamaIndex vượt quá 290.000. Tất cả đều đi theo cùng một khuôn mẫu: đặt một bộ điều phối bên ngoài phía trên LLM và chèn chỉ dẫn cùng các quyết định định tuyến ở mỗi lượt. Nghiên cứu gần đây cho thấy với các tác vụ mang tính thủ tục, kiến trúc này bị vượt trội chỉ bằng cách cung cấp trực tiếp quy trình trong system prompt của một mô hình frontier [Dennis et al., 2026a]. Tuy nhiên, cái giá phải trả là tiêu tốn context window, cần dùng mô hình frontier cho mọi cuộc hội thoại, và làm lộ các quy trình độc quyền cho nhà cung cấp bên thứ ba. Việc biên dịch quy trình vào trọng số của một mô hình tinh chỉnh nhỏ để tạo ra một subterranean agent lẽ ra có thể giải quyết toàn bộ những vấn đề này, và các nghiên cứu trước đó (SimpleTOD, FireAct, SynTOD, WorkflowLLM, Agent Lumos) cũng đã cho thấy kỹ thuật này có hiệu quả. Dù vậy, mức độ chấp nhận của nhà phát triển vẫn áp đảo nghiêng về orchestration. Chúng tôi xác định ba rào cản mang tính nhận thức và lần lượt xử lý chúng bằng thực nghiệm trên ba lĩnh vực: đặt vé du lịch (14 nút), hỗ trợ Zoom (14 nút, kiến thức chuyên biệt theo sản phẩm) và yêu cầu bồi thường bảo hiểm (55 nút, 6 trung tâm ra quyết định).

Agent orchestration frameworks have proliferated, collectively exceeding 290,000 GitHub stars across LangGraph, CrewAI, Google ADK, OpenAI Agents SDK, Semantic Kernel, Strands, and LlamaIndex. All follow the same pattern: an external orchestrator above the LLM, injecting instructions and routing decisions every turn. Recent work has shown this architecture is dominated for procedural tasks by simply providing the procedure in a frontier model's system prompt [Dennis et al., 2026a], at the cost of consuming the context window, requiring a frontier model for every conversation, and exposing proprietary procedures to third-party providers. Compiling the procedure into the weights of a small fine-tuned model -- creating a subterranean agent -- should resolve all of these concerns, and prior work (SimpleTOD, FireAct, SynTOD, WorkflowLLM, Agent Lumos) has shown the technique works. Yet developer adoption has overwhelmingly favored orchestration. We identify three perceived barriers and address each empirically across travel booking (14 nodes), Zoom support (14 nodes, product-specific knowledge), and insurance claims (55 nodes, 6 decision hubs).

Liên kết bài báo

https://arxiv.org/abs/2605.22502

Đọc thêm

https://discuss.pytorch.kr/t/llm-subterranean-agent/10501

Học quản lý ngữ cảnh tương thích với agent cho các tác vụ tầm xa / Learning Agent-Compatible Context Management for Long-Horizon Tasks

Giới thiệu bài báo

Khi các agent dựa trên mô hình ngôn ngữ lớn (LLM) thực hiện các tác vụ dài hạn (long-horizon tasks) như tìm kiếm web hay nghiên cứu chuyên sâu, nơi có nhiều bước và các phán đoán trung gian liên tục tích lũy, một trong những trở ngại lớn nhất là khi cuộc hội thoại kéo dài hơn, các manh mối hữu ích và thông tin quá khứ không cần thiết bị trộn lẫn với nhau, khiến quá trình suy luận trở nên kém ổn định. Các phương pháp quản lý ngữ cảnh hiện có thường либо học cùng với chính sách nội bộ của agent, hoặc phụ thuộc vào các chiến lược cố định như tóm tắt; tuy nhiên, những cách này khó áp dụng cho các agent đóng (closed-source) và chưa phản ánh đầy đủ thực tế rằng mỗi agent có thể cần một cách quản lý khác nhau. Để giải quyết vấn đề này, Adaptive Context Management (AdaCoM) được đề xuất theo hướng giữ nguyên agent cố định (frozen agent), trong khi huấn luyện một LLM khác ở bên ngoài để chỉnh sửa ngữ cảnh một cách động. Điểm cốt lõi ở đây không chỉ là nén một cuộc hội thoại dài, mà là học các hành động chỉnh sửa linh hoạt như xóa, viết lại và hợp nhất ở cấp độ từng tin nhắn, vừa bảo toàn các ràng buộc và tiến độ cần thiết cho tác vụ hiện tại, vừa loại bỏ các nhiễu cũ. Thiết kế này có ý nghĩa ở chỗ nó tái định nghĩa quản lý ngữ cảnh không phải là tiền xử lý tĩnh, mà là một bài toán học chính sách nhằm trực tiếp cải thiện tỷ lệ thành công của agent.

AdaCoM bắt đầu bằng supervised fine-tuning (SFT) để giúp bộ quản lý ngữ cảnh làm quen với định dạng đầu ra có cấu trúc, sau đó tinh chỉnh chính sách bằng Group Relative Policy Optimization (GRPO), lấy hiệu quả thực tế của tác vụ làm phần thưởng. Trong quá trình này, bộ quản lý chuyển ngữ cảnh hiện tại thành prompt để nhận đầu vào, rồi từ góc nhìn của một Markov decision process (MDP), chọn ở mỗi bước xem nên giữ lại hay chỉnh sửa những tin nhắn nào. Ngoài ra, thay vì chỉ nhìn vào đáp án cuối cùng, phương pháp còn thiết kế process reward phản ánh các yếu tố như vượt quá độ dài ngữ cảnh, gọi công cụ lặp lại, lỗi định dạng và các tín hiệu tác vụ ở bước trung gian, để mô hình học được cả chất lượng chỉnh sửa cục bộ vốn rất quan trọng trong các tác vụ dài hạn. Nhờ đó, AdaCoM không chỉ là một bộ tóm tắt đơn thuần, mà hoạt động như một chính sách chỉnh sửa thích ứng giúp agent duy trì mạch suy nghĩ ổn định.

Về thực nghiệm, khi áp dụng cho nhiều agent trên các benchmark tìm kiếm web và nghiên cứu chuyên sâu, hiệu năng đều được cải thiện; đặc biệt, các agent vốn có hiệu năng cơ sở cao theo cách ReAct (Reasoning and Acting) được hưởng lợi nhiều hơn từ việc bảo toàn ngữ cảnh với độ trung thực cao, trong khi các agent tương đối yếu hơn lại hiệu quả hơn khi dùng nén mạnh hơn để duy trì trong vùng suy luận ổn định. Các tác giả diễn giải điều này như một fidelity-reliability trade-off, cho thấy quản lý ngữ cảnh cần thay đổi theo mức năng lực của agent. Hơn nữa, trong các thí nghiệm chuyển giao, người ta quan sát thấy chiến lược của AdaCoM có xu hướng được chuyển tốt hơn giữa các agent có đặc tính năng lực tương tự, gợi ý rằng hướng đi dùng một bộ quản lý ngữ cảnh bên ngoài có thể tái sử dụng sẽ thực tế hơn so với một quy tắc tóm tắt phổ quát duy nhất. Sau cùng, nghiên cứu này đưa ra một tiến bộ phương pháp luận quan trọng ở chỗ không chỉ quy nguyên nhân thất bại trong các tác vụ dài hạn cho riêng năng lực suy luận của agent, mà còn xem chính việc quản lý ngữ cảnh hỗ trợ cho suy luận đó là một thành phần cốt lõi có thể học được.

Tóm tắt(Abstract)

Các tác tử mô hình ngôn ngữ lớn (LLM) ngày càng phải đối mặt với các tác vụ dài hạn như tìm kiếm web và nghiên cứu chuyên sâu, và trong các ứng dụng thực tế, ngữ cảnh tích lũy có thể gây suy giảm hiệu năng với ngữ cảnh dài và dẫn đến thất bại trong suy luận. Các nghiên cứu trước đây đã giảm nhẹ vấn đề này bằng cách quản lý ngữ cảnh thông qua kiểm soát ngữ cảnh ở phía tác tử hoặc các chiến lược cố định như tóm tắt, nhưng các phương pháp này đòi hỏi phải huấn luyện chính tác tử để thích nghi nên không thực tế với các tác tử mã nguồn đóng, đồng thời cũng bỏ qua việc các tác tử khác nhau có thể cần những chiến lược khác nhau.

Chúng tôi đề xuất Adaptive Context Management (AdaCoM). Phương pháp này huấn luyện một LLM bên ngoài để quản lý ngữ cảnh của một tác tử cố định thông qua các hành động chỉnh sửa linh hoạt và học tăng cường end-to-end. Trên nhiều tác tử khác nhau trong các benchmark tìm kiếm web và nghiên cứu chuyên sâu, AdaCoM cải thiện hiệu năng đáng kể bằng cách loại bỏ nội dung lỗi thời trong khi vẫn bảo toàn các ràng buộc của tác vụ và tiến độ thực hiện. Chiến lược được học cho thấy sự đánh đổi giữa độ trung thực và độ tin cậy (Fidelity-Reliability Trade-off): tức là các tác tử có hiệu năng ReAct cơ bản cao hơn được hưởng lợi từ việc bảo toàn ngữ cảnh với độ trung thực cao hơn, trong khi các tác tử có hiệu năng thấp hơn cần nén mạnh tay hơn để duy trì trong phạm vi suy luận đáng tin cậy. Các thí nghiệm chuyển giao cho thấy AdaCoM khái quát hóa hiệu quả nhất giữa các tác tử có năng lực tương tự nhau, được đo bằng hiệu năng ReAct cơ bản, qua đó gợi mở một con đường thực tiễn hướng tới các bộ quản lý ngữ cảnh có thể tái sử dụng cho hệ thống tác tử.

LLM agents increasingly face long-horizon tasks such as web search and deep research in real-world applications, where accumulated context can cause long-context degradation and reasoning failures. Prior work mitigates this through context management with agent-side context control or fixed strategies such as summarization, which require training the agent itself for adaptation - making it impractical for closed-source agents and ignoring that different agents may require different strategies. We introduce Adaptive Context Management (AdaCoM), which trains an external LLM to manage the context of a frozen agent through flexible modification actions and end-to-end reinforcement learning. Across diverse agents on web search and deep research benchmarks, AdaCoM substantially improves performance by preserving task constraints and progress while pruning stale content. The learned strategies reveal a Fidelity-Reliability Trade-off: agents with higher vanilla ReAct performance benefit from higher-fidelity context preservation, whereas lower-performing agents require more aggressive compression to stay within a reliable reasoning regime. Transfer experiments show that AdaCoM generalizes most effectively across agents with similar capability (measured by vanilla ReAct performance), suggesting a practical path toward reusable context managers for agent systems.

Liên kết bài báo

https://arxiv.org/abs/2605.30785

Tác tử tiềm ẩn: Quy trình hậu huấn luyện cho tranh luận đa tác tử được nội tại hóa / Latent Agents: A Post-Training Procedure for Internalized Multi-Agent Debate

Giới thiệu bài báo

Tranh luận đa tác tử (Multi-Agent Debate) để nâng cao năng lực suy luận của mô hình ngôn ngữ lớn (Large Language Models, LLMs) là một phương pháp mạnh mẽ, nhưng có hạn chế là chi phí tính toán rất cao do nhiều tác tử phải trao đổi lịch sử tranh luận dài. Để giải quyết sự kém hiệu quả này, Latent Agents đề xuất một quy trình hậu huấn luyện (post-training) nhằm chưng cất tranh luận đa tác tử vốn được thực hiện ở bên ngoài vào bên trong một mô hình ngôn ngữ đơn lẻ. Ý tưởng cốt lõi không chỉ dừng ở việc nén kết quả của cuộc tranh luận, mà còn để mô hình học trước chính cấu trúc của cuộc tranh luận, rồi sau đó khuyến khích nó nội tại hóa cấu trúc đó thông qua học tăng cường (Reinforcement Learning, RL). Để làm điều này, các tác giả trước hết xây dựng dữ liệu tranh luận gồm 3 tác tử và 2 vòng, đồng thời gắn các thẻ cấu trúc vào bản ghi tranh luận của các bài toán số học nơi đã hình thành đồng thuận cuối cùng để tạo ra một định dạng nhất quán. Tiếp đó, ở giai đoạn fine-tuning có giám sát (Supervised Fine-Tuning, SFT), toàn bộ trace tranh luận được học nguyên vẹn để mô hình mô phỏng cách cuộc tranh luận phát triển và các mẫu hình thành đồng thuận.

Giai đoạn học tăng cường sau đó tương ứng với quá trình vượt ra ngoài việc bắt chước hình thức đơn thuần để thực sự nội tại hóa tranh luận. Tại đây, nhóm tác giả sử dụng Group Relative Policy Optimization (GRPO) để so sánh nhiều đầu ra ứng viên, đồng thời kết hợp phần thưởng length clipping nhằm tạo áp lực để đáp án đúng xuất hiện sớm hơn. Ngoài ra, phần thưởng định dạng giúp duy trì các thẻ cấu trúc như <|Agent 1|>, <|Round 1|>, <|endofdebate|> sẽ dần được giảm bớt, qua đó mô hình được thiết kế để đi đến kết luận chỉ bằng biểu diễn nội bộ mà không còn phụ thuộc vào các cuộc tranh luận dài ở bên ngoài. Cách lập lịch phần thưởng động và việc rút ngắn độ dài này đóng vai trò quan trọng trong việc giảm hình thức tính toán bề ngoài của cuộc tranh luận, đồng thời vẫn bảo toàn lợi thế suy luận do tương tác giữa các tác tử tạo ra. Kết quả thực nghiệm cho thấy mô hình được đề xuất đạt hiệu năng ngang bằng hoặc tốt hơn explicit multi-agent debate trên GSM8K, MMLU-Pro và Big-Bench Hard(BBH), trong khi số token sử dụng giảm tới 93%, giúp hiệu quả suy luận được cải thiện đáng kể. Đặc biệt, trong một số thiết lập, chỉ riêng SFT cũng đã cho kết quả vượt trội hơn phương pháp tranh luận truyền thống, và khi bổ sung RL thì cả độ chính xác lẫn mức tiết kiệm token đều được tăng cường, cho thấy rõ hiệu quả của quy trình nội tại hóa.

Một đóng góp quan trọng khác của nghiên cứu này là phân tích một cách cơ học việc tranh luận được nội tại hóa đã thay đổi không gian biểu diễn của mô hình như thế nào. Thông qua các thí nghiệm activation steering, các tác giả cho thấy bên trong mô hình đã được nội tại hóa hình thành các không gian con đặc thù theo tác tử (agent-specific subspaces), và tồn tại những hướng có thể diễn giải được tương ứng với quan điểm của các tác tử khác nhau. Điều này gợi ý rằng ưu điểm của tranh luận đa tác tử không chỉ đến từ việc lấy trung bình văn bản đầu ra, mà còn liên quan đến quá trình các góc nhìn suy luận khác nhau được tách biệt và kết hợp một cách có cấu trúc trong không gian tiềm ẩn. Xa hơn nữa, thí nghiệm nội tại hóa một tác tử độc hại rồi ức chế nó bằng negative steering cho thấy trong mô hình đã được chưng cất, hành vi có hại có thể trở nên cục bộ hơn và dễ kiểm soát hơn. Kết quả là, Latent Agents không chỉ đề xuất một cách nén suy luận đa tác tử theo hướng tiết kiệm chi phí, mà còn làm sáng tỏ cả cấu trúc lẫn khả năng kiểm soát của suy luận đã được nội tại hóa.

Tóm tắt (Abstract)

Đã cho thấy rằng tranh luận đa tác tử có thể cải thiện năng lực suy luận của các mô hình ngôn ngữ lớn (LLM). Tuy nhiên, cách này tốn kém về tính toán vì cần tạo ra các bản ghi hội thoại dài trước khi trả lời câu hỏi. Để giải quyết sự kém hiệu quả này, chúng tôi phát triển một khung distill tranh luận đa tác tử vào một LLM duy nhất thông qua quy trình fine-tuning hai giai đoạn, kết hợp học cấu trúc tranh luận với quá trình nội tại hóa thông qua lập lịch phần thưởng động và cắt ngắn độ dài. Trên nhiều mô hình và benchmark, các mô hình đã được nội tại hóa của chúng tôi đạt hoặc vượt hiệu năng của tranh luận đa tác tử tường minh trong khi sử dụng ít hơn tới 93% token. Tiếp đó, chúng tôi khảo sát nền tảng cơ chế của năng lực này thông qua activation steering và phát hiện rằng quá trình nội tại hóa tạo ra các không gian con đặc thù theo tác tử: những hướng có thể diễn giải được trong không gian kích hoạt, tương ứng với các góc nhìn tác tử khác nhau. Chúng tôi cũng trình bày một ứng dụng thực tiễn. Bằng cách đưa các tác tử độc hại vào LLM thông qua tranh luận đã được nội tại hóa, rồi áp dụng negative steering để ức chế chúng, chúng tôi cho thấy quá trình distillation giúp việc định vị và kiểm soát hành vi có hại trở nên dễ dàng hơn, đồng thời làm giảm hiệu năng tổng thể ít hơn so với khi áp dụng steering lên mô hình gốc. Các phát hiện của chúng tôi mở ra một góc nhìn mới để hiểu các năng lực đa tác tử trong các mô hình đã được distill, đồng thời cung cấp hướng dẫn thực tiễn để kiểm soát các hành vi suy luận đã được nội tại hóa. Mã nguồn có tại URL sau: https://github.com/johnsk95/latent_agents

Multi-agent debate has been shown to improve reasoning in large language models (LLMs). However, it is compute-intensive, requiring generation of long transcripts before answering questions. To address this inefficiency, we develop a framework that distills multi-agent debate into a single LLM through a two-stage fine-tuning pipeline combining debate structure learning with internalization via dynamic reward scheduling and length clipping. Across multiple models and benchmarks, our internalized models match or exceed explicit multi-agent debate performance using up to 93% fewer tokens. We then investigate the mechanistic basis of this capability through activation steering, finding that internalization creates agent-specific subspaces: interpretable directions in activation space corresponding to different agent perspectives. We further demonstrate a practical application: by instilling malicious agents into the LLM through internalized debate, then applying negative steering to suppress them, we show that distillation makes harmful behaviors easier to localize and control with smaller reductions in general performance compared to steering base models. Our findings offer a new perspective for understanding multi-agent capabilities in distilled models and provide practical guidelines for controlling internalized reasoning behaviors. Code available at https://github.com/johnsk95/latent_agents

Liên kết bài báo

https://arxiv.org/abs/2604.24881

Đọc thêm

https://github.com/johnsk95/latent_agents

MOSS: Tự tiến hóa thông qua tái viết ở cấp mã nguồn trong các hệ thống tác tử tự trị / MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems

Giới thiệu bài báo

Các hệ thống tác tử tự trị có thể tự học ngay cả sau khi được triển khai và giảm các thất bại lặp lại từ lâu đã là một mục tiêu quan trọng, nhưng trên thực tế, phần lớn các hệ thống vẫn chỉ dừng lại ở mức cấu hình có thể chỉnh sửa bằng văn bản và prompt, nên không thể xử lý tận gốc các khiếm khuyết mang tính cấu trúc. Để vượt qua giới hạn này, MOSS được đề xuất như một hệ thống được thiết kế để sử dụng thích ứng ở cấp mã nguồn (source-level adaptation) làm phương tiện cho tự tiến hóa, cho phép tái viết chính cấu trúc thực thi cốt lõi của tác tử. Các tác giả chỉ ra rằng những yếu tố quyết định hành vi thực tế như routing, thứ tự hook, bất biến trạng thái và dispatch đều tồn tại trong mã, nên việc chỉ thay đổi file skill hoặc cấu hình prompt tất yếu sẽ để lại những lỗi mà cách tiếp cận đó không thể chạm tới. Ngược lại, mã nguồn có tính Turing-complete, là siêu tập của các artefact dựa trên văn bản và vận hành một cách tất định mà không phụ thuộc vào việc mô hình có tuân thủ chỉ thị hay không, nên được đưa ra như một phương tiện thích ứng tổng quát và ổn định hơn nhiều.

Phương pháp luận của MOSS lấy bằng chứng lỗi trong môi trường production được thu thập tự động (production-failure evidence) làm điểm xuất phát, và cốt lõi là thực thi cố định một pipeline tiến hóa nhiều giai đoạn dựa trên đó. Việc sửa mã được giao cho một coding agent CLI (command-line interface) bên ngoài, nhưng MOSS trực tiếp kiểm soát thứ tự các bước và phán quyết cuối cùng, qua đó tách biệt trách nhiệm giữa tạo sinh và xác minh. Các phiên bản ứng viên được tạo ra theo cách này sẽ được kiểm chứng bằng cách phát lại (replay) lô lỗi trong các worker thử nghiệm dùng một lần (ephemeral trial workers), và điều này có ý nghĩa ở chỗ hệ thống thực hiện đánh giá dựa trên tái hiện các tình huống lỗi thực tế chứ không chỉ phân tích tĩnh đơn thuần. Chỉ những ứng viên vượt qua xác minh mới được thăng cấp thông qua in-place container swap với điều kiện có sự đồng ý của người dùng, và sau đó nếu không đáp ứng các điều kiện health probe thì sẽ tự động rollback, qua đó bảo đảm cả an toàn vận hành.

Cách tiếp cận này khác biệt với các tác tử tự tiến hóa trước đây, vốn chủ yếu tìm cách cải thiện trong các miền có thể biểu diễn bằng văn bản như prompt, schema bộ nhớ hay đồ thị workflow, ở chỗ nó coi toàn bộ hệ thống, bao gồm cả execution harness thực tế, là đối tượng của tiến hóa. Vì vậy, MOSS có thể được hiểu không chỉ là một mô hình tạo ra câu trả lời tốt hơn, mà là một nền tảng thích ứng có thể trực tiếp sửa chữa các khiếm khuyết cấu trúc của hệ thống tác tử đang vận hành. Đặc biệt, bằng cách kết hợp pipeline tất định với quy trình xác minh-thăng cấp-rollback, nó đưa ra một con đường tự cải thiện vững chắc hơn so với các phương pháp tập trung vào văn bản vốn dễ bị tổn thương trước long-context drift về lâu dài. Thiết kế này cho thấy rõ rằng để các tác tử tự trị có thể tiến hóa an toàn trong môi trường dịch vụ thực tế, không chỉ cần năng lực học tập mà còn cần các cơ chế kỹ thuật hệ thống bao gồm cả triển khai, xác minh và rollback.

Trong thực nghiệm, MOSS đã nâng điểm grader trung bình trên bốn tác vụ của OpenClaw từ 0.25 lên 0.61 chỉ sau một chu kỳ tiến hóa, và đạt được mức cải thiện này mà không có sự can thiệp của con người. Kết quả này cho thấy cách tiếp cận tái viết ở cấp mã nguồn không chỉ tổng quát hơn về mặt lý thuyết mà còn có thể dẫn đến cải thiện hiệu năng có ý nghĩa trong các hệ thống tác tử production thực tế. Cuối cùng, bài báo này mở rộng phạm vi của các tác tử tự tiến hóa từ điều chỉnh văn bản sang tái cấu trúc ở cấp mã, qua đó gợi mở một khả năng mới để các hệ thống tự trị tự sửa các thất bại lặp lại.

Tóm tắt(Abstract)

Sau khi được triển khai, các hệ thống tác tử tự trị nhìn chung khá tĩnh: chúng không học từ tương tác của người dùng, và các lỗi lặp đi lặp lại sẽ tiếp tục tồn tại cho đến khi bản cập nhật do con người dẫn dắt tiếp theo phát hành bản sửa lỗi. Để ứng phó với điều này, các tác tử tự tiến hóa đã xuất hiện, nhưng chúng cũng chỉ giới hạn quá trình tiến hóa vào các artifact có thể chỉnh sửa bằng văn bản — tức các file kỹ năng, cấu hình prompt, schema bộ nhớ và đồ thị workflow — trong khi để nguyên agent harness. Vì routing, thứ tự hook, các bất biến trạng thái và dispatch tồn tại trong mã thay vì trong các artifact văn bản, nên có cả một lớp lỗi cấu trúc hoàn toàn không thể với tới từ tầng văn bản. Chúng tôi cho rằng thích ứng ở cấp mã nguồn là một phương tiện về bản chất tổng quát hơn. Nó Turing-complete, là một siêu tập chặt bao trùm mọi phạm vi có thể chỉnh sửa bằng văn bản, phát huy hiệu lực một cách quyết định thay vì dựa vào mức độ tuân thủ của mô hình nền tảng, và không bị suy giảm bởi hiện tượng trôi dạt ngữ cảnh dài. Chúng tôi giới thiệu MOSS, một hệ thống thực hiện tự tái viết ở cấp mã nguồn (self-rewriting) trên các nền tác tử đang chạy production. Mỗi lần tiến hóa được neo vào một lô bằng chứng lỗi production được tuyển chọn tự động và đi qua một pipeline xác định nhiều giai đoạn. Việc sửa đổi mã được giao cho một CLI tác tử lập trình bên ngoài có thể cắm ghép, còn MOSS giữ quyền kiểm soát thứ tự các bước và phán quyết. Các ứng viên được xác minh bằng cách phát lại lô dữ liệu trên image ứng viên trong các trial worker tạm thời dùng một lần, sau đó được thăng cấp thông qua cơ chế hoán đổi container tại chỗ có chốt đồng ý của người dùng và rollback có chốt health probe. Trên OpenClaw, MOSS nâng điểm chấm trung bình của 4 tác vụ từ 0.25 lên 0.61 chỉ trong một chu kỳ mà không cần can thiệp của con người.

Autonomous agentic systems are largely static after deployment: they do not learn from user interactions, and recurring failures persist until the next human-driven update ships a fix. Self-evolving agents have emerged in response, but all confine evolution to text-mutable artifacts -- skill files, prompt configurations, memory schemas, workflow graphs -- and leave the agent harness untouched. Since routing, hook ordering, state invariants, and dispatch live in code rather than in any text artifact, an entire class of structural failure is physically unreachable from the text layer. We argue that source-level adaptation is a fundamentally more general medium: it is Turing-complete, a strict superset of every text-mutable scope, takes effect deterministically rather than through base-model compliance, and does not erode under long-context drift. We present MOSS, a system that performs self-rewriting at the source level on production agentic substrates. Each evolution is anchored to an automatically curated batch of production-failure evidence and proceeds through a deterministic multi-stage pipeline; code modification is delegated to a pluggable external coding-agent CLI while MOSS retains stage ordering and verdicts. Candidates are verified by replaying the batch against the candidate image in ephemeral trial workers, then promoted via user-consent-gated, in-place container swap with health-probe-gated rollback. On OpenClaw, MOSS lifts a four-task mean grader score from 0.25 to 0.61 in a single cycle without human intervention.

Link bài báo

https://arxiv.org/abs/2605.22794

Đọc thêm

https://github.com/dav-joy-thon/MOSS

Căn chỉnh an toàn cho mô hình ngôn ngữ thông qua trò chơi không hợp tác / Safety Alignment of LMs via Non-cooperative Games

Giới thiệu bài báo

Căn chỉnh an toàn của mô hình ngôn ngữ (language models, LM) từ lâu đã là một bài toán trọng tâm trong nghiên cứu căn chỉnh AI gần đây, bởi nó đòi hỏi phải đồng thời đảm bảo khả năng chống chịu trước đầu vào độc hại trong khi vẫn duy trì tính hữu ích. Nếu các cách tiếp cận trước đây chủ yếu dừng ở việc tạo ra prompt tấn công rồi tuần tự fine-tune để mô hình phòng thủ trước chúng, thì bài báo này tái định nghĩa căn chỉnh an toàn như một trò chơi không tổng bằng không (non-zero-sum game) trong đó Attacker LM và Defender LM thích nghi với chiến lược của nhau theo thời gian thực. Hai mô hình được cùng huấn luyện thông qua học tăng cường trực tuyến (online reinforcement learning, RL), trong đó kẻ tấn công khám phá các chiến lược red-teaming tinh vi hơn còn bên phòng thủ tiến hóa để phản ứng vững chắc hơn trước các cuộc tấn công đó. Cấu trúc thích nghi lẫn nhau này khác biệt rõ rệt với các phương pháp trước ở chỗ đây không phải là học một lần trên tập dữ liệu tĩnh, mà là quá trình ranh giới hiệu năng tự tiếp tục mở rộng khi sự cạnh tranh giữa các mô hình lặp đi lặp lại. Đặc biệt, các tác giả không thiết kế tín hiệu phần thưởng dưới dạng điểm số theo từng mục (point-wise score), mà dùng tín hiệu dựa trên ưu tiên (preference-based) thu được từ so sánh theo cặp (pairwise comparison), nhằm cung cấp giám sát ổn định hơn và giảm mức độ dễ tổn thương trước reward hacking.

Ở trung tâm của phương pháp này là quy trình huấn luyện mang tên AdvGame, với mục tiêu đẩy đường biên Pareto giữa an toàn và tính hữu ích ra xa hơn. Cụ thể, vì attacker và defender lần lượt được cập nhật trong khi phản ánh chính sách mới nhất của nhau, nên bên phòng thủ được rèn luyện trước các đòn tấn công thực sự mạnh hơn, còn bên tấn công học được năng lực phát hiện lỗ hổng mang tính tổng quát thay vì chỉ giới hạn ở điểm yếu của một mô hình cụ thể. Phần triển khai công thức trong phụ lục cho thấy quá trình cốt lõi để chuyển bài toán tối ưu hóa mang tính trò chơi này thành dạng có thể huấn luyện trong thực tế: phân phối tối ưu của chính sách attacker được biểu diễn dưới dạng tái trọng số hàm mũ so với chính sách tham chiếu (reference policy), rồi được sắp xếp lại thành cách so sánh hai ứng viên để loại bỏ hằng số chuẩn hóa. Trong quá trình đó, việc học của attacker không còn là bài toán hồi quy điểm tuyệt đối mà chuyển thành bài toán khớp thứ tự ưu tiên tương đối, từ đó tự nhiên dẫn tới các hàm mục tiêu thuộc họ Direct Preference Optimization (DPO). Nói cách khác, toàn bộ trajectory được hình thành bởi prompt do attacker tạo ra và phản hồi của defender trở thành đối tượng so sánh, giúp thu được tín hiệu học phong phú hơn dựa trên tương tác thực tế.

Ngoài ra, bài báo còn liên kết xác suất ưu tiên với mô hình Bradley-Terry, qua đó đưa vào khái niệm marginalized preference để gom tương tác giữa attacker và defender trong không gian logit. Nhờ vậy, hệ thống có thể học cấu trúc ưu tiên phản ánh hiệu ứng kết hợp giữa prompt và phản hồi chứ không chỉ riêng prompt, đồng thời trung bình hóa nhiễu của từng phản hồi riêng lẻ. Kết quả là việc cập nhật attacker được thực hiện trên một phân phối động liên tục được cập nhật bởi chính sách defender hiện tại, nên nó hội tụ thành năng lực red-team có thể khái quát hóa sang nhiều mô hình khác nhau thay vì thành các đòn tấn công chỉ chuyên cho một mục tiêu cố định. Như phần tóm tắt nhấn mạnh, quá trình đồng tối ưu hóa này có ý nghĩa lớn vì vừa tạo ra Defender LM hữu ích hơn nhưng cũng chống chịu tốt hơn trước tấn công, vừa đồng thời tạo ra một Attacker LM mạnh và đa dụng có thể dùng trong môi trường triển khai thực tế. Xét cho cùng, nghiên cứu này mở rộng căn chỉnh an toàn từ chỗ chỉ là một kỹ thuật phòng thủ thành một bài toán học tập tận dụng có hệ thống sự cạnh tranh và thích nghi giữa các mô hình, qua đó đề xuất một hướng phương pháp luận mới có thể đồng thời nâng cao cả độ an toàn lẫn hiệu dụng của mô hình ngôn ngữ.

Tóm tắt(Abstract)

Đảm bảo tính an toàn của mô hình ngôn ngữ (LM) trong khi vẫn duy trì tính hữu dụng của chúng vẫn là một thách thức cốt lõi trong việc căn chỉnh AI. Các cách tiếp cận hiện nay dựa vào huấn luyện đối kháng tuần tự: tạo prompt đối kháng rồi tinh chỉnh LM để phòng thủ trước chúng. Chúng tôi đề xuất một mô hình khác: chính thức hóa căn chỉnh an toàn như một trò chơi không tổng bằng không giữa LM tấn công và LM phòng thủ, đồng thời huấn luyện chung hai mô hình bằng học tăng cường trực tuyến. Mỗi LM liên tục thích ứng với chiến lược đang thay đổi của đối phương, từ đó tạo ra sự cải thiện lặp đi lặp lại. Phương pháp của chúng tôi sử dụng tín hiệu phần thưởng dựa trên ưu tiên được rút ra từ so sánh theo cặp thay vì điểm số từng điểm (point-wise), nhờ đó cung cấp cơ chế giám sát vững chắc hơn và có thể giảm hiện tượng reward hacking. Công thức RL AdvGame dịch chuyển biên Pareto giữa an toàn và tính hữu dụng, tạo ra một LM phòng thủ vừa hữu ích hơn vừa bền vững hơn trước các cuộc tấn công đối kháng. Ngoài ra, LM tấn công thu được cuối cùng hội tụ thành một tác tử red-teaming đa dụng mạnh mẽ, có thể được triển khai trực tiếp để thăm dò và kiểm chứng các mô hình mục tiêu bất kỳ. Mã nguồn có tại github.com/facebookresearch/advgame.

Đảm bảo an toàn cho các mô hình ngôn ngữ (LM) trong khi vẫn duy trì tính hữu dụng của chúng tiếp tục là một thách thức then chốt trong căn chỉnh AI. Các phương pháp hiện tại dựa vào huấn luyện đối kháng tuần tự: tạo prompt đối kháng và tinh chỉnh LM để phòng thủ trước chúng. Chúng tôi giới thiệu một mô hình khác: xem căn chỉnh an toàn là một trò chơi không tổng bằng không giữa một Attacker LM và một Defender LM được huấn luyện chung thông qua học tăng cường trực tuyến. Mỗi LM liên tục thích nghi với các chiến lược đang tiến hóa của đối phương, thúc đẩy sự cải thiện lặp lại. Phương pháp của chúng tôi sử dụng tín hiệu phần thưởng dựa trên ưu tiên được rút ra từ so sánh theo cặp thay vì điểm số point-wise, cung cấp cơ chế giám sát vững chắc hơn và có khả năng giảm reward hacking. Công thức RL của chúng tôi, AdvGame, dịch chuyển biên Pareto của an toàn và tính hữu dụng, tạo ra một Defender LM vừa hữu ích hơn vừa chống chịu tốt hơn trước các cuộc tấn công đối kháng. Ngoài ra, Attacker LM thu được sẽ hội tụ thành một tác tử red-teaming mạnh mẽ, đa dụng, có thể được triển khai trực tiếp để thăm dò các mô hình mục tiêu bất kỳ. Mã nguồn tại github.com/facebookresearch/advgame.

Liên kết bài báo

https://arxiv.org/abs/2512.20806

Đọc thêm

https://github.com/facebookresearch/advgame

Lập kế hoạch, quan sát, phục hồi: Một benchmark và các kiến trúc cho hỗ trợ thủ tục chủ động / Plan, Watch, Recover: A Benchmark and Architectures for Proactive Procedural Assistance

Giới thiệu bài báo

Trong các tác vụ thủ tục ngoài đời thực, người dùng không phải lúc nào cũng tuân thủ chính xác trình tự đã định, vì vậy hệ thống hỗ trợ cần không chỉ dự đoán bước tiếp theo mà còn phải cùng lúc xác định khi nào nên can thiệp và nên hướng dẫn như thế nào. Trên nền tảng vấn đề đó, cách tiếp cận được đề xuất tập trung vào hỗ trợ thủ tục mang tính chủ động: diễn giải tình huống hiện tại dựa trên thông tin góc nhìn thứ nhất của người dùng, lịch sử hội thoại và ngữ cảnh truy vấn, đồng thời phát hiện theo thời gian thực cả việc liệu người dùng đã rơi vào trạng thái lệch khỏi kế hoạch (out-of-plan, OOP) hay chưa. Điểm mấu chốt của nghiên cứu này là tách riêng việc có can thiệp hay không và nội dung can thiệp, bởi quyết định thời điểm và việc tạo nội dung hướng dẫn có các mục tiêu tối ưu hóa khác nhau. Khi người dùng rời khỏi quy trình bình thường, hệ thống không nên chỉ im lặng chờ đợi mà phải đưa ra chỉ dẫn quay lại ngắn gọn, chính xác vào đúng thời điểm; để làm được điều đó, hệ thống cần đồng thời theo dõi trạng thái thủ tục và các tín hiệu thị giác.

Để hỗ trợ mục tiêu này, trước hết các tác giả đã xây dựng EgoProactive, một bộ dữ liệu góc nhìn thứ nhất đeo trên người quy mô lớn, đồng thời cung cấp chú thích rõ ràng về việc lệch khỏi kế hoạch và các bước phục hồi (recovery steps). Bộ dữ liệu này đặc biệt có ý nghĩa ở chỗ nó giúp việc học các tình huống đi chệch hướng và sai sót trong môi trường thực trở nên khả thi, qua đó bổ sung cho những hạn chế của các nguồn tài nguyên trước đây vốn chỉ giả định tiến trình bước đi tuyến tính. Ngoài ra, thông qua Pro²Bench — một khung đánh giá tái cấu trúc năm benchmark hiện có gồm Ego4D, EPIC-KITCHENS, EgoExo4D, HoloAssist và HowTo100M thành một hệ thống hướng dẫn chủ động thống nhất — nghiên cứu đã thiết lập một môi trường đánh giá cho phép so sánh nhất quán khả năng chọn thời điểm can thiệp và huấn luyện phục hồi trên nhiều miền khác nhau. Điều này quan trọng vì nó mở rộng bài toán hiểu thủ tục từ một bài toán đơn thuần dự đoán bước kế tiếp thành một bài toán đo lường chất lượng tương tác thực tế.

Về mặt mô hình, nghiên cứu đề xuất decoupled planner-interaction architecture, tách riêng thành phần lập kế hoạch và thành phần tương tác, để tối ưu hóa việc theo dõi trạng thái thủ tục và sinh phản hồi theo đúng vai trò của từng phần thay vì ghép nối lỏng lẻo chúng lại với nhau. Trên đó, phương pháp còn áp dụng lựa chọn clip bám theo kế hoạch (plan-anchored), ưu tiên khai thác các đoạn hình ảnh liên quan trực tiếp đến bước hiện tại và quyết định phục hồi thay vì xử lý toàn bộ video một cách dàn trải. Cách làm này giúp giảm nhiễu không cần thiết trong các video góc nhìn thứ nhất dài, đồng thời nắm bắt rõ hơn các dấu hiệu lệch khỏi kế hoạch và các manh mối cần thiết để quay lại quy trình. Nói cách khác, kiến trúc này có thể được xem là một cấu trúc căn chỉnh cả “nói gì” lẫn “nhìn gì” xoay quanh kế hoạch.

Ngoài ra, cũng đáng chú ý là thông qua công thức hậu huấn luyện (post-training), nghiên cứu cho thấy phương pháp này không phải là một xử lý đặc thù chỉ phù hợp với một mô hình cụ thể mà là một quy trình tổng quát có thể chuyển sang nhiều backbone khác nhau. Trên thực tế, nhóm nghiên cứu đã thực hiện tái lập chéo backbone trên Llama 4 và Qwen-3.6-VL để kiểm chứng khả năng перенос? Nope. Tính khả chuyển của phương pháp, điều này cho thấy nó có thể dễ dàng mở rộng sang các mô hình đa phương thức mạnh hơn trong tương lai. Trong kết quả thực nghiệm, hệ thống Llama-4 đã huấn luyện cho thấy chất lượng can thiệp khách quan (objective intervention quality) cao hơn trên toàn bộ sáu bộ dữ liệu so với các đường cơ sở mạnh như Claude Opus 4.6, Gemini 3.1 Pro, GPT 5.2 và Qwen3 VL 235B. Đặc biệt, trong điều kiện oracle plan, khi chất lượng kế hoạch được kiểm soát, hiệu năng hướng dẫn phục hồi được cải thiện đáng kể, qua đó củng cố rõ ràng tính hợp lý của cấu trúc tách biệt giữa theo dõi kế hoạch và tạo can thiệp. Tổng thể, nghiên cứu này tái định nghĩa trợ lý đa phương thức cho người dùng thực hiện tác vụ thủ tục không phải như một hệ thống dự đoán bước, mà như một huấn luyện viên can thiệp thời gian thực, đồng thời đưa ra dữ liệu, kiến trúc và chiến lược học tập gần với tình huống thực tế hơn.

Tóm tắt(Abstract)

Tôi sẽ khớp cấu trúc và thuật ngữ của phần tóm tắt cần dịch, dịch ngay câu đầu tiên sang tiếng Hàn rồi biên tập và dịch toàn bộ phần tóm tắt theo văn phong tự nhiên, học thuật.
Chúng tôi hình dung một hệ thống trợ lý đa phương thức chủ động có khả năng cung cấp cho người dùng hướng dẫn từng bước theo thời gian thực trong các tác vụ quy trình, đồng thời tự chủ quyết định khi nào cần ngắt để can thiệp và cách thức huấn luyện, hướng dẫn. Tuy nhiên, tiến bộ trong lĩnh vực này bị hạn chế do thiếu các benchmark quy mô lớn, xuyên miền phản ánh điều kiện thực tế, đặc biệt là trường hợp phổ biến khi người dùng đi lệch khỏi trình tự bước dự kiến. Chúng tôi lấp đầy khoảng trống này thông qua bốn đóng góp: (1) công bố EgoProactive, một bộ dữ liệu wearable-egocentric quy mô lớn cho hỗ trợ quy trình chủ động với các chú thích Out-of-Plan (OOP) và bước phục hồi được nêu tường minh; (2) mở rộng năm benchmark đã được thiết lập (Ego4D, EPIC-KITCHENS, EgoExo4D, HoloAssist, HowTo100M) thành Pro^2Bench dưới một schema hướng dẫn chủ động thống nhất; (3) đề xuất kiến trúc planner--interaction tách rời được chuyên biệt cho trạng thái quy trình, tín hiệu thị giác và chèn phục hồi; (4) giới thiệu một recipe hậu huấn luyện có thể chuyển giao trên nhiều họ mô hình, được xác thực bằng tái lập xuyên backbone trên Llama 4 và Qwen-3.6-VL. Trong các thí nghiệm quy mô lớn, hệ thống Llama-4 do chúng tôi huấn luyện cải thiện đáng kể chất lượng can thiệp khách quan so với các mô hình chuẩn độc quyền mạnh (Claude Opus 4.6, Gemini 3.1 Pro, GPT 5.2) và các mô hình chuẩn open-weight (Qwen3 VL 235B) trên cả sáu bộ dữ liệu. Các thí nghiệm oracle-plan tiếp tục cho thấy rằng, khi chất lượng kế hoạch được kiểm soát, mô hình duplex đã huấn luyện tạo ra hướng dẫn chất lượng cao và đạt cải thiện lớn trong phục hồi Out-of-Plan (OOP).

Chúng tôi hình dung một hệ thống trợ lý đa phương thức chủ động có khả năng cung cấp cho người dùng hướng dẫn từng bước theo thời gian thực trong một tác vụ quy trình, đồng thời tự chủ quyết định \textit{khi nào} cần ngắt để can thiệp và \textit{cách thức} huấn luyện, hướng dẫn. Tuy nhiên, tiến bộ trong lĩnh vực này bị hạn chế do thiếu các benchmark quy mô lớn, xuyên miền phản ánh điều kiện thực tế, đặc biệt là trường hợp phổ biến khi người dùng đi lệch khỏi trình tự bước dự kiến. Chúng tôi lấp đầy khoảng trống này thông qua bốn đóng góp: \textbf{(1)}~chúng tôi công bố \textbf{EgoProactive}, một bộ dữ liệu wearable-egocentric quy mô lớn cho hỗ trợ quy trình chủ động với các chú thích Out-of-Plan (OOP) và bước phục hồi được nêu tường minh; \textbf{(2)}~chúng tôi mở rộng năm benchmark đã được thiết lập (Ego4D, EPIC-KITCHENS, EgoExo4D, HoloAssist, HowTo100M) thành \textbf{Pro\textsuperscript{2}Bench} dưới một schema hướng dẫn chủ động thống nhất; \textbf{(3)}~chúng tôi đề xuất một \textbf{kiến trúc planner--interaction tách rời} được chuyên biệt cho trạng thái quy trình, tín hiệu thị giác và chèn phục hồi; \textbf{(4)}~chúng tôi giới thiệu một recipe hậu huấn luyện có thể chuyển giao trên nhiều họ mô hình, được xác thực bằng tái lập xuyên backbone trên Llama~4 và Qwen-3.6-VL. Trong các thí nghiệm mở rộng, hệ thống Llama-4 do chúng tôi huấn luyện cải thiện đáng kể chất lượng can thiệp khách quan so với các mô hình chuẩn độc quyền mạnh (Claude Opus~4.6, Gemini~3.1~Pro, GPT~5.2) và các mô hình chuẩn open-weight (Qwen3~VL~235B) trên cả sáu bộ dữ liệu. Các thí nghiệm oracle-plan tiếp tục cho thấy rằng, khi chất lượng kế hoạch được kiểm soát, mô hình duplex đã huấn luyện tạo ra hướng dẫn chất lượng cao và đạt cải thiện lớn trong phục hồi Out-of-Plan.

Liên kết bài báo

https://arxiv.org/abs/2606.04970

Đọc thêm

https://huggingface.co/datasets/facebook/wearable-ai

FuzzingBrain V2: Hệ thống LLM đa tác tử cho phát hiện và tái hiện lỗ hổng tự động / FuzzingBrain V2: A Multi-Agent LLM System for Automated Vulnerability Discovery and Reproduction

Giới thiệu bài báo

Trong bối cảnh các mối đe dọa an ninh do lỗ hổng phần mềm ngày càng nghiêm trọng, riêng trong năm 2025 đã có khoảng 50.000 CVE (Common Vulnerabilities and Exposures) được báo cáo. Các mô hình ngôn ngữ lớn (LLM) đang mở ra những khả năng mới cho phát hiện lỗ hổng tự động, nhưng các phương pháp dựa trên LLM hiện có vẫn còn những vấn đề cốt lõi cần giải quyết. Cụ thể, các báo cáo lỗ hổng do LLM tạo ra vừa có tỷ lệ dương tính giả cao, vừa thiếu cơ chế kiểm chứng có thể tái hiện; đồng thời chúng sử dụng các mức độ phân đoạn chưa tối ưu như cấp hàm hoặc cấp dòng để xác định chính xác vị trí lỗ hổng, và gặp khó khăn trong việc xử lý hiệu quả các lỗ hổng có phụ thuộc chéo hàm phức tạp cùng điều kiện kích hoạt nhiều tầng. Trong nghiên cứu này, FuzzingBrain V2 được đề xuất như một hệ thống LLM đa tác tử được thiết kế để giải quyết có hệ thống các thách thức đó, tận dụng framework OSS-Fuzz của Google làm backend kiểm chứng để bảo đảm khả năng tái hiện 100% cho mọi lỗ hổng được báo cáo. Hệ thống này cũng giới thiệu Suspicious Point, một dạng trừu tượng mới bao gồm thông tin luồng điều khiển, cho phép xác định chính xác vị trí lỗ hổng tại điểm tối ưu giữa cấp hàm và cấp dòng; đồng thời, cùng với phân tích hàm phân cấp dựa trên logic và chiến lược fuzzing hai tầng, nó cải thiện độ bao phủ hàm trong điều kiện tài nguyên hạn chế. Ngoài ra, hệ thống tận dụng các công cụ phân tích tĩnh và động dựa trên Model Context Protocol cùng kỹ thuật context engineering tinh vi để tăng cường suy luận lỗ hổng phức tạp. Trên bộ dữ liệu C/C++ của vòng chung kết AIxCC 2025, FuzzingBrain V2 đạt tỷ lệ phát hiện 90% (36/40 lỗ hổng); trong môi trường vận hành thực tế, hệ thống đã phát hiện tổng cộng 41 lỗ hổng chưa từng được biết đến trước đó trên 12 dự án mã nguồn mở, trong đó 26 lỗ hổng đã được xác nhận, 23 lỗ hổng đã được sửa và 2 mã định danh CVE đã được cấp phát. Những kết quả này chứng minh rõ ràng rằng cách tiếp cận đa tác tử kết hợp năng lực phân tích ngữ nghĩa với phát hiện dựa trên thực thi không chỉ mang lại thành tựu học thuật mà còn có thể trực tiếp cải thiện bảo mật của phần mềm production trong thế giới thực.

Tóm tắt (Abstract)

Lỗ hổng phần mềm gây ra các mối đe dọa bảo mật nghiêm trọng, với gần 50.000 CVE được báo cáo trong năm 2025. Các mô hình ngôn ngữ lớn (LLM) cho thấy nhiều hứa hẹn trong việc tự động phát hiện lỗ hổng, nhưng vẫn còn ba thách thức chính. Thứ nhất, các báo cáo lỗ hổng do LLM tạo ra có tỷ lệ dương tính giả cao và thiếu khả năng xác minh có thể tái hiện. Thứ hai, các phương pháp dựa trên LLM hiện có sử dụng mức độ chi tiết chưa tối ưu để định vị lỗ hổng. Phân tích ở mức hàm bỏ sót lỗi khi ngữ cảnh quá rộng, trong khi phân tích ở mức dòng lại không cung cấp đủ ngữ cảnh. Thứ ba, các phương pháp hiện tại gặp khó khăn trong việc suy luận về những lỗ hổng có phụ thuộc liên hàm phức tạp và điều kiện kích hoạt. Chúng tôi giới thiệu FuzzingBrain V2, một hệ thống đa tác tử giải quyết các khoảng trống này thông qua bốn đóng góp chính: (1) phân tích lỗ hổng hoàn toàn tự động dựa trên OSS-Fuzz của Google, bảo đảm mọi lỗ hổng được báo cáo đều có thể tái hiện bằng fuzzer; (2) Suspicious Point, một phép trừu tượng mới dựa trên luồng điều khiển để định vị lỗ hổng chính xác ở mức độ chi tiết tối ưu; (3) phân tích hàm phân cấp dựa trên logic với fuzzing hai lớp giúp tăng độ bao phủ hàm trong điều kiện tài nguyên hạn chế; (4) các công cụ phân tích tĩnh và động dựa trên MCP với kỹ thuật ngữ cảnh giúp tăng cường suy luận về lỗ hổng phức tạp. Trên bộ dữ liệu C/C++ của vòng chung kết AIxCC 2025, FuzzingBrain V2 đạt tỷ lệ phát hiện 90% (36 trên 40 lỗ hổng). Trong triển khai thực tế, FuzzingBrain V2 đã phát hiện 29 lỗ hổng zero-day trên 12 dự án mã nguồn mở, tất cả đều đã được maintainer xác nhận và khắc phục, trong đó 2 lỗ hổng đã được cấp mã CVE.

Lỗ hổng phần mềm gây ra các mối đe dọa bảo mật nghiêm trọng, với gần 50.000 CVE được báo cáo trong năm 2025. Dù các mô hình ngôn ngữ lớn (LLM) cho thấy tiềm năng trong việc tự động phát hiện lỗ hổng, vẫn còn ba thách thức chính. Thứ nhất, các báo cáo lỗ hổng do LLM tạo ra có tỷ lệ dương tính giả cao và thiếu cơ chế xác minh có thể tái lập. Thứ hai, các phương pháp dựa trên LLM hiện tại sử dụng mức độ chi tiết chưa tối ưu để định vị lỗ hổng: phân tích ở mức hàm bỏ sót lỗi khi ngữ cảnh trở nên quá rộng, còn phân tích ở mức dòng lại thiếu ngữ cảnh cần thiết. Thứ ba, các phương pháp hiện có gặp khó khăn khi suy luận về các lỗ hổng có phụ thuộc liên hàm phức tạp và điều kiện kích hoạt. Chúng tôi giới thiệu FuzzingBrain V2, một hệ thống đa tác tử giải quyết các khoảng trống này thông qua bốn đóng góp chính: (1) phân tích lỗ hổng hoàn toàn tự động được xây dựng trên OSS-Fuzz của Google, bảo đảm mọi lỗ hổng được báo cáo đều có thể được tái hiện bằng fuzzer; (2) Suspicious Point, một phép trừu tượng mới dựa trên luồng điều khiển để định vị lỗ hổng chính xác ở mức độ chi tiết tối ưu; (3) phân tích hàm phân cấp điều khiển bằng logic với fuzzing hai lớp, giúp tăng độ bao phủ hàm trong điều kiện hạn chế tài nguyên; (4) các công cụ phân tích tĩnh và động dựa trên MCP, kết hợp kỹ thuật ngữ cảnh để tăng cường khả năng suy luận về các lỗ hổng phức tạp. Trên bộ dữ liệu C/C++ của vòng chung kết AIxCC 2025, FuzzingBrain V2 đạt tỷ lệ phát hiện 90% (36 trên 40 lỗ hổng). Trong triển khai thực tế, FuzzingBrain V2 đã phát hiện 29 lỗ hổng zero-day trên 12 dự án mã nguồn mở, tất cả đều đã được maintainer xác nhận và vá, trong đó 2 lỗ hổng đã được cấp mã CVE.

Link bài báo

https://arxiv.org/abs/2605.21779

⚠️Quảng cáo⚠️: 🔥Bài viết này do cộng đồng người dùng PyTorch Hàn Quốc 🇰🇷 tổng hợp có hữu ích với bạn không? Nếu đăng ký làm thành viên, bạn sẽ nhận được các bài viết nổi bật qua email💌! Bạn cũng có thể nhận thông báo bài viết mới qua Telegram hoặc Slack/Discord/Teams/Dooray/GoogleChat v.v.. :D

2 bình luận

lyh4215 29 ngày trước

Cảm ơn!

ninebow 28 ngày trước

Cảm ơn bạn đã đọc và còn để lại bình luận nữa!!! 🙇

[2026/06/01 ~ 07] Tuyển tập các bài báo AI/ML đáng chú ý trong tuần này

PyTorchKR🔥🇰🇷 🤔💭

Tóm tắt trọng tâm theo từng bài báo

Harness-1: Học tăng cường cho tác nhân tìm kiếm với harness ngoại hóa trạng thái / Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses

Giới thiệu bài báo

Tóm tắt(Abstract)

Liên kết bài báo

Đọc thêm

Hãy quên attention đi: chỉ cần Importance-Aware Attention là đủ / Forget Attention: Importance-Aware Attention Is All You Need

Giới thiệu bài báo

Tóm tắt(Abstract)

Link bài báo

Transformer có cần ba phép chiếu không? Nghiên cứu có hệ thống về các biến thể QKV / Do Transformers Need Three Projections? Systematic Study of QKV Variants

Giới thiệu bài báo

Tóm tắt(Abstract)

Liên kết bài báo

Đọc thêm

Biên dịch quy trình agentic vào trọng số LLM: chất lượng gần mức frontier với chi phí thấp hơn 100 lần / Compiling Agentic Workflows into LLM Weights: Near-Frontier Quality at Two Orders of Magnitude Less Cost

Giới thiệu bài báo

Tóm tắt(Abstract)

Liên kết bài báo

Đọc thêm

Học quản lý ngữ cảnh tương thích với agent cho các tác vụ tầm xa / Learning Agent-Compatible Context Management for Long-Horizon Tasks

Giới thiệu bài báo

Tóm tắt(Abstract)

Liên kết bài báo

Tác tử tiềm ẩn: Quy trình hậu huấn luyện cho tranh luận đa tác tử được nội tại hóa / Latent Agents: A Post-Training Procedure for Internalized Multi-Agent Debate

Giới thiệu bài báo

Tóm tắt (Abstract)

Liên kết bài báo

Đọc thêm

MOSS: Tự tiến hóa thông qua tái viết ở cấp mã nguồn trong các hệ thống tác tử tự trị / MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems

Giới thiệu bài báo

Tóm tắt(Abstract)

Link bài báo

Đọc thêm

Căn chỉnh an toàn cho mô hình ngôn ngữ thông qua trò chơi không hợp tác / Safety Alignment of LMs via Non-cooperative Games

Giới thiệu bài báo

Tóm tắt(Abstract)

Liên kết bài báo

Đọc thêm

Lập kế hoạch, quan sát, phục hồi: Một benchmark và các kiến trúc cho hỗ trợ thủ tục chủ động / Plan, Watch, Recover: A Benchmark and Architectures for Proactive Procedural Assistance

Giới thiệu bài báo

Tóm tắt(Abstract)

Liên kết bài báo

Đọc thêm

FuzzingBrain V2: Hệ thống LLM đa tác tử cho phát hiện và tái hiện lỗ hổng tự động / FuzzingBrain V2: A Multi-Agent LLM System for Automated Vulnerability Discovery and Reproduction

Giới thiệu bài báo

Tóm tắt (Abstract)

Link bài báo

Bài viết liên quan

2 bình luận