5 điểm bởi ninebow 2025-09-17 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

[2025/09/08 ~ 14] Tổng hợp các bài báo AI/ML đáng chú ý trong tuần này

PyTorchKR🔥🇰🇷 🤔💭

1️⃣ Hiện tượng ảo giác của mô hình ngôn ngữ: Các nghiên cứu gần đây nhấn mạnh rằng mô hình ngôn ngữ lớn có xu hướng suy đoán khi không chắc chắn, từ đó tạo ra các phát biểu nghe có vẻ hợp lý nhưng không chính xác, tức hiện tượng “ảo giác”. Nguyên nhân là do trong quy trình huấn luyện và đánh giá, việc suy đoán thường được tưởng thưởng hơn là thừa nhận sự không chắc chắn; vì vậy, các nghiên cứu cho rằng cần sửa đổi hệ thống chấm điểm của các benchmark hiện có để giải quyết vấn đề này.

2️⃣ Hiểu cấu trúc ngữ nghĩa: Ngày càng có nhiều nghiên cứu phân tích cách các mối liên hệ ngữ nghĩa được cấu trúc trong ma trận embedding của mô hình ngôn ngữ lớn. Các nghiên cứu này nhấn mạnh việc phát hiện ra những cấu trúc ít chiều tương tự như đánh giá ngữ nghĩa của con người, đồng thời cho thấy phép chiếu theo các hướng ý nghĩa của từ có tương quan cao với đánh giá của con người. Điều này gợi ý rằng các mô hình ngôn ngữ đang xử lý thông tin ngữ nghĩa theo cách tương tự ngôn ngữ của con người.

3️⃣ Nâng cao năng lực suy luận bậc cao bằng học tăng cường: Nhiều nghiên cứu đang được tiến hành tích cực nhằm cải thiện khả năng suy luận phức tạp của mô hình ngôn ngữ lớn bằng cách sử dụng học tăng cường (RL). Đặc biệt, các phương pháp điều chỉnh độ sâu và độ rộng đang được đề xuất để nâng cao hiệu quả của thuật toán RL, và đã được chỉ ra là đóng vai trò quan trọng trong việc giúp mô hình khám phá và làm chủ các chiến lược lập kế hoạch chiến lược nâng cao. Cách tiếp cận này đang được triển khai thông qua những paradigm mới như RLVR (học tăng cường với phần thưởng có thể kiểm chứng).


Vì sao mô hình ngôn ngữ tạo ra ảo giác / Why Language Models Hallucinate (feat. OpenAI)

Giới thiệu bài báo

Mô hình ngôn ngữ lớn có xu hướng đoán đáp án trong những tình huống không chắc chắn, và vì thế sinh ra hiện tượng “ảo giác” — tạo ra thông tin sai nhưng nghe có vẻ hợp lý. Vấn đề này vẫn còn tồn tại ngay cả ở các mô hình hiện đại nhất và là một nguyên nhân chính làm suy giảm độ tin cậy. Nghiên cứu này cho rằng nguyên nhân khiến mô hình ngôn ngữ tạo ra ảo giác nằm ở chỗ quy trình huấn luyện và đánh giá tưởng thưởng cho việc suy đoán thay vì thừa nhận sự không chắc chắn. Cụ thể, ảo giác bắt nguồn từ lỗi trong bài toán phân loại nhị phân và xuất hiện như một áp lực thống kê tự nhiên khi các phát biểu sai không thể bị phân biệt với sự thật.

Ở giai đoạn tiền huấn luyện, mô hình ngôn ngữ học phân phối của ngôn ngữ từ lượng lớn dữ liệu văn bản, và trong quá trình này có thể phát sinh sai sót. Những sai sót này tiếp tục được củng cố bởi cách đánh giá trừng phạt các câu trả lời thể hiện sự không chắc chắn. Nhóm nghiên cứu chỉ ra rằng để đạt điểm tốt trong các bài kiểm tra, mô hình ngôn ngữ có xu hướng né tránh sự không chắc chắn và chọn cách suy đoán, và chính xu hướng đó là nguyên nhân duy trì hiện tượng ảo giác.

Bài báo do OpenAI công bố này làm rõ nguyên nhân mang tính thống kê của hiện tượng ảo giác, đồng thời phân tích nguồn gốc của nó trong giai đoạn tiền huấn luyện và sự dai dẳng của nó trong giai đoạn hậu huấn luyện. Ngoài ra, nghiên cứu còn đề xuất rằng việc sửa đổi phương thức đánh giá hiện tại có thể là một cách hiệu quả để giảm nhẹ hiện tượng ảo giác. Cách tiếp cận này giúp nâng cao độ tin cậy của mô hình ngôn ngữ và xa hơn là mở ra con đường hướng tới các hệ thống AI đáng tin cậy hơn. Kết quả của nghiên cứu có thể được sử dụng làm nền tảng quan trọng để hiểu và cải thiện hiện tượng ảo giác của mô hình ngôn ngữ.

Tóm tắt bài báo(Abstract)

Giống như học sinh khi đối mặt với những câu hỏi thi khó, các mô hình ngôn ngữ lớn đôi khi sẽ đoán khi không chắc chắn, tạo ra những phát biểu nghe có vẻ hợp lý nhưng sai thay vì thừa nhận sự không chắc chắn. Những “ảo giác” như vậy vẫn tồn tại ngay cả trong các hệ thống tiên tiến nhất và làm suy giảm niềm tin. Chúng tôi cho rằng mô hình ngôn ngữ tạo ra ảo giác vì quy trình huấn luyện và đánh giá tưởng thưởng cho việc suy đoán hơn là thừa nhận sự không chắc chắn, và chúng tôi phân tích các nguyên nhân mang tính thống kê của hiện tượng ảo giác trong pipeline huấn luyện hiện đại. Ảo giác không phải điều bí ẩn. Chúng đơn giản bắt nguồn từ các lỗi trong phân loại nhị phân. Nếu các phát biểu sai không thể được phân biệt với sự thật, thì ảo giác trong các mô hình ngôn ngữ đã tiền huấn luyện sẽ phát sinh do áp lực thống kê tự nhiên. Chúng tôi cũng cho rằng ảo giác tồn tại dai dẳng vì cách mà phần lớn các bài đánh giá được chấm điểm. Mô hình ngôn ngữ được tối ưu hóa để trở thành những “người làm bài thi” giỏi, và việc đoán khi không chắc chắn sẽ cải thiện thành tích trong bài kiểm tra. “Dịch bệnh” của việc trừng phạt các câu trả lời không chắc chắn này chỉ có thể được giải quyết thông qua một biện pháp giảm thiểu mang tính xã hội-kỹ thuật: sửa đổi cách chấm điểm của các benchmark hiện có vốn đang lệch chuẩn nhưng lại thống trị các bảng xếp hạng, thay vì đưa thêm các đánh giá về ảo giác. Sự thay đổi này có thể định hướng lĩnh vực tiến tới các hệ thống AI đáng tin cậy hơn.

Like students facing hard exam questions, large language models sometimes guess when uncertain, producing plausible yet incorrect statements instead of admitting uncertainty. Such "hallucinations" persist even in state-of-the-art systems and undermine trust. We argue that language models hallucinate because the training and evaluation procedures reward guessing over acknowledging uncertainty, and we analyze the statistical causes of hallucinations in the modern training pipeline. Hallucinations need not be mysterious -- they originate simply as errors in binary classification. If incorrect statements cannot be distinguished from facts, then hallucinations in pretrained language models will arise through natural statistical pressures. We then argue that hallucinations persist due to the way most evaluations are graded -- language models are optimized to be good test-takers, and guessing when uncertain improves test performance. This "epidemic" of penalizing uncertain responses can only be addressed through a socio-technical mitigation: modifying the scoring of existing benchmarks that are misaligned but dominate leaderboards, rather than introducing additional hallucination evaluations. This change may steer the field toward more trustworthy AI systems.

Liên kết bài báo

https://arxiv.org/abs/2509.04664


Cấu trúc ngữ nghĩa trong embedding của mô hình ngôn ngữ lớn / Semantic Structure in Large Language Model Embeddings

Giới thiệu bài báo

Cấu trúc embedding của các mô hình ngôn ngữ lớn (LLM) rất đáng chú ý ở chỗ nó biểu diễn thông tin ngữ nghĩa theo cách tương tự nhận thức ngôn ngữ của con người. Dựa trên các phát hiện trong tâm lý học, nghiên cứu này đã phân tích mối liên hệ ngữ nghĩa giữa các từ trong ma trận embedding của LLM, từ đó khảo sát mối tương quan giữa đánh giá từ ngữ của con người và biểu diễn nội tại của LLM. Kết quả cho thấy trong embedding của LLM, phép chiếu của từ có thể được rút gọn về ba chiều chính: đánh giá (tốt vs. xấu), cường độ (mạnh vs. yếu), và tính hoạt động (chủ động vs. bị động).

Nghiên cứu này đã so sánh dữ liệu thu thập từ khảo sát trên 360 từ với embedding của LLM để phân tích định lượng mối tương quan giữa đánh giá ngữ nghĩa của con người và embedding của LLM. Đặc biệt, bằng cách trích xuất các hướng đặc trưng ngữ nghĩa của từ và đo lường các hiệu ứng ngoài mục tiêu thông qua can thiệp dựa trên đó, nghiên cứu nhấn mạnh rằng các đặc tính của LLM có sự đan xen với nhau. Những phát hiện này cho thấy embedding của LLM phản ánh sự phức tạp của ngôn ngữ con người, đồng thời thông tin ngữ nghĩa có tính ít chiều tương đối.

Ngoài ra, nghiên cứu nhấn mạnh rằng việc đo lường mối quan hệ giữa các đặc tính riêng lẻ là rất quan trọng để hiểu được cơ chế vận hành bên trong của LLM, và điều này có thể tạo ảnh hưởng tích cực đến an toàn AI cũng như việc điều chỉnh chức năng. Cách tiếp cận này cũng có thể giúp tránh những hệ quả ngoài ý muốn có thể phát sinh trong quá trình feature steering của LLM. Nghiên cứu này đóng góp quan trọng vào việc hiểu cấu trúc ngữ nghĩa của LLM và qua đó nắm bắt rõ ràng hơn hành vi của mô hình.

Tóm tắt bài báo(Abstract)

Các nghiên cứu tâm lý học một cách nhất quán cho thấy rằng đánh giá của con người về từ ngữ trên nhiều thang đo ngữ nghĩa đa dạng có thể được rút gọn về dạng không gian thấp với mức mất mát thông tin tương đối nhỏ. Chúng tôi nhận thấy rằng các liên kết ngữ nghĩa được mã hóa trong ma trận embedding của các mô hình ngôn ngữ lớn (LLM) cũng thể hiện một cấu trúc tương tự. Chúng tôi cho thấy rằng các phép chiếu của từ lên các hướng ngữ nghĩa được xác định bởi các cặp phản nghĩa (ví dụ: tử tế - tàn nhẫn) có tương quan cao với đánh giá của con người, và hơn nữa các phép chiếu này có thể được rút gọn hiệu quả về một không gian con 3 chiều trong embedding của LLM, rất giống với các mẫu được suy ra từ phản hồi khảo sát của con người. Ngoài ra, chúng tôi phát hiện rằng việc dịch chuyển token dọc theo một hướng ngữ nghĩa sẽ gây ra các tác động ngoài mục tiêu lên những đặc trưng được căn chỉnh về mặt hình học, tỷ lệ với độ tương đồng cosine của chúng. Những phát hiện này cho thấy các đặc trưng ngữ nghĩa trong LLM đan xen với nhau tương tự như cách chúng liên kết trong ngôn ngữ của con người, và rằng một lượng lớn thông tin ngữ nghĩa, dù bề ngoài có vẻ phức tạp, thực ra lại có số chiều thấp đến đáng ngạc nhiên. Hơn nữa, việc tính đến cấu trúc ngữ nghĩa này có thể là yếu tố thiết yếu để tránh những hệ quả ngoài ý muốn khi điều hướng các đặc trưng.
> Nghiên cứu tâm lý học một cách nhất quán cho thấy rằng đánh giá của con người về từ ngữ trên nhiều thang đo ngữ nghĩa đa dạng có thể được rút gọn về dạng không gian thấp với mức mất mát thông tin tương đối nhỏ. Chúng tôi nhận thấy rằng các liên kết ngữ nghĩa được mã hóa trong ma trận embedding của các mô hình ngôn ngữ lớn (LLM) cũng thể hiện một cấu trúc tương tự. Chúng tôi cho thấy rằng các phép chiếu của từ lên các hướng ngữ nghĩa được xác định bởi các cặp phản nghĩa (ví dụ: tử tế - tàn nhẫn) có tương quan cao với đánh giá của con người, và hơn nữa các phép chiếu này có thể được rút gọn hiệu quả về một không gian con 3 chiều trong embedding của LLM, rất giống với các mẫu được suy ra từ phản hồi khảo sát của con người. Ngoài ra, chúng tôi phát hiện rằng việc dịch chuyển token dọc theo một hướng ngữ nghĩa sẽ gây ra các tác động ngoài mục tiêu lên những đặc trưng được căn chỉnh về mặt hình học, tỷ lệ với độ tương đồng cosine của chúng. Những phát hiện này cho thấy các đặc trưng ngữ nghĩa trong LLM đan xen với nhau tương tự như cách chúng liên kết trong ngôn ngữ của con người, và rằng một lượng lớn thông tin ngữ nghĩa, dù bề ngoài có vẻ phức tạp, thực ra lại có số chiều thấp đến đáng ngạc nhiên. Hơn nữa, việc tính đến cấu trúc ngữ nghĩa này có thể là yếu tố thiết yếu để tránh những hệ quả ngoài ý muốn khi điều hướng các đặc trưng.

Liên kết bài báo

https://arxiv.org/abs/2508.10003


rStar2-Agent: Tài liệu kỹ thuật về suy luận tác tử / rStar2-Agent: Agentic Reasoning Technical Report (feat. Microsoft)

Giới thiệu bài báo

rStar2-Agent là một mô hình suy luận toán học 14 tỷ tham số, được thiết kế để đạt hiệu năng tối tân thông qua học tăng cường tác tử (agentic reinforcement learning). Mô hình này vượt ra ngoài cách tiếp cận Long Chain-of-Thought (Long-CoT) truyền thống, thể hiện các hành vi nhận thức nâng cao trong quá trình giải quyết vấn đề phức tạp. Đặc biệt, khi sử dụng công cụ lập trình Python, mô hình có khả năng suy nghĩ cẩn trọng, tự chủ khám phá và kiểm chứng các bước trung gian bằng cách phản ánh phản hồi từ quá trình thực thi mã. Những đổi mới này trở nên khả thi nhờ ba thành phần chính.

Thứ nhất, rStar2-Agent xây dựng một môi trường mã Python đáng tin cậy thông qua hạ tầng RL hiệu quả để hỗ trợ thực thi thông lượng cao. Hạ tầng này được thiết kế để có thể huấn luyện hiệu quả ngay cả với tài nguyên GPU hạn chế, nhờ đó giảm nhẹ chi phí rollout cao. Thứ hai, thuật toán RL tác tử có tên GRPO-RoC tận dụng chiến lược rollout Resample-on-Correct để xử lý nhiễu môi trường từ công cụ lập trình, giúp mô hình suy luận hiệu quả hơn trong môi trường mã. Thứ ba, một quy trình huấn luyện tác tử hiệu quả, bắt đầu từ SFT (Supervised Fine-Tuning) phi suy luận rồi tiếp tục qua RL nhiều giai đoạn, mang lại năng lực nhận thức nâng cao với chi phí tính toán tối thiểu.

Thông qua phương pháp này, rStar2-Agent đã đưa mô hình 14 tỷ tham số đã được tiền huấn luyện lên mức tối tân chỉ trong 510 bước RL, đạt điểm pass@1 trung bình 80,6% trên AIME24 và 69,8% trên AIME25. Kết quả này cho thấy hiệu năng vượt DeepSeek-R1 (671B), đồng thời thời gian phản hồi cũng được rút ngắn đáng kể. Ngoài ra, rStar2-Agent còn thể hiện khả năng khái quát hóa mạnh mẽ không chỉ trong giải toán mà còn ở các tác vụ căn chỉnh, suy luận khoa học và sử dụng công cụ tác tử. Những thành quả này cho thấy cách tiếp cận RL tác tử đang đóng góp quan trọng vào việc tăng cường các hành vi nhận thức trong giải quyết vấn đề phức tạp.

Tóm tắt bài báo (Abstract)

Chúng tôi giới thiệu rStar2-Agent, một mô hình suy luận toán học 14B được huấn luyện bằng học tăng cường tác tử để đạt hiệu năng ở mức tiên phong. Vượt ra ngoài chuỗi suy nghĩ dài (CoT) hiện nay, mô hình này thể hiện các hành vi nhận thức nâng cao như suy nghĩ cẩn trọng trước khi sử dụng công cụ lập trình Python, đồng thời tự chủ khám phá, kiểm chứng và tinh chỉnh các bước trung gian trong quá trình giải quyết bài toán phức tạp bằng cách phản ánh phản hồi từ việc thực thi mã. Năng lực này có được nhờ ba đổi mới chính giúp học tăng cường tác tử vận hành hiệu quả ở quy mô lớn: (i) hạ tầng RL hiệu quả với môi trường mã Python đáng tin cậy, hỗ trợ thực thi thông lượng cao và giảm chi phí rollout cao, cho phép huấn luyện với tài nguyên GPU hạn chế (64 GPU MI300X); (ii) GRPO-RoC, một thuật toán RL tác tử với chiến lược rollout Resample-on-Correct nhằm xử lý nhiễu môi trường vốn có từ các công cụ lập trình, giúp mô hình suy luận hiệu quả hơn trong môi trường mã; (iii) một quy trình huấn luyện tác tử hiệu quả bắt đầu từ SFT không suy luận và tiến triển qua nhiều giai đoạn RL, mang lại năng lực nhận thức nâng cao với chi phí tính toán tối thiểu. Nhờ đó, rStar2-Agent đã nâng một mô hình 14B tiền huấn luyện lên mức tối tân chỉ trong 510 bước RL trong vòng một tuần, đạt điểm pass@1 trung bình 80,6% trên AIME24 và 69,8% trên AIME25, vượt DeepSeek-R1 (671B) với phản hồi ngắn hơn đáng kể. Vượt ra ngoài toán học, rStar2-Agent-14B cũng cho thấy khả năng khái quát hóa mạnh mẽ với các tác vụ alignment, suy luận khoa học và sử dụng công cụ theo kiểu tác tử. Mã nguồn và quy trình huấn luyện có tại https://github.com/microsoft/rStar.
> Chúng tôi giới thiệu rStar2-Agent, một mô hình suy luận toán học 14B được huấn luyện bằng học tăng cường tác tử để đạt hiệu năng ở mức tiên phong. Vượt ra ngoài CoT dài hiện nay, mô hình thể hiện các hành vi nhận thức nâng cao, như suy nghĩ cẩn thận trước khi dùng công cụ lập trình Python và phản ánh phản hồi từ việc thực thi mã để tự chủ khám phá, kiểm chứng và tinh chỉnh các bước trung gian trong quá trình giải quyết vấn đề phức tạp. Năng lực này được tạo nên nhờ ba đổi mới then chốt giúp RL tác tử hiệu quả ở quy mô lớn: (i) một hạ tầng RL hiệu quả với môi trường mã Python đáng tin cậy, hỗ trợ thực thi thông lượng cao và giảm chi phí rollout lớn, cho phép huấn luyện trên tài nguyên GPU hạn chế (64 GPU MI300X); (ii) GRPO-RoC, một thuật toán RL tác tử với chiến lược rollout Resample-on-Correct nhằm xử lý nhiễu môi trường vốn có từ các công cụ lập trình, cho phép mô hình suy luận hiệu quả hơn trong môi trường mã; (iii) một quy trình huấn luyện tác tử hiệu quả bắt đầu từ SFT không suy luận và tiến triển qua nhiều giai đoạn RL, mang lại năng lực nhận thức nâng cao với chi phí tính toán tối thiểu. Theo đó, rStar2-Agent đưa một mô hình 14B tiền huấn luyện lên mức tối tân chỉ trong 510 bước RL trong vòng một tuần, đạt điểm pass@1 trung bình 80,6% trên AIME24 và 69,8% trên AIME25, vượt DeepSeek-R1 (671B) với phản hồi ngắn hơn đáng kể. Ngoài toán học, rStar2-Agent-14B cũng thể hiện khả năng khái quát hóa mạnh mẽ sang các tác vụ alignment, suy luận khoa học và sử dụng công cụ theo kiểu tác tử. Mã nguồn và quy trình huấn luyện có tại https://github.com/microsoft/rStar.

Liên kết bài báo

https://arxiv.org/abs/2508.20722

Đọc thêm

https://github.com/microsoft/rStar


uGMM-NN: Mạng nơ-ron mô hình hỗn hợp Gaussian đơn biến / uGMM-NN: Univariate Gaussian Mixture Model Neural Network

Giới thiệu bài báo

Mạng nơ-ron mô hình hỗn hợp Gaussian đơn biến (Univariate Gaussian Mixture Model Neural Network, uGMM-NN) là một kiến trúc đột phá tích hợp trực tiếp suy luận xác suất vào các đơn vị tính toán của mạng nơ-ron sâu, trong đó mỗi nơ-ron biểu diễn kích hoạt của chính nó bằng một hỗn hợp Gaussian đơn biến được tham số hóa. Cách tiếp cận này vượt qua những hạn chế của tổng có trọng số và phi tuyến cố định trong nơ-ron truyền thống, đồng thời cho phép nắm bắt hiệu quả tính đa đỉnh và độ bất định ở từng nơ-ron thông qua các giá trị trung bình, phương sai và hệ số trộn có thể học được. Thiết kế này mang lại cho mô hình độ linh hoạt cần thiết để học các phân phối dữ liệu phức tạp, đồng thời vẫn giữ được khả năng mở rộng của các mạng feedforward tiêu chuẩn.

So với perceptron nhiều lớp (Multilayer Perceptron, MLP) hiện có, uGMM-NN có thể đạt hiệu năng phân biệt cạnh tranh, đồng thời cung cấp cách diễn giải xác suất cho các kích hoạt. Nhờ vậy, mô hình không chỉ dừng lại ở các ranh giới quyết định đơn giản mà còn có khả năng hiểu và biểu diễn cấu trúc phức tạp của dữ liệu. Khung phương pháp được đề xuất đặt nền tảng cho việc tích hợp các thành phần nhận biết độ bất định vào các kiến trúc nơ-ron hiện đại, từ đó mở ra các hướng nghiên cứu mới cho cả mô hình hóa phân biệt lẫn mô hình hóa sinh.

Cấu trúc của uGMM-NN được xây dựng sao cho mỗi nơ-ron biểu diễn kích hoạt của mình bằng các thành phần gồm hệ số trộn, trung bình và phương sai, và các yếu tố này được tối ưu hóa trong quá trình học. Về phương pháp huấn luyện, mô hình sử dụng thuật toán lan truyền ngược để cập nhật tham số, trong khi hàm mất mát được thiết kế để giảm thiểu chênh lệch giữa kích hoạt của từng nơ-ron và nhãn thực tế. Trong quá trình này, các kỹ thuật tối ưu hóa dựa trên gradient được áp dụng nhằm tối đa hóa hiệu năng của mô hình.

Kết quả thực nghiệm cho thấy uGMM-NN đạt độ chính xác cao hơn MLP truyền thống trên nhiều bộ dữ liệu benchmark khác nhau, đồng thời chứng minh khả năng xử lý độ bất định một cách hiệu quả. Những kết quả này khẳng định ưu thế của uGMM-NN và trở thành nền tảng quan trọng gợi mở định hướng cho mô hình hóa nhận biết độ bất định trong tương lai. Nghiên cứu này cũng xem xét khả năng ứng dụng trong nhiều lĩnh vực khác nhau và tiếp tục dẫn tới thảo luận về tính mở rộng của uGMM-NN cũng như khả năng tích hợp với các mô hình khác.

Tóm tắt bài báo (Abstract)

Bài báo này giới thiệu Univariate Gaussian Mixture Model Neural Network (uGMM-NN), một kiến trúc nơ-ron mới nhúng trực tiếp suy luận xác suất vào các đơn vị tính toán của mạng sâu. Khác với các nơ-ron truyền thống áp dụng tính phi tuyến cố định lên tổng có trọng số, mỗi nút uGMM-NN tham số hóa kích hoạt của nó như một hỗn hợp Gaussian đơn biến, với các giá trị trung bình, phương sai và hệ số trộn có thể học được. Thiết kế này cho phép biểu diễn phong phú hơn bằng cách nắm bắt tính đa mode và độ bất định ở cấp độ từng nơ-ron, đồng thời vẫn giữ được khả năng mở rộng của các mạng feedforward tiêu chuẩn. Chúng tôi cho thấy uGMM-NN có thể đạt hiệu năng phân biệt cạnh tranh so với các multilayer perceptron thông thường, đồng thời còn cung cấp cách diễn giải xác suất cho các kích hoạt. Khung đề xuất này đặt nền tảng cho việc tích hợp các thành phần nhận biết độ bất định vào các kiến trúc nơ-ron hiện đại, mở ra những hướng đi mới cho cả mô hình hóa phân biệt lẫn sinh.

This paper introduces the Univariate Gaussian Mixture Model Neural Network (uGMM-NN), a novel neural architecture that embeds probabilistic reasoning directly into the computational units of deep networks. Unlike traditional neurons, which apply weighted sums followed by fixed nonlinearities, each uGMM-NN node parameterizes its activations as a univariate Gaussian mixture, with learnable means, variances, and mixing coefficients. This design enables richer representations by capturing multimodality and uncertainty at the level of individual neurons, while retaining the scalability of standard feedforward networks. We demonstrate that uGMM-NN can achieve competitive discriminative performance compared to conventional multilayer perceptrons, while additionally offering a probabilistic interpretation of activations. The proposed framework provides a foundation for integrating uncertainty-aware components into modern neural architectures, opening new directions for both discriminative and generative modeling.

Liên kết bài báo

https://arxiv.org/abs/2509.07569


Suy luận phân cấp emergent trong mô hình ngôn ngữ lớn thông qua học tăng cường / Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning

Giới thiệu bài báo

Nghiên cứu nhằm nâng cao năng lực suy luận phức tạp của mô hình ngôn ngữ lớn (LLM) gần đây đang nổi lên như một chủ đề quan trọng trong lĩnh vực trí tuệ nhân tạo. Nghiên cứu này khám phá cách học tăng cường (Reinforcement Learning, RL) cải thiện các năng lực đó của LLM, đồng thời chỉ ra rằng nhiều hiện tượng xuất hiện trong quá trình này có mối liên hệ với nhau. Đặc biệt, những trải nghiệm như “khoảnh khắc aha” có liên quan chặt chẽ đến tư duy chiến lược cấp cao, và có thể được diễn giải như đặc điểm của một hệ phân cấp suy luận emergent, tương tự sự phân tách giữa lập kế hoạch cấp cao và thực thi cấp thấp trong quá trình nhận thức của con người.

Nghiên cứu trình bày động lực học gồm hai giai đoạn. Ở giai đoạn đầu, mô hình bị giới hạn bởi độ chính xác mang tính thủ tục và cần cải thiện các kỹ năng cấp thấp. Sau đó, nút thắt cổ chai của quá trình học được chuyển đổi, và việc cải thiện hiệu năng được dẫn dắt bởi quá trình khám phá và làm chủ lập kế hoạch chiến lược cấp cao. Những hiểu biết này làm lộ ra tính kém hiệu quả của các thuật toán RL hiện có, đặc biệt là GRPO (Generalized Reinforcement Policy Optimization), đồng thời nhấn mạnh rằng thuật toán này áp dụng áp lực tối ưu hóa một cách không phân biệt, làm loãng tín hiệu học.

Để giải quyết vấn đề này, các tác giả đề xuất một thuật toán mới có tên HIerarchy-Aware Credit Assignment (HICRA). HICRA tập trung nỗ lực tối ưu hóa vào các token lập kế hoạch có tác động lớn, từ đó chú trọng giải quyết các nút thắt chiến lược. Thuật toán này cho thấy hiệu năng vượt trội hơn các baseline mạnh, chứng minh rằng nó có thể đóng vai trò là chìa khóa để mở khóa suy luận nâng cao. Ngoài ra, các tác giả còn đề xuất semantic entropy là một chỉ số tốt hơn để đo lường khám phá chiến lược, cho hiệu quả vượt trội so với các metric dễ gây hiểu nhầm như entropy ở mức token.

Nghiên cứu này đề xuất một cách tiếp cận mới nhằm nâng cao hiệu quả trong quá trình học và suy luận của LLM, đồng thời nhấn mạnh sự cần thiết của việc tối ưu hóa tập trung vào lập kế hoạch chiến lược thông qua thuật toán HICRA. Những đóng góp này được kỳ vọng sẽ tiếp tục thúc đẩy năng lực suy luận phức tạp của LLM và trở thành nền tảng quan trọng cho các nghiên cứu trong tương lai.

Tóm tắt(Abstract)

Reinforcement Learning (RL) đã được chứng minh là rất hiệu quả trong việc nâng cao năng lực suy luận phức tạp của Large Language Models (LLMs), nhưng các cơ chế nền tảng thúc đẩy thành công này vẫn phần lớn chưa được làm sáng tỏ. Phân tích của chúng tôi cho thấy những hiện tượng khó lý giải như “aha moments”, “length-scaling” và động lực entropy không phải là các sự kiện rời rạc riêng lẻ, mà là những dấu hiệu đặc trưng của một emergent reasoning hierarchy, tương tự như sự tách biệt giữa lập kế hoạch chiến lược cấp cao và thực thi thủ tục cấp thấp trong nhận thức của con người. Chúng tôi phát hiện một động thái hai giai đoạn đầy thuyết phục: ban đầu, mô hình bị ràng buộc bởi tính đúng đắn ở mức thủ tục và phải cải thiện các kỹ năng cấp thấp của mình. Sau đó, nút thắt học tập chuyển dịch một cách quyết định, và mức tăng hiệu năng được dẫn dắt bởi việc khám phá và làm chủ lập kế hoạch chiến lược cấp cao. Nhận định này phơi bày một sự kém hiệu quả cốt lõi trong các thuật toán RL phổ biến như GRPO, vốn áp dụng áp lực tối ưu hóa một cách bất kể ngữ cảnh và làm loãng tín hiệu học trên mọi token. Để giải quyết vấn đề này, chúng tôi đề xuất HIerarchy-Aware Credit Assignment (HICRA), một thuật toán tập trung nỗ lực tối ưu hóa vào các token lập kế hoạch có tác động lớn. HICRA vượt trội rõ rệt so với các baseline mạnh, cho thấy việc tập trung vào nút thắt chiến lược này là chìa khóa để mở ra năng lực suy luận nâng cao. Hơn nữa, chúng tôi xác thực semantic entropy là một la bàn vượt trội để đo lường khám phá chiến lược so với các chỉ số dễ gây hiểu lầm như token-level entropy.
> Reinforcement Learning (RL) has proven highly effective at enhancing the complex reasoning abilities of Large Language Models (LLMs), yet underlying mechanisms driving this success remain largely opaque. Our analysis reveals that puzzling phenomena like aha moments", length-scaling'' and entropy dynamics are not disparate occurrences but hallmarks of an emergent reasoning hierarchy, akin to the separation of high-level strategic planning from low-level procedural execution in human cognition. We uncover a compelling two-phase dynamic: initially, a model is constrained by procedural correctness and must improve its low-level skills. The learning bottleneck then decisively shifts, with performance gains being driven by the exploration and mastery of high-level strategic planning. This insight exposes a core inefficiency in prevailing RL algorithms like GRPO, which apply optimization pressure agnostically and dilute the learning signal across all tokens. To address this, we propose HIerarchy-Aware Credit Assignment (HICRA), an algorithm that concentrates optimization efforts on high-impact planning tokens. HICRA significantly outperforms strong baselines, demonstrating that focusing on this strategic bottleneck is key to unlocking advanced reasoning. Furthermore, we validate semantic entropy as a superior compass for measuring strategic exploration over misleading metrics such as token-level entropy.

Liên kết bài báo

https://arxiv.org/abs/2509.03646


OpenVision 2: Họ bộ mã hóa thị giác tiền huấn luyện sinh cho học đa phương thức / OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning (feat. Apple)

Giới thiệu bài báo

OpenVision 2 đề xuất một họ mới các bộ mã hóa thị giác tiền huấn luyện sinh dành cho học đa phương thức, đồng thời đơn giản hóa kiến trúc và thiết kế hàm mất mát của OpenVision hiện tại để cải thiện đáng kể hiệu quả huấn luyện. Nghiên cứu này dựa trên các công trình tiền huấn luyện thị giác-ngôn ngữ trước đó như CapPa và AIMv2, cũng như thiết kế đa phương thức hiện đại LLaVA, và tiếp cận bằng cách loại bỏ bộ mã hóa văn bản, chỉ giữ lại duy nhất hàm mất mát captioning. Cấu trúc được đơn giản hóa này gồm hai mô-đun là bộ mã hóa hình ảnh và bộ giải mã văn bản, cho phép học hiệu quả các biểu diễn thị giác thông qua tín hiệu học mang tính sinh.

Kết quả thực nghiệm ban đầu của OpenVision 2 cho thấy mô hình này đã thành công trong việc duy trì hiệu năng của mô hình gốc đồng thời giảm mạnh thời gian huấn luyện và mức tiêu thụ bộ nhớ. Ví dụ, khi sử dụng backbone ViT-L/14, thời gian huấn luyện được rút ngắn 1.5 lần và lượng bộ nhớ sử dụng giảm 1.8 lần, nhờ đó có thể tăng kích thước batch tối đa từ 2.000 lên 8.000. Những cải tiến này mở ra khả năng OpenVision 2 có thể mở rộng lên hơn 1 tỷ tham số, đồng thời cho thấy một paradigm gọn nhẹ chỉ tập trung vào sinh là một lựa chọn hấp dẫn cho việc phát triển các mô hình nền tảng đa phương thức.

Nghiên cứu này kêu gọi xem xét lại niềm tin lâu nay rằng học tương phản theo phong cách CLIP là thiết yếu để xây dựng bộ mã hóa thị giác. OpenVision 2 cho thấy mục tiêu sinh thuần túy có thể cạnh tranh với các phương pháp tương phản về hiệu năng đa phương thức, đồng thời cắt giảm đáng kể chi phí tính toán và cho phép mở rộng lên các mô hình lớn hơn. Các nhà nghiên cứu sẽ có cơ hội tận dụng toàn bộ bộ dữ liệu huấn luyện và các checkpoint tiền huấn luyện của OpenVision 2 để tiếp tục khám phá tiềm năng tiền huấn luyện sinh cho bộ mã hóa thị giác. Đổi mới này mở ra một hướng đi mới cho lĩnh vực học đa phương thức và được kỳ vọng sẽ đóng góp quan trọng cho các nghiên cứu trong tương lai.

Tóm tắt(Abstract)

Bài báo này trình bày một cách đơn giản hóa kiến trúc và thiết kế hàm mất mát của OpenVision nhằm cải thiện hiệu quả huấn luyện. Kế thừa các công trình tiền huấn luyện thị giác-ngôn ngữ trước đó như CapPa và AIMv2, cũng như các thiết kế đa phương thức hiện đại như LLaVA, thay đổi của chúng tôi rất đơn giản: loại bỏ bộ mã hóa văn bản (và do đó cả contrastive loss), chỉ giữ lại captioning loss như một tín hiệu huấn luyện thuần sinh. Chúng tôi đặt tên cho phiên bản mới này là OpenVision 2. Kết quả ban đầu rất hứa hẹn: dù đã đơn giản hóa như vậy, OpenVision 2 vẫn đạt hiệu năng tương đương đầy cạnh tranh với mô hình gốc trên một tập rộng các benchmark đa phương thức, đồng thời cắt giảm đáng kể cả thời gian huấn luyện lẫn mức tiêu thụ bộ nhớ. Ví dụ, với ViT-L/14, thời gian huấn luyện giảm khoảng 1,5 lần (từ 83 giờ xuống 57 giờ), còn mức sử dụng bộ nhớ giảm khoảng 1,8 lần (từ 24,5GB xuống 13,8GB, tương đương cho phép tăng kích thước batch tối đa từ 2k lên 8k). Hiệu quả huấn luyện vượt trội này cũng cho phép chúng tôi mở rộng vượt xa bộ mã hóa thị giác lớn nhất từng được dùng trong OpenVision, đạt hơn 1 tỷ tham số. Chúng tôi tin tưởng mạnh mẽ rằng mô hình nhẹ, chỉ sinh này là một hướng đi hấp dẫn cho sự phát triển các bộ mã hóa thị giác trong các mô hình nền tảng đa phương thức tương lai.
> This paper provides a simplification on OpenVision's architecture and loss design for enhancing its training efficiency. Following the prior vision-language pretraining works CapPa and AIMv2, as well as modern multimodal designs like LLaVA, our changes are straightforward: we remove the text encoder (and therefore the contrastive loss), retaining only the captioning loss as a purely generative training signal. We name this new version OpenVision 2. The initial results are promising: despite this simplification, OpenVision 2 competitively matches the original model's performance on a broad set of multimodal benchmarks while substantially cutting both training time and memory consumption. For example, with ViT-L/14, it reduces training time by about 1.5x (from 83h to 57h), and memory usage by about 1.8x (from 24.5GB to 13.8GB, equivalently allowing the maximum batch size to grow from 2k to 8k). This superior training efficiency also allows us to scale far beyond the largest vision encoder used in OpenVision, reaching more than 1 billion parameters. We hold a strong belief that this lightweight, generative-only paradigm is compelling for future vision encoder development in multimodal foundation models.

Liên kết bài báo

https://arxiv.org/abs/2509.01644

Đọc thêm

https://ucsc-vlaa.github.io/OpenVision2

https://github.com/UCSC-VLAA/OpenVision

https://huggingface.co/collections/UCSC-VLAA/…

https://huggingface.co/datasets/UCSC-VLAA/Recap-DataComp-1B


Backprompting: Tận dụng dữ liệu production tổng hợp cho guardrail tư vấn sức khỏe / Backprompting: Leveraging Synthetic Production Data for Health Advice Guardrails (feat. IBM Research)

Giới thiệu bài báo

Khi việc sử dụng mô hình ngôn ngữ lớn (LLM) ngày càng lan rộng trong môi trường doanh nghiệp, nhiều yếu tố rủi ro liên quan cũng nổi lên. Đặc biệt, khả năng đầu ra của LLM chứa thông tin sai lệch có thể dẫn tới hậu quả nghiêm trọng trong các lĩnh vực nhạy cảm như tư vấn sức khỏe. Để giảm thiểu những rủi ro này, cần có công nghệ guardrail, hoạt động bằng cách lọc văn bản đầu vào và đầu ra của LLM thông qua nhiều bộ phát hiện khác nhau. Tuy nhiên, một trong những trở ngại lớn nhất trong việc phát triển và duy trì các bộ phát hiện mạnh là khó có được dữ liệu gắn nhãn đạt chất lượng production về các đầu ra LLM thực tế.

Trong nghiên cứu này, chúng tôi đề xuất một phương pháp mới mang tên backprompting để giải quyết vấn đề đó. Backprompting là cách tiếp cận tạo dữ liệu gắn nhãn tương tự production bằng cách tiếp tục đặt câu hỏi về văn bản do LLM tạo ra dựa trên câu hỏi đầu vào của người dùng. Trong quá trình này, dữ liệu được tạo ra sẽ được gắn nhãn bằng kỹ thuật phân cụm human-in-the-loop thưa. Nhờ đó, có thể xây dựng một corpus song song vừa đại diện tương đối cho bộ dữ liệu gốc, vừa tương đồng với đầu ra LLM trong thực tế.

Mục tiêu cốt lõi của nghiên cứu là tạo ra dữ liệu huấn luyện mạnh cho các bộ phát hiện bằng cách đưa các ví dụ tổng hợp vào bộ dữ liệu hiện có. Qua đó, nghiên cứu hướng tới cải thiện hiệu năng khi xây dựng guardrail để nhận diện tư vấn sức khỏe. Kết quả thực nghiệm cho thấy bộ phát hiện được đề xuất cải thiện hiệu năng tới 3,73% so với các phương pháp hiện có, đồng thời còn cho kết quả vượt trội khi so với GPT-4o. Những kết quả này cho thấy dữ liệu được tạo ra bằng backprompting đã tác động tích cực đến quá trình huấn luyện bộ phát hiện.

Tóm lại, nghiên cứu này đề xuất một phương pháp tạo dữ liệu mới nhằm nâng cao độ an toàn của đầu ra LLM, đồng thời cho thấy tiềm năng áp dụng trong nhiều lĩnh vực khác nhau trong tương lai. Backprompting tỏ ra hiệu quả cho việc phát triển guardrail tư vấn sức khỏe và được kỳ vọng sẽ đóng góp quan trọng cho việc sử dụng LLM một cách an toàn.

Tóm tắt(Abstract)

Việc các mô hình ngôn ngữ lớn (LLM) ngày càng phổ biến trong môi trường doanh nghiệp cũng kéo theo một lượng rủi ro đáng kể liên quan đến việc sử dụng chúng. Công nghệ guardrail nhằm giảm thiểu rủi ro này bằng cách lọc văn bản đầu vào/đầu ra của LLM thông qua nhiều bộ phát hiện khác nhau. Tuy nhiên, việc phát triển và duy trì các bộ phát hiện mạnh mẽ phải đối mặt với nhiều thách thức, một trong số đó là khó thu thập được dữ liệu có gán nhãn đạt chất lượng sản xuất trên đầu ra LLM thực tế trước khi triển khai. Trong nghiên cứu này, chúng tôi đề xuất backprompting, một giải pháp đơn giản nhưng trực quan để tạo dữ liệu có gán nhãn giống môi trường sản xuất phục vụ phát triển guardrail cho tư vấn sức khỏe. Ngoài ra, chúng tôi kết hợp phương pháp backprompting với kỹ thuật phân cụm sparse human-in-the-loop để gán nhãn cho dữ liệu được tạo ra. Mục tiêu của chúng tôi là xây dựng một parallel corpus đại diện tương đối cho bộ dữ liệu gốc nhưng đồng thời giống với đầu ra LLM thực tế. Sau đó, chúng tôi bổ sung các ví dụ tổng hợp của mình vào các bộ dữ liệu hiện có để tạo ra dữ liệu huấn luyện mạnh mẽ cho bộ phát hiện. Chúng tôi kiểm thử kỹ thuật này trên một trong những guardrail khó và tinh vi nhất: nhận diện tư vấn sức khỏe trong đầu ra LLM, và cho thấy sự cải thiện so với các giải pháp khác. Bộ phát hiện của chúng tôi có thể vượt GPT-4o tới 3.73% dù có số lượng tham số ít hơn 400 lần.
> The pervasiveness of large language models (LLMs) in enterprise settings has also brought forth a significant amount of risks associated with their usage. Guardrails technologies aim to mitigate this risk by filtering LLMs' input/output text through various detectors. However, developing and maintaining robust detectors faces many challenges, one of which is the difficulty in acquiring production-quality labeled data on real LLM outputs prior to deployment. In this work, we propose backprompting, a simple yet intuitive solution to generate production-like labeled data for health advice guardrails development. Furthermore, we pair our backprompting method with a sparse human-in-the-loop clustering technique to label the generated data. Our aim is to construct a parallel corpus roughly representative of the original dataset yet resembling real LLM output. We then infuse existing datasets with our synthetic examples to produce robust training data for our detector. We test our technique in one of the most difficult and nuanced guardrails: the identification of health advice in LLM output, and demonstrate improvement versus other solutions. Our detector is able to outperform GPT-4o by up to 3.73%, despite having 400x less parameters.

Link bài báo

https://arxiv.org/abs/2508.18384


Hiệp lực chiều sâu-chiều rộng trong RLVR: Mở khóa mức tăng khả năng suy luận của LLM bằng khám phá thích ứng / Depth-Breadth Synergy in RLVR: Unlocking LLM Reasoning Gains with Adaptive Exploration

Giới thiệu bài báo

Reinforcement Learning with Verifiable Reward (RLVR) đang đóng vai trò quan trọng trong việc tối đa hóa năng lực suy luận của các mô hình ngôn ngữ lớn (LLM), nhưng tiềm năng của nó bị giới hạn bởi hai chiều chưa được khai phá là Depth (bài toán khó nhất mà mô hình có thể lấy mẫu) và Breadth (số lượng instance được tiêu thụ trong một vòng lặp đơn). Nghiên cứu này phân tích thuật toán GRPO (Generalized Relative Preference Optimization) hiện có và chỉ ra một thiên lệch có hệ thống, trong đó cumulative advantage gán trọng số không cân xứng cho các mẫu có độ chính xác trung bình, đồng thời xem nhẹ các instance có độ chính xác thấp. Để giải quyết vấn đề này, nghiên cứu đề xuất phương pháp Difficulty Adaptive Rollout Sampling (DARS), tái điều chỉnh trọng số của các bài toán khó thông qua rollout nhiều giai đoạn có định hướng mục tiêu nhằm tăng số lượng rollout dương.

DARS không chỉ đơn thuần là tăng kích thước rollout mà còn góp phần cải thiện hiệu năng Pass@K. Nghiên cứu cũng khám phá việc mở rộng mạnh mẽ độ rộng của dữ liệu huấn luyện có thể đóng góp cho việc cải thiện suy luận, bằng cách tăng đáng kể kích thước batch và thay thế lặp mini-batch của Proximal Policy Optimization (PPO) bằng cập nhật toàn batch qua nhiều epoch. Cách tiếp cận này cải thiện mạnh hiệu năng Pass@1, đồng thời cho thấy huấn luyện độ rộng lớn duy trì entropy mức token cao, biểu hiện của việc tiếp tục khám phá và giảm nhiễu gradient.

DARS-B là phương pháp bổ sung độ rộng quy mô lớn vào DARS để đồng thời đạt cải thiện hiệu năng ở Pass@K và Pass@1; điều này cho thấy khám phá thích ứng theo cả chiều rộng và chiều sâu đóng vai trò then chốt trong việc phát huy năng lực suy luận của RLVR. Nghiên cứu này đưa ra một hướng đi mới để tối đa hóa năng lực suy luận của RLVR thông qua các phương pháp như vậy, đồng thời chứng minh bằng thực nghiệm rằng khám phá thích ứng theo chiều sâu và chiều rộng góp phần nâng cao hiệu năng của RLVR.

Tóm tắt bài báo (Abstract)

Học tăng cường với phần thưởng có thể kiểm chứng (Reinforcement Learning with Verifiable Reward, RLVR) đã nổi lên như một mô hình mạnh mẽ để khai mở năng lực suy luận của các mô hình ngôn ngữ lớn, nhưng tiềm năng đầy đủ của nó bị hạn chế bởi hai chiều cạnh còn chưa được khám phá đủ mức: độ sâu (Depth) - bài toán khó nhất mà mô hình có thể lấy mẫu; độ rộng (Breadth) - số lượng instance được tiêu thụ trong một vòng lặp đơn. Chúng tôi phân tích thuật toán GRPO phổ biến và chỉ ra một thiên lệch có hệ thống: cumulative-advantage đặt trọng số không cân xứng lên các mẫu có độ chính xác trung bình, đồng thời giảm trọng số của các instance có độ chính xác thấp vốn rất quan trọng để mở rộng ranh giới suy luận. Để khắc phục việc bỏ qua độ sâu, chúng tôi giới thiệu Difficulty Adaptive Rollout Sampling (DARS), cơ chế tái phân bổ trọng số cho các bài toán khó thông qua rollout nhiều giai đoạn có định hướng mục tiêu, từ đó tăng số lượng rollout dương cho các bài toán khó. Về thực nghiệm, việc đơn thuần tăng kích thước rollout chỉ giúp tăng tốc hội tụ và thậm chí còn làm giảm Pass@K. Ngược lại, DARS của chúng tôi mang lại mức cải thiện Pass@K ổn định mà không phát sinh thêm chi phí suy luận tại thời điểm hội tụ. Tương tự như cách chúng tôi mở rộng thích ứng độ sâu của quá trình khám phá, giờ đây chúng tôi đặt câu hỏi liệu việc mở rộng mạnh mẽ độ rộng của dữ liệu huấn luyện có thể tiếp tục khuếch đại mức cải thiện suy luận hay không. Để làm điều này, chúng tôi tăng mạnh batch size và thay thế các vòng lặp mini-batch của PPO bằng cập nhật full-batch qua nhiều epoch. Việc tăng độ rộng cải thiện đáng kể hiệu năng Pass@1. Huấn luyện với độ rộng lớn duy trì entropy ở mức token cao, cho thấy quá trình khám phá tiếp diễn và nhiễu gradient giảm xuống. Chúng tôi tiếp tục giới thiệu DARS-B, phiên bản tăng cường DARS với độ rộng lớn, và chứng minh mức cải thiện đồng thời ở cả Pass@K lẫn Pass@1. Kết quả xác nhận rằng độ rộng và khám phá thích ứng theo độ sâu hoạt động như các chiều trực giao trong RLVR, và đây là chìa khóa để giải phóng năng lực suy luận của RLVR.
> Reinforcement Learning with Verifiable Reward (RLVR) has emerged as a powerful paradigm for unlocking reasoning capabilities in large language models, yet its full potential is hindered by two under-explored dimensions: Depth-the hardest problem a model can sample; Breadth-the number of instances consumed in a single iteration. We dissect the popular GRPO algorithm and reveal a systematic bias: the cumulative-advantage disproportionately weights samples with medium accuracy, while down-weighting the low-accuracy instances that are crucial for pushing reasoning boundaries. To rectify the depth neglect, we introduce Difficulty Adaptive Rollout Sampling (DARS), which re-weights hard problems through targeted multi-stage rollouts, thereby increasing the number of positive rollouts for hard problems. Empirically, naively enlarging rollout size only accelerates convergence and even hurts Pass@K. Our DARS, in contrast, delivers consistent Pass@K gains without extra inference cost at convergence. Just as we adaptively expanded the depth of exploration, we now ask whether aggressively scaling the breadth of training data can further amplify reasoning gains. To this end, we intensely scale batch size and replace PPO's mini-batch iterations with full-batch updates over multiple epochs. Increasing breadth significantly enhances Pass@1 performance. Large-breadth training sustains high token-level entropy, indicating continued exploration and reduced gradient noise. We further present DARS-B, which augments DARS with large breadth, and demonstrate simultaneous gains in Pass@K and Pass@1. The results confirm that breadth and adaptive exploration across depth operate as orthogonal dimensions in RLVR, which are key to unleashing the reasoning power of RLVR.

Liên kết bài báo

https://arxiv.org/abs/2508.13755


FlowVLA: suy nghĩ về chuyển động bằng chuỗi tư duy trực quan / FlowVLA: Thinking in Motion with a Visual Chain of Thought

Giới thiệu bài báo

Các mô hình Vision-Language-Action (VLA) dựa vào world model nội bộ được huấn luyện thông qua dự đoán khung hình tiếp theo, nhưng phương pháp này gặp khó khăn trong suy luận vật lý vì diện mạo tĩnh và chuyển động động bị đan xen với nhau. Để giải quyết vấn đề này, nghiên cứu giới thiệu một khung tiền huấn luyện có tên Visual Chain of Thought (Visual CoT), nhằm dẫn dắt mô hình suy luận về sự tiến triển của cảnh trước khi dự đoán. FlowVLA hoạt động bằng cách tạo ra biểu diễn optical flow trung gian rồi mới dự đoán khung hình tương lai; quá trình này được triển khai trong một Transformer tự hồi quy duy nhất để học bằng cách tách riêng các yếu tố động. Kết quả thực nghiệm cho thấy FlowVLA tạo ra các dự đoán thị giác nhất quán và cải thiện đáng kể hiệu quả của quá trình học policy, qua đó đưa ra một nền tảng có nguyên tắc hơn cho việc world modeling.

Tóm tắt bài báo (Abstract)

Nhiều mô hình Vision-Language-Action (VLA) dựa vào một world model nội tại được huấn luyện thông qua dự đoán khung hình tiếp theo. Tuy nhiên, cách tiếp cận này gặp khó khăn với suy luận vật lý vì nó làm rối giữa diện mạo tĩnh và chuyển động động, thường dẫn đến các dự đoán thị giác thiếu hợp lý và việc học policy kém hiệu quả. Để khắc phục những hạn chế này, chúng tôi giới thiệu Visual Chain of Thought (Visual CoT): một framework tiền huấn luyện khuyến khích mô hình suy luận về cách một cảnh tiến triển trước khi dự đoán nó sẽ trông như thế nào. Chúng tôi hiện thực hóa nguyên lý này trong FlowVLA, mô hình chỉ dự đoán khung hình tương lai ($v_{t+1}$) sau khi tạo ra biểu diễn optical flow trung gian ($f_t$) mã hóa động lực chuyển động. Quá trình suy luận "$v_t \rightarrow f_t \rightarrow v_{t+1}$" này được triển khai trong một Transformer tự hồi quy duy nhất, định hướng mô hình học được các động lực đã được tách biệt. Nhờ đó, FlowVLA tạo ra các dự đoán thị giác nhất quán và hỗ trợ việc học policy hiệu quả hơn. Các thí nghiệm trên những benchmark thao tác robot đầy thách thức cho thấy hiệu năng state-of-the-art với hiệu quả mẫu được cải thiện đáng kể, hướng tới một nền tảng có tính nguyên tắc hơn cho world modeling. Trang dự án: https://irpn-lab.github.io/FlowVLA/
> Many Vision-Language-Action (VLA) models rely on an internal world model trained via next-frame prediction. This approach, however, struggles with physical reasoning as it entangles static appearance with dynamic motion, often resulting in implausible visual forecasts and inefficient policy learning. To address these limitations, we introduce the Visual Chain of Thought (Visual CoT): a pre-training framework that encourages a model to reason about how a scene evolves before predicting what it will look like. We instantiate this principle in FlowVLA, which predicts a future frame ($v_{t+1}$) only after generating an intermediate optical flow representation ($f_t$) that encodes motion dynamics. This ``$v_t \rightarrow f_t \rightarrow v_{t+1}$'' reasoning process is implemented within a single autoregressive Transformer, guiding the model to learn disentangled dynamics. As a result, FlowVLA produces coherent visual predictions and facilitates more efficient policy learning. Experiments on challenging robotics manipulation benchmarks demonstrate state-of-the-art performance with substantially improved sample efficiency, pointing toward a more principled foundation for world modeling. Project page: https://irpn-lab.github.io/FlowVLA/

Liên kết bài báo

https://arxiv.org/abs/2508.18269

Đọc thêm

https://irpn-lab.github.io/FlowVLA/


Biểu diễn bộ nhớ theo tập cho hiểu video dài / Episodic Memory Representation for Long-form Video Understanding

Giới thiệu bài báo

Một trong những thách thức của lĩnh vực hiểu video là xử lý hiệu quả ngữ cảnh của các video dài. Các Video Large Language Models (Video-LLMs) hiện có rất mạnh trong hiểu video nói chung, nhưng gặp khó khăn với video dài do giới hạn của cửa sổ ngữ cảnh. Để giải quyết vấn đề này, framework Video-EM (Episodic Memory Representation) được đề xuất mang đến một cách tiếp cận sáng tạo không cần huấn luyện.

Video-EM mô hình hóa các sự kiện chính của video thành những tập được sắp xếp theo thời gian, qua đó nắm bắt các quan hệ không-thời gian động và mạch truyện. Framework này gồm ba thành phần cốt lõi: Key Event Selection, Episodic Memory Representation, và Chain of Thought (CoT) Video Reasoning. Mô-đun Key Event Selection xác định thông tin liên quan đến truy vấn và trích xuất các sự kiện chính liền kề theo thời gian, qua đó xử lý tính dư thừa của video.

Mô-đun Episodic Memory Representation mô hình hóa tường minh thứ tự thời gian của từng sự kiện để biểu diễn phong phú hơn ngữ cảnh không-thời gian động. Nhờ đó, có thể tái cấu trúc mạch truyện của video một cách hiệu quả. Cuối cùng, CoT Video Reasoning lặp lại việc chọn tập tối thiểu các bộ nhớ theo tập có liên quan để tạo ra câu trả lời chính xác và dựa trên ngữ cảnh.

Nghiên cứu này đã đánh giá hiệu năng của Video-EM trên nhiều benchmark khác nhau và cho thấy mức cải thiện hiệu năng 4-9% so với các mô hình hiện có. Kết quả này cho thấy mô hình vẫn duy trì được độ chính xác cao dù sử dụng số lượng khung hình ít hơn. Video-EM cải thiện đáng kể độ chính xác của bài toán hỏi đáp video và là một đóng góp quan trọng mở ra những khả năng mới trong lĩnh vực hiểu video. Cách tiếp cận này có thể trở thành nền tảng quan trọng cho các nghiên cứu trong tương lai.

Tóm tắt (Abstract)

Các mô hình ngôn ngữ lớn cho video (Video-LLM) thể hiện hiệu năng xuất sắc trong việc hiểu video nói chung, nhưng gặp khó khăn với video dài do giới hạn cửa sổ ngữ cảnh. Vì vậy, các cách tiếp cận gần đây tập trung vào truy xuất keyframe, nén các video dài thành một số ít khung hình giàu thông tin. Dù thực tế, các phương pháp này đơn giản hóa bài toán thành đối sánh tĩnh giữa văn bản và hình ảnh, bỏ qua các quan hệ không-thời gian quan trọng để nắm bắt chuyển cảnh và tính liên tục của ngữ cảnh, đồng thời có thể tạo ra các keyframe dư thừa với lượng thông tin hạn chế, làm loãng những tín hiệu nổi bật vốn thiết yếu cho việc trả lời câu hỏi về video một cách chính xác. Để khắc phục những hạn chế này, chúng tôi giới thiệu Video-EM, một framework không cần huấn luyện lấy cảm hứng từ nguyên lý trí nhớ theo từng giai đoạn của con người, được thiết kế để thúc đẩy suy luận vững chắc và bám sát ngữ cảnh. Thay vì coi keyframe là các thực thể thị giác tách rời, Video-EM mô hình hóa chúng một cách tường minh như các sự kiện theo từng giai đoạn được sắp xếp theo thời gian, nắm bắt cả quan hệ không gian lẫn động lực thời gian cần thiết để tái dựng chính xác mạch tự sự bên dưới. Ngoài ra, framework này tận dụng lối suy nghĩ chuỗi suy luận (CoT) với LLM để lặp đi lặp lại việc xác định một tập con tối thiểu nhưng giàu thông tin của các ký ức theo từng giai đoạn, qua đó cho phép Video-LLM trả lời câu hỏi hiệu quả và chính xác. Kết quả đánh giá diện rộng trên các benchmark Video-MME, EgoSchema, HourVideo và LVBench xác nhận ưu thế của Video-EM: mô hình đạt kết quả có tính cạnh tranh cao với mức cải thiện hiệu năng 4-9% so với các baseline tương ứng, đồng thời sử dụng ít khung hình hơn.
> Các mô hình ngôn ngữ lớn cho video (Video-LLMs) vượt trội trong việc hiểu video nói chung nhưng gặp khó khăn với video dài do giới hạn cửa sổ ngữ cảnh. Vì vậy, các cách tiếp cận gần đây tập trung vào truy xuất keyframe, cô đọng các video dài thành một tập nhỏ các khung hình giàu thông tin. Dù hữu ích trong thực tế, các phương pháp này đã đơn giản hóa bài toán thành đối sánh tĩnh giữa văn bản và hình ảnh, bỏ qua các quan hệ không-thời gian vốn rất quan trọng để nắm bắt chuyển cảnh và tính liên tục của ngữ cảnh, đồng thời có thể tạo ra các keyframe dư thừa với ít thông tin, làm suy giảm các tín hiệu nổi bật cần thiết cho việc trả lời câu hỏi về video một cách chính xác. Để giải quyết những hạn chế này, chúng tôi giới thiệu Video-EM, một framework không cần huấn luyện lấy cảm hứng từ các nguyên lý của trí nhớ theo từng giai đoạn của con người, được thiết kế để hỗ trợ suy luận mạnh mẽ và có nền tảng ngữ cảnh. Thay vì coi keyframe là những thực thể thị giác riêng lẻ, Video-EM mô hình hóa chúng một cách tường minh như các sự kiện theo từng giai đoạn được sắp xếp theo thời gian, nắm bắt cả quan hệ không gian và động lực thời gian cần thiết để tái dựng chính xác mạch tự sự nền tảng. Hơn nữa, framework này tận dụng lối suy nghĩ chuỗi suy luận (CoT) với các LLM để lặp đi lặp lại việc xác định một tập con tối thiểu nhưng giàu thông tin của các ký ức theo từng giai đoạn, cho phép Video-LLM trả lời câu hỏi hiệu quả và chính xác. Các đánh giá diện rộng trên các benchmark Video-MME, EgoSchema, HourVideo và LVBench xác nhận tính vượt trội của Video-EM, khi đạt kết quả cạnh tranh cao với mức cải thiện hiệu năng 4-9 phần trăm so với các baseline tương ứng trong khi sử dụng ít khung hình hơn.

Liên kết bài báo

https://arxiv.org/abs/2508.09486


Bài viết này được tổng hợp dựa trên nội dung do mô hình GPT tóm tắt, nên có thể có những phần được trình bày khác với nội dung hoặc dụng ý của nguyên tác. Nếu bạn quan tâm đến chủ đề này, hãy tham khảo thêm cả nguyên văn! Nếu trong lúc đọc bạn phát hiện nội dung chưa tự nhiên hoặc có sai sót, rất mong bạn để lại bình luận để thông báo. 🤗

⚠️Quảng cáo⚠️: Bạn thấy bài viết này do 🔥Cộng đồng người dùng PyTorch Hàn Quốc🇰🇷 tổng hợp có hữu ích không? Nếu đăng ký thành viên, chúng tôi sẽ gửi các bài viết nổi bật qua email💌 cho bạn! (Mặc định là Weekly, nhưng cũng có thể chuyển sang Daily.)

Chưa có bình luận nào.

Chưa có bình luận nào.