ML đáng chú ý trong tuần này

(discuss.pytorch.kr)

10 điểm bởi ninebow 2025-12-29 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

[2025/12/22 ~ 28] Tuyển tập các bài báo AI/ML đáng chú ý trong tuần này

PyTorchKR🔥🇰🇷 🤔💭

1️⃣ Chiến lược phát hiện và giảm thiểu ảo giác chuyên sâu (Deep Hallucination Detection & Mitigation): Nhìn vào các bài báo được chọn tuần này, có thể thấy nổi bật những nỗ lực nhằm giải quyết tận gốc vấn đề cố hữu của LLM là ảo giác (Hallucination), vượt ra ngoài cách tiếp cận đơn thuần là tăng kích thước mô hình. QuCo-RAG quyết định thời điểm truy xuất bằng cách sử dụng một chỉ báo khách quan là thống kê của dữ liệu tiền huấn luyện, thay vì độ tin cậy mang tính chủ quan bên trong mô hình, còn H-Neurons áp dụng cách tiếp cận vi mô để xác định các neuron cụ thể gây ra ảo giác và truy vết nguồn gốc của chúng. Bên cạnh đó, Model-First Reasoning giảm lỗi có cấu trúc bằng cách buộc mô hình đi qua một bước mô hình hóa tường minh trước khi giải quyết vấn đề. Điều này cho thấy nghiên cứu AI đang tiến hóa từ việc chỉ tạo ra những câu trả lời “nghe có vẻ hợp lý” sang hướng xây dựng các cơ chế có thể kiểm chứng và đáng tin cậy.

2️⃣ Sự tiến hóa của hiệu quả suy luận và công nghệ xử lý thời gian thực (Evolution of Inference Efficiency & Real-Time Processing): Đồng thời, khi mô hình ngày càng lớn hơn, các nghiên cứu nhằm tối đa hóa tốc độ suy luận và hiệu quả bộ nhớ cũng diễn ra rất sôi động. WorldPlay đã giải quyết bài toán đánh đổi giữa tốc độ và bộ nhớ để cho phép tạo video theo thời gian thực, còn Jacobi Forcing vượt qua giới hạn của phương thức sinh tuần tự (AR) bằng giải mã song song, từ đó tăng mạnh tốc độ suy luận. Ngoài ra, qTTT đưa ra một cách tiếp cận mới khi thực hiện huấn luyện nhẹ ngay ở giai đoạn suy luận để ngăn hiện tượng suy giảm hiệu năng khi xử lý ngữ cảnh dài (score dilution). Đây có thể được hiểu là quá trình tối ưu hóa thiết yếu để đưa các mô hình hiệu năng cao vào vận hành ở cấp độ dịch vụ thực tế (Real-time application).

3️⃣ Tăng cường khả năng hiểu thế giới động và suy luận có cấu trúc (Enhanced Dynamic World Understanding & Structured Reasoning): Vượt ra ngoài việc phân tích hình ảnh hay văn bản tĩnh, xu hướng hướng tới việc hiểu dòng chảy của thời gian (4D) và cấu trúc vật lý/logic đang ngày càng rõ nét. 4D-RGPT thử nghiệm nhận thức 4D bằng cách bổ sung trục thời gian vào không gian 3D để hiểu động lực học theo thời gian của video, còn WorldPlay thực hiện mô hình hóa thế giới trong khi vẫn duy trì tính nhất quán hình học. NEPA cũng tìm cách nâng cao khả năng hiểu thị giác thông qua dự đoán embedding thay vì khôi phục pixel. Điều này gợi ý rằng AI đang tiến tới một giai đoạn vượt khỏi việc chỉ khớp mẫu đơn thuần, để dần nội tại hóa “nguyên lý vận hành của thế giới” bao gồm các quy luật vật lý và quan hệ nhân quả logic như con người.

WorldPlay: Nâng cao tính nhất quán hình học dài hạn cho mô hình hóa thế giới tương tác thời gian thực / WorldPlay: Towards Long-Term Geometric Consistency for Real-Time Interactive World Modeling

Giới thiệu bài báo

WorldPlay là một mô hình diffusion video streaming mang tính đột phá dành cho mô hình hóa thế giới tương tác theo thời gian thực, được phát triển với trọng tâm là duy trì tính nhất quán hình học dài hạn đồng thời giải quyết bài toán đánh đổi giữa tốc độ và bộ nhớ. Mô hình này tối đa hóa hiệu năng thông qua ba đổi mới chính. Thứ nhất, Dual Action Representation cho phép kiểm soát hành động mạnh mẽ đối với đầu vào của người dùng, từ đó hiện thực hóa các chuyển động hợp lý về mặt vật lý trong những cảnh có quy mô đa dạng. Thứ hai, Reconstituted Context Memory đóng góp vào việc duy trì tính nhất quán dài hạn bằng cách tái cấu trúc động thông tin từ các khung hình trong quá khứ. Nhờ đó, các khung hình cũ nhưng quan trọng về mặt hình học vẫn có thể được truy cập, đồng thời nâng cao hiệu quả bộ nhớ. Thứ ba, mô hình giới thiệu một phương pháp chưng cất mới có tên Context Forcing để cải thiện hiệu năng của mô hình có nhận thức về bộ nhớ. Phương pháp này căn chỉnh ngữ cảnh bộ nhớ giữa mô hình giáo viên và mô hình học sinh, giúp mô hình học sinh tận dụng hiệu quả thông tin dài hạn.

WorldPlay tạo ra video 720p ở tốc độ 24 khung hình/giây và thể hiện tính nhất quán vượt trội so với các kỹ thuật hiện có. Mô hình này đã thành công trong việc đồng thời đạt được tốc độ và tính nhất quán hình học dài hạn trong tạo video thời gian thực, đồng thời cho thấy khả năng khái quát hóa mạnh trên nhiều bối cảnh khác nhau. Ngoài ra, nó còn cho phép tái dựng 3D chất lượng cao, từ đó hỗ trợ tương tác dựa trên prompt có thể kích hoạt các sự kiện thế giới động. Nhờ những đặc tính này, WorldPlay đang đóng góp quan trọng cho lĩnh vực tạo video tương tác thời gian thực và mở ra nhiều khả năng ứng dụng trong tương lai.

Tóm tắt bài báo (Abstract)

Bài báo này giới thiệu WorldPlay, một mô hình khuếch tán video dạng streaming cho phép mô hình hóa thế giới tương tác theo thời gian thực. WorldPlay giải quyết sự đánh đổi giữa tốc độ và bộ nhớ vốn giới hạn các phương pháp hiện tại, đồng thời duy trì tính nhất quán hình học trong dài hạn. Sức mạnh của WorldPlay đến từ ba đổi mới chính. 1) Chúng tôi sử dụng Biểu diễn Hành động Kép (Dual Action Representation) để cho phép điều khiển hành động mạnh mẽ theo đầu vào bàn phím và chuột của người dùng. 2) Để duy trì tính nhất quán dài hạn, Bộ nhớ Ngữ cảnh Tái cấu thành (Reconstituted Context Memory) của chúng tôi tái dựng ngữ cảnh một cách động từ các khung hình trong quá khứ và sử dụng tái khung hóa theo thời gian để giữ cho các khung hình cũ nhưng quan trọng về mặt hình học vẫn có thể truy cập được, qua đó giảm thiểu hiệu quả sự suy giảm bộ nhớ. 3) Chúng tôi cũng đề xuất Context Forcing, một phương pháp chưng cất mới được thiết kế cho mô hình nhận thức bộ nhớ. Bằng cách căn chỉnh ngữ cảnh bộ nhớ giữa mô hình giáo viên và mô hình học sinh, phương pháp này duy trì khả năng sử dụng thông tin dài hạn của mô hình học sinh, giúp đạt tốc độ thời gian thực đồng thời ngăn chặn sai lệch lỗi. Tổng hợp lại, WorldPlay có thể stream video 720p dài hạn ở 24 FPS với độ nhất quán vượt trội so với các kỹ thuật hiện có và cho thấy khả năng khái quát hóa mạnh mẽ trên nhiều bối cảnh khác nhau. Có thể xem trang dự án và bản demo trực tuyến tại: https://3d-models.hunyuan.tencent.com/world/ và https://3d.hunyuan.tencent.com/sceneTo3D.
> Bài báo này giới thiệu WorldPlay, một mô hình khuếch tán video dạng streaming cho phép mô hình hóa thế giới tương tác theo thời gian thực với tính nhất quán hình học dài hạn, giải quyết sự đánh đổi giữa tốc độ và bộ nhớ đang giới hạn các phương pháp hiện nay. WorldPlay dựa trên ba đổi mới chính. 1) Chúng tôi sử dụng Dual Action Representation để cho phép điều khiển hành động mạnh mẽ theo đầu vào bàn phím và chuột của người dùng. 2) Để đảm bảo tính nhất quán dài hạn, Reconstituted Context Memory của chúng tôi tái dựng ngữ cảnh một cách động từ các khung hình trước đó và dùng temporal reframing để giữ cho các khung hình đã rất cũ nhưng quan trọng về mặt hình học vẫn có thể truy cập được, từ đó giảm hiệu quả hiện tượng suy hao bộ nhớ. 3) Chúng tôi cũng đề xuất Context Forcing, một phương pháp chưng cất mới được thiết kế cho mô hình nhận biết bộ nhớ. Việc căn chỉnh ngữ cảnh bộ nhớ giữa teacher và student giúp bảo toàn khả năng sử dụng thông tin tầm xa của student, cho phép đạt tốc độ thời gian thực đồng thời ngăn hiện tượng trôi lỗi. Tổng thể, WorldPlay tạo ra video streaming 720p đường dài ở 24 FPS với độ nhất quán vượt trội, so sánh thuận lợi với các kỹ thuật hiện có và cho thấy khả năng khái quát hóa mạnh mẽ trên nhiều cảnh đa dạng. Trang dự án và demo trực tuyến có tại: https://3d-models.hunyuan.tencent.com/world/ và https://3d.hunyuan.tencent.com/sceneTo3D.

Liên kết bài báo

https://arxiv.org/abs/2512.14614

Đọc thêm

https://3d-models.hunyuan.tencent.com/world/

https://3d.hunyuan.tencent.com/sceneTo3D

QuCo-RAG: Phương pháp cho tạo sinh tăng cường truy xuất động bằng cách định lượng độ bất định từ dữ liệu tiền huấn luyện / QuCo-RAG: Quantifying Uncertainty from the Pre-training Corpus for Dynamic Retrieval-Augmented Generation

Giới thiệu bài báo

QuCo-RAG là một phương pháp đổi mới giúp giảm hiện tượng ảo giác bằng cách quyết định động thời điểm truy xuất trong quá trình sinh của mô hình ngôn ngữ lớn (LLM). Các cách tiếp cận trước đây dựa vào tín hiệu nội tại của mô hình, nhưng điều này gặp vấn đề vì LLM thường được hiệu chuẩn kém và hay thể hiện độ tự tin cao với các đầu ra sai. Để khắc phục hạn chế này, nghiên cứu đề xuất một phương pháp mới định lượng độ bất định bằng các thống kê khách quan được tính từ dữ liệu tiền huấn luyện, thay vì dựa trên độ tin cậy mang tính chủ quan.

Việc định lượng độ bất định của QuCo-RAG gồm hai bước chính. Ở bước đầu tiên, phương pháp xác định các thực thể tần suất thấp, biểu thị khoảng trống tri thức đuôi dài, trước khi sinh. Ở bước thứ hai, trong quá trình sinh, phương pháp kiểm tra sự đồng xuất hiện của các thực thể trong dữ liệu tiền huấn luyện; nếu đồng xuất hiện bằng 0 thì đó là tín hiệu cho thấy nguy cơ ảo giác. Hai bước này tận dụng Infini-gram để truy vấn trên 4 nghìn tỷ token với độ trễ mức mili giây, từ đó kích hoạt truy xuất trong những tình huống có độ bất định cao.

Kết quả thực nghiệm cho thấy QuCo-RAG đạt mức cải thiện độ chính xác (EM) từ 5-12 điểm so với các đường cơ sở hiện đại nhất trên benchmark hỏi đáp (QA) nhiều bước khi sử dụng mô hình OLMo-2. Ngoài ra, phương pháp này cũng chuyển giao hiệu quả sang các mô hình có dữ liệu tiền huấn luyện không công khai (Llama, Qwen, GPT), cải thiện EM tối đa 14 điểm. Các thí nghiệm khái quát hóa miền trong QA y sinh tiếp tục xác thực độ vững của QuCo-RAG.

QuCo-RAG đưa ra một mô hình mới cho tạo sinh tăng cường truy xuất động thông qua việc xác minh dựa trên kho ngữ liệu tiền huấn luyện, và đây là một cách tiếp cận không phụ thuộc vào mô hình nên có thể áp dụng cho nhiều LLM khác nhau. Nghiên cứu này góp phần giảm rủi ro ảo giác và dự kiến sẽ tiếp tục khám phá khả năng áp dụng ở nhiều miền khác nhau trong tương lai.

Tóm tắt bài báo (Abstract)

Dynamic Retrieval-Augmented Generation xác định một cách thích ứng thời điểm cần truy xuất trong quá trình sinh để giảm hiện tượng ảo giác ở các mô hình ngôn ngữ lớn (LLMs). Tuy nhiên, các phương pháp hiện có phụ thuộc vào những tín hiệu nội tại của mô hình (ví dụ: logit, entropy), vốn về bản chất là không đáng tin cậy vì LLM thường được hiệu chỉnh kém và hay thể hiện mức độ tự tin cao với các đầu ra sai. Chúng tôi đề xuất QuCo-RAG, chuyển từ độ tự tin mang tính chủ quan sang các thống kê khách quan được tính toán từ dữ liệu tiền huấn luyện. Phương pháp của chúng tôi định lượng độ bất định qua hai giai đoạn: (1) trước khi sinh, chúng tôi xác định các thực thể tần suất thấp, cho thấy khoảng trống tri thức ở phần đuôi dài; (2) trong khi sinh, chúng tôi kiểm chứng sự đồng xuất hiện của các thực thể trong kho ngữ liệu tiền huấn luyện, nơi việc không có đồng xuất hiện thường báo hiệu rủi ro ảo giác. Cả hai giai đoạn đều tận dụng Infini-gram để truy vấn với độ trễ tính bằng mili giây trên 4 nghìn tỷ token, kích hoạt truy xuất khi độ bất định cao. Các thí nghiệm trên các benchmark QA đa bước cho thấy QuCo-RAG đạt mức tăng EM từ 5–12 điểm so với các đường cơ sở tiên tiến nhất khi dùng mô hình OLMo-2, và cũng chuyển giao hiệu quả sang các mô hình có dữ liệu tiền huấn luyện không được công bố (Llama, Qwen, GPT), cải thiện EM lên tới 14 điểm. Khả năng tổng quát hóa miền trên QA y sinh tiếp tục xác thực tính vững chắc của mô hình của chúng tôi. Những kết quả này xác lập việc kiểm chứng dựa trên kho ngữ liệu như một mô hình nguyên tắc và thực tiễn, gần như không phụ thuộc vào mô hình, cho dynamic RAG. Mã nguồn của chúng tôi được công khai tại https://github.com/ZhishanQ/QuCo-RAG.
> Dynamic Retrieval-Augmented Generation adaptively determines when to retrieve during generation to mitigate hallucinations in large language models (LLMs). However, existing methods rely on model-internal signals (e.g., logits, entropy), which are fundamentally unreliable because LLMs are typically ill-calibrated and often exhibit high confidence in erroneous outputs. We propose QuCo-RAG, which shifts from subjective confidence to objective statistics computed from pre-training data. Our method quantifies uncertainty through two stages: (1) before generation, we identify low-frequency entities indicating long-tail knowledge gaps; (2) during generation, we verify entity co-occurrence in the pre-training corpus, where zero co-occurrence often signals hallucination risk. Both stages leverage Infini-gram for millisecond-latency queries over 4 trillion tokens, triggering retrieval when uncertainty is high. Experiments on multi-hop QA benchmarks show QuCo-RAG achieves EM gains of 5--12 points over state-of-the-art baselines with OLMo-2 models, and transfers effectively to models with undisclosed pre-training data (Llama, Qwen, GPT), improving EM by up to 14 points. Domain generalization on biomedical QA further validates the robustness of our paradigm. These results establish corpus-grounded verification as a principled, practically model-agnostic paradigm for dynamic RAG. Our code is publicly available at https://github.com/ZhishanQ/QuCo-RAG.

Link bài báo

https://arxiv.org/abs/2512.19134

Đọc thêm

https://github.com/ZhishanQ/QuCo-RAG

4D-RGPT: phương pháp chưng cất tri giác hướng tới hiểu biết 4D ở cấp độ vùng / 4D-RGPT: Toward Region-level 4D Understanding via Perceptual Distillation

Giới thiệu bài báo

4D-RGPT là một mô hình ngôn ngữ lớn đa phương thức (MMLM) chuyên biệt, được thiết kế để nắm bắt hiệu quả các biểu diễn 4D từ đầu vào video. Các benchmark hỏi đáp video 3D và 4D (VQA) hiện có chủ yếu tập trung vào các cảnh tĩnh và thiếu các prompt ở cấp độ vùng, khiến khả năng hiểu động học theo thời gian bị hạn chế. Để giải quyết vấn đề này, nghiên cứu giới thiệu một khung học mới mang tên chưng cất 4D tri giác (Perceptual 4D Distillation, P4D), cho phép chuyển giao các biểu diễn 4D từ một mô hình chuyên gia đã được đóng băng sang 4D-RGPT, từ đó hỗ trợ nhận thức 4D toàn diện.

Nghiên cứu cũng đề xuất một benchmark mới mang tên R4D-Bench, bao gồm các prompt ở cấp độ vùng cho các cảnh động có nhận thức độ sâu. R4D-Bench được xây dựng thông qua một quy trình kết hợp giữa tự động hóa và xác minh của con người, nhằm khắc phục những hạn chế của các benchmark 4D VQA hiện có vốn không dựa trên vùng. Benchmark này bao gồm 9 danh mục câu hỏi để đánh giá nhiều khía cạnh khác nhau của hiểu biết 4D, và mỗi danh mục cung cấp một tiêu chí để đánh giá toàn diện hiệu năng của MMLM.

Định dạng câu hỏi theo kiểu lựa chọn đáp án đòi hỏi MMLM phải có độ chính xác cần thiết để đưa ra câu trả lời đúng, điều này rất quan trọng trong việc hiểu vị trí và hướng của vật thể. Cách tiếp cận này giúp nâng cao năng lực hiểu biết 4D của MMLM, đồng thời cho phép đánh giá sâu hơn thông qua các câu hỏi dựa trên vùng. Nghiên cứu này, thông qua 4D-RGPT và R4D-Bench, đã có những đóng góp quan trọng trong việc vượt qua các giới hạn của các hệ thống VQA hiện có và cải thiện nhận thức 4D cũng như khả năng hiểu theo thời gian.

Tóm tắt bài báo (Abstract)

Mặc dù các mô hình ngôn ngữ lớn đa phương thức (MLLM) đã có nhiều tiến bộ, khả năng suy luận về cấu trúc 3D và động lực học theo thời gian của chúng vẫn còn hạn chế, bị ràng buộc bởi năng lực cảm nhận 4D và hiểu biết thời gian còn yếu. Các benchmark Hỏi đáp video (VQA) 3D và 4D hiện có cũng chủ yếu tập trung vào các cảnh tĩnh và thiếu prompting ở mức vùng. Chúng tôi giải quyết các vấn đề này bằng cách giới thiệu: (a) 4D-RGPT, một MLLM chuyên biệt được thiết kế để nắm bắt biểu diễn 4D từ đầu vào video với năng lực cảm nhận thời gian được tăng cường; (b) Perceptual 4D Distillation (P4D), một khung huấn luyện chuyển các biểu diễn 4D từ một mô hình chuyên gia cố định sang 4D-RGPT để đạt được cảm nhận 4D toàn diện; và (c) R4D-Bench, một benchmark cho các cảnh động có nhận biết độ sâu với prompting ở mức vùng, được xây dựng thông qua một pipeline lai giữa tự động hóa và xác minh bởi con người. 4D-RGPT của chúng tôi đạt được những cải thiện đáng kể trên cả các benchmark 4D VQA hiện có và benchmark R4D-Bench được đề xuất.
> Despite advances in Multimodal LLMs (MLLMs), their ability to reason over 3D structures and temporal dynamics remains limited, constrained by weak 4D perception and temporal understanding. Existing 3D and 4D Video Question Answering (VQA) benchmarks also emphasize static scenes and lack region-level prompting. We tackle these issues by introducing: (a) 4D-RGPT, a specialized MLLM designed to capture 4D representations from video inputs with enhanced temporal perception; (b) Perceptual 4D Distillation (P4D), a training framework that transfers 4D representations from a frozen expert model into 4D-RGPT for comprehensive 4D perception; and (c) R4D-Bench, a benchmark for depth-aware dynamic scenes with region-level prompting, built via a hybrid automated and human-verified pipeline. Our 4D-RGPT achieves notable improvements on both existing 4D VQA benchmarks and the proposed R4D-Bench benchmark.

Link bài báo

https://arxiv.org/abs/2512.17012

Đọc thêm

https://ca-joe-yang.github.io/resource/projects/4D_RGPT

H-Neurons: nghiên cứu về sự tồn tại, tác động và nguồn gốc của các neuron liên quan đến hiện tượng hallucination trong mô hình ngôn ngữ lớn / H-Neurons: On the Existence, Impact, and Origin of Hallucination-Associated Neurons in LLMs

Giới thiệu bài báo

Vấn đề hallucination trong các mô hình ngôn ngữ lớn (LLM) là một trong những yếu tố chính làm suy giảm độ tin cậy của mô hình, chỉ hiện tượng tạo ra các đầu ra nghe có vẻ hợp lý nhưng không đúng sự thật. Nghiên cứu này phân tích một cách có hệ thống sự tồn tại, tác động và nguồn gốc của các neuron liên quan đến hallucination, tức H-Neurons. Trong quá trình nhận diện H-Neurons, nghiên cứu chứng minh rằng một tập hợp neuron thưa đáng kể, chiếm chưa đến 0,1% tổng số neuron, có thể dự đoán một cách đáng tin cậy sự xuất hiện của hallucination. Các neuron này cũng cho thấy khả năng khái quát hóa mạnh trong nhiều kịch bản khác nhau.

Xét về tác động hành vi, thông qua các can thiệp có kiểm soát, nghiên cứu phát hiện rằng H-Neurons có liên hệ nhân quả với hành vi tuân thủ quá mức. Điều này cho thấy các neuron góp phần gây ra hallucination không chỉ vô tình được kích hoạt, mà còn có quan hệ chặt chẽ với những mẫu hành vi cụ thể. Về nguồn gốc, nghiên cứu xác nhận rằng H-Neurons bắt nguồn từ các mô hình nền đã được tiền huấn luyện, và các neuron này vẫn duy trì năng lực dự đoán trong việc phát hiện hallucination. Đây là một hiểu biết quan trọng cho thấy H-Neurons được hình thành ngay từ giai đoạn học ban đầu của mô hình.

Về phương pháp nghiên cứu, nhóm tác giả sử dụng bộ dữ liệu TriviaQA để xây dựng một tập đối chứng chất lượng cao, giúp phân biệt giữa đầu ra đáng tin cậy và đầu ra hallucination nhằm nhận diện mạnh mẽ các neuron liên quan đến hallucination. Sau đó, họ huấn luyện một bộ phân loại tuyến tính để định lượng mức đóng góp của từng neuron, qua đó tạo ra các nhãn nhị phân dự đoán có hay không có hallucination. Cách tiếp cận này tạo nền tảng để đánh giá rõ ràng tác động chức năng của H-Neurons.

Cuối cùng, nghiên cứu này góp phần giúp hiểu rõ cơ chế thần kinh liên quan đến hallucination trong LLM, đồng thời cung cấp nền tảng quan trọng cho việc phát triển các LLM đáng tin cậy hơn trong tương lai. Những phát hiện này mang lại các hiểu biết thiết yếu cho nghiên cứu nhằm nâng cao độ tin cậy của LLM, đồng thời đặt nền móng quan trọng cho các hướng nghiên cứu tiếp theo.

Tóm tắt(Abstract)

Các mô hình ngôn ngữ lớn (LLM) thường xuyên tạo ra hallucination, tức các đầu ra nghe có vẻ hợp lý nhưng không đúng với sự thật, làm suy giảm độ tin cậy của chúng. Các nghiên cứu trước đây đã xem xét hallucination từ những góc nhìn vĩ mô như dữ liệu huấn luyện và mục tiêu huấn luyện, nhưng các cơ chế nền tảng ở cấp độ neuron phần lớn vẫn chưa được khám phá. Trong bài báo này, chúng tôi thực hiện một cuộc điều tra có hệ thống về các neuron liên quan đến hallucination (H-Neurons) trong LLM từ ba góc độ: nhận diện, tác động hành vi và nguồn gốc. Về nhận diện, chúng tôi cho thấy rằng một tập con neuron thưa đáng kinh ngạc, chiếm chưa đến $0.1%$ tổng số neuron, có thể dự đoán một cách đáng tin cậy sự xuất hiện của hallucination, với khả năng khái quát hóa mạnh trên nhiều kịch bản đa dạng. Về tác động hành vi, các can thiệp có kiểm soát cho thấy những neuron này có liên hệ nhân quả với hành vi tuân thủ quá mức. Về nguồn gốc, chúng tôi lần theo các neuron này về các mô hình nền đã được tiền huấn luyện và phát hiện rằng chúng vẫn giữ được khả năng dự đoán đối với việc phát hiện hallucination, cho thấy chúng xuất hiện trong quá trình tiền huấn luyện. Các phát hiện của chúng tôi kết nối các mẫu hành vi ở cấp độ vĩ mô với các cơ chế thần kinh vi mô, mang lại những hiểu biết phục vụ cho việc phát triển các LLM đáng tin cậy hơn.
> Large language models (LLMs) frequently generate hallucinations -- plausible but factually incorrect outputs -- undermining their reliability. While prior work has examined hallucinations from macroscopic perspectives such as training data and objectives, the underlying neuron-level mechanisms remain largely unexplored. In this paper, we conduct a systematic investigation into hallucination-associated neurons (H-Neurons) in LLMs from three perspectives: identification, behavioral impact, and origins. Regarding their identification, we demonstrate that a remarkably sparse subset of neurons (less than $0.1%$ of total neurons) can reliably predict hallucination occurrences, with strong generalization across diverse scenarios. In terms of behavioral impact, controlled interventions reveal that these neurons are causally linked to over-compliance behaviors. Concerning their origins, we trace these neurons back to the pre-trained base models and find that these neurons remain predictive for hallucination detection, indicating they emerge during pre-training. Our findings bridge macroscopic behavioral patterns with microscopic neural mechanisms, offering insights for developing more reliable LLMs.

Link bài báo

https://arxiv.org/abs/2512.01797

Dự đoán embedding tiếp theo tạo ra các mô hình học thị giác mạnh mẽ / Next-Embedding Prediction Makes Strong Vision Learners

Giới thiệu bài báo

Học tự giám sát (self-supervised learning) đã trở thành một phương pháp quan trọng để học biểu diễn từ các tập dữ liệu lớn không gán nhãn, và gần đây nhiều cách tiếp cận như học tương phản (contrastive learning) và tự chưng cất (self-distillation) đã phát triển mạnh. Tuy nhiên, các phương pháp này thường đòi hỏi batch lớn hoặc memory bank, còn các mục tiêu tái tạo (reconstruction objectives) thông qua decoder nhẹ cũng đã bộc lộ những giới hạn của chúng. Như một phương án thay thế, học biểu diễn dự đoán (predictive representation learning) được đề xuất theo hướng dự đoán embedding ngữ nghĩa thay vì đầu vào thô, trong đó các phương pháp như JEPA (Just-Embedding Predictive Autoregression) đặc biệt thu hút sự chú ý. Tuy nhiên, JEPA vẫn tập trung vào biểu diễn, với hạn chế là encoder được tiền huấn luyện tạo ra các đặc trưng để các mô-đun downstream tiêu thụ riêng biệt.

Trên nền tảng đó, cách tiếp cận Next-Embedding Predictive Autoregression (NEPA) được đề xuất theo hướng dự đoán embedding của các patch tương lai dựa trên embedding của các patch trong quá khứ, sử dụng causal masking và kỹ thuật stop gradient. NEPA tập trung vào việc huấn luyện mô hình thực hiện trực tiếp tác vụ dự đoán, thay vì chỉ xuất đặc trưng cho các tác vụ downstream. Phương pháp này dựa trên kiến trúc Transformer đơn giản và cho hiệu năng cao khi được tiền huấn luyện trên tập dữ liệu ImageNet-1k. Đặc biệt, mô hình vẫn duy trì hiệu năng mạnh mà không cần tái tạo pixel, token rời rạc, contrastive loss hay head chuyên biệt cho từng tác vụ.

NEPA đạt top-1 accuracy lần lượt là 83.8% và 85.3% trên ImageNet-1K với backbone ViT-B và ViT-L, đồng thời cũng chuyển giao hiệu quả sang tác vụ semantic segmentation trên ADE20K. Những kết quả này cho thấy NEPA có thể đóng góp cho học tự giám sát thị giác như một giải pháp thay thế đơn giản, có khả năng mở rộng và có tiềm năng không phụ thuộc vào modality. Nghiên cứu về NEPA cho thấy khả năng dùng dự đoán để trực tiếp định hình hành vi tác vụ, mở ra tiềm năng ứng dụng trong nhiều tác vụ thị giác khác nhau trong tương lai.

Tóm tắt bài báo (Abstract)

Lấy cảm hứng từ thành công của tiền huấn luyện sinh trong xử lý ngôn ngữ tự nhiên, chúng tôi đặt câu hỏi liệu cùng những nguyên lý đó có thể tạo ra các mô hình học thị giác tự giám sát mạnh mẽ hay không. Thay vì huấn luyện mô hình để xuất ra đặc trưng cho các mục đích downstream, chúng tôi huấn luyện chúng tạo embedding để trực tiếp thực hiện các tác vụ dự đoán. Nghiên cứu này khám phá sự chuyển dịch từ học biểu diễn sang học mô hình. Cụ thể, mô hình được huấn luyện để dự đoán embedding của các patch trong tương lai dựa trên các patch trước đó, sử dụng causal masking và stop gradient. Chúng tôi gọi phương pháp này là tự hồi quy dự đoán embedding tiếp theo (Next-Embedding Predictive Autoregression, NEPA). Chúng tôi chứng minh rằng một Transformer đơn giản được tiền huấn luyện trên ImageNet-1k với mục tiêu học duy nhất là dự đoán embedding tiếp theo vẫn rất hiệu quả. Không cần tái tạo pixel, token rời rạc, contrastive loss hay head đặc thù cho tác vụ. Công thức này giữ được tính đơn giản về kiến trúc và khả năng mở rộng mà không cần thêm độ phức tạp trong thiết kế. NEPA đạt kết quả mạnh trên nhiều tác vụ, ghi nhận top-1 accuracy lần lượt là 83.8% và 85.3% trên ImageNet-1K với backbone ViT-B và ViT-L, đồng thời chuyển giao hiệu quả sang semantic segmentation trên ADE20K. Chúng tôi tin rằng tiền huấn luyện sinh từ embedding mang lại một phương án thay thế đơn giản, có khả năng mở rộng và có thể không phụ thuộc modality cho học tự giám sát thị giác.

Inspired by the success of generative pretraining in natural language, we ask whether the same principles can yield strong self-supervised visual learners. Instead of training models to output features for downstream use, we train them to generate embeddings to perform predictive tasks directly. This work explores such a shift from learning representations to learning models. Specifically, models learn to predict future patch embeddings conditioned on past ones, using causal masking and stop gradient, which we refer to as Next-Embedding Predictive Autoregression (NEPA). We demonstrate that a simple Transformer pretrained on ImageNet-1k with next embedding prediction as its sole learning objective is effective - no pixel reconstruction, discrete tokens, contrastive loss, or task-specific heads. This formulation retains architectural simplicity and scalability, without requiring additional design complexity. NEPA achieves strong results across tasks, attaining 83.8% and 85.3% top-1 accuracy on ImageNet-1K with ViT-B and ViT-L backbones after fine-tuning, and transferring effectively to semantic segmentation on ADE20K. We believe generative pretraining from embeddings provides a simple, scalable, and potentially modality-agnostic alternative to visual self-supervised learning.

Liên kết bài báo

https://arxiv.org/abs/2512.16922

Đọc thêm

https://sihanxu.me/nepa

Tác nhân LLM suy luận ưu tiên mô hình: Giảm hallucination thông qua mô hình hóa bài toán tường minh / Model-First Reasoning LLM Agents: Reducing Hallucinations through Explicit Problem Modeling

Giới thiệu bài báo

Các mô hình ngôn ngữ lớn (LLM) có xu hướng cho thấy tỷ lệ vi phạm ràng buộc cao và đưa ra lời giải thiếu nhất quán trong các tác vụ lập kế hoạch nhiều bước phức tạp. Những chiến lược hiện có như Chain-of-Thought (chuỗi suy nghĩ) và ReAct (hành động phản ứng) dựa vào việc theo dõi trạng thái ngầm, nhưng không thể vượt qua các hạn chế này do thiếu biểu diễn bài toán tường minh. Nghiên cứu này, lấy cảm hứng từ lập kế hoạch trong trí tuệ nhân tạo (AI) cổ điển, đề xuất một mô hình hai bước mới mang tên Model-First Reasoning (MFR). Trong cách tiếp cận này, LLM trước tiên xây dựng một mô hình tường minh của bài toán, rồi dựa trên đó để tạo kế hoạch lời giải.

Qua thực nghiệm trên nhiều miền lập kế hoạch, MFR cho thấy khả năng cải thiện mức độ tuân thủ ràng buộc và chất lượng lời giải. Đặc biệt, hiệu quả của MFR đã được chứng minh trong nhiều lĩnh vực như lập lịch y tế, hoạch định lộ trình, phân bổ tài nguyên, câu đố logic và tổng hợp thủ tục. Các nghiên cứu ablation nhấn mạnh rằng bước mô hình hóa tường minh là yếu tố thiết yếu tạo nên các kết quả này. Kết quả nghiên cứu gợi ý rằng thất bại trong lập kế hoạch của LLM chủ yếu bắt nguồn từ khiếm khuyết về biểu diễn, tức là do thiếu biểu diễn bài toán chứ không phải do giới hạn của suy luận.

MFR được chia thành giai đoạn xây dựng mô hình tường minh của bài toán và giai đoạn sinh lời giải, trong đó các thực thể, biến trạng thái, hành động và ràng buộc được xác định rõ. Việc mô hình hóa tường minh này giúp LLM hiểu và giải quyết bài toán theo cách có cấu trúc hơn. Nghiên cứu này đặt nền tảng để giải quyết các thất bại về biểu diễn trong các tác vụ lập kế hoạch và suy luận dựa trên LLM, đồng thời là một đóng góp quan trọng cho các tác nhân AI đáng tin cậy. Tất cả prompt, quy trình đánh giá và bộ dữ liệu tác vụ đều được tài liệu hóa nhằm thúc đẩy khả năng tái lập và đặt nền móng cho các nghiên cứu tiếp theo.

Tóm tắt bài báo (Abstract)

Các mô hình ngôn ngữ lớn (LLM) thường gặp khó khăn với các tác vụ lập kế hoạch phức tạp nhiều bước, cho thấy tỷ lệ vi phạm ràng buộc cao và các lời giải thiếu nhất quán. Những chiến lược hiện có như Chain-of-Thought và ReAct dựa vào việc theo dõi trạng thái ngầm và thiếu biểu diễn bài toán một cách tường minh. Lấy cảm hứng từ lập kế hoạch AI cổ điển, chúng tôi đề xuất Model-First Reasoning (MFR), một mô hình hai giai đoạn trong đó LLM trước tiên xây dựng một mô hình tường minh của bài toán, xác định thực thể, biến trạng thái, hành động và các ràng buộc, rồi mới tạo ra kế hoạch lời giải. Trên nhiều miền lập kế hoạch, bao gồm lập lịch y tế, lập kế hoạch tuyến đường, phân bổ tài nguyên, câu đố logic và tổng hợp thủ tục, MFR làm giảm vi phạm ràng buộc và cải thiện chất lượng lời giải so với Chain-of-Thought và ReAct. Các nghiên cứu ablation cho thấy giai đoạn mô hình hóa tường minh là yếu tố then chốt tạo nên các cải thiện này. Kết quả của chúng tôi cho thấy nhiều thất bại trong lập kế hoạch của LLM bắt nguồn từ thiếu sót về biểu diễn hơn là giới hạn suy luận, qua đó nhấn mạnh mô hình hóa tường minh như một thành phần cốt lõi để xây dựng các tác nhân AI mạnh mẽ và có khả năng diễn giải. Tất cả prompt, quy trình đánh giá và bộ dữ liệu tác vụ đều đã được tài liệu hóa để hỗ trợ khả năng tái lập.
> Large Language Models (LLMs) often struggle with complex multi-step planning tasks, showing high rates of constraint violations and inconsistent solutions. Existing strategies such as Chain-of-Thought and ReAct rely on implicit state tracking and lack an explicit problem representation. Inspired by classical AI planning, we propose Model-First Reasoning (MFR), a two-phase paradigm in which the LLM first constructs an explicit model of the problem, defining entities, state variables, actions, and constraints, before generating a solution plan. Across multiple planning domains, including medical scheduling, route planning, resource allocation, logic puzzles, and procedural synthesis, MFR reduces constraint violations and improves solution quality compared to Chain-of-Thought and ReAct. Ablation studies show that the explicit modeling phase is critical for these gains. Our results suggest that many LLM planning failures stem from representational deficiencies rather than reasoning limitations, highlighting explicit modeling as a key component for robust and interpretable AI agents. All prompts, evaluation procedures, and task datasets are documented to facilitate reproducibility.

Link bài báo

https://arxiv.org/abs/2512.14474

Đừng chỉ đơn thuần phụ thuộc vào ngữ cảnh: Huấn luyện tại thời điểm kiểm thử cho LLM ngữ cảnh dài / Let's (not) just put things in Context: Test-Time Training for Long-Context LLMs

Giới thiệu bài báo

Sự phát triển của các mô hình ngôn ngữ lớn (LLM) đã cải thiện đáng kể khả năng xử lý ngữ cảnh dài, nhưng việc giải quyết vấn đề các mô hình này trên thực tế vẫn chưa hoạt động hiệu quả trong ngữ cảnh dài là điều rất quan trọng. Nghiên cứu này chỉ ra rằng phương thức tạo thinking tokens mà các chiến lược ở thời điểm suy luận hiện có sử dụng để cải thiện hiệu năng có những giới hạn do vấn đề score dilution. Score dilution phát sinh từ đặc tính static self-attention, và điều này làm suy giảm độ chính xác của mô hình trong ngữ cảnh dài.

Để giải quyết vấn đề này, nghiên cứu đề xuất một phương pháp mới gọi là query-only test-time training (qTTT). qTTT vượt qua giới hạn của static self-attention thông qua các cập nhật gradient có mục tiêu đối với ngữ cảnh đã cho, với mục tiêu cải thiện hiệu năng trong ngữ cảnh dài. Kết quả thực nghiệm cho thấy qTTT cung cấp một cách tiếp cận hiệu quả hơn các chiến lược ở thời điểm suy luận hiện có, đồng thời trên mô hình Qwen3-4B mang lại mức cải thiện hiệu năng trung bình lần lượt 12.6 và 14.1 điểm phần trăm trên các tập con của benchmark LongBench-v2 và ZeroScrolls.

Nghiên cứu này nhấn mạnh rằng để cải thiện hiệu năng trong ngữ cảnh dài, cần một lượng nhỏ huấn luyện chuyên biệt theo từng ngữ cảnh, điều này đồng nghĩa với việc tận dụng tốt hơn chi phí tính toán suy luận. Việc giới thiệu qTTT đưa ra một phương pháp thực tiễn để tối đa hóa hiệu năng của LLM ngữ cảnh dài, và được kỳ vọng sẽ mở ra định hướng mới cho nghiên cứu xử lý ngữ cảnh dài trong tương lai. Cách tiếp cận đổi mới này có vẻ sẽ tiếp tục mở rộng khả năng ứng dụng của LLM và đóng góp vào việc cải thiện hiệu năng trong nhiều lĩnh vực ứng dụng khác nhau.

Tóm tắt(Abstract)

Những tiến bộ trong chiến lược huấn luyện và kiến trúc đã cho phép xây dựng các mô hình ngôn ngữ lớn (LLM) với độ dài ngữ cảnh lên tới hàng triệu token. Tuy nhiên, bằng chứng thực nghiệm cho thấy các LLM ngữ cảnh dài như vậy có thể tiêu thụ lượng văn bản lớn hơn rất nhiều so với mức mà chúng có thể sử dụng một cách đáng tin cậy. Mặt khác, đã có chứng minh rằng năng lực tính toán tại thời điểm suy luận có thể được dùng để mở rộng hiệu năng của LLM, thường bằng cách tạo ra các thinking token, trên những tác vụ khó đòi hỏi suy luận nhiều bước. Thông qua các thí nghiệm có kiểm soát trên các tác vụ sandbox ngữ cảnh dài, chúng tôi nhận thấy các chiến lược tại thời điểm suy luận như vậy nhanh chóng cho lợi ích giảm dần và thất bại ở ngữ cảnh dài. Chúng tôi quy các thất bại này cho hiện tượng pha loãng điểm số (score dilution), một hiện tượng vốn có của self-attention tĩnh. Hơn nữa, chúng tôi cho thấy các chiến lược tại thời điểm suy luận hiện nay không thể truy xuất các tín hiệu liên quan trong ngữ cảnh dài trong một số điều kiện nhất định. Chúng tôi đề xuất một phương pháp đơn giản, thông qua các cập nhật gradient có mục tiêu trên ngữ cảnh đã cho, có thể vượt qua một cách có cơ sở các giới hạn của self-attention tĩnh. Chúng tôi nhận thấy sự thay đổi trong cách sử dụng năng lực tính toán tại thời điểm suy luận này dẫn đến những cải thiện hiệu năng lớn và nhất quán trên nhiều mô hình và benchmark ngữ cảnh dài. Phương pháp của chúng tôi mang lại mức cải thiện lớn trung bình 12,6 và 14,1 điểm phần trăm cho Qwen3-4B trên các tập con của benchmark LongBench-v2 và ZeroScrolls. Kết luận thực tiễn là: với ngữ cảnh dài, một lượng nhỏ huấn luyện chuyên biệt theo ngữ cảnh là cách sử dụng năng lực tính toán suy luận hiệu quả hơn so với các chiến lược mở rộng tại thời điểm suy luận hiện nay như tạo thêm thinking token.
> Progress on training and architecture strategies has enabled LLMs with millions of tokens in context length. However, empirical evidence suggests that such long-context LLMs can consume far more text than they can reliably use. On the other hand, it has been shown that inference-time compute can be used to scale performance of LLMs, often by generating thinking tokens, on challenging tasks involving multi-step reasoning. Through controlled experiments on sandbox long-context tasks, we find that such inference-time strategies show rapidly diminishing returns and fail at long context. We attribute these failures to score dilution, a phenomenon inherent to static self-attention. Further, we show that current inference-time strategies cannot retrieve relevant long-context signals under certain conditions. We propose a simple method that, through targeted gradient updates on the given context, provably overcomes limitations of static self-attention. We find that this shift in how inference-time compute is spent leads to consistently large performance improvements across models and long-context benchmarks. Our method leads to large 12.6 and 14.1 percentage point improvements for Qwen3-4B on average across subsets of LongBench-v2 and ZeroScrolls benchmarks. The takeaway is practical: for long context, a small amount of context-specific training is a better use of inference compute than current inference-time scaling strategies like producing more thinking tokens.

Liên kết bài báo

https://arxiv.org/abs/2512.13898

Ổn định hóa học tăng cường với mô hình ngôn ngữ lớn: Công thức hóa và thực tiễn / Stabilizing Reinforcement Learning with LLMs: Formulation and Practices

Giới thiệu bài báo

Học tăng cường (Reinforcement Learning, RL) đã được áp dụng thành công trong nhiều lĩnh vực khác nhau, nhưng vấn đề bất ổn trong quá trình huấn luyện vẫn là một thách thức lớn cần được giải quyết. Nghiên cứu này đề xuất một phương pháp luận mới nhằm nâng cao tính ổn định của RL bằng cách tận dụng các mô hình ngôn ngữ lớn (Large Language Models, LLMs). Cụ thể, nghiên cứu đã xác định các điều kiện để có thể tối ưu hóa mục tiêu ở mức token thay cho phần thưởng ở mức chuỗi thông qua REINFORCE, một phương pháp policy gradient. Thông qua xấp xỉ bậc một, nghiên cứu cho thấy điều kiện để mục tiêu thay thế này có hiệu lực là khi độ lệch giữa huấn luyện và suy luận cùng với sự lỗi thời của policy được giảm thiểu.

Những hiểu biết này góp phần giải thích tác động của các kỹ thuật như hiệu chỉnh importance sampling, clipping, và Routing Replay cho mô hình Mixture-of-Experts (MoE) đối với việc ổn định hóa huấn luyện RL. Thông qua các thí nghiệm kéo dài hàng triệu giờ GPU với mô hình MoE 30B, nghiên cứu chứng minh rằng trong huấn luyện on-policy, thuật toán policy gradient cơ bản có kèm hiệu chỉnh importance sampling đạt được độ ổn định huấn luyện cao nhất. Ngoài ra, khi đưa vào các cập nhật off-policy để tăng tốc hội tụ, nghiên cứu nhấn mạnh rằng sự kết hợp giữa clipping và Routing Replay là thiết yếu để giảm thiểu bất ổn do policy bị lỗi thời.

Sau khi quá trình huấn luyện được ổn định hóa, nghiên cứu cho thấy việc tối ưu hóa liên tục sẽ mang lại hiệu năng cuối cùng nhất quán bất kể cách khởi tạo. Những kết quả này cung cấp các góc nhìn mới về huấn luyện RL ổn định và đặt nền tảng quan trọng cho các nghiên cứu trong tương lai. Bài báo này trình bày một cách tiếp cận đổi mới về ổn định hóa học tăng cường bằng cách tận dụng mô hình ngôn ngữ lớn, đồng thời đóng góp quan trọng vào việc giải quyết tính bất ổn trong huấn luyện RL.

Tóm tắt (Abstract)

Bài báo này đề xuất một công thức mới cho học tăng cường (RL) với mô hình ngôn ngữ lớn (LLM), giải thích cách thức và trong những điều kiện nào phần thưởng thực ở mức chuỗi có thể được tối ưu hóa thông qua một mục tiêu thay thế ở mức token trong các phương pháp gradient chính sách như REINFORCE. Cụ thể, thông qua xấp xỉ bậc nhất, chúng tôi cho thấy rằng mục tiêu thay thế này chỉ ngày càng trở nên hợp lệ khi cả sự sai lệch giữa huấn luyện và suy luận lẫn độ lỗi thời của chính sách đều được giảm thiểu. Góc nhìn này cung cấp một lời giải thích có cơ sở nguyên lý cho vai trò then chốt của một số kỹ thuật được áp dụng rộng rãi trong việc ổn định huấn luyện RL, bao gồm hiệu chỉnh importance sampling, clipping, và đặc biệt là Routing Replay cho các mô hình Mixture-of-Experts (MoE). Thông qua các thí nghiệm quy mô lớn với mô hình MoE 30B tiêu tốn tổng cộng hàng trăm nghìn giờ GPU, chúng tôi cho thấy rằng đối với huấn luyện on-policy, thuật toán gradient chính sách cơ bản có kèm hiệu chỉnh importance sampling đạt được độ ổn định huấn luyện cao nhất. Khi các cập nhật off-policy được đưa vào để tăng tốc hội tụ, việc kết hợp clipping và Routing Replay trở nên thiết yếu để giảm thiểu sự bất ổn do độ lỗi thời của chính sách gây ra. Đáng chú ý, một khi quá trình huấn luyện đã được ổn định, việc tối ưu hóa kéo dài sẽ nhất quán mang lại hiệu năng cuối cùng tương đương nhau bất kể khởi tạo cold-start. Chúng tôi hy vọng rằng những hiểu biết được chia sẻ cùng các công thức thực hành được phát triển cho huấn luyện RL ổn định sẽ hỗ trợ cho các nghiên cứu trong tương lai.
> This paper proposes a novel formulation for reinforcement learning (RL) with large language models, explaining why and under what conditions the true sequence-level reward can be optimized via a surrogate token-level objective in policy gradient methods such as REINFORCE. Specifically, through a first-order approximation, we show that this surrogate becomes increasingly valid only when both the training-inference discrepancy and policy staleness are minimized. This insight provides a principled explanation for the crucial role of several widely adopted techniques in stabilizing RL training, including importance sampling correction, clipping, and particularly Routing Replay for Mixture-of-Experts (MoE) models. Through extensive experiments with a 30B MoE model totaling hundreds of thousands of GPU hours, we show that for on-policy training, the basic policy gradient algorithm with importance sampling correction achieves the highest training stability. When off-policy updates are introduced to accelerate convergence, combining clipping and Routing Replay becomes essential to mitigate the instability caused by policy staleness. Notably, once training is stabilized, prolonged optimization consistently yields comparable final performance regardless of cold-start initialization. We hope that the shared insights and the developed recipes for stable RL training will facilitate future research.

Liên kết bài báo

https://arxiv.org/abs/2512.01374

Giải mã song song nhân quả nhanh và chính xác bằng Jacobi Forcing / Fast and Accurate Causal Parallel Decoding using Jacobi Forcing

Giới thiệu bài báo

Trong bối cảnh các nghiên cứu nhằm cải thiện tốc độ suy luận của mô hình ngôn ngữ lớn đang được đẩy mạnh, nghiên cứu này đề xuất một phương pháp luận đột phá mang tên Jacobi Forcing. Phương pháp này tập trung vào việc giảm thiểu độ trễ suy luận bằng cách cho phép giải mã song song trên các mô hình dựa trên Transformer thông qua sinh nhiều token. Các cách tiếp cận mô hình ngôn ngữ lớn khuếch tán (dLLMs) trước đây cho thấy giới hạn trong việc cải thiện hiệu năng do sự không nhất quán giữa tiền huấn luyện (pre-training) và hậu huấn luyện (post-training). Đặc biệt, dLLMs sử dụng attention hai chiều, gây ra xung đột với prior nhân quả (causal prior), từ đó cản trở việc tái sử dụng chính xác bộ nhớ đệm key-value (KV cache).

Jacobi Forcing là một mô hình chưng cất dần dần, trong đó mô hình học từ chính các quỹ đạo giải mã song song do nó tạo ra, nhờ đó chuyển đổi thành một bộ giải mã song song hiệu quả trong khi vẫn duy trì các thuộc tính suy luận nhân quả đã được tiền huấn luyện. Mô hình Jacobi Forcing được huấn luyện theo phương pháp này đạt mức tăng tốc wall-clock 3,8 lần trên các benchmark về lập trình và toán học, đồng thời giảm thiểu tổn thất hiệu năng. Ngoài ra, nghiên cứu còn giới thiệu giải mã đa khối thông qua rejection recycling, cho phép đạt thông lượng chấp nhận token cao hơn tới 4,5 lần trong mỗi vòng lặp và mang lại mức tăng tốc wall-clock gần 4,0 lần.

Nghiên cứu này trình bày một phương pháp cho phép giải mã song song hiệu quả trong khi vẫn giữ được các thuộc tính suy luận nhân quả của mô hình AR thông qua Jacobi Forcing, qua đó cho thấy tiềm năng cải thiện đột phá tốc độ suy luận của các mô hình ngôn ngữ lớn. Cách tiếp cận này có tiềm năng cải thiện đáng kể hiệu quả mô hình trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) và được kỳ vọng sẽ đóng góp quan trọng cho các nghiên cứu trong tương lai.

Tóm tắt bài báo (Abstract)

Sinh đa token đã nổi lên như một mô hình đầy hứa hẹn để tăng tốc suy luận của các mô hình lớn dựa trên transformer. Những nỗ lực gần đây chủ yếu khám phá diffusion Large Language Models (dLLMs) cho giải mã song song nhằm giảm độ trễ suy luận. Để đạt chất lượng sinh ở mức AR, nhiều kỹ thuật điều chỉnh các mô hình AR thành dLLMs để cho phép giải mã song song. Tuy nhiên, chúng gặp phải mức tăng tốc hạn chế so với mô hình AR do sự không khớp giữa giai đoạn tiền huấn luyện và hậu huấn luyện. Cụ thể, phân phối dữ liệu bị che trong hậu huấn luyện lệch đáng kể so với phân phối dữ liệu thực tế được quan sát trong quá trình tiền huấn luyện, và dLLMs phụ thuộc vào attention hai chiều, điều này xung đột với tiên nghiệm nhân quả đã học trong tiền huấn luyện và cản trở việc tích hợp tái sử dụng KV cache chính xác. Để giải quyết vấn đề này, chúng tôi giới thiệu Jacobi Forcing. Đây là một mô hình chưng cất lũy tiến, trong đó mô hình được huấn luyện trên các quỹ đạo giải mã song song do chính nó tạo ra, giúp chuyển đổi mượt mà các mô hình AR thành các bộ giải mã song song hiệu quả trong khi vẫn giữ được thuộc tính suy luận nhân quả đã được tiền huấn luyện. Mô hình được huấn luyện theo mô hình này, Jacobi Forcing Model, đạt tăng tốc thời gian thực 3,8 lần trên các benchmark về lập trình và toán học với mức suy giảm hiệu năng tối thiểu. Dựa trên đặc tính quỹ đạo của Jacobi Forcing Models, chúng tôi giới thiệu giải mã đa khối với tái chế từ chối, cho phép tăng tối đa 4,5 lần số lượng token được chấp nhận mỗi vòng lặp và đạt gần 4,0 lần tăng tốc thời gian thực, qua đó đánh đổi thêm tài nguyên tính toán để giảm hiệu quả độ trễ suy luận. Mã nguồn của chúng tôi có tại https://github.com/hao-ai-lab/JacobiForcing.
> Multi-token generation has emerged as a promising paradigm for accelerating transformer-based large model inference. Recent efforts primarily explore diffusion Large Language Models (dLLMs) for parallel decoding to reduce inference latency. To achieve AR-level generation quality, many techniques adapt AR models into dLLMs to enable parallel decoding. However, they suffer from limited speedup compared to AR models due to a pretrain-to-posttrain mismatch. Specifically, the masked data distribution in post-training deviates significantly from the real-world data distribution seen during pretraining, and dLLMs rely on bidirectional attention, which conflicts with the causal prior learned during pretraining and hinders the integration of exact KV cache reuse. To address this, we introduce Jacobi Forcing, a progressive distillation paradigm where models are trained on their own generated parallel decoding trajectories, smoothly shifting AR models into efficient parallel decoders while preserving their pretrained causal inference property. The models trained under this paradigm, Jacobi Forcing Model, achieves 3.8x wall-clock speedup on coding and math benchmarks with minimal loss in performance. Based on Jacobi Forcing Models' trajectory characteristics, we introduce multi-block decoding with rejection recycling, which enables up to 4.5x higher token acceptance count per iteration and nearly 4.0x wall-clock speedup, effectively trading additional compute for lower inference latency. Our code is available at https://github.com/hao-ai-lab/JacobiForcing.

Liên kết bài báo

https://arxiv.org/abs/2512.14681

Đọc thêm

https://github.com/hao-ai-lab/JacobiForcing

Tác hại của mô hình ngôn ngữ lớn (LLM): Phân loại và thảo luận / LLM Harms: A Taxonomy and Discussion

Giới thiệu bài báo

Đây là một nghiên cứu bàn về các nhóm tác hại liên quan đến mô hình ngôn ngữ lớn (LLM). Nghiên cứu đưa ra năm nhóm tác hại có thể phát sinh trước, trong và sau quá trình phát triển ứng dụng AI: trước phát triển, đầu ra trực tiếp, lạm dụng và ứng dụng ác ý, và ứng dụng hạ nguồn. Nghiên cứu nhấn mạnh sự cần thiết phải định nghĩa rủi ro trong bối cảnh hiện nay, đồng thời trình bày các cách quản lý trách nhiệm giải trình, tính minh bạch và thiên lệch. Ngoài ra, nghiên cứu cũng đề xuất các chiến lược giảm thiểu theo từng miền cụ thể và định hướng tương lai, đồng thời bao gồm một đề xuất chuẩn hóa nhằm hướng dẫn hệ thống kiểm toán động cho việc phát triển và tích hợp LLM một cách có trách nhiệm.

Tóm tắt bài báo (Abstract)

Nghiên cứu này đề cập đến các nhóm tác hại xoay quanh mô hình ngôn ngữ lớn (LLM) trong lĩnh vực trí tuệ nhân tạo. Nghiên cứu xem xét năm nhóm tác hại được đặt ra trước, trong và sau quá trình phát triển ứng dụng AI: tiền phát triển, đầu ra trực tiếp, lạm dụng và ứng dụng ác ý, cùng các ứng dụng hạ nguồn. Nghiên cứu nhấn mạnh sự cần thiết phải xác định rủi ro trong bối cảnh hiện tại để bảo đảm trách nhiệm giải trình, tính minh bạch và việc điều hướng thiên lệch khi điều chỉnh LLM cho các ứng dụng thực tế. Nghiên cứu cũng đề xuất các chiến lược giảm thiểu và định hướng tương lai cho các lĩnh vực cụ thể, cùng một hệ thống kiểm toán động nhằm định hướng việc phát triển và tích hợp LLM có trách nhiệm dưới dạng một đề xuất chuẩn hóa.
> This study addresses categories of harm surrounding Large Language Models (LLMs) in the field of artificial intelligence. It addresses five categories of harms addressed before, during, and after development of AI applications: pre-development, direct output, Misuse and Malicious Application, and downstream application. By underscoring the need to define risks of the current landscape to ensure accountability, transparency and navigating bias when adapting LLMs for practical applications. It proposes mitigation strategies and future directions for specific domains and a dynamic auditing system guiding responsible development and integration of LLMs in a standardized proposal.

Liên kết bài báo

https://arxiv.org/abs/2512.05929

⚠️Quảng cáo⚠️: Bài viết này do 🔥Cộng đồng người dùng PyTorch Hàn Quốc🇰🇷 tổng hợp, bạn thấy hữu ích chứ? Đăng ký thành viên để nhận các bài viết nổi bật qua email💌 nhé! (Mặc định là Weekly nhưng cũng có thể chuyển sang Daily.)

[2025/12/22 ~ 28] Tuyển tập các bài báo AI/ML đáng chú ý trong tuần này