10 điểm bởi ninebow 2025-09-28 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

PyTorchKR🔥🇰🇷 🤔💭

1️⃣ Tích hợp và tối ưu hóa mô hình đa phương thức: Các bài báo gần đây đang đề xuất nhiều cách tiếp cận khác nhau nhằm cải thiện hiệu năng của Unified Multimodal Models (UMM). Ví dụ, "Reconstruction Alignment" giới thiệu một phương pháp căn chỉnh lại khả năng hiểu và tạo sinh của mô hình thông qua việc kết hợp hình ảnh và văn bản, còn "AToken" phát triển một tokenizer hợp nhất cho hình ảnh, video và tài sản 3D để xử lý nhiều loại đầu vào thị giác khác nhau. Những nghiên cứu này đang đặt nền móng cho sự phát triển của các hệ thống AI đa phương thức.

2️⃣ Thiết kế hệ thống dữ liệu lấy agent làm trung tâm: Các bài báo "Supporting Our AI Overlords" và "Scaling Agents via Continual Pre-training" cho rằng các agent dựa trên mô hình ngôn ngữ lớn (LLM) sẽ đóng vai trò quan trọng trong các hệ thống dữ liệu. Chúng nhấn mạnh rằng agent cần học thông qua tương tác trong nhiều môi trường khác nhau để phát triển các năng lực cần thiết cho việc thao tác và phân tích dữ liệu. Điều này mở ra những cơ hội nghiên cứu mới cho việc thiết kế kiến trúc hệ thống dữ liệu lấy agent làm trung tâm.

3️⃣ Học tập tự chủ và mô hình tự tiến hóa: Bài báo "R-Zero" nhấn mạnh nhu cầu về các mô hình có thể tự tạo dữ liệu và tự học. Trong khi các phương pháp hiện có phụ thuộc vào các tác vụ và nhãn do con người tinh lọc, R-Zero tạo ra một chương trình học tự tiến hóa thông qua hai mô hình có thể tự đề xuất và tự giải quyết nhiệm vụ. Cách tiếp cận này được kỳ vọng sẽ đóng vai trò quan trọng trong việc phát triển các hệ thống AI có năng lực vượt qua trí tuệ con người.


Căn chỉnh tái dựng cải thiện các mô hình đa phương thức hợp nhất / Reconstruction Alignment Improves Unified Multimodal Models

Giới thiệu bài báo

Unified Multimodal Models (UMM) là một cách tiếp cận đổi mới, mang lại khả năng thực hiện nhiều tác vụ khác nhau bằng cách tích hợp năng lực hiểu thị giác và tạo sinh vào cùng một mô hình. Tuy nhiên, các phương pháp huấn luyện hiện tại phụ thuộc vào các cặp hình ảnh-văn bản, vì vậy caption thường bỏ sót các chi tiết thị giác tinh vi, dẫn đến suy giảm hiệu năng. Phương pháp được đề xuất để vượt qua hạn chế này là Reconstruction Alignment (RecA). RecA là một kỹ thuật hậu huấn luyện tiết kiệm tài nguyên, sử dụng embedding của bộ mã hóa hiểu thị giác như các "text prompt" dày đặc, nhờ đó cung cấp tín hiệu giám sát phong phú mà không cần caption.

Cốt lõi của RecA nằm ở quá trình tối ưu hóa để UMM tái dựng hình ảnh đầu vào dựa trên điều kiện là chính embedding hiểu thị giác của nó. Trong quá trình này, mô hình sử dụng hàm mất mát tái dựng tự giám sát để căn chỉnh năng lực hiểu và tạo sinh, từ đó có thể khai thác thông tin thị giác hiệu quả hơn. RecA có thể áp dụng cho nhiều kiến trúc khác nhau như UMM tự hồi quy, tự hồi quy có che và dựa trên diffusion, đồng thời cho thấy khả năng cải thiện nhất quán về độ trung thực trong tạo sinh và chỉnh sửa.

Kết quả thực nghiệm cho thấy sau khi áp dụng RecA, hiệu năng tạo ảnh trên GenEval tăng từ 0.73 lên 0.90, còn trên DPGBench tăng từ 80.93 lên 88.15. Ngoài ra, ở các benchmark chỉnh sửa ảnh, mô hình cũng đạt mức tăng từ 3.38 lên 3.75 trên ImgEdit và từ 6.94 lên 7.25 trên GEdit. Những kết quả này cho thấy RecA đạt hiệu năng vượt qua các mô hình mã nguồn mở lớn hiện có và có tiềm năng được áp dụng rộng rãi trên nhiều kiến trúc UMM khác nhau.

RecA là một phương pháp căn chỉnh hiệu quả năng lực hiểu và tạo sinh của UMM, đồng thời cho thấy tiềm năng trở thành một chiến lược hậu huấn luyện tiết kiệm tài nguyên. Trong các nghiên cứu tương lai, việc mở rộng phạm vi ứng dụng của RecA và đánh giá hiệu năng của nó trên các tác vụ đa phương thức khác sẽ là điều quan trọng. Những nghiên cứu như vậy được kỳ vọng sẽ đóng góp cho sự phát triển của các mô hình đa phương thức.

Tóm tắt bài báo (Abstract)

Unified Multimodal Models (UMM) tích hợp hiểu thị giác và tạo sinh trong một kiến trúc duy nhất. Tuy nhiên, các phương thức huấn luyện hiện có thường dựa vào các cặp hình ảnh-văn bản (hoặc chuỗi), trong đó caption thường thưa thớt và bỏ lỡ các chi tiết thị giác tinh vi, ngay cả khi dùng hàng trăm từ để mô tả một hình ảnh đơn giản. Chúng tôi giới thiệu Reconstruction Alignment (RecA), một phương pháp hậu huấn luyện tiết kiệm tài nguyên, khai thác embedding của bộ mã hóa hiểu thị giác như những "text prompt" dày đặc, cung cấp giám sát phong phú mà không cần caption. Cụ thể, RecA điều kiện hóa UMM trên chính embedding hiểu thị giác của nó và tối ưu hóa để nó tái dựng lại hình ảnh đầu vào bằng hàm mất mát tái dựng tự giám sát, từ đó căn chỉnh lại hiểu và tạo sinh. Dù rất đơn giản, RecA có khả năng áp dụng rộng rãi trên các UMM tự hồi quy, tự hồi quy có che và dựa trên diffusion, đồng thời cải thiện nhất quán độ trung thực trong tạo sinh và chỉnh sửa. Chỉ với 27 GPU-giờ, hậu huấn luyện bằng RecA đã cải thiện đáng kể hiệu năng tạo ảnh trên GenEval (0.73$\rightarrow$0.90) và DPGBench (80.93$\rightarrow$88.15), đồng thời nâng cao các benchmark chỉnh sửa (ImgEdit 3.38$\rightarrow$3.75, GEdit 6.94$\rightarrow$7.25). Đáng chú ý, RecA vượt qua các mô hình mã nguồn mở lớn hơn rất nhiều và có thể áp dụng rộng trên nhiều kiến trúc UMM đa dạng, qua đó khẳng định đây là một chiến lược căn chỉnh hậu huấn luyện hiệu quả và tổng quát cho UMM.

Unified multimodal models (UMMs) unify visual understanding and generation within a single architecture. However, conventional training relies on image-text pairs (or sequences) whose captions are typically sparse and miss fine-grained visual details--even when they use hundreds of words to describe a simple image. We introduce Reconstruction Alignment (RecA), a resource-efficient post-training method that leverages visual understanding encoder embeddings as dense "text prompts," providing rich supervision without captions. Concretely, RecA conditions a UMM on its own visual understanding embeddings and optimizes it to reconstruct the input image with a self-supervised reconstruction loss, thereby realigning understanding and generation. Despite its simplicity, RecA is broadly applicable: across autoregressive, masked-autoregressive, and diffusion-based UMMs, it consistently improves generation and editing fidelity. With only 27 GPU-hours, post-training with RecA substantially improves image generation performance on GenEval (0.73$\rightarrow$0.90) and DPGBench (80.93$\rightarrow$88.15), while also boosting editing benchmarks (ImgEdit 3.38$\rightarrow$3.75, GEdit 6.94$\rightarrow$7.25). Notably, RecA surpasses much larger open-source models and applies broadly across diverse UMM architectures, establishing it as an efficient and general post-training alignment strategy for UMMs

Liên kết bài báo

https://arxiv.org/abs/2509.07295


Hỗ trợ các AI chúa tể của chúng ta: Thiết kế lại hệ thống dữ liệu theo hướng agent-first / Supporting Our AI Overlords: Redesigning Data Systems to be Agent-First

Giới thiệu bài báo

Cách các tác tử mô hình ngôn ngữ lớn (LLM) thực hiện thao tác và phân tích dữ liệu được kỳ vọng sẽ mang lại những thay đổi lớn cho tương lai của các hệ thống dữ liệu. Các tác tử này thực hiện công việc thông qua quá trình suy đoán tác tử (agentic speculation), trong đó chúng thăm dò với tốc độ cao và đưa ra lời giải theo yêu cầu của người dùng. Tuy nhiên, sự xuất hiện với số lượng lớn và tính kém hiệu quả của suy đoán tác tử có thể trở thành thách thức đối với các hệ thống dữ liệu hiện tại. Vì vậy, các hệ thống dữ liệu cần tiến hóa để có thể hỗ trợ bản chất của các workload tác tử này.

Nghiên cứu này tận dụng các đặc tính của suy đoán tác tử như quy mô, tính dị thể, tính trùng lặp và khả năng điều hướng để đề xuất các cơ hội nghiên cứu cho một kiến trúc hệ thống dữ liệu mới theo hướng ưu tiên tác tử. Qua đó, nghiên cứu khám phá các cách tiếp cận đổi mới như giao diện truy vấn mới, kỹ thuật xử lý truy vấn mới và kho bộ nhớ tác tử. Đặc biệt, nếu tác tử trở thành cơ chế chủ đạo để tương tác với dữ liệu, điều này có thể mở ra khả năng nâng cao năng suất của các hệ thống dữ liệu.

Thông qua các nghiên cứu tình huống, nhóm tác giả đã phân tích đặc tính của workload tác tử và từ đó xác định các cơ hội tối ưu hóa. Ở nghiên cứu đầu tiên, nhóm sử dụng bộ dữ liệu BIRD để khám phá cách LLM cải thiện độ chính xác bằng cách tăng số lượng yêu cầu; ở nghiên cứu thứ hai, nhóm thực hiện một tác vụ phức tạp kết hợp thông tin từ hai cơ sở dữ liệu. Những kết quả này cho thấy suy đoán tác tử có tiềm năng nâng cao hiệu quả của các hệ thống dữ liệu.

Cuối cùng, nhóm đề xuất kho bộ nhớ tác tử và một framework giao dịch mới nhằm tìm cách giải quyết tính trùng lặp và tính dị thể phát sinh trong giai đoạn khám phá của suy đoán tác tử. Cách tiếp cận này nhấn mạnh sự cần thiết phải tái thiết kế các hệ thống dữ liệu theo hướng lấy tác tử làm trung tâm, đồng thời đưa ra một tầm nhìn mới cho nghiên cứu trong tương lai.

Tóm tắt bài báo (Abstract)

Các tác tử mô hình ngôn ngữ lớn (LLM), hoạt động thay mặt người dùng để thao tác và phân tích dữ liệu, nhiều khả năng sẽ trở thành workload chủ đạo của các hệ thống dữ liệu trong tương lai. Khi làm việc với dữ liệu, các tác tử sử dụng một quy trình thông lượng cao để thăm dò và hình thành lời giải cho tác vụ được giao; chúng tôi gọi quá trình đó là suy đoán tác tử (agentic speculation). Khối lượng khổng lồ và những điểm kém hiệu quả của suy đoán tác tử có thể tạo ra thách thức cho các hệ thống dữ liệu ngày nay. Chúng tôi cho rằng các hệ thống dữ liệu cần thích nghi để hỗ trợ workload tác tử một cách tự nhiên hơn. Chúng tôi tận dụng các đặc tính đã được xác định của suy đoán tác tử, cụ thể là quy mô, tính dị thể, tính trùng lặp và khả năng điều hướng, để phác thảo nhiều cơ hội nghiên cứu cho một kiến trúc hệ thống dữ liệu mới theo hướng ưu tiên tác tử, từ các giao diện truy vấn mới, các kỹ thuật xử lý truy vấn mới cho đến các kho bộ nhớ tác tử mới.

Large Language Model (LLM) agents, acting on their users' behalf to manipulate and analyze data, are likely to become the dominant workload for data systems in the future. When working with data, agents employ a high-throughput process of exploration and solution formulation for the given task, one we call agentic speculation. The sheer volume and inefficiencies of agentic speculation can pose challenges for present-day data systems. We argue that data systems need to adapt to more natively support agentic workloads. We take advantage of the characteristics of agentic speculation that we identify, i.e., scale, heterogeneity, redundancy, and steerability - to outline a number of new research opportunities for a new agent-first data systems architecture, ranging from new query interfaces, to new query processing techniques, to new agentic memory stores.

Liên kết bài báo

https://arxiv.org/abs/2509.00997


AToken: Bộ tokenizer hợp nhất cho thị giác / AToken: A Unified Tokenizer for Vision

Giới thiệu bài báo

AToken là tokenizer thị giác hợp nhất đầu tiên đồng thời đạt được cả tái tạo độ trung thực cao lẫn hiểu ngữ nghĩa trên ảnh, video và tài sản 3D. Trong khi các tokenizer hiện có thường chỉ chuyên cho tái tạo hoặc hiểu trên một modality đơn lẻ, AToken hợp nhất cả hai nhiệm vụ lẫn nhiều modality trong một framework duy nhất bằng cách mã hóa các đầu vào thị giác đa dạng vào một không gian tiềm ẩn 4D dùng chung. Hệ thống này giới thiệu một kiến trúc thuần Transformer với 4D rotary positional embedding để xử lý các đầu vào thị giác có độ phân giải và độ dài thời gian tùy ý. Để bảo đảm huấn luyện ổn định, AToken đề xuất một mục tiêu học không đối kháng kết hợp perceptual loss và Gram matrix loss, qua đó đạt chất lượng tái tạo ở mức state-of-the-art. Thông qua một curriculum learning tăng dần, AToken mở rộng dần từ ảnh đơn sang video và 3D, đồng thời hỗ trợ cả latent token liên tục và rời rạc. AToken đạt 0.21 rFID và 82.2% độ chính xác ImageNet cho ảnh, 3.01 rFVD và 32.6% hiệu năng truy xuất MSRVTT cho video, cùng 28.19 PSNR và 90.9% độ chính xác phân loại cho 3D. Trong các ứng dụng downstream, AToken hỗ trợ các tác vụ sinh thị giác như tạo ảnh, tạo văn bản-thành-video, tổng hợp ảnh-3D, cũng như các tác vụ hiểu như mô hình ngôn ngữ lớn đa phương thức (LLM), và cho thấy hiệu năng cạnh tranh trên mọi benchmark. Những kết quả này gợi mở tiềm năng của thế hệ hệ thống AI đa phương thức tiếp theo dựa trên tokenization thị giác hợp nhất.

Tóm tắt bài báo (Abstract)

Chúng tôi giới thiệu AToken, tokenizer thị giác hợp nhất đầu tiên đạt được đồng thời cả tái tạo độ trung thực cao và hiểu ngữ nghĩa trên ảnh, video và tài sản 3D. Không giống các tokenizer hiện có vốn chuyên cho tái tạo hoặc hiểu trên một modality đơn lẻ, AToken hợp nhất cả hai nhiệm vụ và nhiều modality trong một framework duy nhất bằng cách mã hóa các đầu vào thị giác đa dạng này vào một không gian tiềm ẩn 4D dùng chung. Cụ thể, chúng tôi giới thiệu một kiến trúc thuần Transformer với 4D rotary positional embedding để xử lý các đầu vào thị giác có độ phân giải và thời lượng tùy ý. Để bảo đảm huấn luyện ổn định, chúng tôi đưa ra một mục tiêu học không đối kháng kết hợp perceptual loss và Gramian matrix loss, qua đó đạt được chất lượng tái tạo ở mức state-of-the-art. Tận dụng một curriculum learning tăng dần, AToken mở rộng dần từ ảnh đơn sang video và 3D, đồng thời hỗ trợ cả latent token liên tục lẫn rời rạc. AToken đạt 0.21 rFID và 82.2% độ chính xác ImageNet cho ảnh, 3.01 rFVD và 32.6% tỷ lệ truy xuất MSRVTT cho video, cùng 28.19 PSNR và 90.9% độ chính xác phân loại cho 3D. Trong các ứng dụng downstream, AToken hỗ trợ cả các tác vụ sinh thị giác (ví dụ: tạo ảnh bằng token liên tục và rời rạc, tạo văn bản-thành-video, tổng hợp ảnh-3D) lẫn các tác vụ hiểu (ví dụ: mô hình ngôn ngữ lớn đa phương thức), và đạt hiệu năng cạnh tranh trên mọi benchmark. Những kết quả này mang lại góc nhìn cho các hệ thống AI đa phương thức thế hệ tiếp theo được xây dựng trên nền tảng tokenization thị giác hợp nhất.

Chúng tôi giới thiệu AToken, bộ mã hóa token hình ảnh hợp nhất đầu tiên đạt được cả khả năng tái tạo độ trung thực cao lẫn hiểu ngữ nghĩa trên ảnh, video và tài sản 3D. Không giống các bộ mã hóa token hiện có vốn chỉ chuyên về tái tạo hoặc hiểu cho từng phương thức đơn lẻ, AToken mã hóa các đầu vào thị giác đa dạng này vào một không gian tiềm ẩn 4D dùng chung, hợp nhất cả hai nhiệm vụ và các phương thức trong một khuôn khổ duy nhất. Cụ thể, chúng tôi giới thiệu một kiến trúc transformer thuần túy với 4D rotary position embeddings để xử lý đầu vào thị giác ở độ phân giải và thời lượng thời gian tùy ý. Để bảo đảm huấn luyện ổn định, chúng tôi đưa ra một mục tiêu huấn luyện không đối kháng, kết hợp perceptual loss và Gram matrix loss, đạt chất lượng tái tạo ở mức state-of-the-art. Bằng cách áp dụng một lộ trình huấn luyện tiến dần, AToken từng bước mở rộng từ ảnh đơn, video và 3D, đồng thời hỗ trợ cả token tiềm ẩn liên tục và rời rạc. AToken đạt 0.21 rFID với 82.2% độ chính xác ImageNet cho ảnh, 3.01 rFVD với 32.6% truy hồi MSRVTT cho video, và 28.19 PSNR với 90.9% độ chính xác phân loại cho 3D. Trong các ứng dụng hạ nguồn, AToken hỗ trợ cả các tác vụ sinh thị giác (ví dụ: sinh ảnh với token liên tục và rời rạc, sinh video từ văn bản, tổng hợp image-to-3D) và các tác vụ hiểu (ví dụ: multimodal LLM), đạt hiệu năng cạnh tranh trên mọi benchmark. Những kết quả này mở ra hướng đi cho các hệ thống AI đa phương thức thế hệ tiếp theo được xây dựng trên nền tảng token hóa thị giác hợp nhất.

Liên kết bài báo

https://arxiv.org/abs/2509.14476


Nâng cao trí tuệ tác tử tổng quát thông qua mở rộng môi trường / Towards General Agentic Intelligence via Environment Scaling

Giới thiệu bài báo

Trí tuệ tác tử nâng cao đang trở thành yếu tố thiết yếu để triển khai hiệu quả các mô hình ngôn ngữ lớn (LLM) vào các ứng dụng thực tế. Nhiều API thực tế đòi hỏi năng lực gọi hàm chính xác và mạnh mẽ, điều này có nghĩa là tác tử cần phát triển những năng lực đó thông qua tương tác trong nhiều môi trường khác nhau. Nghiên cứu này đề xuất phương pháp mở rộng môi trường như một bước để nâng cao trí tuệ tác tử tổng quát, qua đó giải quyết hai thách thức chính. Thứ nhất là cách mở rộng môi trường một cách có nguyên tắc; thứ hai là cách học hiệu quả năng lực của tác tử thông qua tương tác với các môi trường đó.

Để giải quyết vấn đề này, nhóm nghiên cứu đã thiết kế một framework có khả năng mở rộng nhằm tự động xây dựng các môi trường dị thể. Framework này tập trung vào việc mở rộng một cách có hệ thống các môi trường được mô phỏng hoàn toàn để mở rộng không gian các kịch bản gọi hàm. Ngoài ra, nghiên cứu còn đưa ra chiến lược fine-tuning tác tử hai giai đoạn: ở giai đoạn đầu cung cấp cho tác tử năng lực tác tử cơ bản, và ở giai đoạn thứ hai chuyên biệt hóa năng lực đó theo bối cảnh đặc thù của từng miền.

Phương pháp xây dựng và mở rộng môi trường được đề xuất trong nghiên cứu này bao gồm một pipeline có hệ thống: thu thập hơn 30.000 API và suy ra phân vùng miền cùng phân phối thông qua mô hình hóa đồ thị phụ thuộc công cụ. Từ đó, tác tử có thể khởi tạo trạng thái môi trường và tạo ra các chuỗi hợp lệ bằng cách lấy mẫu các chuỗi công cụ nhất quán về mặt logic từ đồ thị công cụ đặc thù theo miền. Quá trình này bảo đảm tính nhất quán trạng thái ở cấp cơ sở dữ liệu cũng như sự khớp chính xác của chuỗi công cụ, nhờ đó cải thiện đáng kể năng lực gọi hàm của tác tử.

Kết quả là mô hình AgentScaler được phát triển trong nghiên cứu này cải thiện đột phá năng lực gọi hàm của tác tử, và được kỳ vọng sẽ đóng góp quan trọng cho sự phát triển của trí tuệ tác tử trong tương lai. Cách tiếp cận này hỗ trợ tác tử hoạt động hiệu quả trong nhiều môi trường khác nhau, qua đó mở rộng hơn nữa khả năng ứng dụng thực tiễn của trí tuệ tác tử.

Tóm tắt bài báo (Abstract)

Trí tuệ tác tử nâng cao là điều kiện tiên quyết để triển khai các mô hình ngôn ngữ lớn vào các ứng dụng thực tế. Nhiều API thực tế đòi hỏi năng lực gọi hàm chính xác và mạnh mẽ, điều này có nghĩa là tác tử cần phát triển những năng lực đó thông qua tương tác trong nhiều môi trường khác nhau. Mức độ rộng của năng lực gọi hàm có liên hệ chặt chẽ với sự đa dạng của các môi trường mà tác tử được huấn luyện trong đó. Trong nghiên cứu này, chúng tôi mở rộng môi trường như một bước nhằm nâng cao trí tuệ tác tử tổng quát. Điều này dẫn đến hai thách thức chính: (i) cách mở rộng môi trường một cách có nguyên tắc, (ii) cách huấn luyện hiệu quả năng lực của tác tử từ kinh nghiệm thu được qua tương tác với các môi trường đó. Để giải quyết vấn đề này, chúng tôi thiết kế một framework có khả năng mở rộng để tự động xây dựng các môi trường dị thể, qua đó mở rộng một cách có hệ thống không gian các kịch bản gọi hàm. Chúng tôi cũng áp dụng chiến lược fine-tuning tác tử hai giai đoạn, trong đó trước tiên trang bị cho tác tử năng lực tác tử cơ bản rồi sau đó chuyên biệt hóa theo bối cảnh đặc thù của từng miền. Thông qua các thực nghiệm mở rộng trên các benchmark tác tử tau-bench, tau2-Bench và ACEBench, chúng tôi chứng minh rằng mô hình được huấn luyện của mình, AgentScaler, cải thiện đáng kể năng lực gọi hàm của mô hình.

Advanced agentic intelligence là điều kiện tiên quyết để triển khai Large Language Models trong các ứng dụng thực tiễn ngoài đời thực. Các API đa dạng trong thế giới thực đòi hỏi năng lực function-calling chính xác và vững chắc, điều này yêu cầu các agent phát triển những khả năng đó thông qua tương tác trong nhiều môi trường khác nhau. Độ rộng của năng lực function-calling gắn chặt với sự đa dạng của các môi trường mà agent được huấn luyện. Trong công trình này, chúng tôi mở rộng quy mô môi trường như một bước tiến nhằm nâng cao trí tuệ agentic tổng quát. Từ đó nảy sinh hai thách thức cốt lõi: (i) làm thế nào để mở rộng môi trường một cách có nguyên tắc, và (ii) làm thế nào để huấn luyện hiệu quả các năng lực agentic từ kinh nghiệm thu được qua tương tác với các môi trường này. Để giải quyết các vấn đề đó, chúng tôi thiết kế một framework có thể mở rộng, tự động xây dựng các môi trường dị thể được mô phỏng hoàn toàn, qua đó mở rộng một cách có hệ thống không gian các kịch bản function-calling. Chúng tôi cũng điều chỉnh một chiến lược fine-tuning agent gồm hai giai đoạn: trước hết trang bị cho agent các năng lực agentic nền tảng, sau đó chuyên biệt hóa chúng cho các ngữ cảnh theo miền. Các thí nghiệm mở rộng trên các benchmark agentic, tau-bench, tau2-Bench và ACEBench cho thấy mô hình được huấn luyện của chúng tôi, AgentScaler, cải thiện đáng kể năng lực function-calling của các mô hình.

Liên kết bài báo

https://arxiv.org/abs/2509.13311

Đọc thêm

https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/


Học trong ngữ cảnh có phải là học không? / Is In-Context Learning Learning?

Giới thiệu bài báo

In-Context Learning (ICL) cho thấy các mô hình tự hồi quy có khả năng giải quyết nhiều tác vụ khác nhau thông qua dự đoán token kế tiếp mà không cần huấn luyện bổ sung. Cách tiếp cận này đã dẫn đến nhận định rằng mô hình có thể giải các tác vụ chưa từng thấy chỉ với vài ví dụ, nhưng vẫn tồn tại tranh luận về việc liệu ICL có thực sự thực hiện quá trình học hay không. Nghiên cứu này lập luận rằng về mặt toán học, ICL cấu thành một hình thức học, đồng thời nhấn mạnh rằng cần có phân tích thực nghiệm để hiểu đầy đủ các đặc tính của nó.

Thông qua phân tích quy mô lớn, nghiên cứu đánh giá hiệu năng của ICL, đồng thời xem xét ghi nhớ, tiền huấn luyện, thay đổi phân phối, độ nhạy với phong cách prompt và cú pháp. Kết quả cho thấy ICL hoạt động như một khuôn khổ học hiệu quả, nhưng vẫn có giới hạn trong khả năng khái quát hóa sang các tác vụ chưa từng thấy. Cụ thể, khi số lượng ví dụ tăng lên, độ chính xác trở nên kém nhạy với phân phối ví dụ, mô hình hay phong cách prompt, và thay vào đó xuất hiện xu hướng suy ra mẫu từ tính quy luật trong prompt. Điều này đặc biệt gây ra độ nhạy theo phân phối trong các phong cách prompt nhất định như Chain-of-Thought.

Sự khác biệt về độ chính xác giữa các tác vụ tương tự nhau về mặt hình thức cho thấy cơ chế mã hóa tạm thời của mô hình tự hồi quy không phải là một cơ chế học mạnh, và gợi ý tính khái quát phổ dụng còn hạn chế. Nghiên cứu này cho thấy ICL có thể hoạt động như một cơ chế học, nhưng cũng làm rõ những giới hạn và hành vi của nó, đồng thời chỉ ra rằng hiệu năng của LLM (mô hình ngôn ngữ lớn) có thể thay đổi theo phân phối dữ liệu. Những kết quả này là đóng góp quan trọng cho việc khám phá tiềm năng của ICL, và được kỳ vọng sẽ giúp các nghiên cứu tương lai hiểu sâu hơn về đặc tính cũng như giới hạn của ICL.

Tóm tắt bài báo (Abstract)

Học trong ngữ cảnh (In-Context Learning, ICL) cho phép một số mô hình tự hồi quy giải quyết tác vụ thông qua dự đoán token kế tiếp mà không cần huấn luyện thêm. Điều này đã dẫn đến các tuyên bố rằng những mô hình này có thể giải quyết (học) các tác vụ chưa từng thấy chỉ với một vài ví dụ (shots/exemplars) trong prompt. Tuy nhiên, suy diễn không phải lúc nào cũng đồng nghĩa với học, vì ICL không mã hóa tường minh một quan sát đã cho. Thay vào đó, mô hình dựa vào tri thức sẵn có của mình và các ví dụ được cung cấp, nếu có. Chúng tôi lập luận rằng, về mặt toán học, ICL thực sự cấu thành học, nhưng để mô tả đầy đủ đặc tính của nó thì vẫn cần công việc thực nghiệm. Sau đó, chúng tôi tiến hành một phân tích quy mô lớn về ICL, trong đó loại bỏ hoặc kiểm soát các yếu tố như ghi nhớ, tiền huấn luyện, dịch chuyển phân phối, phong cách prompting và cách diễn đạt. Chúng tôi nhận thấy ICL là một khuôn khổ học hiệu quả, nhưng bị giới hạn trong khả năng học và khái quát hóa sang các tác vụ chưa từng thấy. Chúng tôi lưu ý rằng, ở giới hạn khi số lượng ví dụ ngày càng nhiều, độ chính xác trở nên không nhạy với phân phối ví dụ, mô hình, phong cách prompt và các đặc trưng ngôn ngữ của đầu vào. Thay vào đó, nó suy ra các mẫu từ những tính quy luật trong prompt, điều này dẫn đến độ nhạy theo phân phối, đặc biệt trong các phong cách prompting như chain-of-thought. Với sự khác biệt lớn về độ chính xác trên các tác vụ tương tự nhau về mặt hình thức, chúng tôi kết luận rằng cơ chế mã hóa ad-hoc của tự hồi quy không phải là một cơ chế vững chắc, và gợi ý khả năng khái quát đa dụng còn hạn chế.

In-context learning (ICL) allows some autoregressive models to solve tasks via next-token prediction and without needing further training. This has led to claims about these model's ability to solve (learn) unseen tasks with only a few shots (exemplars) in the prompt. However, deduction does not always imply learning, as ICL does not explicitly encode a given observation. Instead, the models rely on their prior knowledge and the exemplars given, if any. We argue that, mathematically, ICL does constitute learning, but its full characterisation requires empirical work. We then carry out a large-scale analysis of ICL ablating out or accounting for memorisation, pretraining, distributional shifts, and prompting style and phrasing. We find that ICL is an effective learning paradigm, but limited in its ability to learn and generalise to unseen tasks. We note that, in the limit where exemplars become more numerous, accuracy is insensitive to exemplar distribution, model, prompt style, and the input's linguistic features. Instead, it deduces patterns from regularities in the prompt, which leads to distributional sensitivity, especially in prompting styles such as chain-of-thought. Given the varied accuracies on formally similar tasks, we conclude that autoregression's ad-hoc encoding is not a robust mechanism, and suggests limited all-purpose generalisability.

Liên kết bài báo

https://arxiv.org/abs/2509.10414


DeepDive: Phát triển tác nhân tìm kiếm chuyên sâu bằng đồ thị tri thức và học tăng cường nhiều lượt / DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL

Giới thiệu bài báo

DeepDive đề xuất một cách tiếp cận đổi mới tận dụng đồ thị tri thức (Knowledge Graph, KG) và học tăng cường nhiều lượt (Multi-Turn Reinforcement Learning, RL) để phát triển các mô hình ngôn ngữ lớn (LLM) thành tác nhân tìm kiếm chuyên sâu. Các LLM hiện có gặp hạn chế về năng lực suy luận dài hạn khi tích hợp với công cụ duyệt web, đồng thời thiếu dữ liệu giám sát đủ tốt để giải quyết các câu hỏi phức tạp, nên hiệu năng còn thấp. Để giải quyết vấn đề này, DeepDive đưa vào hai kỹ thuật chính.

Thứ nhất, nhóm nghiên cứu đã phát triển phương pháp tự động tổng hợp các câu hỏi phức tạp và khó tìm bằng cách sử dụng KG. KG biểu diễn có cấu trúc các thực thể và mối quan hệ giữa chúng, từ đó cung cấp môi trường để tác nhân thực hiện suy luận dài hạn. Trong quá trình này, độ phức tạp và mức độ mơ hồ của câu hỏi được tăng lên thông qua random walk, và LLM được sử dụng để tạo ra các cặp câu hỏi - câu trả lời đầy thách thức. Việc tổng hợp dữ liệu tự động này cung cấp dữ liệu chất lượng cao cần thiết cho huấn luyện tác nhân tìm kiếm chuyên sâu.

Thứ hai, DeepDive áp dụng RL nhiều lượt end-to-end để cải thiện năng lực suy luận dài hạn của LLM. Phương pháp này bao gồm một cấu trúc phần thưởng chặt chẽ, giúp tác nhân học theo từng bước cách tìm kiếm, tìm kiếm nội dung gì và khi nào nên dừng tìm kiếm. RL nhiều lượt hỗ trợ tác nhân đi tới câu trả lời cuối cùng thông qua suy luận lặp và gọi công cụ, từ đó góp phần nâng cao đáng kể năng lực tìm kiếm chuyên sâu.

Kết quả thực nghiệm của DeepDive cho thấy mô hình này đạt kết quả cạnh tranh mới trong mã nguồn mở trên BrowseComp, vượt qua nhiều mô hình trước đó. Nghiên cứu này đóng góp quan trọng vào việc cải thiện hiệu năng của các tác nhân tìm kiếm chuyên sâu, đồng thời nâng cao tính tái lập của nghiên cứu thông qua việc công bố dataset và mã nguồn, qua đó cung cấp nền tảng cho các nghiên cứu tiếp theo. DeepDive đưa ra một cách tiếp cận mới để giải quyết các bài toán truy xuất thông tin phức tạp và góp phần mở rộng hơn nữa khả năng ứng dụng của LLM.

Tóm tắt bài báo (Abstract)

Việc bổ sung công cụ duyệt web cho các mô hình ngôn ngữ lớn (LLM) giúp tăng đáng kể tiềm năng của chúng như các tác nhân tìm kiếm chuyên sâu để giải quyết những tác vụ thực tế phức tạp. Tuy nhiên, các LLM mã nguồn mở vẫn hoạt động kém trong bối cảnh này do năng lực suy luận đường dài với công cụ duyệt web còn hạn chế và thiếu dữ liệu giám sát đủ khó. Để giải quyết những thách thức này, chúng tôi giới thiệu DeepDive nhằm phát triển các tác nhân tìm kiếm chuyên sâu. Thứ nhất, chúng tôi đề xuất một chiến lược tự động tổng hợp các câu hỏi phức tạp, khó và khó tìm từ các đồ thị tri thức mở. Thứ hai, chúng tôi áp dụng học tăng cường (RL) nhiều lượt end-to-end để tăng cường năng lực suy luận đường dài của LLM thông qua tìm kiếm chuyên sâu. Kết quả thực nghiệm cho thấy DeepDive-32B đạt một kết quả cạnh tranh mới trong mã nguồn mở trên BrowseComp, vượt qua WebSailor, DeepSeek-R1-Browse và Search-o1. Chúng tôi chứng minh rằng huấn luyện RL nhiều lượt cải thiện năng lực tìm kiếm chuyên sâu và đóng góp đáng kể vào việc cải thiện hiệu năng trên nhiều benchmark. Chúng tôi cũng quan sát thấy rằng DeepDive cho phép mở rộng test-time đối với các lệnh gọi công cụ và lấy mẫu song song. Tất cả dataset, mô hình và mã nguồn đều được công khai tại https://github.com/THUDM/DeepDive.

Augmenting large language models (LLMs) with browsing tools substantially improves their potential as deep search agents to solve complex, real-world tasks. Yet, open LLMs still perform poorly in such settings due to limited long-horizon reasoning capacity with browsing tools and the lack of sufficiently difficult supervised data. To address these challenges, we present DeepDive to advance deep search agents. First, we propose a strategy to automatically synthesize complex, difficult, and hard-to-find questions from open knowledge graphs. Second, we apply end-to-end multi-turn reinforcement learning (RL) to enhance LLMs' long-horizon reasoning with deep search. Experiments show that DeepDive-32B achieves a new open-source competitive result on BrowseComp, outperforming WebSailor, DeepSeek-R1-Browse, and Search-o1. We demonstrate that multi-turn RL training improves deep search ability and significantly contributes to the performance improvements across multiple benchmarks. We observe that DeepDive enables test-time scaling of tool calls and parallel sampling. All datasets, models, and code are publicly available at https://github.com/THUDM/DeepDive.

Liên kết bài báo

https://arxiv.org/abs/2509.10446

Đọc thêm

https://github.com/THUDM/DeepDive


Khảo sát về Video Temporal Grounding với mô hình ngôn ngữ lớn đa phương thức / A Survey on Video Temporal Grounding with Multimodal Large Language Model

Giới thiệu bài báo

Lĩnh vực Video Temporal Grounding (VTG) đóng vai trò quan trọng trong việc nhận diện và hiểu các sự kiện theo thời gian cụ thể trong video, và gần đây hiệu năng của lĩnh vực này đã được cải thiện đáng kể nhờ sự phát triển của các mô hình ngôn ngữ lớn đa phương thức (Multimodal Large Language Models, MLLMs). Dựa trên năng lực hiểu và suy luận đa phương thức vượt trội, MLLMs đang cho thấy kết quả vượt qua các phương pháp fine-tuning truyền thống trong các cách tiếp cận VTG. Nghiên cứu này phân tích có hệ thống các xu hướng nghiên cứu hiện tại trong lĩnh vực thông qua một bài tổng quan toàn diện về VTG-MLLMs, và trình bày theo ba khía cạnh: vai trò chức năng của MLLMs, các mô hình học, và kỹ thuật xử lý đặc trưng video.

MLLMs đảm nhiệm hai vai trò chính trong VTG. Thứ nhất, với vai trò chất xúc tác, chúng hỗ trợ tương tác giữa video và ngôn ngữ; thứ hai, với vai trò bộ thực thi, chúng hoạt động như mô hình trực tiếp thực hiện tác vụ VTG. Thông qua các vai trò này, nhiều mô hình đang tối đa hóa hiệu năng trên tác vụ VTG. Các mô hình học được chia thành tiền huấn luyện, fine-tuning và không cần huấn luyện, và mỗi mô hình học đều ảnh hưởng quan trọng đến hiệu năng và năng lực khái quát hóa của mô hình. Đặc biệt, mô hình không cần huấn luyện cho thấy khả năng đạt hiệu quả tốt ngay cả khi có ít dữ liệu.

Kỹ thuật xử lý đặc trưng video cũng có ảnh hưởng lớn đến hiệu năng của VTG-MLLMs. Các phương pháp xử lý hiệu quả đặc trưng thị giác và đặc trưng thời gian là yếu tố thiết yếu để xác định biểu diễn không gian và thời gian của video. Bên cạnh đó, các dataset benchmark và giao thức đánh giá đóng vai trò quan trọng trong việc đo lường hiệu năng của VTG-MLLMs và kiểm chứng năng lực khái quát hóa của mô hình.

Cuối cùng, nghiên cứu này xác định những hạn chế hiện tại của VTG-MLLMs và đề xuất các hướng nghiên cứu trong tương lai. Sự thiếu đa dạng của dataset, độ phức tạp của mô hình và khó khăn trong xử lý thời gian thực vẫn là các thách thức chính cần được giải quyết. Nghiên cứu nhằm vượt qua các hạn chế này cần tập trung vào phát triển dataset mới và tối ưu hóa mô hình. Bài báo này cung cấp một tổng quan toàn diện về VTG-MLLMs và mang lại thông tin hữu ích cho các nhà nghiên cứu trong lĩnh vực này.

Tóm tắt bài báo (Abstract)

Những tiến bộ gần đây trong video temporal grounding (VTG) đã cải thiện đáng kể khả năng hiểu video ở mức độ chi tiết, chủ yếu được thúc đẩy bởi các multimodal large language models (MLLMs). Với năng lực hiểu và suy luận đa phương thức vượt trội, các phương pháp VTG dựa trên MLLMs (VTG-MLLMs) đang dần vượt qua các phương pháp fine-tuning truyền thống. Chúng không chỉ đạt hiệu năng cạnh tranh mà còn nổi bật về khả năng khái quát hóa trong các thiết lập zero-shot, multi-task và multi-domain. Mặc dù đã có nhiều khảo sát rộng về bài toán hiểu video-ngôn ngữ nói chung, các bài tổng quan toàn diện tập trung cụ thể vào VTG-MLLMs vẫn còn khan hiếm. Để lấp đầy khoảng trống này, khảo sát này xem xét có hệ thống các nghiên cứu hiện tại về VTG-MLLMs thông qua một hệ phân loại ba chiều gồm: 1) vai trò chức năng của MLLMs, nhấn mạnh tầm quan trọng về mặt kiến trúc của chúng; 2) các mô hình huấn luyện, phân tích chiến lược cho suy luận thời gian và thích nghi tác vụ; và 3) các kỹ thuật xử lý đặc trưng video, yếu tố quyết định hiệu quả của biểu diễn không-thời gian. Ngoài ra, bài viết còn thảo luận về các bộ dữ liệu benchmark, giao thức đánh giá và tóm tắt các phát hiện thực nghiệm. Cuối cùng, bài viết xác định những hạn chế hiện có và đề xuất các hướng nghiên cứu đầy hứa hẹn. Để có thêm tài nguyên và chi tiết, độc giả được khuyến nghị truy cập kho lưu trữ tại https://github.com/ki-lw/Awesome-MLLMs-for-Video-Temporal-Grounding.

Những tiến bộ gần đây trong video temporal grounding (VTG) đã cải thiện đáng kể khả năng hiểu video ở mức độ chi tiết, chủ yếu được thúc đẩy bởi các multimodal large language models (MLLMs). Với năng lực hiểu và suy luận đa phương thức vượt trội, các phương pháp VTG dựa trên MLLMs (VTG-MLLMs) đang dần vượt qua các phương pháp fine-tuning truyền thống. Chúng không chỉ đạt hiệu năng cạnh tranh mà còn nổi bật về khả năng khái quát hóa trong các thiết lập zero-shot, multi-task và multi-domain. Mặc dù đã có nhiều khảo sát rộng về bài toán hiểu video-ngôn ngữ nói chung, các bài tổng quan toàn diện tập trung cụ thể vào VTG-MLLMs vẫn còn khan hiếm. Để lấp đầy khoảng trống này, khảo sát này xem xét có hệ thống các nghiên cứu hiện tại về VTG-MLLMs thông qua một hệ phân loại ba chiều gồm: 1) vai trò chức năng của MLLMs, nhấn mạnh tầm quan trọng về mặt kiến trúc của chúng; 2) các mô hình huấn luyện, phân tích chiến lược cho suy luận thời gian và thích nghi tác vụ; và 3) các kỹ thuật xử lý đặc trưng video, yếu tố quyết định hiệu quả của biểu diễn không-thời gian. Ngoài ra, bài viết còn thảo luận về các bộ dữ liệu benchmark, giao thức đánh giá và tóm tắt các phát hiện thực nghiệm. Cuối cùng, bài viết xác định những hạn chế hiện có và đề xuất các hướng nghiên cứu đầy hứa hẹn. Để có thêm tài nguyên và chi tiết, độc giả được khuyến nghị truy cập kho lưu trữ tại https://github.com/ki-lw/Awesome-MLLMs-for-Video-Temporal-Grounding.

Liên kết bài báo

https://arxiv.org/abs/2508.10922

Đọc thêm

https://github.com/ki-lw/Awesome-MLLMs-for-Video-Temporal-Grounding


Mở rộng agent thông qua continual pre-training / Scaling Agents via Continual Pre-training

Giới thiệu bài báo

Các large language model (LLM) đã phát triển thành những hệ thống agent có khả năng sử dụng công cụ một cách tự chủ và thực hiện suy luận nhiều bước để giải quyết các vấn đề phức tạp. Tuy nhiên, các cách tiếp cận post-training dựa trên mô hình nền tảng mục đích chung lại liên tục cho thấy hiệu năng thấp trong các tác vụ agent. Nguyên nhân gốc rễ của vấn đề này là sự thiếu vắng một mô hình nền tảng agent đủ mạnh, dẫn đến căng thẳng trong tối ưu hóa khi quá trình post-training vừa phải học các hành vi agent đa dạng vừa phải căn chỉnh theo các bản trình diễn của chuyên gia. Để giải quyết điều này, chúng tôi lần đầu tiên đề xuất tích hợp Agentic Continual Pre-training (Agentic CPT) vào pipeline huấn luyện agent nghiên cứu chuyên sâu. Dựa trên cách tiếp cận này, chúng tôi đã phát triển mô hình agent nghiên cứu chuyên sâu mang tên AgentFounder. AgentFounder-30B được đánh giá trên 10 benchmark, đạt hiệu năng tiên tiến nhất, và đặc biệt thể hiện năng lực sử dụng công cụ mạnh mẽ với Pass@1 đạt 39.9% trên BrowseComp-en, 43.3% trên BrowseComp-zh và 31.5% trên HLE.

Tóm tắt bài báo (Abstract)

Các large language model (LLM) đã phát triển thành các hệ thống agent có khả năng sử dụng công cụ một cách tự chủ và suy luận nhiều bước để giải quyết các vấn đề phức tạp. Tuy nhiên, các phương pháp post-training dựa trên mô hình nền tảng mục đích chung lại liên tục cho thấy hiệu năng thấp trong các tác vụ agent, đặc biệt là ở các triển khai mã nguồn mở. Chúng tôi đã xác định được nguyên nhân gốc rễ: do thiếu một mô hình nền tảng agent đủ mạnh, trong quá trình post-training, mô hình phải đồng thời học nhiều hành vi agent khác nhau và điều chỉnh chúng để khớp với các bản trình diễn của chuyên gia, từ đó tạo ra căng thẳng tối ưu hóa mang tính nền tảng. Để giải quyết điều này, chúng tôi là những người đầu tiên đề xuất tích hợp Agentic Continual Pre-training (Agentic CPT) vào pipeline huấn luyện agent nghiên cứu chuyên sâu nhằm xây dựng một mô hình nền tảng agent mạnh mẽ. Dựa trên cách tiếp cận này, chúng tôi đã phát triển mô hình agent nghiên cứu chuyên sâu mang tên AgentFounder. Chúng tôi đã đánh giá AgentFounder-30B trên 10 benchmark và mô hình này đạt hiệu năng tiên tiến nhất trong khi vẫn duy trì năng lực sử dụng công cụ mạnh mẽ, đặc biệt ghi nhận Pass@1 là 39.9% trên BrowseComp-en, 43.3% trên BrowseComp-zh và 31.5% trên HLE.

Large language models (LLMs) đã phát triển thành các hệ thống tác tử có khả năng tự chủ sử dụng công cụ và suy luận nhiều bước để giải quyết các vấn đề phức tạp. Tuy nhiên, các phương pháp hậu huấn luyện xây dựng trên các mô hình nền tảng đa dụng liên tục cho thấy hiệu suất kém trong các tác vụ tác tử, đặc biệt là ở các triển khai mã nguồn mở. Chúng tôi xác định nguyên nhân cốt lõi là: việc thiếu các mô hình nền tảng tác tử đủ mạnh buộc các mô hình trong giai đoạn hậu huấn luyện phải đồng thời học nhiều hành vi tác tử đa dạng trong khi vẫn phải căn chỉnh với các ví dụ minh họa của chuyên gia, từ đó tạo ra những căng thẳng tối ưu hóa mang tính nền tảng. Vì vậy, chúng tôi là nhóm đầu tiên đề xuất đưa Agentic Continual Pre-training (Agentic CPT) vào pipeline huấn luyện tác tử nghiên cứu sâu để xây dựng các mô hình nền tảng tác tử mạnh mẽ. Dựa trên cách tiếp cận này, chúng tôi phát triển một mô hình tác tử nghiên cứu sâu mang tên AgentFounder. Chúng tôi đánh giá AgentFounder-30B trên 10 benchmark và đạt hiệu năng tốt nhất hiện nay trong khi vẫn duy trì khả năng sử dụng công cụ mạnh, nổi bật với 39.9% trên BrowseComp-en, 43.3% trên BrowseComp-zh và 31.5% Pass@1 trên HLE.

Liên kết bài báo

https://arxiv.org/abs/2509.13310

Đọc thêm

https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/


Định luật mở rộng cho các mô hình ngôn ngữ bảo vệ quyền riêng tư vi sai / Scaling Laws for Differentially Private Language Models

Giới thiệu bài báo

Nghiên cứu về định luật mở rộng cho huấn luyện mô hình ngôn ngữ lớn (Large Language Model, LLM) có áp dụng quyền riêng tư vi sai (Differential Privacy, DP) đánh dấu một bước tiến quan trọng trong lĩnh vực trí tuệ nhân tạo (AI) hiện đại. Mục tiêu chính của nghiên cứu này là thiết lập các định luật mở rộng mô hình hóa chính xác độ phức tạp của huấn luyện DP LLM, qua đó làm rõ các đánh đổi giữa tính toán, quyền riêng tư và tính hữu ích, đồng thời đề xuất cấu hình huấn luyện tối ưu. Trong huấn luyện LLM truyền thống, các định luật mở rộng đóng vai trò quan trọng trong việc dự đoán cải thiện hiệu năng và cung cấp chỉ dẫn cho việc lựa chọn siêu tham số, nhưng động lực học của huấn luyện DP có phần khác biệt nên các định luật mở rộng của nó vẫn chưa được hiểu đầy đủ.

Trong nghiên cứu này, các tác giả đã thiết lập định luật mở rộng cho huấn luyện DP LLM thông qua quá trình khớp một hàm ước lượng tổn thất (L(M,T,\bar{\sigma})). Trong đó, (M) là số lượng tham số của mô hình, (T) là số vòng lặp huấn luyện, và (\bar{\sigma}) là tỷ lệ batch nhiễu; hàm này được khớp bằng nội suy tuyến tính. Hàm được triển khai bằng scipy.interpolate.RegularGridInterpolator của Python, và được định nghĩa để phản ánh các tham số thay đổi tự nhiên trong không gian log. Cách tiếp cận này góp phần giúp hiểu động lực phức tạp của huấn luyện DP LLM và cho ra các kết quả được xác định rõ trong phạm vi thiết lập thí nghiệm.

Ngoài ra, nghiên cứu còn trình bày cách khớp chính xác dữ liệu trơn tại các điểm đánh giá và xấp xỉ các giá trị ở giữa thông qua công thức của hàm đã khớp cùng các chi tiết triển khai. Nhờ đó, công trình này cung cấp nền tảng dữ liệu quan trọng để hiểu định luật mở rộng của huấn luyện DP LLM; các nghiên cứu tương lai cần tiến hành thí nghiệm trên nhiều kiến trúc DP LLM khác nhau dựa trên định luật mở rộng được đề xuất và tiếp tục phát triển mô hình lý thuyết.

Kết quả là, bằng việc thiết lập định luật mở rộng cho huấn luyện mô hình ngôn ngữ lớn có áp dụng quyền riêng tư vi sai, nghiên cứu này sẽ giúp hiểu độ phức tạp của huấn luyện DP LLM và cung cấp chỉ dẫn quan trọng cho việc huấn luyện và tối ưu hóa LLM trong tương lai. Những phát hiện này được kỳ vọng sẽ góp phần nâng cao tính thực tiễn của DP LLM.

Tóm tắt bài báo (Abstract)

Các định luật mở rộng đã nổi lên như những thành phần quan trọng của huấn luyện mô hình ngôn ngữ lớn (LLM), vì chúng có thể dự đoán mức tăng hiệu năng nhờ mở rộng quy mô và cung cấp chỉ dẫn cho các lựa chọn siêu tham số quan trọng vốn nếu không sẽ rất tốn kém. LLM cũng phụ thuộc vào các tập dữ liệu huấn luyện lớn, chất lượng cao, chẳng hạn như dữ liệu được thu thập từ người dùng, đôi khi có tính nhạy cảm. Huấn luyện mô hình trên dữ liệu người dùng nhạy cảm này đòi hỏi các biện pháp bảo vệ quyền riêng tư cẩn trọng như quyền riêng tư vi sai (Differential Privacy, DP). Tuy nhiên, động lực học của huấn luyện DP khác biệt đáng kể, và vì vậy các định luật mở rộng của nó vẫn chưa được hiểu đầy đủ. Trong công trình này, chúng tôi thiết lập các định luật mở rộng mô hình hóa chính xác những phức tạp của huấn luyện DP LLM, cung cấp một bức tranh hoàn chỉnh về các đánh đổi giữa tính toán - quyền riêng tư - tính hữu ích và các cấu hình huấn luyện tối ưu trong nhiều bối cảnh.

Scaling laws have emerged as important components of large language model (LLM) training as they can predict performance gains through scale, and provide guidance on important hyper-parameter choices that would otherwise be expensive. LLMs also rely on large, high-quality training datasets, like those sourced from (sometimes sensitive) user data. Training models on this sensitive user data requires careful privacy protections like differential privacy (DP). However, the dynamics of DP training are significantly different, and consequently their scaling laws are not yet fully understood. In this work, we establish scaling laws that accurately model the intricacies of DP LLM training, providing a complete picture of the compute-privacy-utility tradeoffs and the optimal training configurations in many settings.

Liên kết bài báo

https://arxiv.org/abs/2501.18914

Đọc thêm

https://services.google.com/fh/files/blogs/vaultgemma_tech_report.pdf

https://huggingface.co/google/vaultgemma-1b

https://research.google/blog/…

https://discuss.pytorch.kr/t/vaultgemma-llm-feat-differential-privacy/…

https://discuss.pytorch.kr/t/vaultgemma-llm-feat-differential-privacy/…


R-Zero: LLM suy luận tự tiến hóa từ dữ liệu bằng 0 / R-Zero: Self-Evolving Reasoning LLM from Zero Data

Giới thiệu bài báo

Các mô hình ngôn ngữ lớn (LLM) tự tiến hóa mang đến một con đường có thể mở rộng để tiến tới siêu trí tuệ bằng cách tự chủ tạo ra và học hỏi từ kinh nghiệm. Các phương pháp huấn luyện hiện có phụ thuộc vào khối lượng lớn công việc tuyển chọn và gán nhãn của con người, từ đó đặt ra giới hạn cho sự phát triển của các hệ thống AI. Để vượt qua điều này, bài viết đề xuất R-Zero, một framework hoàn toàn tự chủ, bắt đầu từ một LLM cơ sở và khởi tạo hai mô hình độc lập là Challenger và Solver. Các mô hình này được tối ưu hóa thông qua tương tác với nhau, và R-Zero tạo ra một curriculum tự cải thiện, có định hướng mục tiêu mà không cần các tác vụ và nhãn có sẵn, qua đó cải thiện đáng kể năng lực suy luận của nhiều LLM khác nhau.

Tóm tắt bài báo (Abstract)

Các mô hình ngôn ngữ lớn (LLM) tự tiến hóa cung cấp một con đường có thể mở rộng để tiến tới siêu trí tuệ bằng cách tự chủ tạo ra, tinh chỉnh và học hỏi từ chính những trải nghiệm của mình. Tuy nhiên, các phương pháp hiện có để huấn luyện những mô hình này vẫn phụ thuộc nặng nề vào lượng lớn tác vụ và nhãn do con người tuyển chọn, thường thông qua fine-tuning hoặc reinforcement learning, điều này tạo ra một nút thắt cơ bản đối với việc phát triển các hệ thống AI hướng tới các năng lực vượt ngoài trí tuệ con người. Để vượt qua hạn chế này, chúng tôi giới thiệu R-Zero. R-Zero là một framework hoàn toàn tự chủ, tự tạo dữ liệu huấn luyện từ đầu. Bắt đầu từ một LLM cơ sở duy nhất, R-Zero khởi tạo hai mô hình độc lập với các vai trò khác nhau, là Challenger và Solver. Các mô hình này được tối ưu hóa riêng biệt và đồng tiến hóa thông qua tương tác: Challenger được thưởng khi đề xuất các tác vụ ở gần ranh giới năng lực của Solver, còn Solver được thưởng khi giải các tác vụ ngày càng thách thức do Challenger đưa ra. Quá trình này tạo ra một curriculum có định hướng mục tiêu và tự cải thiện mà không cần bất kỳ tác vụ hay nhãn có sẵn nào. Về thực nghiệm, R-Zero cải thiện đáng kể năng lực suy luận trên nhiều backbone LLM khác nhau; ví dụ, nó giúp Qwen3-4B-Base tăng +6.49 trên các benchmark suy luận toán học và +7.54 trên các benchmark suy luận miền tổng quát.

Self-evolving Large Language Models (LLMs) offer a scalable path toward super-intelligence by autonomously generating, refining, and learning from their own experiences. However, existing methods for training such models still rely heavily on vast human-curated tasks and labels, typically via fine-tuning or reinforcement learning, which poses a fundamental bottleneck to advancing AI systems toward capabilities beyond human intelligence. To overcome this limitation, we introduce R-Zero, a fully autonomous framework that generates its own training data from scratch. Starting from a single base LLM, R-Zero initializes two independent models with distinct roles, a Challenger and a Solver. These models are optimized separately and co-evolve through interaction: the Challenger is rewarded for proposing tasks near the edge of the Solver capability, and the Solver is rewarded for solving increasingly challenging tasks posed by the Challenger. This process yields a targeted, self-improving curriculum without any pre-existing tasks and labels. Empirically, R-Zero substantially improves reasoning capability across different backbone LLMs, e.g., boosting the Qwen3-4B-Base by +6.49 on math-reasoning benchmarks and +7.54 on general-domain reasoning benchmarks.

Liên kết bài báo

https://arxiv.org/abs/2508.05004


Bài viết này do 🔥PyTorch Korea User Group🇰🇷 tổng hợp có hữu ích với bạn không? Nếu đăng ký thành viên, bạn sẽ nhận được các bài viết chính qua email💌! (Mặc định là Weekly nhưng cũng có thể đổi sang Daily.)

🎁 Nếu bạn nhấn thích ❤️ ở phía dưới↘️, đó sẽ là nguồn động lực lớn cho việc xuất bản bản tin~ 🤗


Bài viết này được tổng hợp dựa trên nội dung do mô hình GPT tóm lược, vì vậy có thể có những phần được trình bày khác với nội dung hoặc ý định của nguyên bản. Nếu bạn quan tâm, hãy tham khảo thêm cả nguyên bản! Trong khi đọc, nếu phát hiện nội dung gượng gạo hoặc sai sót, mong bạn hãy cho biết qua phần bình luận. 🤗

⚠️Quảng cáo⚠️: Bài viết này do 🔥PyTorch Korea User Group🇰🇷 tổng hợp có hữu ích với bạn không? Nếu đăng ký thành viên, bạn sẽ nhận được các bài viết chính qua email💌! (Mặc định là Weekly nhưng cũng có thể đổi sang Daily.)

Chưa có bình luận nào.

Chưa có bình luận nào.