ML đáng chú ý trong tuần này

(discuss.pytorch.kr)

11 điểm bởi ninebow 2025-09-10 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

[2025/09/01 ~ 07] Tổng hợp các bài báo AI/ML đáng chú ý trong tuần này

PyTorchKR🔥🇰🇷 🤔💭

1️⃣ Giới hạn và khả năng kiểm soát của mô hình ngôn ngữ lớn: Nhiều bài báo đã thảo luận về các giới hạn của mô hình ngôn ngữ lớn (LLM) và cách kiểm soát chúng. Đặc biệt, trong "On the Fundamental Impossibility of Hallucination Control in Large Language Models", tác giả đưa ra tính bất khả thi về mặt lý thuyết rằng LLM không thể одновременно đạt được cả việc biểu đạt tri thức chân thực lẫn bảo toàn thông tin, đồng thời nhấn mạnh sự tương đồng về mặt toán học giữa ảo giác và tính sáng tạo. Điều này cung cấp nền tảng để quản lý các hành vi như vậy trong các hệ thống AI.

2️⃣ Các kỹ thuật học tập và tối ưu hóa hiệu quả: Các bài báo như "Fantastic Pretraining Optimizers and Where to Find Them" và "Communication Efficient LLM Pre-training with SparseLoCo" khám phá những kỹ thuật tối ưu hóa mới nhằm nâng cao hiệu quả trong quá trình huấn luyện LLM. Đặc biệt, SparseLoCo đã cho thấy kết quả cải thiện cả về hiệu năng lẫn chi phí truyền thông nhờ tận dụng tính thưa và lượng tử hóa để tăng hiệu quả truyền thông.

3️⃣ Cải thiện cộng tác và bộ nhớ trong hệ thống đa tác nhân: "Anemoi: A Semi-Centralized Multi-agent Systems Based on Agent-to-Agent Communication MCP server from Coral Protocol" và "Memp: Exploring Agent Procedural Memory" đã đề xuất các cách tiếp cận nhằm cải thiện phương thức cộng tác của hệ thống đa tác nhân và bộ nhớ thủ tục của tác nhân. Anemoi nâng cao hiệu năng thông qua sự cộng tác trực tiếp giữa các tác nhân, còn Memp cho phép tác nhân sở hữu bộ nhớ thủ tục có thể học được để hỗ trợ cập nhật và cải tiến liên tục.

Nghiên cứu về tính bất khả thi mang tính nền tảng của việc kiểm soát ảo giác trong mô hình ngôn ngữ lớn / On the Fundamental Impossibility of Hallucination Control in Large Language Models

Giới thiệu bài báo

Vấn đề ảo giác của mô hình ngôn ngữ lớn (LLM) là một chủ đề có ảnh hưởng nghiêm trọng đến độ tin cậy và độ chính xác của các hệ thống trí tuệ nhân tạo, và nghiên cứu này tìm cách làm rõ bằng toán học tính bất khả thi mang tính nền tảng của vấn đề đó. Các tác giả giải thích tập hợp thông tin bit bằng ý tưởng đấu giá, đồng thời phân tích quá trình nhiều thành phần sử dụng phần tri thức riêng của mình để hình thành câu trả lời. Nghiên cứu này cung cấp nền tảng toán học cho ảo giác và tính sáng tạo thông qua ba lĩnh vực toán học độc lập, bao gồm lý thuyết thiết kế cơ chế, lý thuyết quy tắc chấm điểm phù hợp, và phân tích trực tiếp kiến trúc transformer. Đặc biệt, các tác giả đề xuất cách định lượng việc tạo ra những phản hồi quá tự tin hoặc mang tính trực giác, vốn là đặc trưng xuất hiện ở cả ảo giác lẫn sáng tạo.

Ngoài ra, nghiên cứu còn đưa vào các khái niệm đo lường thông tin ngữ nghĩa và toán tử xuất hiện để mô hình hóa suy luận bị giới hạn, đồng thời nhấn mạnh rằng suy luận bị giới hạn tạo ra thông tin có thể truy cập được, trong khi suy luận lý tưởng không giới hạn thì bảo toàn chặt chẽ nội dung ngữ nghĩa. Thông qua phân tích này, các tác giả chứng minh rằng ảo giác và trí tưởng tượng là những hiện tượng đồng nhất về mặt toán học, bắt nguồn từ việc lệch khỏi tính chân thực, sự bảo toàn thông tin ngữ nghĩa, việc công khai tri thức liên quan và tính tối ưu dưới ràng buộc tri thức. Nghiên cứu này cung cấp nền tảng lý thuyết có thể tạo ra tác động quan trọng đối với việc thiết kế và đánh giá các hệ thống AI, đồng thời đưa ra những gợi mở cho các hướng nghiên cứu trong tương lai. Những đóng góp này được kỳ vọng sẽ đặt ra các câu hỏi mới tại giao điểm giữa lý thuyết thông tin và AI, đồng thời góp phần đào sâu hiểu biết về bản chất của thông tin.

Tóm tắt bài báo (Abstract)

Bài báo này thiết lập một định lý bất khả thi mang tính nền tảng: không có LLM nào có khả năng thực hiện tổng hợp tri thức phi tầm thường (non-trivial) có thể đồng thời đạt được biểu diễn tri thức trung thực, bảo toàn thông tin ngữ nghĩa, công khai đầy đủ tri thức liên quan, và tính tối ưu bị ràng buộc bởi tri thức. Tính bất khả thi này không phải là một giới hạn kỹ thuật, mà phát sinh từ chính cấu trúc toán học của việc tổng hợp thông tin. Chúng tôi xác lập kết quả này bằng cách mô tả quá trình suy luận như một cuộc đấu giá ý tưởng, trong đó các thành phần phân tán cạnh tranh bằng cách khai thác phần tri thức cục bộ của mình để định hình phản hồi. Chứng minh trải rộng trên ba miền toán học độc lập: lý thuyết thiết kế cơ chế (Green-Laffont), lý thuyết quy tắc chấm điểm thích hợp (Savage), và phân tích trực tiếp kiến trúc của transformer (tính lồi Log-Sum-Exp). Đặc biệt, chúng tôi cho thấy cách định lượng việc tạo ra các phản hồi quá tự tin (overconfidence) hoặc mang tính trực giác — dấu hiệu đặc trưng của cả ảo giác (hallucination) lẫn sáng tạo (creativity) hoặc trí tưởng tượng. Để hỗ trợ cho phân tích này, chúng tôi giới thiệu các khái niệm bổ sung là thước đo thông tin ngữ nghĩa và toán tử xuất hiện để mô hình hóa suy luận bị giới hạn trong một bối cảnh tổng quát. Chúng tôi chứng minh rằng trong khi suy luận bị giới hạn tạo ra thông tin dễ tiếp cận, mang lại những hiểu biết và cảm hứng có giá trị, thì suy luận lý tưởng hóa không bị ràng buộc lại bảo toàn nghiêm ngặt nội dung ngữ nghĩa. Bằng cách chỉ ra rằng ảo giác và trí tưởng tượng là những hiện tượng đồng nhất về mặt toán học — dựa trên sự lệch khỏi tính trung thực, bảo toàn thông tin ngữ nghĩa, công khai tri thức liên quan, và tính tối ưu bị ràng buộc bởi tri thức — chúng tôi cung cấp một nền tảng có nguyên tắc để quản lý các hành vi này trong các hệ thống AI tiên tiến. Cuối cùng, chúng tôi trình bày một số ý tưởng mang tính suy đoán nhằm gợi mở cho việc đánh giá và tinh chỉnh lý thuyết được đề xuất.
> Bài báo này thiết lập một định lý bất khả thi mang tính nền tảng: không có LLM nào có khả năng thực hiện tổng hợp tri thức phi tầm thường có thể đồng thời đạt được biểu diễn tri thức trung thực, bảo toàn thông tin ngữ nghĩa, công khai đầy đủ tri thức liên quan, và tính tối ưu bị ràng buộc bởi tri thức. Tính bất khả thi này không phải là một giới hạn kỹ thuật, mà phát sinh từ chính cấu trúc toán học của việc tổng hợp thông tin. Chúng tôi xác lập kết quả này bằng cách mô tả quá trình suy luận như một cuộc đấu giá ý tưởng, trong đó các thành phần phân tán cạnh tranh bằng cách khai thác phần tri thức cục bộ của mình để định hình phản hồi. Chứng minh trải rộng trên ba miền toán học độc lập: lý thuyết thiết kế cơ chế (Green-Laffont), lý thuyết quy tắc chấm điểm thích hợp (Savage), và phân tích trực tiếp kiến trúc của transformer (tính lồi Log-Sum-Exp). Đặc biệt, chúng tôi cho thấy cách định lượng việc tạo ra các phản hồi quá tự tin hoặc mang tính trực giác — dấu hiệu đặc trưng của cả ảo giác lẫn sáng tạo, hay trí tưởng tượng. Để hỗ trợ cho phân tích này, chúng tôi giới thiệu các khái niệm bổ sung là thước đo thông tin ngữ nghĩa và toán tử xuất hiện để mô hình hóa suy luận bị giới hạn trong một bối cảnh tổng quát. Chúng tôi chứng minh rằng trong khi suy luận bị giới hạn tạo ra thông tin dễ tiếp cận, mang lại những hiểu biết và cảm hứng có giá trị, thì suy luận lý tưởng hóa không bị ràng buộc lại bảo toàn nghiêm ngặt nội dung ngữ nghĩa. Bằng cách chỉ ra rằng ảo giác và trí tưởng tượng là những hiện tượng đồng nhất về mặt toán học — dựa trên sự lệch khỏi tính trung thực, bảo toàn thông tin ngữ nghĩa, công khai tri thức liên quan, và tính tối ưu bị ràng buộc bởi tri thức — chúng tôi cung cấp một nền tảng có nguyên tắc để quản lý các hành vi này trong các hệ thống AI tiên tiến. Cuối cùng, chúng tôi trình bày một số ý tưởng mang tính suy đoán nhằm truyền cảm hứng cho việc đánh giá và tinh chỉnh lý thuyết được đề xuất.

Link bài báo

https://arxiv.org/abs/2506.06382

Những optimizer tiền huấn luyện tuyệt vời và cách tìm ra chúng / Fantastic Pretraining Optimizers and Where to Find Them

Giới thiệu bài báo

Các optimizer tiền huấn luyện đóng vai trò quan trọng trong việc huấn luyện mô hình ngôn ngữ lớn, trong đó AdamW từ lâu đã được xem là tiêu chuẩn. Tuy nhiên, các nghiên cứu gần đây tuyên bố rằng những optimizer thay thế có thể mang lại tốc độ nhanh hơn từ 1,4 đến 2 lần, nhưng đồng thời cũng cho thấy các tuyên bố này thực tế đã bị cường điệu hóa. Nghiên cứu này chỉ ra hai vấn đề chính đứng sau các tuyên bố đó. Thứ nhất, việc tinh chỉnh siêu tham số có thể được thực hiện một cách mất cân đối; thứ hai, cấu hình đánh giá có thể bị hạn chế hoặc dễ gây hiểu lầm. Để giải quyết điều này, các tác giả đã so sánh một cách có hệ thống 10 optimizer học sâu trên nhiều quy mô mô hình và các tỷ lệ dữ liệu-mô hình khác nhau.

Phương pháp luận cốt lõi của nghiên cứu mô tả khung tinh chỉnh siêu tham số theo ba giai đoạn. Ở giai đoạn đầu tiên, siêu tham số của từng optimizer được tinh chỉnh chi tiết để rút ra hiệu năng tối ưu. Ở giai đoạn thứ hai, quá trình tối ưu chỉ tập trung chọn những phần cần tinh chỉnh của siêu tham số nhằm giảm yêu cầu về bộ nhớ. Cuối cùng, ở giai đoạn thứ ba, các định luật scaling được áp dụng để dự đoán giá trị tối ưu của siêu tham số theo kích thước mô hình và ngân sách dữ liệu. Phương pháp này bảo đảm việc so sánh công bằng và có thể tái lập giữa các optimizer, đồng thời kết quả nghiên cứu nhấn mạnh rằng các optimizer dựa trên ma trận nhất quán cho hiệu năng tốt hơn các optimizer dựa trên vô hướng.

Nghiên cứu này nhấn mạnh tầm quan trọng của việc tinh chỉnh siêu tham số cũng như sự cần thiết phải đánh giá trên nhiều quy mô mô hình và tỷ lệ dữ liệu-mô hình khác nhau, đồng thời cho thấy các siêu tham số tối ưu với optimizer này có thể lại là không tối ưu với optimizer khác. Những phát hiện này sẽ đóng góp quan trọng vào việc thiết lập tiêu chuẩn cho thiết kế và đánh giá optimizer trong tương lai.

Tóm tắt(Abstract)

AdamW từ lâu đã là optimizer thống trị trong giai đoạn tiền huấn luyện mô hình ngôn ngữ, dù có rất nhiều tuyên bố rằng các optimizer thay thế mang lại mức tăng tốc từ 1,4 đến 2 lần. Chúng tôi cho rằng có hai thiếu sót về mặt phương pháp luận đã che khuất các so sánh công bằng và cản trở việc áp dụng trong thực tế: (i) tinh chỉnh siêu tham số không cân bằng và (ii) thiết lập đánh giá hạn chế hoặc dễ gây hiểu lầm. Để giải quyết hai vấn đề này, chúng tôi thực hiện một nghiên cứu có hệ thống về mười optimizer deep learning trên bốn quy mô mô hình (0,1B-1,2B tham số) và các tỷ lệ dữ liệu-trên-mô hình (gấp 1-8 lần mức tối ưu Chinchilla). Chúng tôi nhận thấy rằng để có các so sánh công bằng và giàu thông tin, cần có quá trình tinh chỉnh siêu tham số nghiêm ngặt cùng các đánh giá trải dài trên nhiều quy mô mô hình và tỷ lệ dữ liệu-trên-mô hình khác nhau, đồng thời phải được thực hiện tại thời điểm kết thúc huấn luyện. Thứ nhất, siêu tham số tối ưu cho một optimizer có thể là không tối ưu đối với optimizer khác, vì vậy việc chuyển siêu tham số một cách máy móc là không công bằng. Thứ hai, mức tăng tốc thực tế của nhiều optimizer được đề xuất so với baseline đã được tinh chỉnh tốt thấp hơn so với tuyên bố, và giảm theo kích thước mô hình xuống chỉ còn 1,1 lần với các mô hình 1,2B tham số. Thứ ba, việc so sánh các checkpoint trung gian trước khi đạt ngân sách huấn luyện mục tiêu có thể gây hiểu lầm, vì thứ hạng giữa hai optimizer có thể đảo chiều trong quá trình huấn luyện do learning rate decay. Qua điều tra kỹ lưỡng, chúng tôi nhận thấy tất cả các optimizer nhanh nhất như Muon và Soap đều sử dụng ma trận làm bộ tiền điều kiện, tức là nhân gradient với ma trận thay vì các hệ số vô hướng theo từng phần tử. Tuy nhiên, mức tăng tốc của các optimizer dựa trên ma trận tỷ lệ nghịch với quy mô mô hình, giảm từ 1,4 lần so với AdamW ở mô hình 0,1B tham số xuống chỉ còn 1,1 lần ở mô hình 1,2B tham số.
> AdamW từ lâu đã là optimizer thống trị trong tiền huấn luyện mô hình ngôn ngữ, bất chấp nhiều tuyên bố rằng các optimizer thay thế mang lại mức tăng tốc từ 1,4 đến 2 lần. Chúng tôi cho rằng hai thiếu sót về phương pháp luận đã làm mờ đi các so sánh công bằng và cản trở việc áp dụng trong thực tế: (i) tinh chỉnh siêu tham số không đồng đều và (ii) các thiết lập đánh giá hạn chế hoặc gây hiểu lầm. Để giải quyết hai vấn đề này, chúng tôi tiến hành một nghiên cứu có hệ thống về mười optimizer deep learning trên bốn quy mô mô hình (0,1B-1,2B tham số) và các tỷ lệ dữ liệu trên mô hình (gấp 1-8 lần mức tối ưu Chinchilla). Chúng tôi nhận thấy rằng các so sánh công bằng và giàu thông tin đòi hỏi phải có quá trình tinh chỉnh siêu tham số nghiêm ngặt và đánh giá trên một loạt quy mô mô hình cũng như tỷ lệ dữ liệu trên mô hình, được thực hiện ở cuối quá trình huấn luyện. Thứ nhất, siêu tham số tối ưu cho một optimizer có thể là không tối ưu đối với optimizer khác, khiến việc chuyển siêu tham số một cách mù quáng trở nên không công bằng. Thứ hai, mức tăng tốc thực tế của nhiều optimizer được đề xuất so với các baseline đã được tinh chỉnh tốt thấp hơn so với tuyên bố và giảm theo kích thước mô hình, xuống chỉ còn 1,1 lần đối với mô hình 1,2B tham số. Thứ ba, việc so sánh các checkpoint trung gian trước khi đạt ngân sách huấn luyện mục tiêu có thể gây hiểu lầm, vì thứ hạng giữa hai optimizer có thể bị đảo ngược trong quá trình huấn luyện do learning rate decay. Qua quá trình điều tra kỹ lưỡng, chúng tôi nhận thấy rằng tất cả các optimizer nhanh nhất như Muon và Soap đều sử dụng ma trận làm bộ tiền điều kiện -- nhân gradient với ma trận thay vì các hệ số vô hướng theo từng phần tử. Tuy nhiên, mức tăng tốc của các optimizer dựa trên ma trận tỷ lệ nghịch với quy mô mô hình, giảm từ 1,4 lần so với AdamW đối với mô hình 0,1B tham số xuống chỉ còn 1,1 lần đối với mô hình 1,2B tham số.

Liên kết bài báo

https://arxiv.org/abs/2509.02046

Đọc thêm

https://wandb.ai/marin-community/optimizer-scaling

Anemoi: máy chủ MCP cho hệ thống đa tác tử bán tập trung dựa trên giao tiếp giữa các tác tử / Anemoi: A Semi-Centralized Multi-agent Systems Based on Agent-to-Agent Communication MCP server from Coral Protocol

Giới thiệu bài báo

Anemoi là một hệ thống đa tác tử bán tập trung (Multi-Agent System, MAS) dựa trên mô hình giao tiếp A2A (Agent-to-Agent) của Coral Protocol, cho phép điều phối công việc hiệu quả thông qua sự hợp tác trực tiếp giữa các tác tử. Các MAS tập trung truyền thống vận hành theo cách một tác tử lập kế hoạch điều phối nhiều tác tử thực thi theo một chiều, từ đó phát sinh các vấn đề như phụ thuộc vào năng lực của tác tử lập kế hoạch và mất mát hoặc dư thừa thông tin do giao tiếp giữa các tác tử bị hạn chế. Anemoi được thiết kế để giải quyết những vấn đề này, cung cấp một cấu trúc trong đó mọi tác tử đều có thể theo dõi tiến độ theo thời gian thực, xác định điểm nghẽn và đề xuất phương án cải thiện.

Cốt lõi của Anemoi là tận dụng máy chủ MCP (Multi-Agent Communication Protocol) giao tiếp A2A của Coral Protocol để hỗ trợ luồng thông tin liền mạch giữa các tác tử. Hệ thống này kết hợp một tác tử lập kế hoạch với nhiều tác tử thực thi chuyên biệt theo từng lĩnh vực, cung cấp kế hoạch ban đầu đồng thời cho phép các worker trực tiếp phối hợp với nhau. Nhờ đó, mức độ phụ thuộc vào bộ lập kế hoạch tập trung được giảm bớt, có thể cập nhật kế hoạch một cách thích ứng, và việc truyền tải ngữ cảnh trùng lặp được tối thiểu hóa, giúp thực thi hiệu quả về chi phí.

Anemoi đã được đánh giá trên benchmark GAIA và đạt độ chính xác 52,73% khi sử dụng một LLM nhỏ (GPT-4.1-mini) làm tác tử lập kế hoạch. Đây là kết quả vượt 9,09% so với OWL, baseline mã nguồn mở mạnh nhất, trong cùng thiết lập với mức 43,63%. Những kết quả này cho thấy mô hình giao tiếp A2A bán tập trung của Anemoi có thể góp phần cải thiện hiệu năng của các hệ thống đa tác tử.

Nghiên cứu này mở ra những khả năng mới cho các hệ thống đa tác tử thông qua việc cải thiện sự hợp tác trực tiếp và luồng thông tin giữa các tác tử, đồng thời được kỳ vọng sẽ đóng góp quan trọng cho sự phát triển của các hệ thống AI tổng quát trong tương lai. Phần triển khai của Anemoi đã được công khai trên GitHub, mang lại cơ hội để các nhà nghiên cứu sử dụng hệ thống này nhằm phát triển nhiều ứng dụng khác nhau.

Tóm tắt bài báo (Abstract)

Những tiến bộ gần đây trong các hệ thống đa tác nhân tổng quát (MAS) phần lớn đi theo mô hình kết hợp giữa kỹ nghệ ngữ cảnh và kiến trúc tập trung, trong đó một tác nhân lập kế hoạch điều phối nhiều tác nhân thực thi thông qua việc truyền prompt một chiều. Dù hiệu quả khi sử dụng mô hình lập kế hoạch mạnh, thiết kế này có hai hạn chế quan trọng: (1) phụ thuộc lớn vào năng lực của tác nhân lập kế hoạch, khiến hiệu năng suy giảm khi một LLM nhỏ đảm nhiệm vai trò này; (2) giao tiếp giữa các tác nhân bị hạn chế, khiến cộng tác phải dựa vào việc nối prompt tốn kém và chèn ngữ cảnh, từ đó gây dư thừa và mất mát thông tin. Để giải quyết các thách thức này, chúng tôi đề xuất Anemoi, một MAS bán tập trung được xây dựng trên máy chủ MCP giao tiếp Agent-to-Agent (A2A) của Coral Protocol. Khác với các thiết kế truyền thống, Anemoi cho phép cộng tác giữa các tác nhân theo cách có cấu trúc và trực tiếp, giúp mọi tác nhân có thể theo dõi tiến độ, đánh giá kết quả, xác định điểm nghẽn và đề xuất cải tiến theo thời gian thực. Mô hình này làm giảm sự phụ thuộc vào một tác nhân lập kế hoạch duy nhất, hỗ trợ cập nhật kế hoạch thích ứng và giảm thiểu việc truyền ngữ cảnh dư thừa, từ đó cho phép thực thi có khả năng mở rộng tốt hơn và tiết kiệm chi phí hơn. Khi được đánh giá trên benchmark GAIA, Anemoi đạt độ chính xác 52.73% khi dùng một LLM nhỏ (GPT-4.1-mini) làm tác nhân lập kế hoạch, vượt qua OWL (43.63%) — baseline mã nguồn mở mạnh nhất — thêm +9.09% trong cùng cấu hình LLM. Phần triển khai của chúng tôi được công khai tại https://github.com/Coral-Protocol/Anemoi.
> Recent advances in generalist multi-agent systems (MAS) have largely followed a context-engineering plus centralized paradigm, where a planner agent coordinates multiple worker agents through unidirectional prompt passing. While effective under strong planner models, this design suffers from two critical limitations: (1) strong dependency on the planner's capability, which leads to degraded performance when a smaller LLM powers the planner; and (2) limited inter-agent communication, where collaboration relies on costly prompt concatenation and context injection, introducing redundancy and information loss. To address these challenges, we propose Anemoi, a semi-centralized MAS built on the Agent-to-Agent (A2A) communication MCP server from Coral Protocol. Unlike traditional designs, Anemoi enables structured and direct inter-agent collaboration, allowing all agents to monitor progress, assess results, identify bottlenecks, and propose refinements in real time. This paradigm reduces reliance on a single planner, supports adaptive plan updates, and minimizes redundant context passing, resulting in more scalable and cost-efficient execution. Evaluated on the GAIA benchmark, Anemoi achieved 52.73% accuracy with a small LLM (GPT-4.1-mini) as the planner, surpassing the strongest open-source baseline OWL (43.63%) by +9.09% under identical LLM settings. Our implementation is publicly available at https://github.com/Coral-Protocol/Anemoi.

Liên kết bài báo

https://arxiv.org/abs/2508.17068

Đọc thêm

https://github.com/Coral-Protocol/Anemoi

SparseLoCo cho tiền huấn luyện LLM hiệu quả về giao tiếp / Communication Efficient LLM Pre-training with SparseLoCo

Giới thiệu bài báo

Việc nâng cao hiệu quả giao tiếp trong quá trình tiền huấn luyện mô hình ngôn ngữ lớn (LLM) là một chủ đề nghiên cứu rất quan trọng. Các thuật toán huấn luyện phân tán gần đây đang nhận được nhiều quan tâm vì chúng hữu ích trong việc huấn luyện LLM trong những môi trường bị giới hạn băng thông, chẳng hạn giữa các trung tâm dữ liệu hoặc qua Internet. Tuy nhiên, các phương pháp hiện có vẫn phải truyền toàn bộ gradient của mô hình, từ đó gây ra nút thắt giao tiếp và có thể làm suy giảm hiệu năng. Để giải quyết vấn đề này, SparseLoCo được đề xuất như một thuật toán huấn luyện hiệu quả về giao tiếp, đưa ra phương pháp tận dụng Top-k sparsification và lượng tử hóa 2-bit để đạt tỷ lệ nén cực cao mà vẫn có thể cải thiện hiệu năng.

Đổi mới cốt lõi của SparseLoCo là xấp xỉ động lượng bên ngoài bằng cách kết hợp error feedback với cơ chế làm thưa mạnh. Nhờ đó, phương pháp này có thể vừa cải thiện hiệu năng của mô hình vừa giảm chi phí giao tiếp. Kết quả nghiên cứu cho thấy SparseLoCo mang lại lợi ích đáng kể cả về hiệu năng lẫn chi phí giao tiếp trong nhiều môi trường bị ràng buộc giao tiếp khác nhau. Đặc biệt, với độ thưa 1-3% và lượng tử hóa 2-bit, phương pháp này cho thấy khả năng giảm đáng kể chi phí giao tiếp so với DDP (Distributed Data Parallel) truyền thống mà vẫn duy trì hoặc cải thiện hiệu năng.

Nghiên cứu này đưa ra một phương pháp mới nhằm nâng cao hiệu quả giao tiếp trong tiền huấn luyện LLM, đồng thời cho thấy tiềm năng phát triển thêm của SparseLoCo thông qua các thí nghiệm và tối ưu hóa trong tương lai. SparseLoCo được kỳ vọng sẽ đóng góp quan trọng vào việc nâng cao hiệu quả huấn luyện các mô hình quy mô lớn, qua đó mở ra một hướng đi mới cho nghiên cứu và phát triển LLM.

Tóm tắt(Abstract)

Các thuật toán huấn luyện phân tán hiệu quả về truyền thông gần đây đã nhận được sự quan tâm đáng kể nhờ lợi ích của chúng đối với việc huấn luyện các mô hình ngôn ngữ lớn (LLM) trong những môi trường bị giới hạn băng thông, chẳng hạn giữa các trung tâm dữ liệu và qua internet. Dù giảm tần suất truyền thông, các phương pháp này vẫn thường phải truyền toàn bộ một bản sao gradient của mô hình, dẫn đến nút thắt cổ chai truyền thông ngay cả trên các liên kết liên trung tâm dữ liệu. Hơn nữa, chúng có thể làm suy giảm nhẹ hiệu năng so với đường cơ sở AdamW DDP thông thường. Mặc dù lượng tử hóa và phản hồi lỗi thường được áp dụng để giảm kích thước của giả gradient, trong bối cảnh tiền huấn luyện LLM, các phương pháp hiện có vẫn chưa thể tận dụng thêm tính thưa hóa và chỉ đạt được mức lượng tử hóa hạn chế. Trong nghiên cứu này, chúng tôi giới thiệu SparseLoCo, một thuật toán huấn luyện hiệu quả về truyền thông cho LLM, tận dụng hiệu quả thưa hóa Top-k và lượng tử hóa để đạt tỷ lệ nén cực cao với độ thưa chỉ 1-3% và lượng tử hóa 2 bit, đồng thời vượt trội hơn DiLoCo độ chính xác đầy đủ. Quan sát chính của chúng tôi là động lượng bên ngoài có thể được xấp xỉ cục bộ bằng phản hồi lỗi kết hợp với mức thưa hóa mạnh, và việc tổng hợp thưa thực tế có thể cải thiện hiệu năng mô hình. Chúng tôi chứng minh thực nghiệm rằng trong nhiều bối cảnh huấn luyện LLM bị ràng buộc truyền thông, SparseLoCo mang lại lợi ích đáng kể cả về hiệu năng lẫn chi phí truyền thông.
> Communication-efficient distributed training algorithms have received considerable interest recently due to their benefits for training Large Language Models (LLMs) in bandwidth-constrained settings, such as across data centers and over the internet. Despite reducing communication frequency, these methods still typically require communicating a full copy of the model's gradients-resulting in a communication bottleneck even for cross-datacenter links. Furthermore, they can slightly degrade performance compared to a naive AdamW DDP baseline. While quantization and error feedback are often applied to reduce the pseudo-gradient's size, in the context of LLM pre-training, existing approaches have been unable to additionally leverage sparsification and have obtained limited quantization. In this work, we introduce SparseLoCo, a communication-efficient training algorithm for LLMs that effectively leverages Top-k sparsification and quantization to reach extreme compression ratios of up to 1-3% sparsity and 2-bit quantization while outperforming full-precision DiLoCo. Our key observations are that outer momentum can be locally approximated by an error feedback combined with aggressive sparsity and that sparse aggregation can actually improve model performance. We empirically demonstrate in a range of communication-constrained LLM training settings that SparseLoCo provides significant benefits in both performance and communication cost.

Liên kết bài báo

https://arxiv.org/abs/2508.15706

Định tuyến LLM thích ứng dưới ràng buộc ngân sách / Adaptive LLM Routing under Budget Constraints

Giới thiệu bài báo

Sự phát triển của các mô hình ngôn ngữ lớn (LLM) đã mang lại bước đột phá cho lĩnh vực xử lý ngôn ngữ tự nhiên, nhưng chi phí cao của các mô hình này và việc phản hồi phù hợp cho nhiều loại truy vấn khác nhau vẫn là những thách thức còn tồn tại. Nghiên cứu này tái cấu trúc bài toán định tuyến LLM thành một bài toán contextual bandit và đề xuất Preference-prior Informed LinUCB for Adaptive Routing (PILOT), một thuật toán mới để lựa chọn LLM tối ưu dưới ràng buộc ngân sách. Các phương pháp học có giám sát hiện tại có hạn chế là đòi hỏi tập dữ liệu gán nhãn quy mô lớn, và nghiên cứu này đã phát triển một phương pháp luận điều chỉnh động việc lựa chọn LLM thông qua phản hồi của người dùng nhằm vượt qua hạn chế đó.

PILOT gồm hai giai đoạn chính. Ở giai đoạn đầu, hệ thống tận dụng dữ liệu sở thích của con người ở chế độ ngoại tuyến để xây dựng một không gian embedding dùng chung phản ánh mức độ tương thích giữa truy vấn và LLM. Trong quá trình này, mô hình học hiệu quả mối quan hệ giữa truy vấn và LLM bằng cách tối thiểu hóa triplet loss. Ở giai đoạn thứ hai, hệ thống tích hợp phản hồi bandit trực tuyến để liên tục cải thiện hiệu năng bằng cách chọn LLM phù hợp cho từng truy vấn và quan sát phần thưởng tương ứng. Cách tiếp cận này cho phép phân bổ tài nguyên linh hoạt có xét đến ngân sách, đồng thời có khả năng thích ứng với nhiều nhu cầu người dùng khác nhau.

Đóng góp chính của nghiên cứu này là chính thức hóa bài toán định tuyến LLM có xét đến ràng buộc ngân sách và đề xuất thuật toán PILOT để giải quyết bài toán đó. Kết quả thực nghiệm cho thấy PILOT đạt hiệu năng vượt trội hơn các đường cơ sở bandit hiện có trên nhiều bộ dữ liệu khác nhau, đồng thời thành công trong việc tối đa hóa hiệu quả chi phí. Những kết quả này đóng góp quan trọng cho việc triển khai và ứng dụng LLM trong thực tế; các hướng nghiên cứu tương lai được đề xuất bao gồm nâng cao khả năng thích ứng với nhiều nhu cầu người dùng khác nhau và mở rộng khả năng áp dụng sang nhiều bộ dữ liệu hơn.

Tóm tắt bài báo (Abstract)

Các mô hình ngôn ngữ lớn (LLM) đã tạo ra cuộc cách mạng trong xử lý ngôn ngữ tự nhiên, nhưng sự khác biệt về năng lực và chi phí của chúng đặt ra thách thức trong các ứng dụng thực tế. Định tuyến LLM giải quyết vấn đề này bằng cách chọn động LLM phù hợp nhất cho từng truy vấn/tác vụ. Các cách tiếp cận trước đây xem đây là một bài toán học có giám sát, giả định có đầy đủ tri thức về các cặp truy vấn-LLM tối ưu. Tuy nhiên, trong các kịch bản thực tế, không có sẵn ánh xạ toàn diện như vậy và còn phải đối mặt với các truy vấn người dùng luôn thay đổi. Vì vậy, chúng tôi đề xuất nghiên cứu định tuyến LLM như một bài toán contextual bandit, cho phép ra quyết định thích ứng bằng phản hồi bandit mà không cần suy luận toàn diện trên mọi LLM cho mọi truy vấn, trái ngược với định tuyến có giám sát. Để giải quyết bài toán này, chúng tôi phát triển một không gian embedding dùng chung cho truy vấn và LLM, trong đó embedding của truy vấn và LLM được căn chỉnh để phản ánh mức độ tương thích giữa chúng. Không gian này ban đầu được học từ dữ liệu sở thích của con người ngoại tuyến và được tinh chỉnh thông qua phản hồi bandit trực tuyến. Chúng tôi hiện thực hóa ý tưởng này thông qua Preference-prior Informed Linucb fOr adaptive rouTing (PILOT), một mở rộng mới của LinUCB. Để xử lý các mức ngân sách đa dạng của người dùng cho việc định tuyến mô hình, chúng tôi đưa ra một chính sách chi phí trực tuyến được mô hình hóa như bài toán ba lô đa lựa chọn, bảo đảm định tuyến hiệu quả về tài nguyên.
> Large Language Models (LLMs) have revolutionized natural language processing, but their varying capabilities and costs pose challenges in practical applications. LLM routing addresses this by dynamically selecting the most suitable LLM for each query/task. Previous approaches treat this as a supervised learning problem, assuming complete knowledge of optimal query-LLM pairings. However, real-world scenarios lack such comprehensive mappings and face evolving user queries. We thus propose to study LLM routing as a contextual bandit problem, enabling adaptive decision-making using bandit feedback without requiring exhaustive inference across all LLMs for all queries (in contrast to supervised routing). To address this problem, we develop a shared embedding space for queries and LLMs, where query and LLM embeddings are aligned to reflect their affinity. This space is initially learned from offline human preference data and refined through online bandit feedback. We instantiate this idea through Preference-prior Informed Linucb fOr adaptive rouTing (PILOT), a novel extension of LinUCB. To handle diverse user budgets for model routing, we introduce an online cost policy modeled as a multi-choice knapsack problem, ensuring resource-efficient routing.

Liên kết bài báo

https://arxiv.org/abs/2508.21141

Tạo hiệu quả tập ảnh trong khuếch tán văn bản-hình ảnh thông qua tái sử dụng tính toán / Reusing Computation in Text-to-Image Diffusion for Efficient Generation of Image Sets

Giới thiệu bài báo

Các mô hình diffusion văn bản-hình ảnh rất hiệu quả trong việc tạo ra hình ảnh chất lượng cao, nhưng chi phí tính toán cao phát sinh trong quá trình này đang trở thành một thách thức lớn. Trong khi các nghiên cứu trước đây chủ yếu tập trung vào việc cải thiện hiệu quả khi tạo từng ảnh riêng lẻ, nghiên cứu này đề xuất một cách tiếp cận mới nhằm giảm sự dư thừa giữa các prompt có tương quan. Phương pháp được đề xuất tận dụng đặc tính từ thô đến tinh của mô hình diffusion để nắm bắt cấu trúc dùng chung giữa các prompt tương tự ở giai đoạn khử nhiễu ban đầu.

Nghiên cứu này áp dụng một cách tiếp cận không cần huấn luyện, phân cụm các prompt theo mức độ tương đồng ngữ nghĩa và chia sẻ tính toán ở các bước diffusion ban đầu. Kết quả thực nghiệm cho thấy, đối với các mô hình được điều kiện hóa trên image embedding, phương pháp này có thể giảm ít nhất 50% chi phí tính toán mà vẫn duy trì hoặc cải thiện chất lượng hình ảnh. Ngoài ra, bằng cách tận dụng thông tin prior văn bản-hình ảnh của UnClip để tối ưu hóa việc phân bổ các bước diffusion, hiệu quả còn được nâng cao hơn nữa.

Phương pháp được đề xuất có thể tích hợp liền mạch với các pipeline tạo văn bản-hình ảnh hiện có, đồng thời có khả năng mở rộng cho các tập prompt quy mô lớn, qua đó góp phần giảm gánh nặng về môi trường và tài chính. Nghiên cứu này mang lại những hiểu biết quan trọng về động lực tạo sinh của mô hình diffusion và được kỳ vọng sẽ đóng vai trò là nền tảng quan trọng cho việc khám phá các chiến lược tối ưu hóa bền vững trong tương lai.

Tóm tắt bài báo (Abstract)

Các mô hình khuếch tán văn bản-hình ảnh cho phép tạo ra hình ảnh chất lượng cao nhưng đòi hỏi chi phí tính toán lớn. Trong khi các nghiên cứu trước đây tập trung vào tối ưu hóa hiệu quả cho từng lần suy luận, chúng tôi khám phá một cách tiếp cận trực giao: giảm sự dư thừa giữa các prompt có tương quan. Phương pháp của chúng tôi tận dụng đặc tính từ thô đến tinh của các mô hình diffusion, trong đó các bước khử nhiễu ban đầu nắm bắt các cấu trúc dùng chung giữa những prompt tương tự. Chúng tôi đề xuất một cách tiếp cận không cần huấn luyện, phân cụm các prompt dựa trên độ tương đồng ngữ nghĩa và chia sẻ tính toán ở các bước diffusion đầu. Các thí nghiệm cho thấy rằng đối với các mô hình được huấn luyện với điều kiện là image embedding, cách tiếp cận của chúng tôi giúp giảm đáng kể chi phí tính toán đồng thời cải thiện chất lượng hình ảnh. Bằng cách tận dụng prior văn bản-hình ảnh của UnClip, chúng tôi cải thiện việc phân bổ các bước diffusion để đạt hiệu quả cao hơn. Phương pháp của chúng tôi tích hợp liền mạch với các pipeline hiện có, mở rộng theo tập prompt và giảm gánh nặng môi trường cũng như tài chính của việc tạo ảnh văn bản-hình ảnh ở quy mô lớn. Trang dự án: https://ddecatur.github.io/hierarchical-diffusion/
> Text-to-image diffusion models enable high-quality image generation but are computationally expensive. While prior work optimizes per-inference efficiency, we explore an orthogonal approach: reducing redundancy across correlated prompts. Our method leverages the coarse-to-fine nature of diffusion models, where early denoising steps capture shared structures among similar prompts. We propose a training-free approach that clusters prompts based on semantic similarity and shares computation in early diffusion steps. Experiments show that for models trained conditioned on image embeddings, our approach significantly reduces compute cost while improving image quality. By leveraging UnClip's text-to-image prior, we enhance diffusion step allocation for greater efficiency. Our method seamlessly integrates with existing pipelines, scales with prompt sets, and reduces the environmental and financial burden of large-scale text-to-image generation. Project page: https://ddecatur.github.io/hierarchical-diffusion/

Liên kết bài báo

https://arxiv.org/abs/2508.21032

Đọc thêm

https://ddecatur.github.io/hierarchical-diffusion/

Attention là một spline bậc ba được làm mượt / Attention is a smoothed cubic spline

Giới thiệu bài báo

Trong kiến trúc Transformer, mô-đun attention dù rất quan trọng nhưng vẫn còn nhiều khía cạnh chưa được hiểu rõ. Nghiên cứu này mang lại một góc nhìn mới từ quan điểm của lý thuyết xấp xỉ cổ điển bằng cách diễn giải các mô-đun attention này như những spline bậc ba mượt. Các tác giả cho thấy rằng khi sử dụng hàm kích hoạt ReLU, attention, masked attention và encoder-decoder attention đều có thể được biểu diễn dưới dạng spline bậc ba. Cách tiếp cận này đặc biệt có ý nghĩa vì mọi thành phần của Transformer đều được tạo thành từ sự kết hợp giữa các mô-đun attention khác nhau và mạng nơ-ron feed-forward.

Nghiên cứu nhấn mạnh rằng dựa trên giả thuyết Pierce-Birkhoff, mọi spline đều có thể được biểu diễn bằng encoder dùng kích hoạt ReLU. Qua đó, công trình làm rõ bản chất toán học của các mô-đun attention và đào sâu hiểu biết về cấu trúc của Transformer thông qua spline bậc ba. Ngoài ra, nghiên cứu cũng chỉ ra rằng nếu thay ReLU bằng các hàm kích hoạt mượt như SoftMax để thu được phiên bản mượt $C^\infty$, ta có thể khôi phục các mô hình Transformer hiện có.

Nghiên cứu này đào sâu hiểu biết về các mô hình machine learning hiện có thông qua diễn giải toán học của cơ chế attention, đồng thời giải thích bản chất của kiến trúc Transformer bằng spline, một đối tượng toán học đã được biết đến rộng rãi. Kết quả thực nghiệm cho thấy mô hình spline bậc ba được đề xuất đạt hiệu năng vượt trội hơn các mô hình hiện có, chứng minh rằng diễn giải toán học của mô-đun attention có ảnh hưởng tích cực đến hiệu năng thực tế. Những phát hiện này được kỳ vọng sẽ đóng góp cho sự phát triển của cơ chế attention trong tương lai. Nghiên cứu này đem lại một góc nhìn mới về mô-đun attention của Transformer và sẽ là tài liệu nền tảng quan trọng cho các nhà nghiên cứu trong lĩnh vực liên quan.

Tóm tắt bài báo (Abstract)

Chúng tôi nhấn mạnh một nhận định có lẽ quan trọng nhưng cho đến nay vẫn chưa được quan sát: mô-đun attention trong transformer là một spline bậc ba được làm mượt. Khi được nhìn theo cách này, thành phần vừa bí ẩn vừa then chốt của transformer trở thành sự phát triển tự nhiên của một khái niệm lâu đời đã bám rễ sâu trong lý thuyết xấp xỉ cổ điển. Nói chính xác hơn, chúng tôi chỉ ra rằng với kích hoạt ReLU, attention, masked attention và encoder-decoder attention đều là spline bậc ba. Vì mọi thành phần trong transformer được xây dựng từ tổ hợp của các mô-đun attention khác nhau (= spline bậc ba) và mạng nơ-ron feed forward (= spline tuyến tính), nên toàn bộ các thành phần của nó -- encoder, decoder và các khối encoder-decoder; encoder và decoder nhiều lớp; bản thân transformer -- đều là spline bậc ba hoặc spline bậc cao hơn. Nếu giả định giả thuyết Pierce-Birkhoff là đúng, thì điều ngược lại cũng đúng, tức là mọi spline đều là một encoder dùng kích hoạt ReLU. Vì spline nói chung chỉ là $C^2$, một cách để thu được phiên bản mượt $C^\infty$ là thay ReLU bằng một hàm kích hoạt mượt; và nếu hàm kích hoạt này được chọn là SoftMax, chúng ta sẽ khôi phục transformer nguyên bản như Vaswani và cộng sự đã đề xuất. Nhận định này làm sáng tỏ bản chất của transformer bằng cách diễn giải toàn bộ nó theo ngôn ngữ của spline, một trong những đối tượng được biết đến nhiều nhất và được nghiên cứu kỹ lưỡng nhất trong toán học ứng dụng.
> We highlight a perhaps important but hitherto unobserved insight: The attention module in a transformer is a smoothed cubic spline. Viewed in this manner, this mysterious but critical component of a transformer becomes a natural development of an old notion deeply entrenched in classical approximation theory. More precisely, we show that with ReLU-activation, attention, masked attention, encoder-decoder attention are all cubic splines. As every component in a transformer is constructed out of compositions of various attention modules (= cubic splines) and feed forward neural networks (= linear splines), all its components -- encoder, decoder, and encoder-decoder blocks; multilayered encoders and decoders; the transformer itself -- are cubic or higher-order splines. If we assume the Pierce-Birkhoff conjecture, then the converse also holds, i.e., every spline is a ReLU-activated encoder. Since a spline is generally just $C^2$, one way to obtain a smoothed $C^\infty$-version is by replacing ReLU with a smooth activation; and if this activation is chosen to be SoftMax, we recover the original transformer as proposed by Vaswani et al. This insight sheds light on the nature of the transformer by casting it entirely in terms of splines, one of the best known and thoroughly understood objects in applied mathematics.

Liên kết bài báo

https://arxiv.org/abs/2408.09624

$Mem^p$: Khám phá trí nhớ thủ tục của tác nhân / $Mem^p$: Exploring Agent Procedural Memory

Giới thiệu bài báo

Các tác nhân dựa trên mô hình ngôn ngữ lớn (LLM) thể hiện hiệu năng vượt trội trong nhiều tác vụ khác nhau, nhưng trí nhớ thủ tục hiện có lại mang đặc tính mong manh do được thiết kế thủ công hoặc phụ thuộc vào các tham số tĩnh. Nghiên cứu này đề xuất $Mem^p$ như một phương pháp đổi mới nhằm trang bị cho tác nhân một trí nhớ thủ tục suốt đời có thể học và có thể cập nhật. $Mem^p$ chưng cất các quỹ đạo của tác nhân trong quá khứ thành các chỉ dẫn chi tiết theo từng bước và các script ở mức cao để khám phá các chiến lược xây dựng (Build), truy xuất (Retrieval) và cập nhật (Update) trí nhớ thủ tục.

Cốt lõi của $Mem^p$ là một cơ chế động liên tục cập nhật, sửa đổi và loại bỏ trí nhớ thủ tục. Nhờ đó, tác nhân có thể phát triển kho trí nhớ của mình theo những trải nghiệm mới, và đánh giá thực nghiệm xác nhận rằng tỷ lệ thành công cũng như hiệu quả của tác nhân được cải thiện dần trên TravelPlanner và ALFWorld. Đặc biệt, trí nhớ thủ tục được xây dựng từ các mô hình mạnh hơn vẫn giữ được giá trị của nó, và khi chuyển sang các mô hình yếu hơn thì cũng cho thấy hiệu quả cải thiện hiệu năng đáng kể.

Quá trình truy xuất trí nhớ thủ tục là thiết yếu để tác nhân có thể tìm ra những kinh nghiệm tương tự nhất cho các tác vụ mới một cách hiệu quả. Quá trình này được triển khai bằng cách sử dụng mô hình vector embedding để đo độ tương đồng và truy xuất ký ức phù hợp nhất. Ngoài ra, cơ chế cập nhật trí nhớ thủ tục được thiết kế để có thể thêm, xóa và sửa đổi một cách động khi số lượng tác vụ mà tác nhân thực hiện tăng lên. Cách tiếp cận toàn diện này góp phần tối đa hóa khả năng học của tác nhân và nâng cao năng lực thực hiện tác vụ trong nhiều môi trường khác nhau.

Bằng cách liên tục cải thiện trí nhớ thủ tục của tác nhân, $Mem^p$ mang lại những hàm ý quan trọng cho việc phát triển các hệ thống tác nhân trong tương lai và nhấn mạnh tầm quan trọng của trí nhớ thủ tục có thể học. Các kết quả nghiên cứu này được kỳ vọng sẽ đóng góp mang tính đổi mới trong việc tối đa hóa hiệu năng của tác nhân.

Tóm tắt bài báo (Abstract)

Các tác tử dựa trên mô hình ngôn ngữ lớn (LLM) thể hiện hiệu năng vượt trội trong nhiều tác vụ, nhưng gặp khó khăn với bộ nhớ thủ tục mong manh do được thiết kế thủ công hoặc bị ràng buộc vào các tham số tĩnh. Nghiên cứu này khảo sát các chiến lược nhằm trang bị cho tác tử một bộ nhớ thủ tục có thể học, có thể cập nhật và có thể sử dụng suốt vòng đời. Chúng tôi đề xuất $Mem^p$, chưng cất các quỹ đạo tác tử trong quá khứ thành cả hướng dẫn chi tiết từng bước lẫn các dạng trừu tượng cấp cao giống như kịch bản, đồng thời khám phá tác động của các chiến lược khác nhau đối với việc xây dựng (Build), truy xuất (Retrieval) và cập nhật (Update) bộ nhớ thủ tục. Kết hợp với một cơ chế động liên tục cập nhật, sửa chữa và loại bỏ nội dung, kho lưu trữ này tiến hóa song hành cùng trải nghiệm mới. Kết quả đánh giá thực nghiệm trên TravelPlanner và ALFWorld cho thấy khi kho bộ nhớ được tinh chỉnh, các tác tử đạt tỷ lệ thành công ngày càng cao và hiệu quả lớn hơn trên các tác vụ tương tự. Ngoài ra, bộ nhớ thủ tục được xây dựng từ mô hình mạnh hơn vẫn giữ nguyên giá trị; việc chuyển bộ nhớ thủ tục sang mô hình yếu hơn mang lại mức cải thiện hiệu năng đáng kể.
> Large Language Models (LLMs) based agents excel at diverse tasks, yet they suffer from brittle procedural memory that is manually engineered or entangled in static parameters. In this work, we investigate strategies to endow agents with a learnable, updatable, and lifelong procedural memory. We propose $Mem^p$ that distills past agent trajectories into both fine-grained, step-by-step instructions and higher-level, script-like abstractions, and explore the impact of different strategies for Build, Retrieval, and Update of procedural memory. Coupled with a dynamic regimen that continuously updates, corrects, and deprecates its contents, this repository evolves in lockstep with new experience. Empirical evaluation on TravelPlanner and ALFWorld shows that as the memory repository is refined, agents achieve steadily higher success rates and greater efficiency on analogous tasks. Moreover, procedural memory built from a stronger model retains its value: migrating the procedural memory to a weaker model yields substantial performance gains.

Liên kết bài báo

https://arxiv.org/abs/2508.06433

Khoảnh khắc AlphaGo cho khám phá kiến trúc mô hình / AlphaGo Moment for Model Architecture Discovery

Giới thiệu bài báo

ASI-Arch là một hệ thống siêu trí tuệ nhân tạo (ASI4AI) có khả năng khám phá hoàn toàn tự động các kiến trúc đột phá trong lĩnh vực tìm kiếm kiến trúc mạng nơ-ron. Vượt ra ngoài neural architecture search (NAS) vốn bị giới hạn trong không gian tìm kiếm do con người xác định trước, hệ thống này chuyển đổi mô hình từ tối ưu hóa tự động sang đổi mới tự động, tự mình thực hiện việc hình thành giả thuyết, triển khai, huấn luyện và kiểm chứng các khái niệm kiến trúc mới. Thông qua 1.773 thí nghiệm trong 20.000 giờ GPU, hệ thống đã khám phá 106 kiến trúc linear attention tiên tiến nhất, qua đó đề xuất các nguyên lý thiết kế mới vượt qua các nền tảng do con người thiết kế. Ngoài ra, nghiên cứu còn đưa ra các định luật mở rộng thực nghiệm cho chính quá trình khám phá khoa học, qua đó chứng minh rằng tiến bộ nghiên cứu có thể được chuyển đổi từ một quá trình bị giới hạn bởi nhận thức của con người sang một quá trình có thể mở rộng nhờ tài nguyên tính toán.

Tóm tắt bài báo (Abstract)

Trong khi các hệ thống AI cho thấy năng lực cải thiện theo cấp số nhân, tốc độ của chính hoạt động nghiên cứu AI vẫn bị giới hạn tuyến tính bởi năng lực nhận thức của con người, tạo ra nút thắt phát triển ngày càng nghiêm trọng. Bài báo này giới thiệu ASI-Arch, minh chứng đầu tiên về Siêu trí tuệ nhân tạo cho nghiên cứu AI (ASI4AI) trong lĩnh vực then chốt là khám phá kiến trúc mạng nơ-ron. Đây là một hệ thống hoàn toàn tự trị, vượt qua ràng buộc nền tảng này bằng cách cho phép AI tự thực hiện đổi mới kiến trúc. Vượt ra ngoài Neural Architecture Search (NAS) truyền thống, vốn bị giới hạn trong không gian tìm kiếm do con người định nghĩa, công trình này đưa ra sự chuyển dịch mô hình từ tối ưu hóa tự động sang đổi mới tự động. ASI-Arch thực hiện nghiên cứu khoa học end-to-end trong lĩnh vực khám phá kiến trúc, tự động giả thuyết hóa các khái niệm kiến trúc mới, hiện thực hóa chúng thành mã thực thi được, đồng thời huấn luyện và xác thực hiệu năng bằng thực nghiệm nghiêm ngặt cùng kinh nghiệm trong quá khứ. ASI-Arch đã thực hiện 1.773 thí nghiệm tự trị trong 20.000 giờ GPU, qua đó phát hiện 106 kiến trúc linear attention mang tính đổi mới và đạt trình độ tiên tiến nhất (SOTA). Tương tự nước đi thứ 37 của AlphaGo, vốn hé lộ những hiểu biết chiến lược bất ngờ mà người chơi con người không thể nhìn ra, các kiến trúc do AI này khám phá cho thấy những nguyên lý thiết kế mang tính xuất hiện, liên tục vượt qua các chuẩn đối chiếu do con người thiết kế và soi sáng những con đường đổi mới kiến trúc trước đây chưa từng được biết đến. Đặc biệt, chúng tôi thiết lập luật tỷ lệ thực nghiệm đầu tiên cho chính quá trình khám phá khoa học, chứng minh rằng đột phá kiến trúc có thể được mở rộng bằng tính toán, từ đó biến tiến bộ nghiên cứu từ một quá trình bị giới hạn bởi con người thành một quá trình có thể mở rộng theo năng lực tính toán. Bài báo cung cấp phân tích toàn diện về các mẫu thiết kế mang tính xuất hiện và năng lực nghiên cứu tự trị đã tạo ra những đột phá này, đồng thời đưa ra bản thiết kế cho các hệ thống AI tự gia tốc.
> While AI systems demonstrate exponentially improving capabilities, the pace of AI research itself remains linearly bounded by human cognitive capacity, creating an increasingly severe development bottleneck. We present ASI-Arch, the first demonstration of Artificial Superintelligence for AI research (ASI4AI) in the critical domain of neural architecture discovery--a fully autonomous system that shatters this fundamental constraint by enabling AI to conduct its own architectural innovation. Moving beyond traditional Neural Architecture Search (NAS), which is fundamentally limited to exploring human-defined spaces, we introduce a paradigm shift from automated optimization to automated innovation. ASI-Arch can conduct end-to-end scientific research in the domain of architecture discovery, autonomously hypothesizing novel architectural concepts, implementing them as executable code, training and empirically validating their performance through rigorous experimentation and past experience. ASI-Arch conducted 1,773 autonomous experiments over 20,000 GPU hours, culminating in the discovery of 106 innovative, state-of-the-art (SOTA) linear attention architectures. Like AlphaGo's Move 37 that revealed unexpected strategic insights invisible to human players, our AI-discovered architectures demonstrate emergent design principles that systematically surpass human-designed baselines and illuminate previously unknown pathways for architectural innovation. Crucially, we establish the first empirical scaling law for scientific discovery itself--demonstrating that architectural breakthroughs can be scaled computationally, transforming research progress from a human-limited to a computation-scalable process. We provide comprehensive analysis of the emergent design patterns and autonomous research capabilities that enabled these breakthroughs, establishing a blueprint for self-accelerating AI systems.

Liên kết bài báo

https://arxiv.org/abs/2507.18074

Khơi gợi năng lực của mô hình ngôn ngữ thông qua học không giám sát / Unsupervised Elicitation of Language Models

Giới thiệu bài báo

Khi điều chỉnh mô hình ngôn ngữ đã tiền huấn luyện cho các tác vụ cụ thể, các phương pháp hiện có đòi hỏi giám sát từ con người; tuy nhiên với những mô hình có năng lực siêu phàm, việc có được giám sát chất lượng cao từ con người là khó khăn hoặc bất khả thi. Để giải quyết vấn đề này, bài báo đề xuất Internal Coherence Maximization (ICM), một thuật toán học không giám sát tinh chỉnh mô hình bằng cách tận dụng các nhãn do chính mô hình tự tạo ra mà không cần giám sát bên ngoài. ICM đạt hiệu năng tương đương hoặc vượt trội so với phương pháp học có giám sát bởi con người trên nhiều benchmark, và đặc biệt cho kết quả tốt hơn học từ nhãn con người trên các tác vụ mà mô hình có năng lực vượt trội hơn con người. Ngoài ra, phương pháp này còn được dùng để huấn luyện reward model và các hệ thống phụ trợ cho các mô hình ngôn ngữ tiên tiến nhất, qua đó chứng minh mức cải thiện hiệu năng so với các mô hình được giám sát bởi con người.

Tóm tắt bài báo (Abstract)

Để điều chỉnh các mô hình ngôn ngữ đã tiền huấn luyện cho phù hợp với các tác vụ hạ nguồn, mô hình hậu huấn luyện (post-training) hiện nay dựa vào con người để chỉ định hành vi mong muốn. Tuy nhiên, với các mô hình có năng lực siêu nhân (superhuman), việc có được giám sát chất lượng cao từ con người là khó khăn hoặc bất khả thi. Để giải quyết thách thức này, chúng tôi giới thiệu một thuật toán học không giám sát mới, Internal Coherence Maximization (ICM), nhằm tinh chỉnh các mô hình ngôn ngữ đã tiền huấn luyện bằng chính các nhãn do chúng tự tạo ra, \emph{không cần giám sát bên ngoài}. Trên các tác vụ GSM8k-verification, TruthfulQA và mô hình hóa phần thưởng Alpaca, phương pháp của chúng tôi đạt hiệu năng tương đương với huấn luyện bằng giám sát chuẩn vàng (golden supervision) và vượt trội hơn huấn luyện bằng giám sát con người thu thập qua crowdsourcing. Ở những tác vụ mà năng lực của LM vượt xa con người một cách rõ rệt, phương pháp của chúng tôi có thể khai thác những năng lực đó hiệu quả hơn đáng kể so với huấn luyện bằng nhãn của con người. Cuối cùng, chúng tôi cho thấy phương pháp này có thể cải thiện việc huấn luyện các LM tiên phong: chúng tôi dùng phương pháp này để huấn luyện một mô hình phần thưởng không giám sát và sử dụng học tăng cường để huấn luyện một trợ lý dựa trên Claude 3.5 Haiku. Cả mô hình phần thưởng lẫn trợ lý này đều vượt trội hơn các đối tác được giám sát bởi con người.
> Để điều hướng các mô hình ngôn ngữ đã tiền huấn luyện cho các tác vụ hạ nguồn, mô hình hậu huấn luyện ngày nay dựa vào con người để xác định các hành vi mong muốn. Tuy nhiên, với các mô hình có năng lực siêu nhân, việc có được giám sát chất lượng cao từ con người là khó hoặc không thể. Để giải quyết thách thức này, chúng tôi giới thiệu một thuật toán không giám sát mới, Internal Coherence Maximization (ICM), để tinh chỉnh các mô hình ngôn ngữ đã tiền huấn luyện dựa trên chính các nhãn do chúng tạo ra, \emph{không cần giám sát bên ngoài}. Trên các tác vụ GSM8k-verification, TruthfulQA và mô hình hóa phần thưởng Alpaca, phương pháp của chúng tôi đạt hiệu năng ngang với huấn luyện bằng giám sát chuẩn vàng và vượt trội hơn huấn luyện bằng giám sát con người thu thập qua crowdsourcing. Trong các tác vụ mà năng lực của LM mang tính siêu nhân rõ rệt, phương pháp của chúng tôi có thể khơi gợi những năng lực đó tốt hơn đáng kể so với huấn luyện trên nhãn của con người. Cuối cùng, chúng tôi cho thấy phương pháp này có thể cải thiện việc huấn luyện các LM tuyến đầu: chúng tôi dùng phương pháp này để huấn luyện một mô hình phần thưởng không giám sát và sử dụng học tăng cường để huấn luyện một trợ lý dựa trên Claude 3.5 Haiku. Cả mô hình phần thưởng và trợ lý này đều vượt trội hơn các phiên bản được giám sát bởi con người tương ứng.

Liên kết bài báo

https://arxiv.org/abs/2506.10139

Bài viết này được biên soạn dựa trên nội dung tóm lược bằng mô hình GPT, nên có thể có những chỗ được tóm tắt khác với nội dung hoặc ý đồ của nguyên tác. Nếu bạn quan tâm đến chủ đề này, hãy tham khảo thêm cả nguyên văn! Nếu trong lúc đọc bạn phát hiện nội dung gượng gạo hoặc sai sót, mong bạn để lại bình luận để cho chúng tôi biết. 🤗
⚠️Quảng cáo⚠️ Bạn thấy bài viết do 🔥Cộng đồng người dùng PyTorch Hàn Quốc🇰🇷 tổng hợp này hữu ích chứ? Đăng ký thành viên để nhận các bài viết nổi bật qua email💌! (Mặc định là Weekly nhưng cũng có thể chuyển sang Daily.)

[2025/09/01 ~ 07] Tổng hợp các bài báo AI/ML đáng chú ý trong tuần này