[2026/06/08 ~ 14] Tổng hợp các bài báo AI/ML đáng chú ý trong tuần này
(discuss.pytorch.kr)PyTorchKR🔥🇰🇷 🤔💭
Nhìn vào 10 bài báo được chọn trong tuần này, có thể thấy nghiên cứu trí tuệ nhân tạo đang vượt ra ngoài việc đơn thuần cải thiện hiệu năng mô hình để bứt phá giới hạn ở ba xu hướng rõ rệt: tính tự chủ, độ tin cậy và hiệu quả.
1️⃣ Sự tiến hóa của tự cải thiện tự chủ và hệ thống đa tác tử: Các bài báo tuần này nổi bật với xu hướng các tác tử phát triển thành những hệ thống tự chủ có thể tự tổ chức và cải thiện điểm yếu của mình, vượt ra ngoài chỉ dẫn tường minh của con người hay quỹ đạo cố định. Economy of Minds và AutoScientists đề xuất các hệ thống hợp tác phân tán, nơi các tác tử tự nguyện phân chia vai trò và tiếp tục khám phá dài hạn thông qua tương tác kinh tế (đấu giá, tích lũy vốn) hoặc diễn đàn chia sẻ mà không cần điều khiển trung tâm. Ngoài ra, Self-Harness giới thiệu một framework trong đó tác tử phân tích các mẫu thất bại trong quá khứ của chính mình, rồi lặp đi lặp lại việc chỉnh sửa system prompt và chính sách vận hành (Harness) để tự nâng cao hiệu năng. Điều này cho thấy AI đang chuyển mình từ một công cụ thụ động thực hiện tác vụ đơn lẻ thành một chủ thể tiến hóa chủ động có khả năng lập kế hoạch dài hạn và cộng tác.
2️⃣ Kiểm chứng nghiêm ngặt năng lực AI và cách sử dụng bổ trợ (hybrid): Một xu hướng lớn khác là các nghiên cứu mang tính phản tư, chỉ ra những giới hạn thực chất đằng sau hiệu năng bề mặt của AI và tìm cách vượt qua chúng bằng cách kết hợp với con người hoặc các thuật toán cổ điển. LiveBrowseComp chỉ ra điểm mù rằng tác tử tìm kiếm trên thực tế thường chỉ xác nhận tri thức có sẵn bên trong mô hình hơn là phát hiện thông tin mới, còn nghiên cứu về AI reviewer chứng minh rằng AI rất giỏi phát hiện lỗi chi tiết nhưng yếu trong việc nắm bắt ngữ cảnh dài hạn, nên chưa thể thay thế hoàn toàn người phản biện mà chỉ là một "công cụ bổ trợ". Xa hơn, nghiên cứu tối ưu siêu tham số (HPO) xác nhận rằng khả năng theo dõi trạng thái của LLM kém hơn các thuật toán cổ điển, và đạt hiệu năng tốt nhất bằng cách dùng cách tiếp cận hybrid chia sẻ trạng thái nội bộ của phương pháp cổ điển (CMA-ES) với LLM. Đây là nỗ lực thực tế nhằm cảnh giác với các benchmark bị thổi phồng, nhận diện rõ điểm yếu của AI và thiết kế cấu trúc hợp tác hiệu quả nhất.
3️⃣ Tối ưu hóa thông minh dữ liệu, môi trường và tài nguyên tính toán: Thay vì chỉ tăng quy mô mô hình, nhiều hướng tiếp cận ở tầng hạ tầng đang tích cực tối đa hóa hiệu quả của môi trường huấn luyện, dữ liệu và phép tính phần cứng để nâng mật độ hiệu năng trên chi phí. AutoForge giải quyết khả năng mở rộng học tập bằng cách tự động tổng hợp các môi trường mô phỏng phức tạp cho reinforcement learning của tác tử độ khó cao, còn APEX cho thấy hiệu quả dữ liệu được tối đa hóa bằng cách phân loại động độ khó của dữ liệu và chỉ tập trung phép tính tối ưu prompt vào những dữ liệu chứa nhiều thông tin nhất. Bên cạnh đó, FP8 is All You Need vượt qua giới hạn của high-performance computing (HPC) vốn phụ thuộc vào FP64 chi phí cao bằng cách tận dụng phép toán tensor độ chính xác thấp 8-bit, và DySIB chứng minh hiệu quả toán học khi chỉ trích xuất thông tin động lực học cốt lõi từ dữ liệu quan sát nhiều chiều. Đây là những nỗ lực quyết liệt nhằm sử dụng tài nguyên hạn chế một cách thông minh nhất để mở rộng khả năng ứng dụng thực tiễn của hệ thống AI trong công nghiệp và khoa học.
Tóm tắt trọng tâm theo từng bài báo
-
Economy of Minds đề xuất một hệ thống phân tán trong đó các tác tử, dựa trên quy tắc tương tác kinh tế cho phép giành quyền hành động thông qua đấu giá và tích lũy tài sản từ phần thưởng môi trường mà không cần điều khiển tập trung, tự nguyện tiến hóa và hình thành trí tuệ tập thể bậc cao như suy luận nhiều bước.
-
AutoForge trình bày một pipeline tích hợp ở cấp độ môi trường, tự động tổng hợp hàng loạt môi trường mô phỏng khó có thể kiểm chứng cho reinforcement learning hiệu quả của các language agent quy mô lớn, đồng thời vượt qua sự bất ổn của người dùng và tính dị biệt giữa các môi trường để cải thiện độ ổn định huấn luyện.
-
APEX được thiết kế để khắc phục sự kém hiệu quả hiện có khi lãng phí toàn bộ tập dữ liệu đánh giá trong quá trình tối ưu prompt cho large language model, bằng cách động chọn vùng pha trộn nơi đáp án đúng và sai đan xen để tối đa hóa hiệu quả dữ liệu trong ngân sách tính toán hạn chế.
-
Self-Harness giới thiệu một framework trong đó tác tử, không cần sự can thiệp của chuyên gia con người hay hỗ trợ từ mô hình bên ngoài mạnh hơn, tự phân tích các mẫu thất bại được tìm thấy trong execution trace quá khứ và sau khi đi qua regression test sẽ tự chủ sửa đổi chính sách vận hành đóng vai trò trung gian cho tương tác giữa bản thân và môi trường.
-
nghiên cứu autoresearch cho thấy large language model vẫn chưa thể hoàn toàn vượt qua các thuật toán cổ điển trong môi trường tối ưu siêu tham số do khó khăn trong việc theo dõi trạng thái tường minh, đồng thời đề xuất cách tiếp cận hybrid chia sẻ trạng thái nội bộ của covariance matrix adaptation evolution strategy với language model để đạt hiệu năng tốt nhất.
-
FP8 is All You Need phản bác quan niệm rằng phần cứng dấu phẩy động độ chính xác kép native là điều thiết yếu trong high-performance computing, và chứng minh rằng có thể khôi phục hiệu năng thực thi mà không mất độ chính xác bằng cách kết hợp định lý phần dư Trung Hoa với phép toán tensor độ chính xác thấp 8-bit để tối đa hóa thông lượng tensor.
-
nghiên cứu về AI reviewer phân tích đa tầng rằng AI có thể đóng vai trò công cụ bổ trợ xuất sắc khi chỉ ra những vấn đề độc đáo mà con người bỏ sót, dựa trên kết quả 45 chuyên gia trong lĩnh vực chú thích và kiểm chứng quy mô lớn các bài báo thuộc hệ Nature, nhưng cũng có các giới hạn cấu trúc như quản lý ngữ cảnh dài hay thiếu tri thức ngầm của từng lĩnh vực cụ thể.
-
LiveBrowseComp chẩn đoán hiện tượng các search agent hiện có phụ thuộc vào việc tái xác nhận tri thức vốn đã nội tại thay vì khám phá sự thật mới từ web bên ngoài, đồng thời giới thiệu một benchmark mới để đánh giá nghiêm ngặt năng lực deep search thực sự đối với các sự kiện mới phát sinh vượt ra ngoài biên giới tri thức của mô hình.
-
DySIB đề xuất một phương pháp học chính xác và có thể diễn giải các tọa độ hình học của không gian pha thấp chiều chi phối động lực học của hệ thống bằng cách cực đại hóa lượng thông tin tương hỗ dự đoán giữa cửa sổ quan sát quá khứ và tương lai trong dữ liệu quan sát chuỗi thời gian nhiều chiều, mà không cần trực tiếp khôi phục ảnh thô.
-
AutoScientists xây dựng một hệ thống nghiên cứu tự chủ, trong đó nhóm tác tử phân tán tự thảo luận, tự tổ chức và xử lý chu trình lặp gồm thiết lập giả thuyết, chạy thí nghiệm, phân tích kết quả và chỉnh sửa vốn cần thiết trong các thí nghiệm khoa học tính toán dài hạn, qua đó bảo tồn tri thức từ những lần khám phá thất bại và hợp tác theo những hướng triển vọng.
Kinh tế của tâm trí: Trí tuệ đa tác tử trỗi dậy thông qua tương tác kinh tế / Economy of Minds: Emerging Multi-Agent Intelligence with Economic Interactions
Giới thiệu bài báo
Nghiên cứu này, bàn về việc làm thế nào nhiều tác tử có thể tự phát tiến hóa thành trí tuệ tập thể mạnh hơn mà không cần điều khiển tập trung, rất đáng chú ý ở chỗ nó đưa lý thuyết điều phối thị trường phân tán của Friedrich Hayek vào lĩnh vực trí tuệ nhân tạo đa tác tử. Để làm được điều đó, các tác giả đề xuất một khuôn khổ gọi là agent economy, trong đó mỗi tác tử không chỉ đơn thuần hợp tác mà còn được thiết kế để giành quyền hành động thông qua đấu giá (auction), thanh toán qua lại cho nhau, và tích lũy tài sản từ phần thưởng thu được trong môi trường. Những tín hiệu kinh tế này cho phép phân bổ công lao đóng góp theo cách phân tán giữa các tác tử (decentralized credit assignment) ngay cả khi không có điều phối toàn cục riêng biệt hay giao thức truyền thông tường minh, đồng thời khiến giá trị của từng hành động tự nhiên bộc lộ. Kết quả là kế hoạch không bị áp đặt từ bên ngoài, mà được hình thành nội tại trong quá trình mỗi tác tử theo đuổi động cơ kinh tế của riêng mình. Nói cách khác, đây là cách tiếp cận nuôi dưỡng tư duy tập thể bằng cách thiết lập tốt chính các quy tắc tương tác, thay vì thiết kế tinh vi các cơ chế hợp tác phức tạp.
Một điểm cốt lõi khác của bài báo này là hệ thống không đứng yên trong cấu trúc cố định mà liên tục tiến hóa thông qua economic selection. Các tác tử hiệu quả tích lũy được nhiều tài sản hơn và nhận được cơ hội cải thiện thiên về khai thác (exploitation), trong khi các tác tử có hiệu quả thấp mất dần tài nguyên và bị thay thế bằng tác tử mới, từ đó mở ra con đường cho khám phá (exploration). Thiết kế dùng tài sản (wealth) làm biến trạng thái như vậy vượt ra ngoài tối ưu tham số đơn thuần để hình thành một cơ chế tiến hóa phân tán, nơi động cơ cục bộ của từng tác tử (local incentives) được kết nối với hiệu năng tập thể dài hạn (long-term global performance). Đặc biệt quan trọng là ngay cả khi bắt đầu từ các tác tử ban đầu còn yếu, những chiến lược hành vi tinh vi hơn vẫn có thể dần được tích lũy và kết hợp thông qua động lực kinh tế này. Các tác giả cho thấy trong quá trình đó, các hành vi bậc cao như suy luận nhiều bước (multi-step reasoning) có thể tự phát xuất hiện, và lập luận rằng tác tử có thể phát triển vượt khỏi chính sách phản ứng đơn giản để tiến tới các chiến lược bao gồm cả lập kế hoạch và kiểm chứng.
Về mặt thực nghiệm, nghiên cứu kiểm chứng hiệu quả của hệ thống kinh tế này trên năm tác vụ dạng agent: suy luận toán học, nghiên cứu tài chính, nghiên cứu khoa học, thiết kế bộ gia tốc (accelerator design) và tối ưu hóa hệ thống phân tán (distributed-system optimization). Kết quả cho thấy phương pháp được đề xuất đạt hiệu năng vượt trội so với mô hình đơn khối (monolithic baseline) mạnh hơn, qua đó gợi ý rằng việc mở rộng trí tuệ đa tác tử không nhất thiết phải phụ thuộc vào điều phối tập trung. Thông điệp cốt lõi mà nghiên cứu này đưa ra là: thay vì trực tiếp thiết kế sự phối hợp, cần thiết kế cấu trúc khuyến khích để sự phối hợp đó tự nhiên hình thành. Nghiên cứu lập luận rằng các cơ chế kinh tế đơn giản như đấu giá, thanh toán, tài sản, phá sản và thay thế có thể đồng thời tổ chức cạnh tranh lẫn hợp tác, và trong quá trình đó tạo ra một cách emergent các chiến lược suy luận và giải quyết vấn đề tốt hơn. Xa hơn nữa, các tác giả cũng đưa ra những hiểu biết lý thuyết về cách động lực kinh tế định hình hành vi của agent, cho thấy hiện tượng này không phải là kết quả thực nghiệm ngẫu nhiên mà là một không gian thiết kế khả thi dựa trên nguyên lý. Cuối cùng, bài báo này giải thích cách các cấu trúc khuyến khích phân tán có thể thúc đẩy sự phát triển của trí tuệ tập thể, đồng thời đề xuất một mô hình mới cho việc thiết kế trí tuệ nhân tạo đa tác tử trong tương lai.
Tóm tắt (Abstract)
Làm thế nào để một quần thể agent có thể tự điều phối và tự thích nghi để phát triển thành trí tuệ tập thể mạnh hơn mà không cần kiểm soát tập trung? Lấy cảm hứng từ lý thuyết kinh tế về điều phối phi tập trung trong thị trường của Friedrich Hayek, chúng tôi nghiên cứu câu hỏi này thông qua một nền kinh tế tác tử, trong đó các agent cạnh tranh qua đấu giá để giành quyền hành động, trao đổi thanh toán và tích lũy tài sản từ phần thưởng của môi trường. Những tín hiệu kinh tế đơn giản này tạo ra cơ chế phân bổ công trạng phi tập trung, dẫn dắt quá trình lập kế hoạch mà không cần điều phối toàn cục hay các giao thức liên lạc tường minh. Quần thể tiến hóa thông qua chọn lọc kinh tế. Các agent hiệu quả sẽ tích lũy tài sản và bị biến đổi thông qua khai thác (exploitation), trong khi các agent kém hiệu quả sẽ phá sản và được thay thế thông qua khám phá (exploration). Chúng tôi cho thấy rằng ngay cả khi được khởi tạo với các agent yếu, nền kinh tế này vẫn tạo ra các chiến lược suy luận nhiều bước mang tính emergent và vượt qua các baseline đơn khối mạnh hơn trên 5 tác vụ dạng agent, bao gồm suy luận toán học, nghiên cứu tài chính, nghiên cứu khoa học, thiết kế bộ gia tốc và tối ưu hóa hệ thống phân tán. Chúng tôi cũng đưa ra các hiểu biết lý thuyết về cách động lực kinh tế định hình hành vi của agent, giải thích cách các khuyến khích cục bộ liên kết với hiệu năng toàn cục trong dài hạn. Kết quả của chúng tôi gợi mở một con đường mới cho trí tuệ đa tác tử: thay vì thiết kế trực tiếp sự phối hợp, chúng ta có thể thiết kế các cấu trúc khuyến khích phân tán để sự phối hợp đó tự động xuất hiện.
How can a population of agents self-orchestrate and self-adapt into stronger collective intelligence without centralized control? Inspired by Friedrich Hayek's economic theory of decentralized coordination in markets, we study this question through an agent economy in which agents compete via auctions for the right to act, exchange payments, and accumulate wealth from environmental rewards. These simple economic signals induce decentralized credit assignment, driving planning without global orchestration or explicit communication protocols. The population evolves through economic selection: effective agents accumulate wealth and are mutated via exploitation, while ineffective ones go bankrupt and are replaced via exploration. We show that, initialized with weak agents, the economy produces emergent multi-step reasoning strategies and outperforms stronger monolithic baselines across five agentic tasks, including mathematical reasoning, financial research, scientific research, accelerator design, and distributed-system optimization. We further provide theoretical insights into how economic dynamics shape agent behaviors, linking local incentives to long-term global performance. Our results suggest a new path to multi-agent intelligence: rather than engineering coordination, we can design decentralized incentive structures under which it automatically emerges.
Liên kết bài báo
https://arxiv.org/abs/2606.02859
Đọc thêm
https://zhentingqi.github.io/internal/projects/EoM/
https://github.com/zhentingqi/EoM
AutoForge: Tổng hợp môi trường tự động cho học tăng cường tác tử / AutoForge: Automated Environment Synthesis for Agentic Reinforcement Learning
Giới thiệu bài báo
Để huấn luyện các agent dựa trên ngôn ngữ quy mô lớn theo hướng gần với thực tế hơn, cần đồng thời có một phương pháp sản xuất hàng loạt ổn định các môi trường mô phỏng chi phí thấp nhưng đủ phức tạp, và một quy trình học có thể chịu được nhiễu tương tác phát sinh trong các môi trường đó. Để giải quyết vấn đề này, AutoForge đề xuất một pipeline tích hợp nhằm tự động tổng hợp các môi trường mô phỏng gắn với những tác vụ có độ khó cao nhưng dễ kiểm chứng (high-difficulty but easily verifiable tasks), cùng với một thuật toán học tăng cường ở cấp độ môi trường (reinforcement learning, RL) được thiết kế phù hợp với đặc tính của các môi trường đó. Ý tưởng cốt lõi là xem môi trường không phải như một tập hợp prompt đơn giản mà như một hệ thống có thể thực thi, được cấu thành từ cấu trúc trạng thái và tập hợp các hàm thao tác, rồi tạo ra các môi trường như vậy ở quy mô lớn dựa trên tài liệu mô tả công cụ. Cụ thể, trong quá trình tạo cấu trúc trạng thái, nghiên cứu tách riêng tên thuộc tính và giá trị thực tế; còn trong quá trình tạo tập hàm, nghiên cứu tự động tổng hợp mã Python phụ thuộc vào cấu trúc trạng thái, nhờ đó có thể nhất quán đặt nhiều tác vụ khác nhau lên trên các schema môi trường có thể tái sử dụng.
Sau đó, ở giai đoạn tạo chuỗi công cụ, thay vì chỉ liệt kê công cụ một cách đơn giản, hệ thống xây dựng một đồ thị có hướng không chu trình (directed acyclic graph, DAG) đan xen giữa lời gọi công cụ và suy luận bậc cao thông qua random walk dựa trên đồ thị, hợp nhất chuỗi, chèn nút suy luận và chèn cạnh suy luận. Quy trình này nhằm tạo ra các tác vụ đòi hỏi mức độ phụ thuộc phức tạp hơn nhiều so với các bài toán truy xuất đơn lẻ, từ đó mang lại độ khó gần hơn với quá trình mà agent thực tế phải gọi công cụ, diễn giải kết quả rồi quyết định hành động tiếp theo. Đồ thị được tạo ra sau đó lại được chuyển sang giai đoạn tạo tác vụ để tinh luyện thành các mẫu huấn luyện có thể kiểm chứng, bao gồm cả trạng thái ban đầu lẫn trạng thái cuối cùng; tính đúng đắn không được đánh giá dựa trên việc trùng khớp một đường đi công cụ cụ thể mà dựa trên việc trạng thái cuối cùng có trùng khớp hay không. Điểm này phản ánh đặc tính của môi trường tác tử, nơi cùng một mục tiêu có thể đạt được bằng nhiều con đường khác nhau, và có ý nghĩa ở chỗ đã căn chỉnh cả việc tạo dữ liệu lẫn tiêu chí đánh giá theo hướng lấy trạng thái làm trung tâm.
Thuật toán học ERPO mở rộng GRPO hiện có để đồng thời xử lý tính bất ổn của người dùng mô phỏng (simulated user) và tính dị biệt giữa các môi trường. Tác tử thực hiện rollout bằng cách luân phiên gọi công cụ và yêu cầu thông tin từ người dùng; trong quá trình này, thông qua interleaved thinking, nó tiếp tục lập kế hoạch và tái lập kế hoạch dài hạn trong khi vẫn giữ lại nội dung suy luận trước đó. Ngoài ra, bằng cách áp dụng chiến lược masking erroneous user behaviors (MEU) nhằm nhận diện trước các hành vi sai lệch của người dùng và loại chúng khỏi tín hiệu học, phương pháp này giảm vấn đề lỗi từ người dùng tổng hợp làm nhiễm bẩn việc ước lượng phần thưởng và cập nhật chính sách. Đóng góp quan trọng nhất là environment-level advantage estimation: thay vì tính advantage bằng cách chuẩn hóa phần thưởng theo cùng một nhóm câu hỏi, phương pháp này chuẩn hóa phần thưởng bên trong cùng một môi trường để tính advantage, nhờ đó ít nhạy cảm hơn với chênh lệch độ khó và các ngoại lệ giữa những môi trường khác nhau, đồng thời tăng độ ổn định trong huấn luyện.
Xét cho cùng, thiết kế này gắn kết ba tầng gồm tạo môi trường, quy trình tương tác và ước lượng phần thưởng vào một khung nhất quán duy nhất, có thể xem là nỗ lực nhằm đồng thời bảo đảm khả năng mở rộng, tính ổn định và khả năng khái quát hóa mà học tăng cường dạng tác tử đòi hỏi. Việc kiểm chứng trên tau-bench, tau2-Bench và VitaBench, cùng với phân tích về khả năng khái quát ngoài miền, cho thấy AutoForge có thể hoạt động như hạ tầng nền tảng cho huấn luyện tác tử thực tế, vượt ra ngoài vai trò của một kỹ thuật tạo dữ liệu tổng hợp đơn thuần.
Tóm tắt(Abstract)
Việc thực hiện học tăng cường (RL) trong các môi trường mô phỏng mang lại một phương thức hiệu quả về chi phí và có khả năng mở rộng rất cao để cải thiện các tác tử dựa trên ngôn ngữ. Tuy nhiên, các nghiên cứu trước đây bị giới hạn ở tổng hợp môi trường bán tự động hoặc các tác vụ thiếu đủ độ khó, nên còn thiếu cả bề rộng lẫn chiều sâu. Ngoài ra, tính bất ổn của người dùng mô phỏng được tích hợp trong các môi trường này, cùng với tính dị biệt giữa các môi trường mô phỏng, còn đặt ra thêm thách thức cho RL dạng tác tử. Trong nghiên cứu này, chúng tôi đề xuất: (1) một pipeline thống nhất để tổng hợp tự động và có khả năng mở rộng các môi trường mô phỏng gắn với các tác vụ có độ khó cao nhưng dễ kiểm chứng; và (2) một thuật toán RL ở cấp môi trường không chỉ giảm thiểu hiệu quả sự bất ổn của người dùng mà còn thực hiện advantage estimation ở cấp môi trường, từ đó cải thiện hiệu quả và độ ổn định của huấn luyện. Các đánh giá toàn diện trên các benchmark tác tử, bao gồm tau-bench, tau2-Bench và VitaBench, xác thực hiệu quả của phương pháp được đề xuất. Các phân tích chuyên sâu bổ sung nhấn mạnh khả năng khái quát hóa ngoài miền của phương pháp.
Conducting reinforcement learning (RL) in simulated environments offers a cost-effective and highly scalable way to enhance language-based agents. However, previous work has been limited to semi-automated environment synthesis or tasks lacking sufficient difficulty, offering little breadth or depth. In addition, the instability of simulated users integrated into these environments, along with the heterogeneity across simulated environments, poses further challenges for agentic RL. In this work, we propose: (1) a unified pipeline for automated and scalable synthesis of simulated environments associated with high-difficulty but easily verifiable tasks; and (2) an environment level RL algorithm that not only effectively mitigates user instability but also performs advantage estimation at the environment level, thereby improving training efficiency and stability. Comprehensive evaluations on agentic benchmarks, including tau-bench, tau2-Bench, and VitaBench, validate the effectiveness of our proposed method. Further in-depth analyses underscore its out-of-domain generalization.
Liên kết bài báo
https://arxiv.org/abs/2512.22857
APEX: chuyên gia kỹ nghệ prompt tự động với lựa chọn dữ liệu động / APEX: Automated Prompt Engineering eXpert with Dynamic Data Selection
Giới thiệu bài báo
Vì các mô hình ngôn ngữ lớn (Large Language Models, LLMs) rất nhạy với cách diễn đạt của prompt, nên tối ưu hóa prompt tự động (automatic prompt optimization) trở thành một bài toán cốt lõi để khai thác đầy đủ tiềm năng của chúng. Các cách tiếp cận dựa trên evolutionary algorithms hiện có tỏ ra mạnh trong việc dần dần biến đổi prompt, nhưng cũng bộc lộ hạn chế là tiêu tốn ngân sách tính toán kém hiệu quả do lặp đi lặp lại việc sử dụng tập dữ liệu phát triển như một tài nguyên đánh giá cố định. APEX (Automatic Prompt Engineering eXpert) đề xuất một khung mới để giải quyết nút thắt này bằng cách đồng thời tối ưu hóa việc khám phá prompt và sử dụng dữ liệu. Trọng tâm của phương pháp là chiến lược tái cấu trúc động tập dữ liệu thành ba tầng Easy, Hard và Mixed theo optimization lineage; trong đó tầng Mixed, nơi đồng thời xuất hiện cả câu trả lời đúng và sai của mô hình, được xem là vùng có lượng thông tin cao nhất. Góc nhìn này cho thấy rõ rằng, thay vì chỉ xem thật nhiều ví dụ, điều quan trọng hơn là xác định ví dụ nào thực sự cung cấp tín hiệu hữu ích cho việc cải thiện prompt.
APEX trích xuất hai frontier giá trị cao từ tầng Mixed. Một là addressable frontier, thuận lợi cho việc tạo ra các biến thể giàu thông tin; frontier còn lại là rank-sensitive frontier, nhạy trong việc phân biệt hơn kém giữa các prompt ứng viên. Frontier thứ nhất cung cấp định hướng cho việc chỉnh sửa prompt, còn frontier thứ hai giúp xác định biến thể nào thực sự dẫn tới hiệu năng tốt hơn; vì vậy, hai frontier này bổ sung cho nhau về vai trò khám phá và đánh giá. Đặc biệt, khác với các phương pháp trước đây xử lý toàn bộ tập dữ liệu theo kiểu đồng loạt, cấu trúc này nâng cao đáng kể hiệu quả dữ liệu bằng cách tập trung tính toán vào những mẫu có ý nghĩa nhất ở giai đoạn tối ưu hiện tại. Nói cách khác, thay vì thay đổi prompt thật nhiều một cách mù quáng, APEX tấn công có chiến lược vào những điểm mà hành vi của mô hình bất ổn nhất và vì thế chứa nhiều thông tin nhất. Thiết kế này tái định nghĩa tối ưu hóa prompt không phải là một bài toán sinh đơn thuần, mà là một bài toán khám phá thích ứng kết hợp giữa lựa chọn dữ liệu và so sánh ứng viên.
Về thực nghiệm, APEX được kiểm chứng trên ba benchmark có tính chất khác nhau là IFBench, SimpleQA Verified và FACTS Grounding, đồng thời cho thấy mức cải thiện ổn định ngay cả trong điều kiện ngân sách cố định 5.000 lượt gọi đánh giá. Kết quả cho thấy so với prompt ban đầu, phương pháp đạt mức cải thiện hiệu năng trung bình 11,2% trên Gemini 2.5 Flash và 6,8% trên Gemma 3 27B, qua đó chứng minh tầm quan trọng của cách tiếp cận lấy dữ liệu làm trung tâm đối với tối ưu hóa prompt vừa hiệu quả vừa mạnh mẽ. Thành quả này có ý nghĩa ở chỗ APEX không chỉ dừng ở việc cải thiện thuật toán khám phá, mà còn chứng minh thực nghiệm rằng thành bại của prompt engineering phụ thuộc vào việc chọn dữ liệu nào, khi nào và bằng cách nào. Cuối cùng, nghiên cứu này chuyển trọng tâm của tối ưu hóa prompt tự động từ “nhiều đánh giá hơn” sang “sử dụng dữ liệu thông minh hơn”, đồng thời đưa ra một phương pháp luận thực tiễn và có khả năng khái quát để đạt hiệu năng cao hơn trong giới hạn tài nguyên tính toán.
Tóm tắt(Abstract)
Các mô hình ngôn ngữ lớn (LLM) rất nhạy với cách xây dựng prompt, vì vậy cần tối ưu hóa prompt tự động để khai thác tối đa tiềm năng của chúng. Dù các thuật toán tiến hóa đã nổi lên như mô hình chủ đạo, chúng lại gặp phải một nút thắt nghiêm trọng: hiệu quả dữ liệu. Các phương pháp hiện nay xem tập dữ liệu phát triển như một benchmark tĩnh, khiến một phần đáng kể ngân sách tính toán bị lãng phí vào dữ liệu ít thông tin. Nghiên cứu này giới thiệu APEX (Automatic Prompt Engineering eXpert), một framework mới tối ưu hóa việc sử dụng dữ liệu song song với quá trình tìm kiếm prompt. APEX phân tầng tập dữ liệu một cách động thành các lớp Easy, Hard và Mixed dựa trên phả hệ tối ưu hóa. Bằng cách ưu tiên lớp Mixed, nơi xác định các dữ liệu mà hiệu năng của LLM bị phân hóa, chúng tôi tìm ra hai tập con có hiệu quả rất cao. Một là addressable frontier để tạo ra các biến thể giàu thông tin, và tập còn lại là rank-sensitive frontier để phân biệt chất lượng của các ứng viên. Chúng tôi đánh giá APEX trên ba benchmark đa dạng là IFBench, SimpleQA Verified và FACTS Grounding. Với ngân sách cố định là 5.000 lần gọi đánh giá, nhờ hiệu quả dữ liệu vượt trội, APEX cho hiệu năng cao hơn prompt ban đầu trung bình 11,2% trên Gemini 2.5 Flash và 6,8% trên Gemma 3 27B, cho thấy cách tiếp cận lấy dữ liệu làm trung tâm là chìa khóa cho tối ưu hóa prompt vừa hiệu quả vừa hữu dụng.
Large Language Models are highly sensitive to prompt formulation, necessitating automatic prompt optimization to unlock their full potential. While evolutionary algorithms have emerged as the dominant paradigm, they suffer from a critical bottleneck: data efficiency. Current methods treat the development dataset as a static benchmark, wasting significant compute budget on uninformative data. In this work, we introduce APEX (Automatic Prompt Engineering eXpert), a novel framework that optimizes the data usage alongside the prompt search. APEX dynamically stratifies the dataset into Easy, Hard, and Mixed tiers based on the optimization lineage. By prioritizing the Mixed tier, which identifies the data where the LLM has mixed performance, we identify two high-leverage subsets: the addressable frontier for generating informative mutations and the rank-sensitive frontier for distinguishing candidate quality. We evaluate APEX across three diverse benchmarks: IFBench, SimpleQA Verified, and FACTS Grounding. Under a fixed budget of 5,000 evaluation calls, due to its data efficiency, APEX outperforms the initial prompt by an average of 11.2% on Gemini 2.5 Flash and 6.8% on Gemma 3 27B, demonstrating that a data-centric approach is key to efficient and effective prompt optimization.
Liên kết bài báo
https://arxiv.org/abs/2606.11459
Self-Harness: Harness tự cải thiện chính mình / Self-Harness: Harnesses That Improve Themselves
Giới thiệu bài báo
Hiệu năng của các tác tử dựa trên mô hình ngôn ngữ lớn (Large Language Model, LLM) không chỉ được quyết định bởi năng lực suy luận của mô hình nền, mà còn chịu ảnh hưởng rất lớn từ thiết kế harness, thứ làm trung gian cho sự tương tác với môi trường. Harness là một lớp vận hành bao trùm từ system prompt, cách sử dụng công cụ, quy trình kiểm chứng cho đến chính sách phục hồi khi thất bại; vì vậy, ngay cả cùng một mô hình cũng có thể thể hiện các kiểu hành vi hoàn toàn khác nhau tùy theo harness được áp dụng. Chính từ điểm này, các tác giả đặt ra vấn đề rằng harness không nên tiếp tục là một tài sản cố định chỉ do chuyên gia con người thiết kế thủ công, mà cần có khả năng tự cải thiện dựa trên các mẫu thất bại thực tế của mô hình. Từ góc nhìn đó, Self-Harness cho thấy một mô hình mới, trong đó tác tử dựa trên LLM có thể lặp đi lặp lại việc cải thiện harness vận hành của chính mình mà không phụ thuộc vào một tác tử bên ngoài mạnh hơn hay kỹ sư con người.
Phương pháp cốt lõi của Self-Harness nằm ở một vòng lặp lặp lại gồm Weakness Mining, Harness Proposal và Proposal Validation. Trước hết, hệ thống tìm ra các mẫu thất bại theo từng mô hình từ execution traces để chẩn đoán một cách có cấu trúc những hành vi nào đang lặp đi lặp lại và làm suy giảm hiệu năng. Tiếp theo, nó tạo ra đa dạng các đề xuất chỉnh sửa harness ở mức tối thiểu, liên kết trực tiếp với các điểm yếu đó, hướng đến những chỉnh sửa cục bộ nhằm tinh chỉnh chính sách vận hành thực tế thay vì các thay đổi quá lớn. Cuối cùng, chỉ sau khi xác minh qua regression testing rằng chỉnh sửa ứng viên không làm tổn hại đến hiệu năng hiện có thì đề xuất mới được chấp nhận, qua đó hình thành một cơ chế cải tiến an toàn và có thể tích lũy, chứ không chỉ là prompt tuning đơn thuần. Thiết kế này hiện thực hóa về mặt kỹ thuật ý tưởng rằng harness vừa chỉ đạo hành vi của mô hình, vừa có thể được học lại từ chính các thất bại của mô hình.
Bài báo đã kiểm chứng framework này trong môi trường Terminal-Bench-2.0, ban đầu chỉ sử dụng một harness rất đơn giản, rồi áp dụng cho ba mô hình nền thuộc các họ khác nhau là MiniMax M2.5, Qwen3.5-35B-A3B và GLM-5. Kết quả thực nghiệm cho thấy tỷ lệ vượt qua holdout tăng lần lượt từ 40,5% lên 61,9%, từ 23,8% lên 38,1% và từ 42,9% lên 57,1%, cho thấy Self-Harness có thể tạo ra hiệu quả cải thiện nhất quán bất kể loại mô hình. Đặc biệt, phân tích định tính cho thấy sự cải thiện không chỉ đến từ việc thêm vào các chỉ dẫn chung chung, mà là quá trình chuyển hóa điểm yếu của từng mô hình thành các thay đổi harness cụ thể và có thể thực thi. Điều này gợi ý mạnh mẽ rằng nút thắt trong việc cải thiện hiệu năng tác tử không chỉ nằm bên trong các tham số mô hình, mà ngay cả việc học tinh vi hơn các chính sách vận hành cũng có thể mang lại cải thiện hiệu năng thực chất. Kết quả là, Self-Harness đề xuất một hướng nghiên cứu mới, trong đó tác tử dựa trên LLM không chỉ được định hình bởi harness mà còn có thể định hình lại chính harness đó.
Tóm tắt(Abstract)
Hiệu năng của các tác nhân dựa trên LLM được định hình đồng thời bởi mô hình nền và harness làm trung gian cho tương tác của chúng với môi trường. Vì các mô hình khác nhau thể hiện những hành vi khác nhau, thiết kế harness hiệu quả về bản chất là đặc thù theo từng mô hình. Tuy nhiên, harness cho tác nhân hiện vẫn phần lớn do chuyên gia con người thiết kế, một cách tiếp cận khó mở rộng khi các LLM hiện đại ngày càng đa dạng và tiến hóa nhanh. Bài báo này giới thiệu Self-Harness, một mô hình mới trong đó tác nhân dựa trên LLM tự cải thiện harness vận hành của chính mình mà không phụ thuộc vào kỹ sư con người hay tác nhân bên ngoài mạnh hơn. Chúng tôi hiện thực hóa Self-Harness dưới dạng một vòng lặp lặp gồm ba giai đoạn. Khai phá điểm yếu (Weakness Mining) xác định các mẫu thất bại đặc thù theo mô hình từ dấu vết thực thi; Đề xuất harness (Harness Proposal) tạo ra các chỉnh sửa harness đa dạng nhưng tối thiểu gắn với các thất bại này; và Xác thực đề xuất (Proposal Validation) chỉ chấp nhận các chỉnh sửa ứng viên sau khi vượt qua kiểm thử hồi quy. Chúng tôi áp dụng Self-Harness lên Terminal-Bench-2.0 bằng một harness khởi đầu tối giản và ba mô hình nền thuộc các họ khác nhau: MiniMax M2.5, Qwen3.5-35B-A3B và GLM-5. Trên cả ba mô hình, Self-Harness đều cải thiện hiệu năng một cách nhất quán, với tỷ lệ vượt qua trên tập holdout tăng lần lượt từ 40,5% lên 61,9%, từ 23,8% lên 38,1% và từ 42,9% lên 57,1%. Phân tích định tính cũng cho thấy Self-Harness không chỉ đơn giản thêm các chỉ dẫn chung chung, mà còn chuyển hóa hiệu quả các điểm yếu đặc thù của mô hình thành những thay đổi harness cụ thể và có thể thực thi. Các kết quả này gợi mở một hướng đi tới các tác nhân dựa trên LLM không chỉ bị định hình bởi harness của chúng, mà còn có thể tham gia tái định hình chính harness đó.
The performance of LLM-based agents is jointly shaped by their base models and the harnesses that mediate their interaction with the environment. Because different models exhibit distinct behaviors, effective harness design is inherently model-specific. Yet agent harnesses are still largely engineered by human experts, a paradigm that scales poorly as modern LLMs become increasingly diverse and rapidly evolving. In this paper, we introduce Self-Harness, a new paradigm in which an LLM-based agent improves its own operating harness, without relying on human engineers or stronger external agents. We operationalize Self-Harness as an iterative loop with three stages: Weakness Mining, which identifies model-specific failure patterns from execution traces; Harness Proposal, which generates diverse yet minimal harness modifications tied to these failures; and Proposal Validation, which accepts candidate edits only after regression testing. We instantiate Self-Harness on Terminal-Bench-2.0 using a minimal initial harness and three base models from diverse families: MiniMax M2.5, Qwen3.5-35B-A3B, and GLM-5. Across all three models, Self-Harness consistently improves performance, with held-out pass rates increasing from 40.5% to 61.9%, 23.8% to 38.1%, and 42.9% to 57.1%, respectively. Qualitative analyses further show that Self-Harness does not simply add generic instructions, but effectively turns model-specific weaknesses into concrete, executable harness changes. These results suggest a path toward LLM-based agents that are not merely shaped by their harnesses, but can also participate in reshaping them.
Liên kết bài báo
https://arxiv.org/abs/2606.09498
Liệu mô hình ngôn ngữ lớn (LLM) có thể vượt qua các thuật toán tối ưu siêu tham số cổ điển không? Nghiên cứu về autoresearch / Can LLMs Beat Classical Hyperparameter Optimization Algorithms? A Study on autoresearch
Giới thiệu bài báo
Nghiên cứu này kiểm chứng liệu tác nhân LLM có thể vượt qua các thuật toán cổ điển trong môi trường tối ưu siêu tham số (HPO) thực tế hay không, sử dụng kho lưu trữ autoresearch làm bãi thử để trực diện xem xét khả năng và giới hạn của tối ưu hóa kiểu chỉnh sửa mã nguồn. Ở đây, tác nhân không chỉ chọn các siêu tham số dạng số, mà còn phải trực tiếp sửa chính mã huấn luyện để cải thiện hiệu năng của các mô hình ngôn ngữ nhỏ, với mục tiêu là tối thiểu hóa validation bits-per-byte (val_bpb) trong một ngân sách tính toán cố định. Đặc biệt, vì bài toán này xử lý một không gian mã rộng bao gồm kiến trúc, optimizer, vòng lặp huấn luyện và cả kích thước mô hình, nó đòi hỏi đồng thời năng lực hiểu ngôn ngữ và khả năng theo dõi trạng thái tối ưu hóa, khiến nó thách thức hơn nhiều so với tối ưu hóa hộp đen thông thường. Các tác giả so sánh trực tiếp các kỹ thuật cổ điển như Covariance Matrix Adaptation Evolution Strategy (CMA-ES) và Tree-structured Parzen Estimator (TPE) với các cách tiếp cận dựa trên LLM trong môi trường này, đồng thời phân tích có hệ thống yếu tố nào thực sự quyết định hiệu năng. Kết quả cho thấy trong không gian tìm kiếm cố định, các phương pháp cổ điển vượt trội hơn một cách nhất quán, và đặc biệt sự ổn định trong việc giảm lỗi thực thi quan trọng hơn độ đa dạng của các ứng viên được tạo ra.
Điểm thú vị là khi cho phép LLM trực tiếp chỉnh sửa mã nguồn, khoảng cách có thu hẹp phần nào, nhưng ngay cả với các mô hình tối tân thời điểm đó như Claude Opus 4.6 và Gemini 3.1 Pro Preview, chúng vẫn chưa thể hoàn toàn bắt kịp các phương pháp cổ điển. Điều này dẫn tới nhận định rằng dù LLM có thể đề xuất những chỉnh sửa hữu ích trong từng trial riêng lẻ, chúng vẫn còn yếu trong việc duy trì nhất quán trạng thái tối ưu hóa xuyên suốt toàn bộ quá trình thử nghiệm lặp lại. Ngược lại, các thuật toán cổ điển tuy thiếu tri thức miền nhưng có lợi thế ở khả năng cập nhật ổn định trạng thái tường minh như vector trung bình, step size và ma trận hiệp phương sai. Dựa trên tính bổ trợ đó, các tác giả đề xuất một phương pháp lai mang tên Centaur, trong đó trạng thái nội bộ có thể diễn giải của CMA-ES được chia sẻ với LLM để mô hình ngôn ngữ phản ánh tốt hơn ngữ cảnh của quá trình tìm kiếm. Centaur cho hiệu năng tốt nhất trong toàn bộ thực nghiệm, và đáng chú ý là ngay cả một LLM nhỏ cỡ 0.8B cũng có thể vượt cả phương pháp cổ điển thuần túy lẫn phương pháp LLM thuần túy. Trong khi đó, cách chỉnh sửa mã không ràng buộc đòi hỏi các mô hình lớn hơn, cho thấy giao diện tối ưu hóa và biểu diễn trạng thái ảnh hưởng tới hiệu năng nhiều hơn quy mô mô hình đơn thuần. Ngoài ra, bằng cách phân tích chi tiết độ đa dạng tìm kiếm, quy mô mô hình và tỷ lệ trial do LLM đề xuất trong Centaur, các tác giả đã chỉ ra tinh vi khi nào LLM là điểm mạnh và khi nào là điểm yếu. Tóm lại, nghiên cứu này cho thấy một cách thuyết phục rằng LLM phát huy hiệu quả lớn nhất không phải khi thay thế bộ tối ưu hóa cổ điển, mà khi được dùng như một thành phần cộng tác để bổ sung cho trạng thái tìm kiếm tường minh.
Tóm tắt(Abstract)
Kho mã autoresearch cho phép một tác nhân LLM tối ưu hóa siêu tham số bằng cách chỉnh sửa trực tiếp mã huấn luyện. Chúng tôi sử dụng nó như một testbed để so sánh các thuật toán HPO cổ điển với các phương pháp dựa trên LLM trong bài toán tinh chỉnh siêu tham số của một mô hình ngôn ngữ nhỏ dưới ngân sách tính toán cố định. Khi xác định một không gian tìm kiếm cố định trên toàn bộ autoresearch, các phương pháp cổ điển như CMA-ES và TPE liên tục cho hiệu năng vượt trội hơn các tác nhân dựa trên LLM; trong bối cảnh này, việc tránh lỗi hết bộ nhớ (OOM) quan trọng hơn đa dạng tìm kiếm. Khi cho phép LLM trực tiếp chỉnh sửa mã nguồn, khoảng cách với các phương pháp cổ điển được thu hẹp nhưng vẫn chưa thể lấp đầy hoàn toàn, ngay cả khi sử dụng các mô hình tiên tiến nhất tại thời điểm viết bài như Claude Opus 4.6 và Gemini 3.1 Pro Preview. Chúng tôi quan sát thấy LLM gặp khó khăn trong việc theo dõi trạng thái tối ưu hóa qua nhiều lần thử. Ngược lại, các phương pháp cổ điển lại thiếu kiến thức miền mà LLM có. Để kết hợp điểm mạnh của cả hai hướng tiếp cận, chúng tôi đề xuất Centaur, một phương pháp lai chia sẻ với LLM trạng thái nội bộ có thể diễn giải của CMA-ES, bao gồm vector trung bình, step-size và ma trận hiệp phương sai. Centaur đạt kết quả tốt nhất trong các thí nghiệm của chúng tôi, và chỉ riêng một LLM 0.8B đã đủ để vượt qua tất cả các phương pháp cổ điển cũng như các phương pháp LLM thuần túy. Việc chỉnh sửa mã không bị ràng buộc đòi hỏi các mô hình lớn hơn để có thể cạnh tranh với các phương pháp cổ điển. Chúng tôi cũng phân tích thêm về đa dạng tìm kiếm, mở rộng quy mô mô hình từ 0.8B lên các mô hình tiên tiến nhất, và thực hiện ablation đối với tỷ lệ các lượt thử do LLM đề xuất trong Centaur. Nhìn chung, kết quả của chúng tôi cho thấy LLM hiệu quả nhất khi đóng vai trò bổ trợ cho các bộ tối ưu hóa cổ điển, chứ không phải thay thế chúng. Mã nguồn có tại https://github.com/ferreirafabio/autoresearch-automl, và bản demo tương tác tại https://ferreirafabio.github.io/autoresearch-automl.
Kho autoresearch cho phép một tác nhân LLM tối ưu hóa siêu tham số bằng cách chỉnh sửa trực tiếp mã huấn luyện. Chúng tôi dùng nó làm testbed để so sánh các thuật toán HPO cổ điển với các phương pháp dựa trên LLM trong việc tinh chỉnh siêu tham số của một mô hình ngôn ngữ nhỏ dưới ngân sách tính toán cố định. Khi xác định một không gian tìm kiếm cố định trên autoresearch, các phương pháp cổ điển như CMA-ES và TPE luôn vượt trội hơn các tác nhân dựa trên LLM, trong đó việc tránh lỗi hết bộ nhớ quan trọng hơn đa dạng tìm kiếm. Việc cho phép LLM trực tiếp chỉnh sửa mã nguồn giúp thu hẹp khoảng cách với các phương pháp cổ điển nhưng không thể xóa bỏ hoàn toàn, ngay cả với các mô hình tiên tiến tại thời điểm viết bài như Claude Opus 4.6 và Gemini 3.1 Pro Preview. Chúng tôi quan sát thấy LLM gặp khó khăn trong việc theo dõi trạng thái tối ưu hóa qua các lần thử. Ngược lại, các phương pháp cổ điển lại thiếu kiến thức miền mà LLM có. Để kết hợp điểm mạnh của cả hai, chúng tôi giới thiệu Centaur, một phương pháp lai chia sẻ với LLM trạng thái nội bộ có thể diễn giải của CMA-ES, bao gồm vector trung bình, step-size và ma trận hiệp phương sai. Centaur đạt kết quả tốt nhất trong các thí nghiệm của chúng tôi, và chỉ cần một LLM 0.8B cũng đã đủ để vượt qua mọi phương pháp cổ điển và LLM thuần túy. Việc chỉnh sửa mã không bị ràng buộc đòi hỏi các mô hình lớn hơn để có thể cạnh tranh với các phương pháp cổ điển. Chúng tôi cũng phân tích sâu hơn về đa dạng tìm kiếm, mở rộng quy mô mô hình từ 0.8B lên các mô hình tiên tiến nhất, và tiến hành ablation đối với tỷ lệ các lượt thử do LLM đề xuất trong Centaur. Tóm lại, kết quả của chúng tôi cho thấy LLM hiệu quả nhất khi bổ trợ cho các bộ tối ưu hóa cổ điển, chứ không phải thay thế chúng. Mã nguồn có tại https://github.com/ferreirafabio/autoresearch-automl và demo tương tác tại https://ferreirafabio.github.io/autoresearch-automl.
Liên kết bài báo
https://arxiv.org/abs/2603.24647
Đọc thêm
https://github.com/ferreirafabio/autoresearch-automl
https://ferreirafabio.github.io/autoresearch-automl
FP8 là đủ (Phần 1): Phản biện FP64 phần cứng như “chén thánh” của HPC / FP8 is All You Need (Part 1): Debunking Hardware FP64 as the HPC Holy Grail
Giới thiệu bài báo
Trong lĩnh vực tính toán hiệu năng cao (HPC, high-performance computing), từ lâu người ta vẫn xem các phép toán số thực dấu phẩy động độ chính xác kép (FP64, double-precision floating point) do phần cứng cung cấp trực tiếp là điều kiện thiết yếu cho tính toán khoa học, nhưng bài báo này cho rằng giả định đó có thể không còn đúng ở thế hệ GPU tối ưu cho AI hiện đại. Cụ thể, lấy việc thông lượng FP64 native trên NVIDIA Blackwell Ultra (B300) giảm mạnh làm điểm khởi đầu, bài báo cho thấy con đường tận dụng thông lượng tensor FP8 (8-bit floating point) dồi dào để khôi phục độ chính xác FP64 có thể thực tế hơn. Để làm điều này, các tác giả kết hợp Chinese Remainder Theorem (CRT) với Ozaki Scheme II để phân tách giá trị thành nhiều kênh modulo phần dư rồi tái dựng lại một cách chính xác, đồng thời thiết kế quy trình sao cho vẫn giữ được độ chính xác số ở mức FP64 nhưng vẫn tận dụng nguyên vẹn thông lượng cao của các phép toán tensor độ chính xác thấp. Phương pháp cốt lõi không chỉ là tăng tốc xấp xỉ đơn thuần, mà là chuyển chính đường đi tính toán sang tensor core độ chính xác thấp trong khi kết quả được phục hồi một cách nghiêm ngặt bằng tái dựng dựa trên số nguyên; ở điểm này, nó khác biệt rõ ràng với cách tiếp cận truyền thống lấy số chính xác kép làm trung tâm.
Một đóng góp quan trọng khác của bài báo là mô hình Tensor-Memory Equilibrium (TME), mở rộng từ mô hình Roofline truyền thống. TME không chỉ xem xét sự cân bằng giữa hiệu năng tính toán và băng thông bộ nhớ, mà còn phản ánh cả hệ số nhân tính toán, hệ số nhân băng thông và độ trễ tái dựng phát sinh khi quá trình mô phỏng dựa trên FP8 được chuyển thành workload FP64 để diễn giải hiệu năng thực thi thực tế. Thông qua khuôn khổ này, các tác giả giải thích rằng register-level fusion có thể giúp tránh việc thường xuyên ghi các kết quả trung gian ra bộ nhớ, từ đó làm cho bandwidth multiplier trên thực tế hội tụ gần về 1, và nhờ vậy tạo ra cấu trúc mà overhead tái dựng được ẩn sau bức tường bộ nhớ. Nói cách khác, ngay cả khi tồn tại thêm các bước chuyển đổi và tái dựng, hiệu năng tổng thể vẫn có thể được duy trì gần như không tổn thất trong các vùng mà di chuyển bộ nhớ chi phối.
Kernel Ozaki Scheme II được trình bày từ góc độ triển khai cho thấy rất rõ cách những ý tưởng này thực sự vận hành. Cấu trúc phân rã ma trận đầu vào và vector thành nhiều kênh residue, tích lũy trên từng kênh bằng phép toán tensor dựa trên wmma, rồi cuối cùng khôi phục thành một giá trị double duy nhất thông qua tái cấu trúc Garner, thể hiện triết lý thiết kế là tách riêng độ chính xác và tốc độ để gán cho mỗi yếu tố một lộ trình phần cứng phù hợp nhất. Điểm đáng chú ý là các kernel HPC tiêu biểu như SpMV (sparse matrix-vector multiplication), GEMV (general matrix-vector multiplication), và stencil đều có thể được xử lý theo cùng một logic, cho thấy đây không phải là tối ưu hóa chỉ giới hạn cho một tác vụ cụ thể. Kết quả hiệu năng cũng củng cố lập luận này: các tác giả giải thích rằng trong khi FP64 native của B300 bị suy yếu mạnh, lộ trình Ozaki II có thể đạt đến giới hạn bộ nhớ với thông lượng hiệu dụng cao hơn nhiều, và thậm chí cho hiệu năng tương đương hoặc tốt hơn so với H100.
Rốt cuộc, thông điệp cốt lõi mà nghiên cứu này truyền tải là quan niệm lâu nay rằng phải phụ thuộc vào phần cứng FP64 native mới duy trì được độ chính xác double-precision không còn là chân lý tuyệt đối nữa. Khi kết hợp thông lượng tensor FP8, tái cấu trúc dựa trên CRT, và fusion ở cấp thanh ghi, ngay cả HPC trong môi trường sản xuất cũng có thể đồng thời đạt được độ chính xác FP64 và hiệu quả băng thông bộ nhớ, thậm chí còn có tiềm năng hiệu năng cao hơn so với các thiết kế cũ tập trung vào FP64. Lập luận này buộc chúng ta phải xem xét lại các ưu tiên trong thiết kế phần cứng, đồng thời gợi ý mạnh mẽ rằng tính toán khoa học trong tương lai không nhất thiết phải tiếp tục phụ thuộc vào một đơn vị tính toán đơn độ chính xác duy nhất.
Tóm tắt(Abstract)
Quan điểm truyền thống của HPC cho rằng silicon FP64 phần cứng native là nền tảng không thể giản lược của tính toán khoa học, tức là “chén thánh” của mô phỏng double-precision. Tuy nhiên, bài báo này cho rằng quan điểm đó là sai. Trên các GPU tối ưu cho AI thuộc thế hệ B300 trở về sau, việc kết hợp thông lượng tensor FP8 dồi dào với Ozaki Scheme II dựa trên Định lý phần dư Trung Hoa (Chinese Remainder Theorem) có thể khôi phục khả năng thực thi ở mức trần bộ nhớ với độ chính xác FP64 đầy đủ trên toàn bộ phổ kernel HPC kinh điển. NVIDIA Blackwell Ultra (B300) hạ FP64 native xuống khoảng 1.3 TFLOPS, tức suy giảm 31 lần so với B200, khiến ngay cả các kernel vốn nghẽn bởi bộ nhớ (SpMV, GEMV, stencil) cũng chuyển thành nghẽn bởi tính toán. Chúng tôi đưa ra bốn đóng góp. Thứ nhất, đề xuất mô hình phân tích hợp nhất Tensor-Memory Equilibrium (TME), mở rộng Roofline bằng hệ số nhân tính toán α, hệ số nhân băng thông β, và độ trễ tái cấu trúc γ. Thứ hai, chỉ ra rằng fusion ở cấp thanh ghi là cơ chế đẩy β → 1, khiến chi phí mô phỏng gần như bằng không ở phía sau “bức tường bộ nhớ”. Thứ ba, dự đoán Ozaki II có thể nâng FP64 mô phỏng từ ngưỡng native khoảng 1 TFLOPS lên khoảng 500 TFLOPS trên B300 và khoảng 400 TFLOPS trên Rubin R200; trong miền nghẽn bởi tính toán, mức này vượt trần FP64 native của B200 hơn một bậc độ lớn, còn trong miền nghẽn bởi băng thông thì khớp với trần bộ nhớ. Thứ tư, lấy H100 làm đường cơ sở, Ozaki II cho hiệu năng tương đương hoặc vượt H100 trên mọi workload được khảo sát, trong khi FP64 native của B300 gây ra mức suy giảm lên tới 50 lần. Khi kết hợp với phân tích FFT trong bài đồng hành Part(2) (tái cấu trúc fixed-point Kulisch trên pipeline INT32 còn lại) và reduction FP32+Kahan được báo cáo trong bài Part(2), mọi lớp kernel được khảo sát trên B300 đều đạt tới trần bộ nhớ ở độ chính xác FP64 đầy đủ. Những bằng chứng này củng cố tuyên bố trong tiêu đề. Nói cách khác, chỉ với FP8, cùng các lối thoát Ozaki II và Kulisch, đã là đủ cho HPC sản xuất; silicon FP64 native không còn là “chén thánh” như người ta từng tin nữa.
Conventional HPC dogma holds that native hardware FP64 silicon is the irreducible foundation of scientific computing -- the "holy grail" of double-precision simulation. This paper argues the dogma is wrong: on AI-optimised GPUs of the B300 generation and beyond, abundant FP8 tensor throughput combined with the Chinese Remainder Theorem-based Ozaki Scheme II recovers memory-roof execution at full FP64 accuracy across the canonical HPC kernel spectrum. NVIDIA's Blackwell Ultra (B300) collapses native FP64 to ~1.3 TFLOPS -- a 31x regression from the B200 -- rendering even memory-bound kernels (SpMV, GEMV, stencils) compute-bound. We make four contributions. First, a unified analytic model, the Tensor-Memory Equilibrium (TME) model, augmenting the Roofline with a compute multiplier alpha, a bandwidth multiplier beta, and a reconstruction latency gamma. Second, we identify register-level fusion as the mechanism driving beta -> 1, making emulation essentially free behind the memory wall. Third, we project that Ozaki II vaults emulated FP64 from the ~1 TFLOPS native floor to ~500 TFLOPS (B300) and ~400 TFLOPS (Rubin R200), exceeding even B200's native FP64 ceiling by over an order of magnitude in the compute-bound regime while matching the memory roof in the bandwidth-bound regime. Fourth, against an H100 baseline, Ozaki II matches or exceeds H100 on every workload studied, versus the up-to-50x regression that B300 native FP64 imposes. Combined with a companion FFT analysis (Kulisch fixed-point reconstruction on the surviving INT32 pipe) and FP32+Kahan reductions reported in the companion Part(2) paper, every surveyed kernel class on B300 reaches the memory roof at full FP64. The evidence supports the title's claim: FP8, with Ozaki II and Kulisch escape routes, is all one needs for production HPC; native FP64 silicon is no longer the holy grail it has been taken to be.
Liên kết bài báo
https://arxiv.org/abs/2606.06510
Giới hạn và cơ hội của reviewer AI: Nghiên cứu nơi 45 nhà khoa học chuyên gia xem xét các bài review của các bài báo thuộc hệ Nature / On the limits and opportunities of AI reviewers: Reviewing the reviews of Nature-family papers with 45 expert scientists
Giới thiệu bài báo
Khi các reviewer trí tuệ nhân tạo (AI) dần được đưa vào quy trình phản biện bài báo khoa học, giới hạn của cách tiếp cận chỉ đánh giá hiệu năng dựa trên mức độ trùng khớp của kết luận cuối cùng ngày càng trở nên rõ ràng. Trên thực tế, chất lượng phản biện thay đổi đáng kể tùy theo mức độ chính xác của từng nhận xét phê bình mà reviewer đưa ra, mức độ chỉ ra vấn đề quan trọng và độ đầy đủ của bằng chứng hỗ trợ cho lập luận đó; vì vậy, các tác giả muốn thông qua đánh giá ở cấp độ vi mô này để làm lộ rõ một cách chính xác năng lực thực chất và giới hạn của reviewer AI. Để làm điều đó, họ đã thiết kế một nghiên cứu gán nhãn quy mô lớn với sự tham gia của 45 nhà khoa học chuyên gia trong các lĩnh vực vật lý, sinh học và khoa học sức khỏe, đồng thời yêu cầu đánh giá riêng rẽ 2.960 nhận xét phê bình do con người và AI viết ra đối với 82 bài báo thuộc hệ Nature. Mỗi nhận xét được đánh giá theo ba trục: correctness (độ chính xác), significance (tầm quan trọng) và sufficiency of evidence (độ đầy đủ của bằng chứng); qua tổng cộng 469 giờ rà soát, nhóm nghiên cứu có thể phân tích đa tầng xem reviewer AI thực sự làm tốt điều gì và thất bại ở đâu. Phương pháp luận này có ý nghĩa lớn ở chỗ nó vượt xa câu hỏi đơn giản kiểu “AI có đưa ra kết luận giống con người hay không”, để cho thấy cụ thể hơn AI bắt được loại vấn đề nào tốt hơn và trong bối cảnh nào lại đưa ra đánh giá quá mức hoặc thiếu chính xác. Kết quả định lượng cho thấy reviewer AI hiện tại hoàn toàn không chỉ là công cụ hỗ trợ bề mặt. Chẳng hạn, tác nhân phản biện dựa trên GPT-5.2 đã đạt điểm cao hơn reviewer con người được đánh giá tốt nhất của từng bài báo theo tiêu chí tổng hợp cả ba trục, trong khi các reviewer AI khác gồm Gemini 3.0 Pro và Claude Opus 4.5 cũng đều vượt reviewer con người có điểm thấp nhất trên mọi trục. Hơn nữa, các nhận xét phê bình chính xác do reviewer AI nêu ra thường được đánh giá là quan trọng hơn và có bằng chứng đầy đủ hơn, đồng thời còn phát hiện thêm 26% vấn đề mà con người không chỉ ra, qua đó xác nhận khả năng mở rộng phạm vi phát hiện. Tuy nhiên, đồng thời các reviewer AI cũng có xu hướng lặp lại những nhận xét rất giống nhau, cho thấy tỷ lệ trùng lặp cao hơn nhiều so với con người, và cũng bộc lộ những điểm yếu lặp đi lặp lại như thiếu tri thức ngầm của một số phân ngành cụ thể, hạn chế trong việc quản lý ngữ cảnh dài, hay xu hướng phê bình quá mức đối với các vấn đề nhỏ nhặt. Các ví dụ định tính trong phần phụ lục cho thấy những điểm yếu này không chỉ là lỗi trả lời sai đơn thuần, mà còn gắn với các vấn đề mang tính cấu trúc như đọc sai thông lệ theo từng lĩnh vực, lỗi về ngữ cảnh thời gian, đưa ra yêu cầu quá mức mà không xét đến khả năng chỉnh sửa, hoặc bỏ qua sự không nhất quán giữa mã nguồn và phần nội dung. Cuối cùng, nghiên cứu này thuyết phục chỉ ra rằng reviewer AI không phải là thực thể thay thế người phản biện, mà là công cụ bổ trợ đầy hứa hẹn có thể nhanh chóng phát hiện vấn đề trên phạm vi rộng hơn và thực hiện kiểm tra chi tiết hơn, đồng thời cung cấp cơ sở quan trọng để tái định nghĩa cách phân chia vai trò giữa con người và AI trong phản biện khoa học tương lai.
Tóm tắt (Abstract)
Khi năng lực AI được cải thiện, các reviewer AI bắt đầu được triển khai trong phản biện đồng cấp khoa học, nhưng năng lực và độ tin cậy của chúng vẫn còn là dấu hỏi. Nhiều nhà khoa học đơn giản xem đây là các hệ thống xác suất không có chuyên môn để đánh giá nghiên cứu, trong khi những nhà nghiên cứu khác lại lạc quan hơn về mức độ sẵn sàng của chúng mà không có bằng chứng cụ thể. Việc hiểu reviewer AI làm tốt điều gì, còn thiếu sót ở đâu và những thách thức nào vẫn còn tồn tại là điều thiết yếu. Tuy nhiên, các đánh giá reviewer AI hiện có chủ yếu tập trung vào việc phán quyết của chúng có trùng với phán quyết của con người hay không (ví dụ: mức độ khớp điểm số, dự đoán được chấp nhận), và điều đó là chưa đủ để đặc tả năng lực cũng như giới hạn của chúng. Trong bài báo này, chúng tôi lấp đầy khoảng trống đó thông qua một nghiên cứu gán nhãn chuyên gia quy mô lớn. 45 nhà khoa học theo lĩnh vực trong các ngành khoa học vật lý, khoa học sự sống và khoa học sức khỏe đã dành 469 giờ để đánh giá 2.960 nhận xét phê bình cá thể — mỗi nhận xét nhắm vào một khía cạnh cụ thể của bài báo — lấy từ các bài review do con người viết và do AI tạo ra cho 82 bài báo thuộc hệ Nature, theo các tiêu chí độ chính xác, tầm quan trọng và độ đầy đủ của bằng chứng. Trên một chỉ số tổng hợp cả ba chiều, tác nhân phản biện được vận hành bởi GPT-5.2 vượt reviewer con người được đánh giá cao nhất của từng bài báo (60,0% so với 48,2%, p = 0.009), trong khi cả ba reviewer AI (bao gồm Gemini 3.0 Pro và Claude Opus 4.5) đều có kết quả cao hơn reviewer con người bị đánh giá thấp nhất trên mọi chiều. Ngoài ra, các nhận xét phê bình chính xác của reviewer AI cũng thường được đánh giá là quan trọng hơn và có đủ bằng chứng hơn, đồng thời làm lộ ra thêm 26% các vấn đề riêng biệt mà không người nào nêu ra. Tuy nhiên, mức độ chồng lặp giữa các reviewer AI lớn hơn nhiều so với con người (21% so với 3% theo cặp reviewer), và chúng cũng cho thấy 16 điểm yếu lặp lại mà con người không gặp phải, chẳng hạn như kiến thức phân ngành hạn chế, thiếu khả năng quản lý ngữ cảnh dài trải trên nhiều tệp, và thái độ quá khắt khe với các vấn đề nhỏ. Tóm lại, kết quả của chúng tôi cho thấy các reviewer AI hiện tại là phần bổ trợ cho reviewer con người, chứ không phải sự thay thế.
With the advancement of AI capabilities, AI reviewers are beginning to be deployed in scientific peer review, yet their capability and credibility remain in question: many scientists simply view them as probabilistic systems without the expertise to evaluate research, while other researchers are more optimistic about their readiness without concrete evidence. Understanding what AI reviewers do well, where they fall short, and what challenges remain is essential. However, existing evaluations of AI reviewers have focused on whether their verdicts match human verdicts (e.g., score alignment, acceptance prediction), which is insufficient to characterize their capabilities and limits. In this paper, we close this gap through a large-scale expert annotation study, in which 45 domain scientists in Physical, Biological, and Health Sciences spent 469 hours rating 2,960 individual criticisms (each targeting one specific aspect of a paper) from human-written and AI-generated reviews of 82 Nature-family papers on correctness, significance, and sufficiency of evidence. On a composite of all three dimensions, a reviewing agent powered by GPT-5.2 scores above each paper's top-rated human reviewer (60.0% vs. 48.2%, p = 0.009), while all three AI reviewers (including Gemini 3.0 Pro and Claude Opus 4.5) exceed the lowest-rated human across every dimension. AI reviewers' accurate criticisms are also more often rated significant and well-evidenced, and surface a distinct 26% of issues no human raises. However, AI reviewers overlap far more than humans do (21% vs. 3% for cross-reviewer pairs), and exhibit 16 recurring weaknesses humans do not share, such as limited subfield knowledge, lack of long context management over multiple files, and overly critical stance on minor issues. Overall, our results position current AI reviewers as complements to, not substitutes for, human reviewers.
Liên kết bài báo
https://arxiv.org/abs/2605.20668
Đọc thêm
https://prometheus-eval.github.io/cmu-paper-reviewer/
https://github.com/prometheus-eval/cmu-paper-reviewer
https://huggingface.co/datasets/prometheus-eval/peerreview-bench
LiveBrowseComp: Tác tử tìm kiếm có thực sự đang tìm kiếm, hay chỉ xác minh điều chúng đã biết? / LiveBrowseComp: Are Search Agents Searching, or Just Verifying What They Already Know?
Giới thiệu bài báo
Các tác tử tìm kiếm dựa trên mô hình ngôn ngữ lớn (Large Language Model, LLM) đang thu hút chú ý nhờ khả năng khám phá web bên ngoài để tìm ra các sự kiện mới nhất, nhưng nghiên cứu này khởi nguồn từ vấn đề rằng trong thực tế, không ít trường hợp chúng không phát hiện thông tin mới mà chỉ dùng web để xác nhận tri thức nội tại (intrinsic knowledge) vốn đã có sẵn. Các tác giả định nghĩa hiện tượng này là sự phụ thuộc vào tri thức nội tại (Intrinsic Knowledge Dependence, IKD), và thiết kế phân tích từ ba góc nhìn để chẩn đoán chính xác mức độ mà công cụ tìm kiếm thực sự mở rộng năng lực suy luận của tác tử. Thứ nhất, bằng cách đo xem mô hình có thể trả lời được đến đâu trong thiết lập closed-book khi loại bỏ hoàn toàn công cụ, họ kiểm tra mức độ mà các benchmark hiện có vốn đã nằm trong phạm vi tri thức nội bộ của mô hình. Thứ hai, họ cho phép tìm kiếm nhưng loại bỏ các tài liệu bằng chứng hỗ trợ đáp án, để xem tác tử có thực sự tận dụng bằng chứng bên ngoài hay chỉ dựa vào việc xác nhận giả thuyết đã hình thành từ trước. Thứ ba, họ theo dõi quỹ đạo tìm kiếm và phân loại xem truy vấn bắt đầu từ giả thuyết được tạo ra trong nội bộ mô hình hay từ manh mối lấy được trong kết quả tìm kiếm, qua đó phân biệt liệu tìm kiếm là một quá trình khám phá (discovery) hay xác minh (verification). Phương pháp này có ý nghĩa ở chỗ nó vượt ra ngoài việc chỉ so sánh tỷ lệ trả lời đúng để mổ xẻ cơ chế vận hành thực tế của tác tử tìm kiếm.
Kết quả phân tích cho thấy rõ rằng các benchmark tìm kiếm hiện tại có thể đang nhầm lẫn giữa năng lực tìm kiếm và việc xác nhận lại dựa trên trí nhớ. Một số mô hình có thể giải được tới 44,5% câu hỏi của BrowseComp ngay cả khi không có công cụ; hơn một nửa truy vấn tìm kiếm bắt đầu từ các giả thuyết do mô hình tự tạo ra thay vì từ kết quả tìm kiếm; và khi loại bỏ bằng chứng hỗ trợ đáp án, hiệu năng thậm chí còn thấp hơn cả mốc closed-book. Điều này cho thấy tác tử tìm kiếm có xu hướng mạnh hơn trong việc dùng tìm kiếm để xác minh điều đã biết, thay vì tìm ra các sự kiện mới từ web. Để giải quyết vấn đề này, các tác giả đề xuất một benchmark deep-search mới có tên LiveBrowseComp. LiveBrowseComp gồm 335 câu hỏi do con người biên soạn, phụ thuộc vào các sự kiện được công bố trong vòng 90 ngày gần nhất tính đến thời điểm xây dựng benchmark, và được tạo dựa trên sáu nguồn cập nhật liên tục gồm GDELT, TMDB, RAWG, CVE/NVD, SportsDB và USGS, nhằm tránh việc các mô hình hiện có có thể dễ dàng giải chỉ bằng tri thức được học trước. Ngoài ra, benchmark này còn loại bỏ các sự kiện nổi tiếng trên toàn cầu để giảm khả năng việc hồi tưởng đơn thuần hoặc suy đoán theo lẽ thường dẫn tới đáp án đúng. Kết quả là tất cả tác tử được đánh giá đều có độ chính xác closed-book dưới 2%, điểm số khi gắn thêm tìm kiếm cũng giảm 25–40 điểm so với BrowseComp, và thứ hạng mô hình trước đó không còn dự đoán ổn định được hiệu năng. Cuối cùng, nghiên cứu này thuyết phục rằng khi đánh giá hiệu năng của tác tử tìm kiếm, điều cần xem không phải là “nó xác nhận tốt đến mức nào điều nó đã biết”, mà là “nó thực sự tìm ra được đến đâu những sự kiện chưa biết vượt ra ngoài ranh giới tri thức hiện tại”.
Tóm tắt(Abstract)
Liệu các tác tử tìm kiếm dựa trên mô hình ngôn ngữ lớn (LLM) có thực sự thực hiện tìm kiếm, hay chỉ dùng web để xác minh điều chúng đã biết? Chúng tôi nghiên cứu câu hỏi này trên BrowseComp với ba chỉ dấu chẩn đoán. Phân tích của chúng tôi cho thấy sự phụ thuộc vào tri thức nội tại (Intrinsic Knowledge Dependence, IKD): ngay cả khi có quyền truy cập công cụ, tác tử vẫn thường dựa vào tri thức nội tại — tức thông tin đã được mã hóa trong mô hình trước khi truy hồi — hơn là bằng chứng bên ngoài thu được từ tìm kiếm. Các tác tử trả lời được tới 44,5% câu hỏi BrowseComp mà không cần công cụ, tạo ra hơn một nửa truy vấn tìm kiếm từ các giả thuyết được sinh ra nội bộ thay vì từ các đầu mối lấy được qua tìm kiếm, và cho kết quả còn tệ hơn mốc closed-book khi bằng chứng hỗ trợ câu trả lời bị loại bỏ. Những kết quả này cho thấy các benchmark tìm kiếm tĩnh có thể đang thưởng cho việc xác minh dựa trên trí nhớ thay vì khám phá dựa trên bằng chứng, từ đó đánh đồng giữa điều tác tử đã biết và điều nó thực sự có thể tìm ra.
Tiếp theo, chúng tôi giới thiệu LiveBrowseComp, một benchmark deep-search được thiết kế để đánh giá tác tử vượt ra ngoài phạm vi tri thức nội tại. Benchmark này gồm 335 câu hỏi do con người biên soạn, với đáp án phụ thuộc vào các sự kiện được công bố trong vòng 90 ngày trước thời điểm xây dựng benchmark. Các câu hỏi được trích xuất từ 6 nguồn cập nhật và được lọc để loại bỏ các sự kiện nổi bật trên toàn cầu. Trên LiveBrowseComp, tất cả tác tử được đánh giá đều có độ chính xác closed-book dưới 2%, điểm số có tăng cường tìm kiếm giảm 25–40 điểm so với BrowseComp, và thứ hạng mô hình trước đây không còn dự đoán hiệu năng một cách ổn định. LiveBrowseComp có tại https://huggingface.co/datasets/Forival/LiveBrowseComp.
Are LLM-based search agents genuinely searching, or using the web to verify what they already know? We study this question on BrowseComp with three diagnostics. Our analysis reveals Intrinsic Knowledge Dependence (IKD): even with tool access, agents often rely on intrinsic knowledge -- information encoded in the model before retrieval -- rather than on external evidence. Agents answer up to 44.5% of BrowseComp questions without tools, generate more than half of their search queries from internally produced hypotheses rather than retrieved leads, and perform worse than closed-book baselines when answer-supporting evidence is removed. These results suggest that static search benchmarks can reward memory-backed verification rather than evidence-driven discovery, conflating what agents already know with what they can find. We then introduce LiveBrowseComp, a deep-search benchmark designed to evaluate agents beyond intrinsic coverage. It contains 335 human-authored questions whose answers depend on facts published within the 90 days preceding benchmark construction, drawn from six updated sources and filtered to exclude globally salient events. On LiveBrowseComp, all evaluated agents fall below 2% closed-book accuracy, search-augmented scores drop by 25-40 points relative to BrowseComp, and prior model rankings no longer reliably predict performance. LiveBrowseComp is available at https://huggingface.co/datasets/Forival/LiveBrowseComp.
Liên kết bài báo
https://arxiv.org/abs/2605.28721
Đọc thêm
https://huggingface.co/datasets/Forival/LiveBrowseComp
Information bottleneck để học không gian pha của động lực học từ dữ liệu thực nghiệm cao chiều / Information bottleneck for learning the phase space of dynamics from high-dimensional experimental data
Giới thiệu bài báo
Việc tìm ra các biến trạng thái chi phối động lực học thực sự của hệ từ những quan sát hình ảnh hay chuỗi thời gian có số chiều cao từ lâu đã được xem là một bài toán rất quan trọng trong vật lý, sinh học và nghiên cứu hệ phức tạp nói chung. Bản thân các giá trị quan sát thường chứa nhiều nhiễu và thông tin dư thừa, nhưng phía sau chúng thường tồn tại một cấu trúc không gian pha (phase space) có số chiều tương đối thấp, vì vậy cốt lõi không phải là khôi phục nguyên trạng quan sát mà là tìm ra các tọa độ tiềm ẩn mô tả tốt nhất động lực học đó. Dựa trên góc nhìn này, các tác giả đề xuất DySIB (Dynamical Symmetric Information Bottleneck, nút thắt thông tin đối xứng động lực học), học biểu diễn số chiều thấp bằng cách đồng thời cực đại hóa lượng thông tin tương hỗ dự đoán (predictive mutual information, thông tin tương hỗ dự đoán) giữa cửa sổ quan sát quá khứ và tương lai, đồng thời kìm hãm độ phức tạp của biểu diễn tiềm ẩn. Điểm quan trọng của cách tiếp cận này là, khác với autoencoder trực tiếp tối thiểu hóa sai số tái tạo, quá trình học diễn ra chỉ trong không gian tiềm ẩn mà không khôi phục lại ảnh đầu vào; nhờ đó có thể mạnh dạn loại bỏ các biến thiên chi tiết không liên quan đến thông tin cần thiết cho dự đoán động lực học.
Phương pháp của DySIB là sự mở rộng nguyên lý Information Bottleneck, nút thắt thông tin sang bài toán học động lực học, được thiết kế để biểu diễn tiềm ẩn không chỉ là một vector nén mà còn đóng vai trò gần với sufficient statistic, thống kê đủ có khả năng dự đoán tốt tương lai. Để làm điều này, phương pháp sử dụng một cấu trúc đối xứng giữa quá khứ và tương lai, ước lượng thông tin dự đoán bằng cận dưới InfoNCE, và kiểm soát độ phức tạp của biểu diễn thông qua phân phối tiên nghiệm Gaussian. Ngoài ra, bằng cách dùng time-delay embedding và shared encoder để ánh xạ các cửa sổ quá khứ và tương lai theo cùng một chuẩn hình học, phương pháp nâng cao khả năng so sánh và diễn giải trong không gian tiềm ẩn. Thiết kế này khác với các mô hình dự đoán trước đây ở chỗ trọng tâm không phải là sinh khung hình tương lai đơn thuần, mà là học một hệ tọa độ chứa cấu trúc bản chất của động lực học.
Kiểm chứng thực nghiệm được tiến hành trên dữ liệu video thực nghiệm của con lắc vật lý (physical pendulum); đây là một bệ thử lý tưởng vì là hệ mà không gian trạng thái thực đã được biết trước, nên có thể đánh giá một cách nghiêm ngặt mức độ khớp của các tọa độ tiềm ẩn đã học. Kết quả cho thấy DySIB đã tự nhất quán lựa chọn số chiều tiềm ẩn và độ dài cửa sổ thời gian phù hợp với dữ liệu, đồng thời khôi phục được biểu diễn 2 chiều khớp với bậc tự do thực của con lắc; các tọa độ học được cũng tương ứng trơn tru với góc và vận tốc góc. Hơn nữa, biểu diễn này còn tái hiện được cả điểm cân bằng ổn định, yên ngựa bất ổn, separatrix, cũng như cấu trúc tô-pô dạng vành phân biệt giữa chuyển động quay và dao động, cho thấy nó nắm bắt đồng thời tính chiều, tô-pô và cấu trúc hình học chứ không chỉ dừng ở sự tương đồng thị giác đơn giản. Việc có thể khôi phục như vậy ngay cả từ các hình ảnh độ phân giải thấp càng củng cố rằng DySIB hiệu quả trong việc loại bỏ các chi tiết quan sát không cần thiết và chỉ trích xuất thông tin quan trọng về mặt động lực học.
Ý nghĩa của nghiên cứu này nằm ở chỗ nó cho thấy có thể trực tiếp khám phá các tọa độ động lực học có thể diễn giải từ các quan sát số chiều cao. Đặc biệt, ở khía cạnh tái cấu trúc theo hướng dữ liệu các khái niệm biến trạng thái, biến hiệu dụng và tham số trật tự vốn được dùng từ lâu trong vật lý, DySIB có thể được xem như một cây cầu phương pháp luận nối giữa vật lý lý thuyết truyền thống và học biểu diễn hiện đại. Đồng thời, nghiên cứu cũng bộc lộ rõ các giới hạn như tính không duy nhất của biểu diễn tiềm ẩn, gauge freedom, và khả năng mở rộng sang các hệ phi tuyến phức tạp hơn, từ đó để ngỏ khả năng trong tương lai kết hợp với việc khái quát hóa sang các hệ có nhiễu mạnh, hệ hỗn độn hay hệ đa thang. Dù vậy, bài báo này vẫn thực nghiệm chứng minh rằng chỉ với thông tin dự đoán cũng có thể khôi phục các tọa độ của không gian pha thực, từ đó mở ra một hướng nghiên cứu mới đi từ quan sát thô đến các phương trình chuyển động có thể diễn giải.
Tóm tắt(Abstract)
Việc nhận diện các biến trạng thái động lực học của một hệ từ những quan sát số chiều cao là một bài toán cốt lõi trong toàn bộ khoa học vật lý. Thách thức nằm ở chỗ các biến trạng thái không thể được quan sát trực tiếp và phải được suy ra từ dữ liệu thô số chiều cao mà không có giám sát. Ở đây, chúng tôi giới thiệu DySIB (Dynamical Symmetric Information Bottleneck, nút thắt thông tin đối xứng động lực học) như một phương pháp học biểu diễn số chiều thấp cho dữ liệu chuỗi thời gian bằng cách cực đại hóa thông tin tương hỗ dự đoán giữa các cửa sổ quan sát quá khứ và tương lai, đồng thời áp dụng hình phạt lên độ phức tạp của biểu diễn. Hàm mục tiêu này hoạt động hoàn toàn trong không gian tiềm ẩn và không yêu cầu tái tạo các quan sát. Chúng tôi áp dụng DySIB lên một bộ dữ liệu video thực nghiệm của con lắc vật lý, nơi không gian trạng thái nền tảng đã được biết trước. Với các siêu tham số của kiến trúc học được thiết lập một cách tự nhất quán từ dữ liệu, phương pháp này khôi phục một biểu diễn 2 chiều khớp với tính chiều, tô-pô và hình học của không gian pha con lắc, với các tọa độ học được căn chỉnh trơn tru với góc và vận tốc góc chuẩn tắc. Những kết quả này cho thấy, trên một hệ thực nghiệm đã được đặc trưng rõ, thông tin dự đoán trong không gian tiềm ẩn có thể được dùng để khôi phục trực tiếp các tọa độ động lực học có thể diễn giải từ dữ liệu số chiều cao.
Identifying the dynamical state variables of a system from high-dimensional observations is a central problem across physical sciences. The challenge is that the state variables are not directly observable and must be inferred from raw high-dimensional data without supervision. Here we introduce DySIB (Dynamical Symmetric Information Bottleneck) as a method to learn low-dimensional representations of time-series data by maximizing predictive mutual information between past and future observation windows while penalizing representation complexity. This objective operates entirely in latent space and avoids reconstruction of the observations. We apply DySIB to an experimental video dataset of a physical pendulum, where the underlying state space is known. The method, with hyperparameters of the learning architecture set self-consistently by the data, recovers a two-dimensional representation that matches the dimensionality, topology, and geometry of the pendulum phase space, with the learned coordinates aligning smoothly with the canonical angle and angular velocity. These results demonstrate, on a well-characterized experimental system, that predictive information in latent space can be used to recover interpretable dynamical coordinates directly from high-dimensional data.
Liên kết bài báo
https://arxiv.org/abs/2604.24662
AutoScientists: Nhóm tác tử tự tổ chức cho các thí nghiệm khoa học chạy dài hạn / AutoScientists: Self-Organizing Agent Teams for Long-Running Scientific Experimentation
Giới thiệu bài báo
Trong các thí nghiệm khoa học dài hạn, chu trình lặp lại thường gồm việc đặt ra giả thuyết, thiết kế thí nghiệm, thực thi, rồi điều chỉnh lại hướng đi theo kết quả; AutoScientists chính thức hóa quá trình này thành một bài toán khám phá lặp và đề xuất một hệ thống tác tử phân tán để thực hiện nó. Khác với các tác tử AI hiện có thường chủ yếu đi theo một quỹ đạo nghiên cứu đơn lẻ hoặc chỉ thực hiện các mục tiêu cố định do một bộ lập kế hoạch trung tâm đặt ra, phương pháp này được thiết kế để nhiều tác tử cùng đọc và ghi vào trạng thái chia sẻ (shared state) và tự tổ chức cũng như tái tổ chức thành nhóm. Ý tưởng cốt lõi là thay vì chỉ đạo hàng loạt từ trung tâm, các tác tử sẽ tự động tập hợp quanh những giả thuyết triển vọng theo cách bằng chứng được tích lũy, phản biện đề xuất của nhau trước khi sử dụng tài nguyên thí nghiệm, và chia sẻ cả thành công lẫn thất bại để giảm khám phá trùng lặp không cần thiết. Để làm điều đó, bài báo định nghĩa một bài toán tối ưu hóa tìm chương trình tối đa hóa hiệu năng đánh giá trong không gian khám phá dựa trên mô tả tác vụ, chương trình ban đầu, bộ dữ liệu huấn luyện và chỉ số đánh giá, đồng thời phân biệt rõ dữ liệu huấn luyện, dữ liệu kiểm chứng và khi cần thì cả cross-validation (CV) để làm rõ tiêu chí đánh giá cho thí nghiệm dài hạn. Cách đặt bài toán này có ý nghĩa ở chỗ nó xem khám phá khoa học không phải là một dự đoán một lần đơn giản, mà là một quá trình nghiên cứu nơi các chỉnh sửa và kiểm chứng ở cấp chương trình liên tục được tích lũy.
Cách AutoScientists vận hành chủ yếu gồm chu trình giữa giai đoạn thảo luận và giai đoạn thực thi. Ở giai đoạn thảo luận, các tác tử bàn luận giả thuyết nào là triển vọng dựa trên mô hình champion hiện tại, lịch sử thí nghiệm trước đó và nội dung trên diễn đàn chia sẻ; ban đầu chúng đề xuất rộng nhiều hướng khám phá khác nhau, sau đó phản biện ý tưởng của nhau để tìm ra các điểm mù trong không gian khám phá. Tiếp đó, ở giai đoạn thực thi, các nhóm được hình thành theo cách này sẽ tiến hành thí nghiệm song song và ghi kết quả của từng thí nghiệm vào nhật ký thí nghiệm cũng như diễn đàn chia sẻ để các nhóm khác có thể tham khảo ngay lập tức. Đặc biệt, hệ thống này tách riêng chức năng bằng cách để các tác tử đóng vai trò analyst phát hiện và đề xuất những hướng chưa được thử, còn các tác tử đóng vai trò experimenter thực hiện thay đổi mã và huấn luyện thực tế, nhờ đó giảm các nút thắt cổ chai thường phát sinh trong các quá trình thí nghiệm kéo dài. Ngoài ra, nó còn lưu các thí nghiệm thất bại vào một danh sách riêng để tránh lặp lại cùng hướng đi, và nếu một mức cải thiện hiệu năng có khả năng chỉ là nhiễu thống kê thì chỉ thăng hạng sau khi tái kiểm chứng bằng seed bổ sung, qua đó tránh nhầm lẫn giữa cải thiện ngẫu nhiên và tiến bộ thực sự.
Điểm mạnh lớn nhất của cách tiếp cận này không chỉ nằm ở việc tạo ra nhiều ý tưởng hơn, mà ở chỗ nó xây dựng một cấu trúc có hệ thống để tri thức thí nghiệm được tích lũy. Các tác tử duy trì trạng thái nội bộ và bộ nhớ, học hỏi trong thời gian dài, phân tích cơ chế của các chỉnh sửa thành công để nối tiếp thành giả thuyết kế tiếp, đồng thời bảo tồn cả những hướng thất bại như tài sản học tập của toàn hệ thống. Kết quả là AutoScientists không chỉ để lại chương trình có hiệu năng tốt nhất như đầu ra nghiên cứu, mà còn tạo ra cả model card và báo cáo kết quả nghiên cứu, qua đó đảm bảo đồng thời tính tái lập và khả năng diễn giải. Thiết kế này khác biệt rõ rệt với các cách tiếp cận tác tử trước đây ở chỗ nó gắn kết khả năng thích nghi, tính song song và việc học từ thất bại — những yếu tố quan trọng trong các thí nghiệm khoa học chạy dài hạn — vào cùng một hệ thống. Trên thực tế, phương pháp này cho kết quả tốt hơn các tác tử hiện có trong machine learning y sinh, tối ưu hóa huấn luyện mô hình ngôn ngữ và dự đoán độ phù hợp của protein; trên BioML-Bench, nó đạt percentile leaderboard trung bình 74.4% trên 24 tác vụ và cải thiện 8.33% so với tác tử đơn mạnh nhất. Ngoài ra, trong tối ưu hóa huấn luyện GPT, nó đạt mục tiêu kiểm chứng bits-per-byte nhanh hơn 1.9 lần so với Autoresearch; còn trên ProteinGym, nó cho thấy cải thiện vượt qua mức tốt nhất trước đó cả ở bài toán gắn kết ACE2-Spike lẫn trên toàn bộ 217 assay, qua đó chứng minh rằng các tác tử tự tổ chức phân tán có thể mang lại hiệu quả thực chất cho khám phá khoa học dài hạn.
Tóm tắt(Abstract)
Nghiên cứu khoa học tiến triển thông qua các chu trình lặp lại gồm hình thành giả thuyết, thiết kế thí nghiệm, thực thi và điều chỉnh. Các tác nhân AI có thể tự động hóa một phần quy trình này, nhưng các cách tiếp cận hiện có thường chỉ theo một quỹ đạo nghiên cứu đơn lẻ hoặc được điều phối thông qua một bộ lập kế hoạch trung tâm với các mục tiêu cố định. Kết quả là, chúng gặp khó khăn trong việc duy trì khám phá song song, thích nghi khi bằng chứng thực nghiệm thay đổi, hoặc lưu giữ tri thức về các hướng đi thất bại trong các thí nghiệm chạy dài hạn. Chúng tôi giới thiệu AutoScientists, một nhóm tác nhân AI phi tập trung dành cho các thí nghiệm khoa học tính toán chạy dài hạn. Các tác nhân diễn giải trạng thái thí nghiệm dùng chung, tự tổ chức thành các nhóm xoay quanh những giả thuyết đầy hứa hẹn, phản biện các đề xuất trước khi sử dụng tài nguyên tính toán cho thí nghiệm, và chia sẻ cả thành công lẫn thất bại để giảm khám phá trùng lặp. Với cùng ngân sách thí nghiệm, AutoScientists cho thấy hiệu năng tốt hơn các tác nhân AI trước đây trong học máy y sinh, tối ưu hóa huấn luyện mô hình ngôn ngữ và dự đoán độ thích nghi của protein. Trên BioML-Bench, bao phủ ảnh y sinh, kỹ thuật protein, single-cell omics và khám phá thuốc, AutoScientists đạt percentile trung bình trên bảng xếp hạng là 74,4% trên 24 tác vụ, cao hơn tác nhân AI mạnh nhất trước đó +8,33%. Trong tối ưu hóa huấn luyện GPT, AutoScientists đạt mục tiêu validation bits-per-byte nhanh hơn Autoresearch 1,9 lần và vẫn tiếp tục tìm ra các cải tiến từ một trạng thái khởi đầu vốn đã là champion, nơi cách tiếp cận tác nhân đơn không tìm thấy bất kỳ cải tiến nào (7 cải tiến được chấp nhận so với 0). Trong dự đoán độ thích nghi ProteinGym, AutoScientists tìm ra một phương pháp cho liên kết ACE2-Spike, cải thiện +12,5% theo hệ số tương quan Spearman so với mô hình state-of-the-art hiện tại. Ngoài ra, khi áp dụng nguyên phương pháp đó không cần chỉnh sửa trên toàn bộ 217 assay của ProteinGym, kết quả vẫn cải thiện +6,5% theo hệ số tương quan Spearman so với state of the art trước đó.
Scientific research proceeds through iterative cycles of hypothesis generation, experiment design, execution, and revision. AI agents can automate parts of this process, but existing approaches typically follow a single research trajectory or coordinate through a central planner with fixed objectives. As a result, they struggle to sustain parallel exploration, adapt as experimental evidence changes, or preserve knowledge of failed directions over long-running experiments. We introduce AutoScientists, a decentralized team of AI agents for long-running computational scientific experimentation. Agents interpret a shared experimental state, self-organize into teams around promising hypotheses, critique proposals before using experimental compute, and share successes and failures to reduce redundant exploration. Under matched experimental budgets, AutoScientists improves over prior AI agents across biomedical machine learning, language-model training optimization, and protein fitness prediction. On BioML-Bench, spanning biomedical imaging, protein engineering, single-cell omics, and drug discovery, AutoScientists achieves a mean leaderboard percentile of 74.4% across 24 tasks, improving over the strongest AI agent by +8.33%. On GPT training optimization, AutoScientists reaches a target validation bits-per-byte 1.9x faster than Autoresearch and continues discovering improvements from a starting champion where the single-agent approach finds none (7 vs. 0 accepted improvements). On ProteinGym fitness prediction, AutoScientists discovers a method for ACE2-Spike binding that improves over the current state-of-the-art model by +12.5% in Spearman correlation. Applied without modification across all 217 ProteinGym assays, the same method improves over the prior state of the art by +6.5% (Spearman correlation).
Liên kết bài báo
https://arxiv.org/abs/2605.28655
Đọc thêm
https://autoscientists.openscientist.ai/
https://github.com/mims-harvard/AutoScientists
⚠️Quảng cáo⚠️: 🔥Cộng đồng người dùng PyTorch Hàn Quốc🇰🇷 đã tổng hợp bài viết này, bạn thấy hữu ích chứ? Nếu đăng ký thành viên, bạn sẽ nhận được các bài viết nổi bật qua email💌! Bạn cũng có thể nhận thông báo bài viết mới qua Telegram hoặc Slack/Discord/Teams/Dooray/GoogleChat v.v.. :D
Chưa có bình luận nào.