Karpathy dùng Autoresearch tự động tinh chỉnh nanochat trong 2 ngày, rút ngắn 11% thời gian huấn luyện GPT-2

xguru · 2026-03-11T10:41:56+09:00

Agent Autoresearch được công bố 3 ngày trước đã tự chủ thử khoảng 700 thay đổi trong gần 2 ngày trên mô hình depth=12, và tìm ra khoảng 20 thay đổi hiệu quả giúp cải thiện validation loss Các thay đổi được tìm thấy đều mang tính cộng dồn (additive) và được chuyển nguyên vẹn sang mô hình lớn hơn depth=24, giúp chỉ số "Time to GPT-2" trên bảng xếp hạng giảm từ 2.02 giờ xuống 1.80 giờ, tương đương khoảng 11% Trước đây, quá trình tối ưu hóa thủ công lặp đi lặp lại như nảy ý tưởng → triển khai → kiểm tra validation loss → tham khảo bài báo... đã được thực hiện suốt 20 năm Lần này, agent đã thực hiện end-to-end toàn bộ workflow: phân tích chuỗi kết quả thí nghiệm và dựa trên đó tự lập kế hoạch cho thí nghiệm tiếp theo Hiện đã commit xong kết quả của "round 1" và dự kiến bắt đầu "round 2"; đồng thời cũng đang nghiên cứu song song phương thức cộng tác (collaboration) giữa nhiều agent để xử lý song song (AgentHub) Dù chưa đạt mức nghiên cứu đột phá (ground-breaking research), các cải tiến thực tế vốn bị bỏ lỡ khi tinh chỉnh thủ công đã được tích lũy lại để tạo ra mức tăng hiệu năng đáng kể Khi áp dụng ở quy mô lớn, bài toán này phức tạp hơn rất nhiều so với việc chỉ tinh chỉnh một train.py, nhưng về bản chất đây là một bài toán kỹ thuật nên có thể giải quyết được Theo hướng dùng agent swarm để tinh chỉnh từ các mô hình nhỏ, rồi dần nâng những ý tưởng hứa hẹn lên quy mô lớn hơn, đây sẽ là xu thế mà mọi frontier lab về LLM cuối cùng đều sẽ phải áp dụng Mọi metric có thể đánh giá hiệu quả (hoặc có proxy metric) đều có thể trở thành mục tiêu của tối ưu hóa tự động này

(x.com/karpathy)

17 điểm bởi xguru 2026-03-11 | 3 bình luận | Chia sẻ qua WhatsApp

Agent Autoresearch được công bố 3 ngày trước đã tự chủ thử khoảng 700 thay đổi trong gần 2 ngày trên mô hình depth=12, và tìm ra khoảng 20 thay đổi hiệu quả giúp cải thiện validation loss
Các thay đổi được tìm thấy đều mang tính cộng dồn (additive) và được chuyển nguyên vẹn sang mô hình lớn hơn depth=24, giúp chỉ số "Time to GPT-2" trên bảng xếp hạng giảm từ 2.02 giờ xuống 1.80 giờ, tương đương khoảng 11%
Trước đây, quá trình tối ưu hóa thủ công lặp đi lặp lại như nảy ý tưởng → triển khai → kiểm tra validation loss → tham khảo bài báo... đã được thực hiện suốt 20 năm
Lần này, agent đã thực hiện end-to-end toàn bộ workflow: phân tích chuỗi kết quả thí nghiệm và dựa trên đó tự lập kế hoạch cho thí nghiệm tiếp theo
Hiện đã commit xong kết quả của "round 1" và dự kiến bắt đầu "round 2"; đồng thời cũng đang nghiên cứu song song phương thức cộng tác (collaboration) giữa nhiều agent để xử lý song song (AgentHub)
Dù chưa đạt mức nghiên cứu đột phá (ground-breaking research), các cải tiến thực tế vốn bị bỏ lỡ khi tinh chỉnh thủ công đã được tích lũy lại để tạo ra mức tăng hiệu năng đáng kể
Khi áp dụng ở quy mô lớn, bài toán này phức tạp hơn rất nhiều so với việc chỉ tinh chỉnh một train.py, nhưng về bản chất đây là một bài toán kỹ thuật nên có thể giải quyết được
Theo hướng dùng agent swarm để tinh chỉnh từ các mô hình nhỏ, rồi dần nâng những ý tưởng hứa hẹn lên quy mô lớn hơn, đây sẽ là xu thế mà mọi frontier lab về LLM cuối cùng đều sẽ phải áp dụng
Mọi metric có thể đánh giá hiệu quả (hoặc có proxy metric) đều có thể trở thành mục tiêu của tối ưu hóa tự động này

3 bình luận

hanje3765 2026-03-11

Tôi đã lướt qua nhanh khái niệm Autoresearch và AgentHub,
và chợt nghĩ rằng nếu kết hợp hai thứ đó lại thì chẳng phải đó mới thật sự là giới học thuật và các viện nghiên cứu sao.
Các viện nghiên cứu công bố kết quả lên hội nghị, phản ánh lại các phản hồi rồi những viện nghiên cứu mới tiếp tục nghiên cứu, trông khá giống một dạng học tăng cường được mở rộng.
RL thì khó giải thích, nhưng tôi cảm thấy thật sự mang tính cách mạng ở chỗ nếu mở rộng theo cách đó thì bất cứ thứ gì cũng có thể trở nên giải thích được.
Nghe nói Karpathy có đóng góp vào thiết kế FSD của Tesla, nên tôi cũng tự hỏi liệu đây có phải là việc mang khái niệm nối tiếp từ đó sang phía nghiên cứu hay không.
Dù sao thì có lẽ đây vẫn là một trong những người mà tôi sẽ tiếp tục theo dõi.

sea715 2026-03-11

Đúng vậy, nên theo một góc nhìn nào đó, tôi nghĩ đây có thể là rào cản cuối cùng trước khi AGI xuất hiện.

xguru 2026-03-11

Có vẻ như anh ấy đang sống một cuộc đời gì đó rất khác biệt haha

Karpathy dùng Autoresearch tự động tinh chỉnh nanochat trong 2 ngày, rút ngắn 11% thời gian huấn luyện GPT-2

Bài viết liên quan

3 bình luận