Phân tích R1-Zero và R1 của DeepSeek
(arcprize.org)- ARC Prize Foundation đặt mục tiêu định nghĩa, đo lường và khơi gợi các ý tưởng mới về AGI (trí tuệ nhân tạo tổng quát)
- AGI vẫn chưa đạt được, và việc chỉ mở rộng tiền huấn luyện LLM (mô hình ngôn ngữ lớn) thuần túy không phải là lời giải
- Trong giai đoạn 2023-24, khoảng 20 tỷ USD đã được đầu tư vào các startup LLM, trong khi các startup AGI chỉ nhận khoảng 200 triệu USD
Phân tích R1-Zero và R1 của DeepSeek
- R1-Zero và R1 do DeepSeek công bố đang thu hút sự chú ý lớn vì cho thấy kết quả tiệm cận trình độ của hệ thống o1 của OpenAI
- Cả R1-Zero và R1 đều ghi khoảng 15~20% điểm ARC-AGI-1
- Đây là mức điểm cao hơn nhiều so với GPT-4o, vốn đạt 5%
- Dòng chảy chủ đạo gần đây của ngành AI tập trung vào việc mở rộng đơn thuần LLM (mô hình ngôn ngữ lớn), nhưng cách này được xem là không phải lời giải trực tiếp để hiện thực hóa AGI
- Thông qua benchmark ARC-AGI-1, ARC Prize Foundation đang khuyến khích nghiên cứu các hệ thống AI có thể thích nghi ngay cả với những bài toán mới chưa từng được huấn luyện
R1-Zero quan trọng hơn R1
- Kết quả nghiên cứu của DeepSeek đã tạo ra R1-Zero và R1
- R1-Zero, R1 và o1(low compute) của OpenAI đều ghi mức điểm tương tự 15~20% trên ARC-AGI-1
- Hệ thống o3 mà OpenAI công bố vào cuối năm 2024 đã nâng điểm ARC-AGI-1 lên tối đa 88%, cho thấy khả năng giải quyết thích nghi các bài toán mới
- Tuy vậy, o3 vẫn có nhiều phần không được công khai nên các nhà nghiên cứu khó nắm được chi tiết kỹ thuật
- So với R1, R1-Zero được xem có giá trị dài hạn lớn hơn vì không trải qua bước gán nhãn trực tiếp bởi con người (SFT)
R1-Zero loại bỏ nút thắt cổ chai của con người
-
Các mô hình suy luận trước đây học bằng cách kết hợp gán nhãn của con người (SFT) hoặc phần thưởng từ máy (RL) cho quá trình giải bài (Chain-of-Thought, viết tắt là CoT)
-
R1-Zero học CoT chỉ bằng reinforcement learning (RL), tức là không cần SFT hay nhãn từ chuyên gia con người
-
Trên ARC-AGI-1, R1-Zero đạt 14% còn R1 đạt 15%, cho thấy hiệu năng gần như tương đương
-
Trên các benchmark khác như MATH AIME 2024, kết quả của R1-Zero và R1 cũng khá tương tự
-
Từng có lo ngại về việc trộn ngôn ngữ hoặc vấn đề dễ đọc, nhưng trong thử nghiệm thực tế mô hình vẫn hoạt động tốt ở các lĩnh vực toán học và lập trình mà không có incoherence đáng kể
-
Các hàm ý chính rút ra gồm:
- Ngay cả khi không có gán nhãn từ con người, vẫn có thể suy luận chính xác và dễ hiểu trong các miền cụ thể
- R1-Zero có thể tự tạo biểu diễn token DSL chuyên biệt cho miền của mình chỉ bằng reinforcement learning
- SFT có thể vẫn cần thiết để mở rộng phạm vi suy luận
-
Xét đến cùng, R1-Zero cho thấy tiềm năng mở rộng theo hướng “không còn nút thắt con người”, nơi mô hình có thể tự tạo dữ liệu huấn luyện mà không phụ thuộc vào con người
-
Dưới đây là mô tả ngắn về điểm số, số token trung bình và chi phí suy luận của nhiều hệ thống trên ARC-AGI-1
- r1-zero: 14%, không có SFT, không tìm kiếm suy luận tuần tự, trung bình 11K token, chi phí khoảng $0.11
- r1: 15.8%, có SFT, không tìm kiếm suy luận tuần tự, trung bình 6K token, chi phí khoảng $0.06
- o1(low): 20.5%, có SFT, không tìm kiếm suy luận tuần tự, trung bình 7K token, chi phí khoảng $0.43
- o1(med): 31%, có SFT, không tìm kiếm suy luận tuần tự, trung bình 13K token, chi phí khoảng $0.79
- o1(high): 35%, có SFT, không tìm kiếm suy luận tuần tự, trung bình 22K token, chi phí khoảng $1.31
- o3(low): 75.7%, có SFT, dùng tìm kiếm và sampling, trung bình 335K token, chi phí khoảng $20
- o3(high): 87.5%, có SFT, dùng tìm kiếm và sampling, trung bình 57M token, chi phí khoảng $3,400
Chi phí cho độ tin cậy
- Một xu hướng đang thay đổi mạnh trong thị trường AI hiện nay là “chi nhiều tiền hơn thì có thể tăng độ chính xác và độ tin cậy”
- Hơn nữa, trọng tâm chi phí đang dịch chuyển từ huấn luyện sang suy luận
- Nếu đầu tư nhiều tài nguyên tính toán ở giai đoạn suy luận, có thể thu được kết quả chính xác và ổn định hơn
- Phần lớn doanh nghiệp vẫn chưa thể triển khai tự động hóa quy mô lớn do vấn đề độ tin cậy của hệ thống AI
- Có dự báo rằng tiến bộ trong lĩnh vực ARC-AGI sẽ nâng cao độ tin cậy của AI agent, và Anthropic, OpenAI, Apple cùng nhiều bên khác cũng đang chuẩn bị các dịch vụ kiểu agent
- Người dùng có xu hướng sẵn sàng trả thêm chi phí để đạt mức độ chính xác cần thiết
- Vì vậy, nhu cầu suy luận AI được dự báo sẽ tăng mạnh, kéo theo nhu cầu về tài nguyên tính toán cũng tăng
Suy luận chính là học
- Trước đây, người ta thu thập dữ liệu quy mô lớn hoặc tạo dữ liệu tổng hợp (synthetic) từ các LLM hiện có để dùng cho huấn luyện
- Giờ đây, trong quá trình suy luận, người dùng hoặc hệ thống có thể thực sự tạo ra dữ liệu mới hữu ích
- Điều này cho thấy một sự chuyển dịch kinh tế mới: “suy luận đồng thời cũng là học”
- Các mô hình AI có nhiều người dùng hơn sẽ thu thập được nhiều dữ liệu suy luận hơn, và bản thân điều đó sẽ dẫn tới cải thiện mô hình
- Nếu cả quá trình SFT (gán nhãn bởi con người) cũng trở nên không cần thiết, thì ngay cả một hệ thống chỉ cần lặp lại tìm kiếm, tổng hợp và kiểm chứng với chi phí lớn cũng có thể học hiệu quả
Kết luận
- Khi nhu cầu suy luận của các hệ thống AI tăng lên, có vẻ như thị trường sẽ tiếp tục được định giá lại
- Với sự xuất hiện của hệ thống R1 mã nguồn mở kết hợp phương pháp CoT và kỹ thuật search, nhiều nhà nghiên cứu và nhà phát triển hơn sẽ có thể thử nghiệm giới hạn và thúc đẩy đổi mới nhanh hơn
- Việc công bố R1-Zero và R1 sẽ là đóng góp lớn cho sự phát triển AI trên toàn cầu
- Nhiều nhóm đang thể hiện quyết tâm tận dụng các hệ thống như R1 để hướng tới ARC Prize 2025, nên rất đáng chờ đợi các kết quả sắp tới
- R1 do DeepSeek công bố được đánh giá tích cực vì đã đóng góp cho tiến bộ khoa học bằng cách đưa ra những manh mối quan trọng trên con đường tiến tới AGI
1 bình luận
Ý kiến trên Hacker News
Các nhà phát triển hệ thống AI có thể tạo ra thay đổi về mặt kinh tế nhờ sinh dữ liệu mới. Khách hàng có thể chi trả chi phí tạo dữ liệu để nâng cao chất lượng mô hình
Có thể không cần cải thiện mô hình nền, và một mô hình thông thường là đã đủ
Hệ thống o3 cho thấy cách triển khai thực tiễn đầu tiên của một máy tính có thể thích nghi với các bài toán mới
Có tuyên bố về việc loại bỏ nút thắt cổ chai của con người, nhưng ngoài toán học và khoa học máy tính ra thì ở hầu hết lĩnh vực rất khó định nghĩa phần thưởng có thể kiểm chứng
Trong nền kinh tế AI, đang diễn ra hai thay đổi lớn
o3 đạt 75% trên AGI-1, trong khi R1 và o1 chỉ đạt 25%
Việc phần lớn điện toán chuyển sang suy luận có tác động lớn đến các khoản đầu tư AI hiện nay
Mike của Baseten cho biết anh tự hào khi được hỗ trợ công việc này
R1-Zero cho thấy một cơ chế mở rộng tiềm năng không có nút thắt cổ chai của con người
R1 cho thấy hiệu năng trên chi phí rất xuất sắc
Tương lai của LLM được dự đoán sẽ nằm ở các ứng dụng tùy biến riêng lẻ