Phân tích R1-Zero và R1 của DeepSeek

(arcprize.org)

5 điểm bởi GN⁺ 2025-01-30 | 1 bình luận | Chia sẻ qua WhatsApp

ARC Prize Foundation đặt mục tiêu định nghĩa, đo lường và khơi gợi các ý tưởng mới về AGI (trí tuệ nhân tạo tổng quát)
AGI vẫn chưa đạt được, và việc chỉ mở rộng tiền huấn luyện LLM (mô hình ngôn ngữ lớn) thuần túy không phải là lời giải
Trong giai đoạn 2023-24, khoảng 20 tỷ USD đã được đầu tư vào các startup LLM, trong khi các startup AGI chỉ nhận khoảng 200 triệu USD

Phân tích R1-Zero và R1 của DeepSeek

R1-Zero và R1 do DeepSeek công bố đang thu hút sự chú ý lớn vì cho thấy kết quả tiệm cận trình độ của hệ thống o1 của OpenAI
Cả R1-Zero và R1 đều ghi khoảng 15~20% điểm ARC-AGI-1
Đây là mức điểm cao hơn nhiều so với GPT-4o, vốn đạt 5%
Dòng chảy chủ đạo gần đây của ngành AI tập trung vào việc mở rộng đơn thuần LLM (mô hình ngôn ngữ lớn), nhưng cách này được xem là không phải lời giải trực tiếp để hiện thực hóa AGI
Thông qua benchmark ARC-AGI-1, ARC Prize Foundation đang khuyến khích nghiên cứu các hệ thống AI có thể thích nghi ngay cả với những bài toán mới chưa từng được huấn luyện

R1-Zero quan trọng hơn R1

Kết quả nghiên cứu của DeepSeek đã tạo ra R1-Zero và R1
R1-Zero, R1 và o1(low compute) của OpenAI đều ghi mức điểm tương tự 15~20% trên ARC-AGI-1
Hệ thống o3 mà OpenAI công bố vào cuối năm 2024 đã nâng điểm ARC-AGI-1 lên tối đa 88%, cho thấy khả năng giải quyết thích nghi các bài toán mới
Tuy vậy, o3 vẫn có nhiều phần không được công khai nên các nhà nghiên cứu khó nắm được chi tiết kỹ thuật
So với R1, R1-Zero được xem có giá trị dài hạn lớn hơn vì không trải qua bước gán nhãn trực tiếp bởi con người (SFT)

R1-Zero loại bỏ nút thắt cổ chai của con người

Các mô hình suy luận trước đây học bằng cách kết hợp gán nhãn của con người (SFT) hoặc phần thưởng từ máy (RL) cho quá trình giải bài (Chain-of-Thought, viết tắt là CoT)
R1-Zero học CoT chỉ bằng reinforcement learning (RL), tức là không cần SFT hay nhãn từ chuyên gia con người
Trên ARC-AGI-1, R1-Zero đạt 14% còn R1 đạt 15%, cho thấy hiệu năng gần như tương đương
Trên các benchmark khác như MATH AIME 2024, kết quả của R1-Zero và R1 cũng khá tương tự
Từng có lo ngại về việc trộn ngôn ngữ hoặc vấn đề dễ đọc, nhưng trong thử nghiệm thực tế mô hình vẫn hoạt động tốt ở các lĩnh vực toán học và lập trình mà không có incoherence đáng kể
Các hàm ý chính rút ra gồm:
- Ngay cả khi không có gán nhãn từ con người, vẫn có thể suy luận chính xác và dễ hiểu trong các miền cụ thể
- R1-Zero có thể tự tạo biểu diễn token DSL chuyên biệt cho miền của mình chỉ bằng reinforcement learning
- SFT có thể vẫn cần thiết để mở rộng phạm vi suy luận
Xét đến cùng, R1-Zero cho thấy tiềm năng mở rộng theo hướng “không còn nút thắt con người”, nơi mô hình có thể tự tạo dữ liệu huấn luyện mà không phụ thuộc vào con người
Dưới đây là mô tả ngắn về điểm số, số token trung bình và chi phí suy luận của nhiều hệ thống trên ARC-AGI-1
- r1-zero: 14%, không có SFT, không tìm kiếm suy luận tuần tự, trung bình 11K token, chi phí khoảng $0.11
- r1: 15.8%, có SFT, không tìm kiếm suy luận tuần tự, trung bình 6K token, chi phí khoảng $0.06
- o1(low): 20.5%, có SFT, không tìm kiếm suy luận tuần tự, trung bình 7K token, chi phí khoảng $0.43
- o1(med): 31%, có SFT, không tìm kiếm suy luận tuần tự, trung bình 13K token, chi phí khoảng $0.79
- o1(high): 35%, có SFT, không tìm kiếm suy luận tuần tự, trung bình 22K token, chi phí khoảng $1.31
- o3(low): 75.7%, có SFT, dùng tìm kiếm và sampling, trung bình 335K token, chi phí khoảng $20
- o3(high): 87.5%, có SFT, dùng tìm kiếm và sampling, trung bình 57M token, chi phí khoảng $3,400

Chi phí cho độ tin cậy

Một xu hướng đang thay đổi mạnh trong thị trường AI hiện nay là “chi nhiều tiền hơn thì có thể tăng độ chính xác và độ tin cậy”
Hơn nữa, trọng tâm chi phí đang dịch chuyển từ huấn luyện sang suy luận
Nếu đầu tư nhiều tài nguyên tính toán ở giai đoạn suy luận, có thể thu được kết quả chính xác và ổn định hơn
Phần lớn doanh nghiệp vẫn chưa thể triển khai tự động hóa quy mô lớn do vấn đề độ tin cậy của hệ thống AI
Có dự báo rằng tiến bộ trong lĩnh vực ARC-AGI sẽ nâng cao độ tin cậy của AI agent, và Anthropic, OpenAI, Apple cùng nhiều bên khác cũng đang chuẩn bị các dịch vụ kiểu agent
Người dùng có xu hướng sẵn sàng trả thêm chi phí để đạt mức độ chính xác cần thiết
Vì vậy, nhu cầu suy luận AI được dự báo sẽ tăng mạnh, kéo theo nhu cầu về tài nguyên tính toán cũng tăng

Suy luận chính là học

Trước đây, người ta thu thập dữ liệu quy mô lớn hoặc tạo dữ liệu tổng hợp (synthetic) từ các LLM hiện có để dùng cho huấn luyện
Giờ đây, trong quá trình suy luận, người dùng hoặc hệ thống có thể thực sự tạo ra dữ liệu mới hữu ích
Điều này cho thấy một sự chuyển dịch kinh tế mới: “suy luận đồng thời cũng là học”
Các mô hình AI có nhiều người dùng hơn sẽ thu thập được nhiều dữ liệu suy luận hơn, và bản thân điều đó sẽ dẫn tới cải thiện mô hình
Nếu cả quá trình SFT (gán nhãn bởi con người) cũng trở nên không cần thiết, thì ngay cả một hệ thống chỉ cần lặp lại tìm kiếm, tổng hợp và kiểm chứng với chi phí lớn cũng có thể học hiệu quả

Kết luận

Khi nhu cầu suy luận của các hệ thống AI tăng lên, có vẻ như thị trường sẽ tiếp tục được định giá lại
Với sự xuất hiện của hệ thống R1 mã nguồn mở kết hợp phương pháp CoT và kỹ thuật search, nhiều nhà nghiên cứu và nhà phát triển hơn sẽ có thể thử nghiệm giới hạn và thúc đẩy đổi mới nhanh hơn
Việc công bố R1-Zero và R1 sẽ là đóng góp lớn cho sự phát triển AI trên toàn cầu
Nhiều nhóm đang thể hiện quyết tâm tận dụng các hệ thống như R1 để hướng tới ARC Prize 2025, nên rất đáng chờ đợi các kết quả sắp tới
R1 do DeepSeek công bố được đánh giá tích cực vì đã đóng góp cho tiến bộ khoa học bằng cách đưa ra những manh mối quan trọng trên con đường tiến tới AGI

1 bình luận

GN⁺ 2025-01-30

Ý kiến trên Hacker News

Các nhà phát triển hệ thống AI có thể tạo ra thay đổi về mặt kinh tế nhờ sinh dữ liệu mới. Khách hàng có thể chi trả chi phí tạo dữ liệu để nâng cao chất lượng mô hình
- Tuy nhiên, vẫn có góc nhìn hoài nghi về việc liệu dữ liệu này có thực sự chất lượng cao hay không
- Các mô hình SOTA hiện tại vẫn đang dừng ở mức GPT4, và có khả năng sẽ tiếp tục tiến bộ trong 2-3 năm tới
- Dùng mô hình suy luận để tạo dữ liệu rồi huấn luyện mô hình không suy luận trên dữ liệu đó là một ý tưởng đầy hứa hẹn
- Tuy nhiên, vẫn chưa rõ có thể đưa khả năng suy luận vào trọng số mô hình tốt đến mức nào
- Có ý kiến cho rằng OpenAI lẽ ra đã nên dùng dữ liệu huấn luyện o3 để huấn luyện mô hình mới
Có thể không cần cải thiện mô hình nền, và một mô hình thông thường là đã đủ
- Điều quan trọng là giảm giá của mô hình suy luận và nâng cao chất lượng
Hệ thống o3 cho thấy cách triển khai thực tiễn đầu tiên của một máy tính có thể thích nghi với các bài toán mới
- Tuy nhiên, OpenAI đã công bố rằng o3 được huấn luyện với 75% tập huấn luyện công khai, và mức đóng góp hiệu năng của dữ liệu ARC-AGI vẫn chưa được kiểm chứng
Có tuyên bố về việc loại bỏ nút thắt cổ chai của con người, nhưng ngoài toán học và khoa học máy tính ra thì ở hầu hết lĩnh vực rất khó định nghĩa phần thưởng có thể kiểm chứng
Trong nền kinh tế AI, đang diễn ra hai thay đổi lớn
- Có thể trả nhiều tiền hơn để đạt được độ chính xác và độ tin cậy cao hơn
- Chi phí đang chuyển từ huấn luyện sang suy luận
- Điều này sẽ làm tăng nhu cầu suy luận và kéo theo nhu cầu điện toán tăng lên
o3 đạt 75% trên AGI-1, trong khi R1 và o1 chỉ đạt 25%
Việc phần lớn điện toán chuyển sang suy luận có tác động lớn đến các khoản đầu tư AI hiện nay
- Đây là tin xấu với NVDA, và các giải pháp tập trung vào suy luận có hiệu quả kinh tế tốt hơn
Mike của Baseten cho biết anh tự hào khi được hỗ trợ công việc này
R1-Zero cho thấy một cơ chế mở rộng tiềm năng không có nút thắt cổ chai của con người
- Tuy nhiên, vẫn có câu hỏi liệu phương pháp RL có còn cần rất nhiều dữ liệu do con người tạo ra hay không
R1 cho thấy hiệu năng trên chi phí rất xuất sắc
- Việc dùng R1 làm bộ sinh dữ liệu cho các bài toán phức tạp được xem là đầy hứa hẹn
Tương lai của LLM được dự đoán sẽ nằm ở các ứng dụng tùy biến riêng lẻ
- Chỉ cần nói cho tác nhân AI biết ứng dụng và yêu cầu mong muốn, nó sẽ xây dựng mọi thứ từ backend đến frontend
- Nó sẽ kiểm thử phần mềm, sửa lỗi và triển khai lên production
- Dù LLM hiện tại chưa hoàn hảo, các hệ thống và quy trình tự động chạy mã, biên dịch, rồi phản hồi lỗi lại cho LLM đã tồn tại

Phân tích R1-Zero và R1 của DeepSeek

Phân tích R1-Zero và R1 của DeepSeek

R1-Zero quan trọng hơn R1

R1-Zero loại bỏ nút thắt cổ chai của con người

Chi phí cho độ tin cậy

Suy luận chính là học

Kết luận

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News