5 điểm bởi GN⁺ 2025-01-30 | 1 bình luận | Chia sẻ qua WhatsApp
  • ARC Prize Foundation đặt mục tiêu định nghĩa, đo lường và khơi gợi các ý tưởng mới về AGI (trí tuệ nhân tạo tổng quát)
  • AGI vẫn chưa đạt được, và việc chỉ mở rộng tiền huấn luyện LLM (mô hình ngôn ngữ lớn) thuần túy không phải là lời giải
  • Trong giai đoạn 2023-24, khoảng 20 tỷ USD đã được đầu tư vào các startup LLM, trong khi các startup AGI chỉ nhận khoảng 200 triệu USD

Phân tích R1-Zero và R1 của DeepSeek

  • R1-Zero và R1 do DeepSeek công bố đang thu hút sự chú ý lớn vì cho thấy kết quả tiệm cận trình độ của hệ thống o1 của OpenAI
  • Cả R1-Zero và R1 đều ghi khoảng 15~20% điểm ARC-AGI-1
  • Đây là mức điểm cao hơn nhiều so với GPT-4o, vốn đạt 5%
  • Dòng chảy chủ đạo gần đây của ngành AI tập trung vào việc mở rộng đơn thuần LLM (mô hình ngôn ngữ lớn), nhưng cách này được xem là không phải lời giải trực tiếp để hiện thực hóa AGI
  • Thông qua benchmark ARC-AGI-1, ARC Prize Foundation đang khuyến khích nghiên cứu các hệ thống AI có thể thích nghi ngay cả với những bài toán mới chưa từng được huấn luyện

R1-Zero quan trọng hơn R1

  • Kết quả nghiên cứu của DeepSeek đã tạo ra R1-Zero và R1
  • R1-Zero, R1 và o1(low compute) của OpenAI đều ghi mức điểm tương tự 15~20% trên ARC-AGI-1
  • Hệ thống o3 mà OpenAI công bố vào cuối năm 2024 đã nâng điểm ARC-AGI-1 lên tối đa 88%, cho thấy khả năng giải quyết thích nghi các bài toán mới
  • Tuy vậy, o3 vẫn có nhiều phần không được công khai nên các nhà nghiên cứu khó nắm được chi tiết kỹ thuật
  • So với R1, R1-Zero được xem có giá trị dài hạn lớn hơn vì không trải qua bước gán nhãn trực tiếp bởi con người (SFT)

R1-Zero loại bỏ nút thắt cổ chai của con người

  • Các mô hình suy luận trước đây học bằng cách kết hợp gán nhãn của con người (SFT) hoặc phần thưởng từ máy (RL) cho quá trình giải bài (Chain-of-Thought, viết tắt là CoT)

  • R1-Zero học CoT chỉ bằng reinforcement learning (RL), tức là không cần SFT hay nhãn từ chuyên gia con người

  • Trên ARC-AGI-1, R1-Zero đạt 14% còn R1 đạt 15%, cho thấy hiệu năng gần như tương đương

  • Trên các benchmark khác như MATH AIME 2024, kết quả của R1-Zero và R1 cũng khá tương tự

  • Từng có lo ngại về việc trộn ngôn ngữ hoặc vấn đề dễ đọc, nhưng trong thử nghiệm thực tế mô hình vẫn hoạt động tốt ở các lĩnh vực toán học và lập trình mà không có incoherence đáng kể

  • Các hàm ý chính rút ra gồm:

    • Ngay cả khi không có gán nhãn từ con người, vẫn có thể suy luận chính xác và dễ hiểu trong các miền cụ thể
    • R1-Zero có thể tự tạo biểu diễn token DSL chuyên biệt cho miền của mình chỉ bằng reinforcement learning
    • SFT có thể vẫn cần thiết để mở rộng phạm vi suy luận
  • Xét đến cùng, R1-Zero cho thấy tiềm năng mở rộng theo hướng “không còn nút thắt con người”, nơi mô hình có thể tự tạo dữ liệu huấn luyện mà không phụ thuộc vào con người

  • Dưới đây là mô tả ngắn về điểm số, số token trung bình và chi phí suy luận của nhiều hệ thống trên ARC-AGI-1

    • r1-zero: 14%, không có SFT, không tìm kiếm suy luận tuần tự, trung bình 11K token, chi phí khoảng $0.11
    • r1: 15.8%, có SFT, không tìm kiếm suy luận tuần tự, trung bình 6K token, chi phí khoảng $0.06
    • o1(low): 20.5%, có SFT, không tìm kiếm suy luận tuần tự, trung bình 7K token, chi phí khoảng $0.43
    • o1(med): 31%, có SFT, không tìm kiếm suy luận tuần tự, trung bình 13K token, chi phí khoảng $0.79
    • o1(high): 35%, có SFT, không tìm kiếm suy luận tuần tự, trung bình 22K token, chi phí khoảng $1.31
    • o3(low): 75.7%, có SFT, dùng tìm kiếm và sampling, trung bình 335K token, chi phí khoảng $20
    • o3(high): 87.5%, có SFT, dùng tìm kiếm và sampling, trung bình 57M token, chi phí khoảng $3,400

Chi phí cho độ tin cậy

  • Một xu hướng đang thay đổi mạnh trong thị trường AI hiện nay là “chi nhiều tiền hơn thì có thể tăng độ chính xác và độ tin cậy”
  • Hơn nữa, trọng tâm chi phí đang dịch chuyển từ huấn luyện sang suy luận
  • Nếu đầu tư nhiều tài nguyên tính toán ở giai đoạn suy luận, có thể thu được kết quả chính xác và ổn định hơn
  • Phần lớn doanh nghiệp vẫn chưa thể triển khai tự động hóa quy mô lớn do vấn đề độ tin cậy của hệ thống AI
  • Có dự báo rằng tiến bộ trong lĩnh vực ARC-AGI sẽ nâng cao độ tin cậy của AI agent, và Anthropic, OpenAI, Apple cùng nhiều bên khác cũng đang chuẩn bị các dịch vụ kiểu agent
  • Người dùng có xu hướng sẵn sàng trả thêm chi phí để đạt mức độ chính xác cần thiết
  • Vì vậy, nhu cầu suy luận AI được dự báo sẽ tăng mạnh, kéo theo nhu cầu về tài nguyên tính toán cũng tăng

Suy luận chính là học

  • Trước đây, người ta thu thập dữ liệu quy mô lớn hoặc tạo dữ liệu tổng hợp (synthetic) từ các LLM hiện có để dùng cho huấn luyện
  • Giờ đây, trong quá trình suy luận, người dùng hoặc hệ thống có thể thực sự tạo ra dữ liệu mới hữu ích
  • Điều này cho thấy một sự chuyển dịch kinh tế mới: “suy luận đồng thời cũng là học”
  • Các mô hình AI có nhiều người dùng hơn sẽ thu thập được nhiều dữ liệu suy luận hơn, và bản thân điều đó sẽ dẫn tới cải thiện mô hình
  • Nếu cả quá trình SFT (gán nhãn bởi con người) cũng trở nên không cần thiết, thì ngay cả một hệ thống chỉ cần lặp lại tìm kiếm, tổng hợp và kiểm chứng với chi phí lớn cũng có thể học hiệu quả

Kết luận

  • Khi nhu cầu suy luận của các hệ thống AI tăng lên, có vẻ như thị trường sẽ tiếp tục được định giá lại
  • Với sự xuất hiện của hệ thống R1 mã nguồn mở kết hợp phương pháp CoT và kỹ thuật search, nhiều nhà nghiên cứu và nhà phát triển hơn sẽ có thể thử nghiệm giới hạn và thúc đẩy đổi mới nhanh hơn
  • Việc công bố R1-Zero và R1 sẽ là đóng góp lớn cho sự phát triển AI trên toàn cầu
  • Nhiều nhóm đang thể hiện quyết tâm tận dụng các hệ thống như R1 để hướng tới ARC Prize 2025, nên rất đáng chờ đợi các kết quả sắp tới
  • R1 do DeepSeek công bố được đánh giá tích cực vì đã đóng góp cho tiến bộ khoa học bằng cách đưa ra những manh mối quan trọng trên con đường tiến tới AGI

1 bình luận

 
GN⁺ 2025-01-30
Ý kiến trên Hacker News
  • Các nhà phát triển hệ thống AI có thể tạo ra thay đổi về mặt kinh tế nhờ sinh dữ liệu mới. Khách hàng có thể chi trả chi phí tạo dữ liệu để nâng cao chất lượng mô hình

    • Tuy nhiên, vẫn có góc nhìn hoài nghi về việc liệu dữ liệu này có thực sự chất lượng cao hay không
    • Các mô hình SOTA hiện tại vẫn đang dừng ở mức GPT4, và có khả năng sẽ tiếp tục tiến bộ trong 2-3 năm tới
    • Dùng mô hình suy luận để tạo dữ liệu rồi huấn luyện mô hình không suy luận trên dữ liệu đó là một ý tưởng đầy hứa hẹn
    • Tuy nhiên, vẫn chưa rõ có thể đưa khả năng suy luận vào trọng số mô hình tốt đến mức nào
    • Có ý kiến cho rằng OpenAI lẽ ra đã nên dùng dữ liệu huấn luyện o3 để huấn luyện mô hình mới
  • Có thể không cần cải thiện mô hình nền, và một mô hình thông thường là đã đủ

    • Điều quan trọng là giảm giá của mô hình suy luận và nâng cao chất lượng
  • Hệ thống o3 cho thấy cách triển khai thực tiễn đầu tiên của một máy tính có thể thích nghi với các bài toán mới

    • Tuy nhiên, OpenAI đã công bố rằng o3 được huấn luyện với 75% tập huấn luyện công khai, và mức đóng góp hiệu năng của dữ liệu ARC-AGI vẫn chưa được kiểm chứng
  • Có tuyên bố về việc loại bỏ nút thắt cổ chai của con người, nhưng ngoài toán học và khoa học máy tính ra thì ở hầu hết lĩnh vực rất khó định nghĩa phần thưởng có thể kiểm chứng

  • Trong nền kinh tế AI, đang diễn ra hai thay đổi lớn

    • Có thể trả nhiều tiền hơn để đạt được độ chính xác và độ tin cậy cao hơn
    • Chi phí đang chuyển từ huấn luyện sang suy luận
    • Điều này sẽ làm tăng nhu cầu suy luận và kéo theo nhu cầu điện toán tăng lên
  • o3 đạt 75% trên AGI-1, trong khi R1 và o1 chỉ đạt 25%

  • Việc phần lớn điện toán chuyển sang suy luận có tác động lớn đến các khoản đầu tư AI hiện nay

    • Đây là tin xấu với NVDA, và các giải pháp tập trung vào suy luận có hiệu quả kinh tế tốt hơn
  • Mike của Baseten cho biết anh tự hào khi được hỗ trợ công việc này

  • R1-Zero cho thấy một cơ chế mở rộng tiềm năng không có nút thắt cổ chai của con người

    • Tuy nhiên, vẫn có câu hỏi liệu phương pháp RL có còn cần rất nhiều dữ liệu do con người tạo ra hay không
  • R1 cho thấy hiệu năng trên chi phí rất xuất sắc

    • Việc dùng R1 làm bộ sinh dữ liệu cho các bài toán phức tạp được xem là đầy hứa hẹn
  • Tương lai của LLM được dự đoán sẽ nằm ở các ứng dụng tùy biến riêng lẻ

    • Chỉ cần nói cho tác nhân AI biết ứng dụng và yêu cầu mong muốn, nó sẽ xây dựng mọi thứ từ backend đến frontend
    • Nó sẽ kiểm thử phần mềm, sửa lỗi và triển khai lên production
    • Dù LLM hiện tại chưa hoàn hảo, các hệ thống và quy trình tự động chạy mã, biên dịch, rồi phản hồi lỗi lại cho LLM đã tồn tại