Giải thích về R1 và mọi thứ khác

(timkellogg.me)

41 điểm bởi GN⁺ 2025-01-27 | 9 bình luận | Chia sẻ qua WhatsApp

Tổng hợp tình hình hiện tại để hiểu về R1 xuất hiện đột ngột, cùng với o1, o3 và những thứ đang thay đổi rất nhanh

Dòng thời gian

12/9/2024: ra mắt o1-preview
5/12/2024: phát hành bản chính thức o1 và o1-pro
20/12/2024: công bố o3 (vượt qua ARC-AGI, thu hút chú ý như “AGI”)
26/12/2024: phát hành DeepSeek V3
20/1/2025: phát hành DeepSeek R1 (hiệu năng tương tự o1 nhưng mã nguồn mở)
25/1/2025: nhóm nghiên cứu của Đại học Hong Kong tái tạo thành công kết quả của R1
25/1/2025: Huggingface công bố dự án open-r1 hoàn toàn mã nguồn mở, tái tạo R1
Để làm rõ
- o1, o3, R1 đều là mô hình suy luận (Reasoning)
- DeepSeek V3 là LLM (mô hình nền tảng), còn mô hình suy luận được tạo ra bằng cách fine-tune từ đó
- ARC-AGI-1 là bài đánh giá đơn giản và cơ bản nhất về trí tuệ linh hoạt (fluid intelligence). Trượt bài này có nghĩa là gần như hoàn toàn không có khả năng thích nghi hoặc giải quyết vấn đề trong tình huống mới lạ

# Reasoning & Agents

Mô hình suy luận != Agents

Mô hình suy luận (Reasoning) là mô hình trải qua quá trình “suy nghĩ” trước khi tạo ra câu trả lời
- LLM suy nghĩ bằng cách sinh token
- Vì vậy chúng ta đang huấn luyện mô hình sinh ra thật nhiều token với kỳ vọng nó sẽ tìm được đáp án đúng
AI agent được định nghĩa bởi 2 yếu tố
- Tính tự chủ (agency) để ra quyết định và hoàn thành công việc
- Khả năng tương tác (Interact) với thế giới bên ngoài
Chỉ riêng LLM hay mô hình suy luận thì chỉ sinh token, nên không thể thực hiện hai chức năng này
- Muốn đưa ra quyết định thực sự và cung cấp khả năng tương tác thì cần có phần mềm
Agent là một hệ thống gồm nhiều AI. Đó là sự kết hợp của nhiều mô hình và phần mềm để có thể tự chủ tương tác với thế giới. Phần cứng cũng vậy.

Suy luận là quan trọng

Lý do mô hình suy luận bị nhầm với agent là vì hiện tại suy luận đang là nút thắt cổ chai
Muốn lập kế hoạch công việc, giám sát, kiểm chứng và trở nên thông minh hơn thì năng lực suy luận là thiết yếu
Không có năng lực suy luận thì không thể tạo agent, nhưng khi các benchmark suy luận bão hòa thì sẽ xuất hiện những thách thức mới

Suy luận cần rẻ hơn

Agent hoạt động trong nhiều giờ, nhiều ngày, hoặc 24/7 không nghỉ
Đó là bản chất của hành vi tự chủ, và vì thế chi phí sẽ tăng lên
Ở thời điểm hiện tại, R1 rẻ hơn o1 khoảng 30 lần nhưng vẫn cho hiệu năng tương tự

# Vì sao R1 quan trọng

Nó rất có ý nghĩa vì rẻ, mã nguồn mở và đã chứng minh được hiệu năng tương đương o1 và o3
Dựa trên các tài liệu đã công bố, từng có một số dự đoán về cách o1 hoạt động, và bài báo công bố R1 gần như xác nhận toàn bộ những điều đó. Nhờ vậy chúng ta hiểu được cách o1 mở rộng thành o3, o4
Ngoài ra, vì là mã nguồn mở nên bất kỳ ai trên thế giới cũng có thể triển khai bằng chính ý tưởng của mình
Chỉ cần nhìn dòng thời gian của những người đã thử tái hiện R1 trong tuần qua là có thể thấy điều này (có người còn nói làm được với $30)
Đổi mới xảy ra khi có thể lặp lại nhanh và rẻ, và R1 đã tạo ra môi trường như vậy
Quan trọng nhất là R1 cho thấy không cần tới những ý tưởng phức tạp (DPO, MCTS), chỉ với phương pháp RL đơn giản cũng có thể đạt được năng lực suy luận đủ tốt

# Xu hướng phát triển AI

Tiền huấn luyện (Pretraining) đã chạm giới hạn mở rộng

Từ sau GPT-4, bắt đầu thấy giới hạn của “định luật scaling” kiểu cũ, tức chỉ đơn giản tăng dữ liệu quy mô lớn và tài nguyên tính toán
Người ta đánh giá rằng vì vấn đề thu thập dữ liệu và các phương thức suy luận mới, cách làm cũ không còn dễ tạo ra hiệu quả lớn như trước

Định luật scaling theo thời gian suy luận (Inference Time)

Các mô hình suy luận như o1 và r1 có xu hướng “càng suy nghĩ lâu thì hiệu năng càng tốt”
Nhưng để có kết quả tốt hơn thì chính xác phải thực hiện thêm tính toán theo cách nào vẫn chưa rõ ràng
Giả định ngây thơ ban đầu là chain-of-thought (CoT) có thể hoạt động, và chỉ cần huấn luyện mô hình thực hiện CoT là được
Vấn đề là làm sao tìm ra con đường nhanh nhất để đi tới lời giải một cách hiệu quả
- Entropix là một ý tưởng, dùng tín hiệu nội bộ của mô hình để tìm con đường hiệu quả nhất
- Cũng có các phương pháp tạo nhiều nhánh nhưng chỉ chọn đúng một nhánh như Monte Carlo Tree Search (MCTS)
Hóa ra CoT là tốt nhất
- R1 đang thực hiện single-line chain-of-thought (CoT) đơn giản với RL
- Có thể giả định rằng o1 cũng đang làm điều tương tự

Các mô hình thu nhỏ (Down-Sized Models)

Khởi đầu là GPT-4-turbo, sau đó đến GPT-4o, dòng Claude và các LLM khác. Tất cả đều ngày càng nhỏ hơn và rẻ hơn trong suốt năm 2024
Vì cần sinh nhiều token cho suy luận, nên mô hình càng nhỏ thì tốc độ tính toán càng nhanh và hiệu quả càng cao
“Mô hình nhỏ hơn = thông minh hơn”

Học tăng cường (Reinforcement Learning)

R1 dùng một cách tiếp cận RL đơn giản gọi là GRPO (Group Rewards Policy Optimization) để huấn luyện mô hình thực hiện CoT tại thời điểm suy luận
Không cần verifier phức tạp hay LLM bên ngoài. Chỉ cần RL với hàm thưởng cơ bản cho độ chính xác và định dạng đầu ra
R1-Zero là phiên bản R1 của DeepSeek, chỉ xử lý GRPO và không hỗ trợ các tính năng khác
- Nó có độ chính xác cao hơn R1, nhưng vì tự do nhảy qua lại giữa nhiều ngôn ngữ như tiếng Anh và tiếng Trung nên nhìn chung không phù hợp với người dùng phổ thông không sử dụng đa ngôn ngữ
Vì sao R1-Zero lại nhảy giữa các ngôn ngữ?
- Tôi nghĩ là vì “mỗi ngôn ngữ diễn đạt hiệu quả hơn những loại khái niệm khác nhau”
- Có một meme là: “what’s the german word for [paragraph of text]?”
Tính đến ngày 25/1/2025, đã có người trình diễn được rằng “bất kỳ RL nào cũng đều có thể”
- Họ đã thử cả GRPO, PPO, PRIME và tất cả đều hoạt động tốt
- Con số ma thuật là 1.5B. Khi tham số mô hình đạt từ 1.5B (1,5 tỷ) trở lên thì áp dụng kỹ thuật RL nào cũng sẽ làm xuất hiện năng lực suy luận
Liệu nó sẽ mở rộng tới đâu?

Chưng cất mô hình (Model Distillation)

R1 được chưng cất (distilled) từ checkpoint trước đó của chính nó
Chưng cất thường được hiểu là một mô hình giáo viên (teacher) tạo dữ liệu huấn luyện cho mô hình học sinh, và thường giả định giáo viên lớn hơn học sinh
- R1 đã dùng checkpoint trước đó của chính cùng mô hình để tạo dữ liệu huấn luyện cho supervised fine-tuning (SFT)
- Nó cải thiện mô hình bằng cách lặp lại SFT và RL
Việc này có thể đi xa đến đâu?
Cách đây rất lâu (9 ngày trước), từng có dự đoán rằng GPT5 tồn tại và GPT4o chỉ là bản được chưng cất từ nó
- Bài viết này đưa ra giả thuyết rằng OpenAI và Anthropic huấn luyện các mô hình lớn, sau đó chưng cất chúng, rồi tiếp tục dùng các mô hình đã chưng cất để tạo ra mô hình còn lớn hơn nữa trong một chu kỳ lặp lại
- Tôi muốn nói rằng bài báo về R1 phần lớn đã xác nhận điều đó là khả thi (và vì thế khả năng cao là nó thực sự sẽ xảy ra)
Nếu vậy thì điều này có thể tiếp diễn trong thời gian rất dài
Lưu ý: một số thí nghiệm cho thấy mô hình học sinh có thể vượt qua cả mô hình giáo viên. Trong thực tế điều này xảy ra đến mức nào thì vẫn chưa chắc chắn
- Trực giác là chưng cất có thể giúp học sinh tìm được tín hiệu và hội tụ nhanh hơn
- Model collapse vẫn là nỗi lo lớn nhất, nhưng có vẻ phần lớn là nỗi sợ không cần thiết
- Sụp đổ mô hình chắc chắn luôn có thể xảy ra, nhưng không bao giờ là điều được đảm bảo, và cũng có hướng ngược lại để học sinh vượt qua giáo viên

# Triển vọng năm 2025

Tình hình hiện tại:
- Tiền huấn luyện đang khó khăn (nhưng chưa chết)
- Scaling suy luận
- Thu nhỏ mô hình
- Định luật scaling của RL
- Định luật scaling nhờ chưng cất mô hình
Có vẻ tốc độ phát triển AI không hề chậm lại. Một định luật scaling chậm đi thì đã có thêm 4 định luật khác xuất hiện
Xu hướng này sẽ tiếp tục tăng tốc trong một thời gian tới

Vấn đề địa chính trị: Distealing

“Distealing” là từ do tôi tạo ra, nghĩa là “chưng cất trái phép” một mô hình
Giờ đây phần mềm là chính trị, và AI ở trung tâm của điều đó
- AI dường như đang được cân nhắc trên gần như mọi trục chính trị, và điều thú vị nhất là Trung Quốc đối đầu với Mỹ
Chiến lược
- Mỹ: tài trợ khổng lồ. Đổ tiền vào ngọn lửa AI càng nhanh càng tốt
- Trung Quốc: vì các biện pháp kiểm soát xuất khẩu mang tính áp chế, họ huy động các kỹ sư và nhà nghiên cứu thông minh hơn để tìm giải pháp rẻ hơn
- Châu Âu: hoặc quy định, hoặc AI mã nguồn mở, cái nào cũng được
Có tranh cãi về việc DeepSeek có “distealing” o1 hay không, nhưng xét đến các bản sao của R1 thì hiện nay nhiều ý kiến cho rằng họ có khả năng đã phát triển R1 một cách độc lập
- Tuy nhiên, việc một phòng nghiên cứu Trung Quốc nhanh chóng vượt qua mô hình tốt nhất của OpenAI vẫn đang tạo ra cảm giác căng thẳng
AI rồi sẽ sớm (nếu chưa phải ngay bây giờ) cải thiện năng lực với tốc độ theo cấp số nhân
- Tác động chính trị và địa chính trị sẽ cực kỳ lớn
- Ngược lại, những người làm trong lĩnh vực AI nên quan tâm nhiều hơn đến chính trị và giữ tư duy cởi mở về việc chính sách nào là tốt hay xấu

Kết luận

Điểm quan trọng nhất là R1 đã làm rõ những phần trước đây còn mờ mịt
Vì vậy, tương lai của AI đã trở nên rõ ràng hơn, và tốc độ phát triển của nó dường như đang tăng nhanh rất nhanh

9 bình luận

xguru 2025-02-02

mammal 2025-01-27

Nói là distealing thì giờ có trách cũng khó, vì từ thời kỳ sơ khai của LLaMA 1 đã có các mô hình Alpaca, Vicuna được chưng cất từ GPT, và hiện nay ngay cả các frontier lab cũng không có nơi nào không huấn luyện bằng đầu ra mô hình của nhau.

Thực tế thì các mô hình frontier hiện nay phần lớn là những bộ gene cận huyết được chưng cất từ GPT rồi áp dụng RLHF theo khẩu vị của từng phòng thí nghiệm.

mammal 2025-01-27

Điều đáng lo nhất lúc này không phải là việc sao chép trái phép hay kiểm duyệt từ Trung Quốc.

Điều gây sốc là MLA, MTP, mixed precision framework và GRPO — nền tảng đứng sau hiệu suất điên rồ của DeepSeek — đã được tạo ra hoàn toàn chỉ bởi những người xuất thân 100% từ các trường đại học Trung Quốc.

Ở Mỹ thậm chí còn bắt đầu xuất hiện cả cụm từ “cú sốc Sputnik thứ hai”...

luminance 2025-01-27

Có phải distealing là viết nhầm của distilling không?

grogu 2025-01-27

Có vẻ tác giả đã tự tạo ra từ distealing để phân biệt việc chưng cất trái phép với distilling mang nghĩa chưng cất, như một kiểu chơi chữ đồng âm (bài viết cũng có nhắc đến điều này).

luminance 2025-01-27

Cảm ơn bạn đã giải thích.

savvykang 2025-01-27

> Geopolitics: Distealing
> Vấn đề địa chính trị: Distealing

> I coined that term, distealing, unauthorized distillation of models. Go ahead, use it, it’s a fun word.
> "Distealing" là từ do tôi tạo ra, chỉ việc "chưng cất" mô hình trái phép

luminance 2025-01-27

À, hóa ra trong bản gốc có nội dung. Cảm ơn bạn.

GN⁺ 2025-01-27

Ý kiến trên Hacker News

Về tuyên bố rằng R1 đã thay thế các ý tưởng phức tạp bằng học tăng cường đơn giản, thì trên thực tế họ đã dùng kết hợp cả học tăng cường và học có giám sát. Dữ liệu dùng cho học có giám sát có khả năng là do con người tuyển chọn chứ không phải do mô hình tự tạo ra
- Có những nỗ lực nhằm tái tạo R1, và một số người cho rằng có thể làm với $30, nhưng đó có thể là tinh chỉnh R1 chứ không phải bản thân R1
- Hugging Face đang cố gắng tái tạo R1, nhưng đây là một công việc khá lớn và không phải thứ có thể giải quyết chỉ với $30
Bài viết có quá nhiều nội dung cường điệu nên khó tin cậy
- Benchmark của nhiều mô hình tập trung vào độ chính xác trong toán học và lập trình, nhưng với một số trường hợp sử dụng cụ thể thì các khả năng này không quan trọng. Rất khó để benchmark các khái niệm
- Có ý kiến đặt câu hỏi liệu có thể thông qua chưng cất để tạo ra một mô hình đã loại bỏ các yếu tố toán học và lập trình hay không
Việc R1 xuất hiện trên truyền thông đại chúng đã gây ra sự bối rối và cảnh giác. Rất khó để giải thích rằng Trung Quốc không phải đang đe dọa Mỹ
- Về kết luận rằng năng lực AI sẽ sớm tăng theo cấp số nhân, R1 đạt mức o1 dưới dạng mô hình mã nguồn mở là điểm dữ liệu duy nhất. Đây là hai chủ đề hầu như không liên quan đến nhau
Có ý kiến đặt câu hỏi liệu AI đã thực sự suy luận hay chưa
- ARC-AGI là một benchmark đơn giản với con người nhưng lại rất khó với AI. Có sự hiểu lầm rằng nếu giải được nó thì AI có thể làm những việc như con người
- François Chollet, người tạo ra ARC-AGI, giải thích ARC-AGI-1 đơn giản đến mức nào và việc giải được nó thực sự có ý nghĩa gì
- Việc vượt qua ARC-AGI-1 cho thấy hệ thống có trí thông minh linh hoạt khác 0, nhưng không cho biết mức độ thông minh của hệ thống hay mức độ gần với trí thông minh của con người
Kết luận rằng năng lực AI sẽ sớm tăng theo cấp số nhân là thiếu cơ sở. Sẽ tốt hơn nếu biết tác giả đã đi đến kết luận này bằng cách nào

Giải thích về R1 và mọi thứ khác

Dòng thời gian

# Reasoning & Agents

Mô hình suy luận != Agents

Suy luận là quan trọng

Suy luận cần rẻ hơn

# Vì sao R1 quan trọng

# Xu hướng phát triển AI

Tiền huấn luyện (Pretraining) đã chạm giới hạn mở rộng

Định luật scaling theo thời gian suy luận (Inference Time)

Các mô hình thu nhỏ (Down-Sized Models)

Học tăng cường (Reinforcement Learning)

Chưng cất mô hình (Model Distillation)

# Triển vọng năm 2025

Vấn đề địa chính trị: Distealing

Kết luận

Bài viết liên quan

9 bình luận

Ý kiến trên Hacker News