Q-learning vẫn chưa thể mở rộng

(seohong.me)

1 điểm bởi GN⁺ 2025-06-16 | 1 bình luận | Chia sẻ qua WhatsApp

RL đã đạt được những thành tựu lớn trong Go, cờ vua và hậu huấn luyện LLM, nhưng phần lớn dựa vào RL on-policy, vốn cần rollout mới, nên điều kiện khác với RL off-policy có thể tự do tái sử dụng dữ liệu cũ
RL off-policy tiêu biểu là Q-learning có hiệu quả mẫu cao, nhưng vẫn chưa mở rộng đủ tốt cho các nhiệm vụ dài hạn cần hơn 100 bước ra quyết định có ý nghĩa
Nút thắt là mục tiêu bootstrap bị lệch của học TD tích lũy khi horizon dài hơn; đây là ràng buộc khác với dự đoán token tiếp theo, mô hình khuếch tán và học đối sánh
Trong thí nghiệm OGBench, flow BC, IQL, CRL, SAC+BC không giải được tất cả nhiệm vụ dài hạn ngay cả với bộ dữ liệu 1B lớn hơn 1000 lần so với bộ dữ liệu RL offline thông thường, và hiệu năng bị chững lại dưới mức tối ưu
Giảm horizon như n-step returns và RL phân cấp đã cải thiện khả năng mở rộng và hiệu năng cuối cùng, nhưng các kỹ thuật hiện tại chỉ làm nhẹ vấn đề theo một hằng số nhân, chưa đủ để giải các nhiệm vụ dài hạn phức tạp tùy ý

Vị trí hiện tại của khả năng mở rộng RL

Dự đoán token tiếp theo, denoising diffusion và học đối sánh đã cho thấy chúng là các hàm mục tiêu có thể mở rộng trên dữ liệu quy mô lớn và mô hình hàng tỷ tham số
RL cũng đã đạt hiệu năng siêu nhân trong Go và cờ vua, và trong LLM đang giải các nhiệm vụ suy luận phức tạp như toán học và lập trình
Tuy nhiên, phần lớn các ca thành công thực tế hiện nay dựa trên thuật toán RL on-policy
- Ví dụ tiêu biểu là REINFORCE, PPO, GRPO, v.v.
- Luôn cần rollout mới được lấy mẫu từ chính sách hiện tại
- Không thể tái sử dụng dữ liệu trước đó
- Các phương pháp kiểu PPO có thể tái sử dụng dữ liệu ở mức hạn chế, nhưng theo cách phân loại như trong tài liệu OpenAI thì vẫn được xem là RL on-policy
Trong các môi trường có thể tạo nhiều rollout với chi phí rẻ như board game hoặc LLM, ràng buộc này có thể không phải vấn đề lớn
Trong robotics, việc tạo trong thực tế lượng mẫu ở mức dùng để hậu huấn luyện mô hình ngôn ngữ bằng RL sẽ mất nhiều tháng trở lên, và trong quá trình huấn luyện cần có người ở bên 24/24 để reset robot

RL off-policy và Q-learning

RL off-policy về nguyên tắc có thể dùng dữ liệu được thu thập vào bất cứ lúc nào, bằng bất cứ cách nào
Vì có thể tái sử dụng cùng dữ liệu nhiều lần, nhìn chung nó có hiệu quả mẫu tốt hơn
Cũng đã có trường hợp huấn luyện một robot chó từ đầu để biết đi chỉ trong 20 phút trong môi trường thực
- Trường hợp liên quan: walk in the park
Q-learning là thuật toán RL off-policy được dùng rộng rãi nhất
Phần lớn các thuật toán RL off-policy model-free thực dụng đều dựa trên biến thể của TD loss
Để áp dụng RL cho nhiều bài toán thực tế hơn, câu hỏi cốt lõi trở thành “Q-learning, tức TD learning, có thể mở rộng hay không”
Nếu có thể, ta sẽ giải hiệu quả được các nhiệm vụ thực tế đa dạng và phức tạp hơn như robotics, agent sử dụng máy tính

Ý nghĩa của “có thể mở rộng”: chiều sâu, không phải chiều rộng

Ở đây, khả năng mở rộng nghĩa là năng lực giải các bài toán khó hơn và có horizon dài hơn khi bổ sung thêm dữ liệu có độ phủ đủ, compute và thời gian
Điều này khác với năng lực giải nhiều nhiệm vụ hơn bằng một mô hình duy nhất
- Số lượng nhiệm vụ tăng lên không nhất thiết có nghĩa là giải được nhiệm vụ khó hơn
- Nhiều nghiên cứu scaling trước đây cho thấy tiềm năng theo trục “chiều rộng” này
Trục quan trọng hơn và khó hơn là chiều sâu
- Vì nó đòi hỏi năng lực ra quyết định cao cấp hơn
Q-learning ở dạng hiện tại không có khả năng mở rộng cao theo trục chiều sâu
Để mở rộng Q-learning và RL off-policy sang các bài toán dài hạn phức tạp, cần có đột phá thuật toán

Q-learning vắng mặt trong các ca thành công RL quy mô lớn

Nhiều thành công RL trong thực tế dựa trên những cách tiếp cận khác, không phải Q-learning dựa trên TD
AlphaGo, AlphaZero, MuZero dùng RL dựa trên mô hình và Monte Carlo tree search, không dùng TD learning trong board game
- Tham khảo: trang 15 bài báo MuZero
OpenAI Five đạt hiệu năng siêu nhân trong Dota 2 bằng PPO
- Tham khảo: chú thích 6 trong bài báo OpenAI Five
RL cho LLM hiện do các họ policy gradient on-policy như PPO, GRPO chi phối
Chưa có ví dụ thực tế nào được đưa ra về RL off-policy, đặc biệt là 1-step TD learning, thành công ở quy mô tương tự AlphaGo hay LLM
Đánh giá này không nhằm phủ nhận RL off-policy, mà gần hơn với nhận thức rằng cần nghiên cứu thuật toán RL nhiều hơn

Vì sao Q-learning chao đảo trong các nhiệm vụ dài hạn

TD loss của Q-learning học sao cho giá trị Q hiện tại khớp với mục tiêu là phần thưởng cộng với giá trị Q lớn nhất của trạng thái tiếp theo
Mục tiêu này là mục tiêu bootstrap bị lệch, có thể không bằng giá trị Q tối ưu thực sự
Lý do cốt lõi khiến Q-learning gặp khó khi mở rộng là độ lệch của mục tiêu dự đoán tích lũy dọc theo horizon
Sự tích lũy độ lệch này đóng vai trò như một giới hạn căn bản của TD learning
- Các hàm mục tiêu như dự đoán token tiếp theo, denoising diffusion, học đối sánh không có độ lệch mục tiêu dự đoán như vậy
- BYOL, DINO dù có độ lệch thì độ lệch đó cũng không tích lũy dọc theo horizon
Khi bài toán phức tạp hơn và horizon dài hơn, độ lệch của mục tiêu bootstrap tích tụ nghiêm trọng hơn
Chỉ thêm nhiều dữ liệu và mô hình lớn hơn khó có thể làm nhẹ vấn đề này một cách dễ dàng
Trên thực tế, một lý do chính khiến các hệ số chiết khấu lớn hơn (\gamma > 0.999) hiếm khi được dùng cũng liên quan đến điều này
Các phương pháp policy gradient gặp vấn đề này ít hơn tương đối
- Các kỹ thuật ước lượng giá trị on-policy như GAE tương đối dễ xử lý horizon dài hơn, dù phải chấp nhận phương sai cao hơn
- Chúng không bị ràng buộc vào đệ quy 1-step nghiêm ngặt

Thí nghiệm khả năng mở rộng dựa trên OGBench

Bài báo gần đây Horizon Reduction Makes RL Scalable kiểm chứng giả thuyết trên bằng nhiều nghiên cứu scaling có kiểm soát
Mục tiêu là xác nhận liệu các phương pháp RL off-policy hiện nay có thể giải các nhiệm vụ rất khó chỉ bằng cách tăng dữ liệu và compute hay không
Thí nghiệm dùng các nhiệm vụ phức tạp, trước đây chưa được giải, của OGBench
Yêu cầu của nhiệm vụ như sau
- Agent phải học các hành vi goal-reaching phức tạp từ các demo play-style ngẫu nhiên, không có cấu trúc
- Khi kiểm thử, agent phải thực hiện thao tác chính xác, giải đố tổ hợp và điều hướng dài hạn
- Nhiệm vụ diễn ra trong 1.000 environment steps
Thí nghiệm được thiết kế để giảm biến nhiễu
- Thu thập dữ liệu gần như vô hạn đến mức về cơ bản không thể overfit
- Tập trung vào RL offline để loại bỏ vấn đề exploration
- Đảm bảo bộ dữ liệu có đủ độ phủ và mọi nhiệm vụ đều có thể được giải từ bộ dữ liệu đã cho
- Cung cấp trực tiếp ground-truth state observation để giảm gánh nặng học biểu diễn
Nếu Q-learning không mở rộng được ngay cả trong môi trường có kiểm soát này, khả năng trong môi trường thực với dữ liệu hạn chế và observation nhiễu sẽ còn thấp hơn

Kết quả của các thuật toán RL offline tiêu chuẩn

Các thuật toán RL offline tiêu chuẩn, được dùng rộng rãi, không giải được tất cả nhiệm vụ
Các thuật toán được xét là flow BC, IQL, CRL, SAC+BC
Thí nghiệm cũng được tiến hành với bộ dữ liệu kích thước 1B
- Lớn hơn (1000 \times) so với bộ dữ liệu RL offline thông thường
Điểm quan trọng hơn là hiệu năng thường đạt plateau ở mức thấp hơn rất nhiều so với hiệu năng tối ưu
Nhiều ablation và thí nghiệm có kiểm soát như mô hình lớn hơn, huấn luyện lâu hơn, hyperparameter khác cũng không có tác dụng
Phương pháp duy nhất có tác dụng ngoại lệ là giảm horizon

Cải thiện do giảm horizon tạo ra

Giả thuyết trước đó là horizon và sự tích lũy độ lệch đi kèm là trở ngại chính đối với việc mở rộng RL off-policy
Để kiểm chứng điều này, nhiều kỹ thuật giảm horizon nhằm giảm số lượng TD backup bị lệch đã được thử nghiệm
- Ví dụ gồm n-step returns, RL phân cấp, v.v.
Kết quả là tích cực
- Ngay cả các kỹ thuật đơn giản như n-step returns cũng cải thiện đáng kể khả năng mở rộng và hiệu năng cuối cùng
- Đây không chỉ là trick làm huấn luyện nhanh hơn, mà còn cải thiện cả asymptotic performance
- Phương pháp phân cấp hoàn chỉnh hoạt động tốt hơn
Kỹ thuật duy nhất hoạt động nhất quán xuyên suốt các thí nghiệm là giảm horizon
Chỉ đơn giản tăng dữ liệu và compute là chưa đủ để giải quyết lời nguyền horizon
Cần các thuật toán tốt hơn nhắm trực tiếp vào vấn đề này

Hướng nghiên cứu tới hàm mục tiêu RL off-policy có thể mở rộng

Giảm horizon mở ra khả năng mở rộng cho Q-learning, nhưng các kỹ thuật hiện tại không giải quyết vấn đề tận gốc
Các phương pháp hiện nay như n-step returns và RL phân cấp chủ yếu làm nhẹ vấn đề theo hằng số nhân
Vẫn còn thiếu các thuật toán RL off-policy có thể mở rộng tới những bài toán dài hạn phức tạp tùy ý
Có thể tóm tắt ba hướng nghiên cứu khả dĩ
- Tìm các cấu trúc phân cấp đệ quy đơn giản và có thể mở rộng vượt quá phân cấp 2 tầng để xử lý horizon có độ dài tùy ý
- Vì học mô hình là học có giám sát và RL on-policy cũng có thể mở rộng, một hướng RL dựa trên mô hình là học mô hình trước rồi chạy RL on-policy bên trong mô hình đó
- Tránh hoàn toàn TD learning
  - Ví dụ, quasimetric RL dựa trên LP formulation của RL
  - Các phương pháp dựa trên MC như contrastive RL cũng có thể được kiểm chứng xem liệu có mở rộng tốt hơn cách tiếp cận dựa trên TD hay không
Thiết lập thí nghiệm trên có thể trở thành điểm khởi đầu để thử nghiệm các ý tưởng này
- Các nhiệm vụ robot phức tạp và bộ dữ liệu đã được thiết kế sẵn
- Đã kiểm chứng rằng nhiệm vụ có thể được giải từ dữ liệu đã cho
- Có thể làm nhiệm vụ khó tùy ý bằng cách thêm nhiều khối lập phương hơn, qua đó stress test khả năng mở rộng thuật toán theo cách có kiểm soát
- Mã nguồn được công bố: horizon-reduction

1 bình luận

GN⁺ 2025-06-16

Các ý kiến trên Hacker News

Bài viết này có vẻ đã bỏ sót lý do lớn hơn khiến Q-learning khó mở rộng
Khi horizon càng dài, số trạng thái khả dĩ thường tăng theo cấp số nhân, và để học được Q có thể xử lý các trạng thái đó thì dữ liệu cũng phải tăng theo cấp số nhân
Trong học on-policy, vấn đề này nhẹ hơn, vì điều quan trọng chỉ là các trạng thái gần chính sách hiện tại và trên thực tế cũng chỉ lấy mẫu những trạng thái như vậy
- Tôi nghĩ phân tích về thiên lệch ước lượng quá cao trong bài là đúng
  Điểm cốt lõi là phép toán max của Q-learning làm nhiễu bị khuếch đại qua các bước thời gian, và các kỹ thuật giảm thiên lệch như https://arxiv.org/abs/1509.06461 đã thành công trong việc cải thiện hiệu năng của agent học tăng cường
  Theo nghiên cứu, hiện tượng này xuất hiện mạnh hơn ở những trạng thái mà mạng ít ghé thăm
  Việc số trạng thái nhiều theo cấp số nhân chỉ mang tính quyết định khi không có mẫu hình nào giữa các trạng thái đó. Nếu có cấu trúc có thể học được thì nó vẫn có thể hoạt động tốt, và đây không phải điểm yếu mà là điểm mạnh của deep learning
  Vấn đề then chốt là đặt đúng mục tiêu học, và bài viết về cơ bản đang lập luận rằng Q-learning không phải mục tiêu đó
  Tôi cũng tò mò liệu học tăng cường dựa trên mô hình như MuZero có thể là lời giải cho các lo ngại của tác giả không. MuZero có thể phân tích lại các trajectory trước đó để tăng hiệu quả học, còn tìm kiếm cây Monte Carlo (MCTS) là một cách có nguyên tắc để giảm horizon bằng cách triển khai mô hình nhiều bước
  Phép max trong MCTS cũng có thể tạo ra vấn đề tương tự, nhưng quá trình tìm kiếm sâu hơn có thể bù trừ điều đó
- https://news.ycombinator.com/item?id=44280505 Có thể thread này sẽ hữu ích
  Tôi hoàn toàn không phải chuyên gia, nhưng tôi nghĩ có những bài toán dù “sâu” vẫn đủ “đồng đều” để chỉ cần các mẫu kém cũng có thể đủ. Tôi muốn gọi những bài toán như vậy là bài toán ergodic
  Tất nhiên chắc chắn cũng có những bài toán không như vậy
- Về bản chất, khác biệt này có giống khác biệt giữa tích phân Monte Carlo trên lưới thông thường và tích phân Monte Carlo lấy mẫu theo tầm quan trọng không?
Bài báo này mặc định rằng người đọc đã biết khá nhiều về học tăng cường
Nếu muốn đào sâu học tăng cường một cách bài bản, các bài giảng nhập môn của David Silver (DeepMind) rất xuất sắc: https://youtu.be/2pWv7GOvuf0?si=CmFJHNnNqraL5i0s
Hoàn toàn đồng ý, và tôi nghĩ đây là một bản tóm tắt rất hay
Nói thật ngắn gọn, đó là vấn đề đuổi theo một mục tiêu chuyển động, mà mục tiêu ấy lại thay đổi tùy theo cách tôi di chuyển
Trong học tăng cường dựa trên giá trị không có đáp án đúng thực sự để hội tụ tới. Nó giống như đang tối thiểu hóa sai khác trong đó cả hai vế của phương trình đều chứa giá trị xấp xỉ của chính nó
Dù vậy tôi không thấy tuyệt vọng. Tôi cho rằng học tăng cường đã tiến rất gần đến mức hoạt động được; thứ còn thiếu cho đến nay là một world model/hàm động lực học thuận đáng tin cậy
Nếu có thứ đó thì có thể lập kế hoạch mà không cần khám phá, và giờ chúng ta đã có những mô hình như vậy
Lợi ích của học off-policy về cơ bản bị giới hạn bởi thực tế là dữ liệu kém hiệu quả từ giai đoạn khám phá ban đầu không mấy hữu ích để cải thiện các chính sách tinh chỉnh hơn về sau
Cứ nghĩ đến các nước đi sai trong cờ vua, những chuyển động co giật, hay các lần giải đố thất bại thì sẽ thấy rõ
Điều này càng rõ hơn khi nhận ra rằng dữ liệu chỉ trở thành off-policy khi nó mô tả những việc mà chính sách hiện tại sẽ không làm
Tôi cho rằng lời giải cho vấn đề này, đáng tiếc, liên quan đến việc cần khả năng khái quát hóa và hiệu quả mẫu tốt hơn
- Lập luận này có phải đang chứng minh quá nhiều không?
  Vậy giải thích thế nào về ví dụ được trích dẫn, chú chó học đi trong 20 phút nhờ học off-policy? Hay ý bạn tinh tế hơn thế?
Thật lạ là Decision Transformer hay Trajectory Transformer lại không được nhắc đến
Cả hai đều là cách tiếp cận offline, và nhờ cơ chế chú ý nên phần nào né được vấn đề gán công trạng, hoạt động khá tốt trong các bài toán horizon dài
Phần lớn nhà nghiên cứu học tăng cường không xem các cách tiếp cận này là “học tăng cường thật sự”, vì chúng không thể gán công trạng ra ngoài cửa sổ ngữ cảnh nên không học được các bài toán horizon vô hạn
Nhưng nếu có cửa sổ ngữ cảnh trên 1 triệu token thì trong thực tế có lẽ vấn đề sẽ bớt nghiêm trọng hơn? Tôi muốn nghe các ý kiến khác
DT: https://arxiv.org/abs/2106.01345
TT: https://arxiv.org/abs/2106.02039
- TFP có trích dẫn Decision Transformer
  Chỉ dùng Transformer không có nghĩa là né được vấn đề gán công trạng
  Transformer là một kiến trúc để giải các bài toán mô hình hóa tuần tự, và vấn đề gán công trạng phát sinh trong học tăng cường cũng là một ví dụ của loại bài toán đó. Trước đây đã có nhiều kiến trúc như vậy
  Nói vấn đề gán công trạng là khó thực chất là một nhận định về sự khan hiếm dữ liệu. Chỉ lựa chọn kiến trúc không thể “né” được điều đó
Con người thực ra làm cả hai
Chúng ta học on-policy khi khám phá hệ quả từ hành động của chính mình, và cũng học off-policy từ các màn trình diễn của chuyên gia
Khác biệt là con người có thể phân biệt hành động tốt và hành động xấu, rồi chỉ lọc ra những hành động được đánh giá là tốt để học
Trong phần lớn học tăng cường off-policy, có rất nhiều hành động xấu được đưa vào, và khi chúng nằm trong tập học thì quá trình học bị chậm lại
- “Có thể phân biệt hành động tốt và hành động xấu” không phải lúc nào cũng đúng
  Vì vậy một số màn trình diễn của chuyên gia mới hấp dẫn. Bạn có thể thấy những cách làm mà nếu nhìn theo “best practice” ở cấp người mới thì hoàn toàn sai, nhưng lại cho kết quả tốt hơn
  Tất nhiên đôi khi điều đó chỉ có nghĩa là nếu đã giỏi đến mức ấy thì họ có thể chịu được cả những kỹ thuật hoặc sai lầm như vậy
Cũng đáng chỉ ra rằng các bài toán horizon dài mà con người học bằng luyện tập lặp lại thường được chia thành các bài toán có horizon ngắn hơn, rồi sau đó được học bằng cách tổng hợp theo phân cấp
- Có thể là suy nghĩ ngây thơ, nhưng điều này trông giống vấn đề về cách tiếp cận hơn là về thuật toán
  Mô hình có thể không xử lý được bài toán horizon dài ngay từ đầu, nhưng trước hết có thể học các kỹ năng horizon ngắn, rồi dùng các cụm kỹ năng nhỏ đó để học horizon dài hơn
  Giống như chunking mà tất cả chúng ta đều làm
  Không ai học cách lái máy bay thương mại xuyên lục địa như một chuỗi chuyển động vi mô của bàn tay và cánh tay
  Hồi nhỏ ta học cách nhặt bóng theo kiểu đó, nhưng bay hay chơi thể thao thì được cấu thành từ các hệ thống phân cấp của kỹ năng và kế hoạch đã học
Tôi thích bài viết, nhưng việc dùng các chữ viết tắt không giải thích đã làm giảm cơ hội hữu ích với độc giả rộng hơn
Đây chỉ là góp ý nhỏ, nhưng sẽ tốt hơn nếu chữ viết tắt và thuật ngữ chuyên môn được giải thích
- Với những bài có nội dung rất hay nhưng giả định quá nhiều kiến thức nền nên khó tiếp cận, việc dùng công cụ AI để giải thích và đơn giản hóa có thể khá hữu ích
  Tôi vừa thử bằng trình duyệt mới Dia và thấy hoạt động tốt. Cũng có thể sao chép rồi dán vào nhà cung cấp mô hình bạn thích
  Cách này giữ cho bài viết ngắn gọn, đồng thời vẫn có thể đặt câu hỏi cho công cụ AI để làm rõ
- Nhìn vào kết luận kiểu “ai đó hãy tạo ra một phương pháp Q-learning có thể mở rộng đi” thì rõ ràng bài này được viết cho các nhà nghiên cứu học tăng cường khác
Điểm kỳ diệu của các kỹ thuật off-policy như Q-Learning là ngay cả khi chỉ nhìn thấy dữ liệu huấn luyện không tối ưu, chúng vẫn hội tụ tới kết quả tối ưu
Ví dụ, dù dùng một dataset các ván cờ vua của những agent di chuyển hoàn toàn ngẫu nhiên, không có chiến lược nào, làm đầu vào cho Q-Learning, thì nó chỉ chậm hơn so với khi có đầu vào chất lượng cao, nhưng cuối cùng vẫn hội tụ tới chính sách tối ưu
- Nếu điều đó đúng thì tôi nghĩ nó gần với định nghĩa rằng bài toán đó là ergodic
  Có thể tôi đang dùng thuật ngữ hơi lệch đi, nhưng tôi cho rằng cũng tồn tại những bài toán không ergodic

Q-learning vẫn chưa thể mở rộng

Vị trí hiện tại của khả năng mở rộng RL

RL off-policy và Q-learning

Ý nghĩa của “có thể mở rộng”: chiều sâu, không phải chiều rộng

Q-learning vắng mặt trong các ca thành công RL quy mô lớn

Vì sao Q-learning chao đảo trong các nhiệm vụ dài hạn

Thí nghiệm khả năng mở rộng dựa trên OGBench

Kết quả của các thuật toán RL offline tiêu chuẩn

Cải thiện do giảm horizon tạo ra

Hướng nghiên cứu tới hàm mục tiêu RL off-policy có thể mở rộng

Bài viết liên quan

1 bình luận

Các ý kiến trên Hacker News