1 điểm bởi GN⁺ 2025-06-16 | 1 bình luận | Chia sẻ qua WhatsApp
  • Gần đây, khả năng mở rộng của học tăng cường (RL) đang được chú ý, tương tự như với các mô hình ngôn ngữ lớn (LLM)
  • Trên thực tế, AlphaGo, LLM v.v. cho thấy hiệu năng mạnh mẽ, nhưng chủ yếu sử dụng các thuật toán RL on-policy
  • Q-learning, thuật toán tiêu biểu của off-policy RL, có khả năng mở rộng kém trong các bài toán dài (horizon) do vấn đề độ lệch tích lũy
  • Kết quả thực nghiệm cho thấy ngay cả khi tăng mạnh dữ liệu và tài nguyên tính toán, các thuật toán Q-learning tiêu chuẩn vẫn có giới hạn hiệu năng trong các tác vụ dài hạn phức tạp
  • Hiện chỉ có các cách giải cục bộ như phương pháp phân cấp (hierarchy) để giảm nhẹ bài toán horizon, nên cần một mục tiêu off-policy RL mới có khả năng mở rộng về mặt căn bản

RL có mở rộng được không?

  • Gần đây, dự đoán token tiếp theo của mô hình ngôn ngữ, mô hình khuếch tán, và học tương phản là các mục tiêu mở rộng rất tốt khi tăng dữ liệu và compute
  • Trong game, toán học, lập trình v.v., RL cũng đã đạt thành quả mạnh mẽ, và trong nhiều trường hợp các thuật toán RL on-policy (ví dụ: PPO, REINFORCE) được sử dụng
  • On-policy RL luôn cần rollout mới, tức là chỉ có thể dùng dữ liệu được tạo trực tiếp bởi chính sách mới nhất
  • Cách này không phải vấn đề lớn trong mô phỏng hay với LLM, nhưng rất kém hiệu quả trong môi trường thực như robot
  • Ví dụ, trong thí nghiệm robot, để thu được đủ dữ liệu có thể mất vài tháng, và cần sự can thiệp thủ công của con người

Sự xuất hiện của off-policy RL

  • Off-policy RL có sample efficiency cao nhờ có thể tái sử dụng toàn bộ dữ liệu trước đó
  • Tiêu biểu nhất là Q-learning, vốn được dùng rộng rãi và đã cho thấy kết quả như điều khiển robot chó đi bộ theo thời gian thực
  • Q-learning sử dụng việc tối thiểu hóa temporal difference (TD) loss, và gần như mọi phương pháp off-policy RL đều dựa trên nguyên lý này
  • Nếu muốn áp dụng RL vào các bài toán thực tế, câu hỏi cốt lõi cuối cùng là: Q-learning có mở rộng được không?

Giới hạn mở rộng của Q-learning

  • Tác giả cho rằng Q-learning hiện tại không mở rộng tốt khi xuất hiện các bài toán có horizon dài (hơn 100 bước quyết định)
  • Ở đây, “khả năng mở rộng” nghĩa là liệu có thể giải quyết bài toán chỉ bằng cách tăng dữ liệu và tài nguyên tính toán, ngay cả khi độ sâu/độ khó (‘depth’) của bài toán tăng lên hay không
  • Như đã được chứng minh thực nghiệm trong nhiều bài báo, đây không chỉ là việc tăng số lượng bài toán có thể xử lý (‘width’)
  • Lập luận của tác giả: họ Q-learning có khả năng mở rộng kém theo trục độ sâu (độ khó), và đổi mới thuật toán là điều bắt buộc
  • Có hai cơ sở chính: một là thiếu các ca thành công mang tính thực nghiệm, hai là các thí nghiệm hệ thống gần đây

Cơ sở thực nghiệm

  • AlphaGo, AlphaZero, MuZero đều là RL on-policy, dựa trên mô hình (model-based) chứ không phải họ TD-learning
  • OpenAI Five cũng dùng các phương pháp on-policy như PPO
  • RL cho LLM phần lớn cũng là các biến thể on-policy thuộc họ policy gradient
  • Q-learning hay các phương pháp off-policy RL tương tự gần như không có các ca thành công thực tế quy mô lớn ở tầm AlphaGo hay LLM
  • Tác giả cho biết sau khi khảo sát nhiều bài báo và trường hợp thực tế, họ không biết đến ca thành công quy mô lớn nào dựa trên Q-learning

Nguyên nhân giới hạn của Q-learning: horizon và độ lệch tích lũy

  • Q-learning có TD target được bootstrap (tạo giá trị dự đoán từ chính ước lượng) nên luôn bị lệch; và độ lệch này tích lũy theo time horizon
  • Trong khi đó, các mục tiêu có khả năng mở rộng cao khác như dự đoán token, khuếch tán, học tương phản không có độ lệch tích lũy trong target dự đoán
  • Horizon (độ dài chuỗi quyết định) càng dài, hiệu năng mở rộng của Q-learning càng bị giới hạn do sai số tích lũy
  • Vì vậy, trong nhiều trường hợp người ta đặt discount factor nhỏ để giảm nhẹ vấn đề này
  • Các phương pháp ước lượng giá trị on-policy như policy gradient chịu ảnh hưởng từ bài toán horizon tương đối ít hơn nhờ các kỹ thuật như GAE

Kiểm chứng giới hạn mở rộng qua thực nghiệm

  • Trong một bài báo gần đây, để phục vụ các tác vụ ultra-long horizon, tác giả đã thiết kế các task khó dài hàng nghìn bước trong OGBench
  • Họ giảm thiểu các yếu tố nhiễu như dữ liệu “gần như vô hạn” từ môi trường, mô hình mạnh, và giảm gánh nặng của mạng biểu diễn
  • Các phương pháp offline RL hiện có (BC, IQL, CRL, SAC+BC v.v.) đều không thể học được các tác vụ phức tạp ngay cả với bộ dữ liệu cực lớn
  • Họ đã làm ablation test với mọi biến số như dữ liệu, kích thước mô hình, thời gian huấn luyện, hyperparameter, nhưng vẫn không vượt qua được giới hạn hiệu năng
  • Tuy nhiên, chỉ riêng các kỹ thuật giảm horizon (độ dài quyết định) là cho thấy hiệu quả chắc chắn trong việc mở rộng hiệu năng

Hiệu quả của các kỹ thuật giảm horizon

  • Chỉ các phương pháp giảm horizon như n-step return, RL phân cấp (hierarchical RL) mới cho thấy hiệu quả mang tính quyết định đối với việc scale RL
  • Giảm horizon không chỉ tăng tốc học mà còn cải thiện mạnh cả hiệu năng cuối cùng
  • Nhưng các cách này không giải quyết tận gốc vấn đề, mà chỉ giảm horizon theo một hằng số nhất định
  • Cần một cách tiếp cận thuật toán mới để hóa giải horizon curse

Sự cần thiết của một mục tiêu off-policy RL mới có khả năng mở rộng

  • Các nghiên cứu cho đến nay đã chứng minh rằng chỉ tăng kích thước dữ liệu/mô hình thì không thể vượt qua horizon curse một cách căn bản
  • Về lâu dài, cần một biến thể off-policy RL có thể mở rộng ngay cả với các bài toán dài hạn có độ dài tùy ý
  • Nếu đạt được mục tiêu này, sẽ có thể giải quyết rộng rãi hơn các bài toán thực tế liên quan đến robot, LLM, và nhiều agent ra quyết định khác

Ý tưởng và đề xuất cho nghiên cứu tương lai

  • Có thể đề xuất một cấu trúc phân cấp mới, đơn giản và có khả năng mở rộng, để xử lý horizon dài tùy ý thay vì chỉ dừng ở hierarchy hai tầng
  • Model-based RL có thể có tiềm năng mở rộng thông qua việc kết hợp mô hình hóa dựa trên học có giám sát với RL on-policy
  • Cũng có thể hữu ích khi khám phá các hướng mới như quasimetric RL, contrastive RL, vốn loại bỏ hoàn toàn TD learning
  • Bộ môi trường đánh giá và mã nguồn đã được mở, và có thể dùng làm benchmark kiểm tra khả năng scale cho nhiều thuật toán RL mới

Lời cảm ơn

  • Tác giả gửi lời cảm ơn tới nhiều nhà nghiên cứu đã hợp tác và phản hồi cho bài báo và bài viết
  • Nội dung này dựa trên bài báo [Horizon Reduction Makes RL Scalable] cùng các tài liệu liên quan, đồng thời được nêu rõ là quan điểm cá nhân của tác giả

1 bình luận

 
GN⁺ 2025-06-16
Ý kiến trên Hacker News
  • Tôi nghĩ giới hạn về khả năng mở rộng của Q-Learning còn lớn hơn những gì bài blog đề cập. Số lượng trạng thái mà tác nhân phải xử lý thường tăng theo cấp số nhân khi horizon tăng lên. Vì vậy, nhu cầu dữ liệu để huấn luyện Q xử lý các trạng thái đó cũng tăng theo cấp số nhân. Trong khi đó, học on-policy chỉ học những trạng thái quan trọng, nên dù không gian trạng thái tăng theo cấp số nhân, dữ liệu huấn luyện vẫn được tập trung vào đúng nơi cần thiết, nhờ đó bài toán được đơn giản hóa tương đối

    • Tôi đồng ý với phân tích về overapproximation bias của Q-learning trong bài viết. Toán tử Max trong Q-learning có xu hướng khuếch đại nhiễu dọc theo trục thời gian. Cũng đã có những trường hợp các phương pháp giảm bias như bài báo này cải thiện thành công hiệu năng của tác nhân RL. Cũng có kết quả nghiên cứu cho thấy hiện tượng này dễ xuất hiện hơn ở các trạng thái mà mạng ít ghé thăm. Điểm mạnh của deep learning là nếu có cấu trúc có thể học được thì hiệu năng vẫn có thể đạt được ngay cả khi số trạng thái tăng theo cấp số nhân. Mấu chốt là xác định đúng mục tiêu huấn luyện, và bài viết cho rằng Q-learning có giới hạn ở điểm đó. Tôi tò mò liệu các hệ thống RL dựa trên mô hình như MuZero có thể là lời giải hay không. MuZero tăng hiệu quả huấn luyện bằng cách phân tích lại các trajectory trước đó, còn Monte Carlo Tree Search (MCTS) là một cách có nguyên tắc để giảm horizon bằng cách triển khai nhiều bước. Vấn đề toán tử Max cũng có thể xuất hiện trong MCTS, nhưng khi độ sâu tìm kiếm tăng lên thì có thể bù trừ phần nào cho vấn đề này

    • Có vẻ chuỗi thảo luận này có thể hữu ích. Từ góc nhìn của một người hoàn toàn không chuyên, có những tác vụ tuy có “độ sâu” nhưng vẫn giữ được tính đồng nhất, và trong những trường hợp như vậy thì vẫn có thể học được ngay cả khi chất lượng mẫu hơi kém. Tôi muốn gọi những tác vụ như thế là “ergodic”. Nhưng tôi cũng nghĩ chắc chắn có những tác vụ không như vậy

    • Tôi tự hỏi liệu điều này có giống với sự khác biệt giữa tích phân Monte Carlo trên lưới tổng quát và tích phân Monte Carlo lấy mẫu theo tầm quan trọng hay không

    • Chia sẻ cảm nghĩ về Majorana-1

  • Tôi thấy tiếc vì bài blog không nhắc đến các phương pháp offline như Decision Transformers hay Trajectory Transformers. Nhờ cơ chế attention, chúng tránh được bài toán credit assignment nên cho hiệu năng tốt ở các tác vụ long-horizon. Nhiều nhà nghiên cứu RL cho rằng các cách làm này không phải là "RL thực thụ", vì chúng không thể gán credit ra ngoài context window. Vì vậy, nhiều người đánh giá chúng khó áp dụng cho các tác vụ horizon vô hạn. Nhưng nếu context window vượt quá 1 triệu thì liệu trên thực tế đó có còn là vấn đề lớn nữa không? Tham khảo bài báo về Decision Transformer, bài báo về Trajectory Transformer

    • Bài báo TFP có trích dẫn decision transformers. Chỉ riêng kiến trúc Transformer không thể né tránh bài toán credit assignment, vì Transformer là một cấu trúc dùng cho các bài toán mô hình hóa chuỗi nơi thứ tự là quan trọng, ví dụ như credit assignment trong RL. Độ khó của bài toán đó được quyết định bởi độ thưa dữ liệu, chứ không phải thứ có thể được “né” chỉ bằng việc chọn kiến trúc
  • Tôi nghĩ bài này tóm tắt rất tốt cốt lõi của RL. Nói cực kỳ đơn giản thì đó là tình huống bạn liên tục di chuyển để đuổi theo mục tiêu, nhưng vị trí của mục tiêu đó cũng liên tục thay đổi tùy theo cách bạn di chuyển. Tức là trong value-based RL không có đáp án tuyệt đối nào cả, mà chỉ là trò chơi cân chỉnh hai phía bằng các ước lượng của chính mình. Nhưng tôi không nghĩ đây là điều tuyệt vọng. Trái lại, tôi cho rằng RL sắp trở nên thực dụng, và một phần lý do trước đây chưa làm được là vì chúng ta thiếu các world model hoặc hàm động lực học đủ đáng tin cậy. Giờ thì ở mảng đó cũng đang có tiến bộ lớn

  • Bài báo/blog này hướng đến những người đã có kiến thức RL. Nếu muốn học sâu hơn về RL thì tôi khuyên xem bài giảng nhập môn của David Silver (Deep Mind)

  • Giới hạn căn bản của học off-policy là dữ liệu khám phá ban đầu kém hiệu quả không giúp ích nhiều cho việc học một policy tốt hơn về sau. Ví dụ như những lỗi sơ đẳng trong cờ vua, các nước đi vô nghĩa, hoặc những hành vi không giải được thế cờ. Dữ liệu trở thành off-policy từ thời điểm hành vi đó lệch khỏi policy hiện tại, tức là điều mà tác nhân thực sự sẽ chọn. Vì vậy, bản chất của vấn đề cuối cùng nằm ở việc tổng quát hóa tốt hơn và nâng cao hiệu quả mẫu

    • Tôi băn khoăn liệu nhận định này có quá chung chung không. Ví dụ, trường hợp một con chó học đi chỉ trong 20 phút nhờ học off-policy thì nên được giải thích như thế nào? Tôi muốn hỏi liệu có góc nhìn tinh tế hơn ở đây không
  • Khi con người học các tác vụ dài hạn, chúng ta thường thông qua luyện tập lặp đi lặp lại để chia toàn bộ tác vụ thành các tiểu tác vụ có horizon ngắn, rồi sau đó kết hợp các kỹ năng thành phần đó theo cấu trúc phân cấp

    • Có thể hơi ngây thơ, nhưng tôi cảm thấy cuối cùng đây gần với vấn đề về cách tiếp cận hơn là bản thân thuật toán. Mô hình khó có thể giải một tác vụ horizon dài ngay từ đầu, nhưng nó có thể học kỹ năng horizon ngắn trước rồi ghép chúng lại để học các tác vụ horizon dài hơn. Con người cũng vậy: thay vì học công việc phức tạp như một chuỗi các chuyển động vi mô từng cái một, chúng ta học các đơn vị nhỏ rồi phân rã công việc theo cấu trúc phân cấp. Ví dụ, khi học lái máy bay hay chơi thể thao, ta cũng bắt đầu từ những kỹ năng cơ bản
  • Con người thực sự sử dụng cả học on-policy lẫn off-policy. Chúng ta học on-policy khi tự mình khám phá kết quả của hành động, và cũng học off-policy khi quan sát màn trình diễn của các chuyên gia khác. Nhưng điểm khác với RL là con người phân biệt được hành vi tốt và xấu để chỉ chọn lọc phần “tốt” mà học. Trong khi đó, ở phần lớn off-policy RL, cả hành vi xấu cũng được dùng làm dữ liệu nên làm chậm toàn bộ quá trình huấn luyện

    • Tôi cũng muốn nói thêm rằng không phải lúc nào chúng ta cũng phân biệt được hành vi tốt và xấu. Trong các màn trình diễn của chuyên gia, đôi khi có những điều từ góc nhìn người mới trông như “hoàn toàn sai”, nhưng lại dẫn đến kết quả vượt trội hơn nhiều. Đôi khi chỉ vì họ thực sự rất giỏi nên mới có thể dùng được những chiến thuật “lệch chuẩn” như vậy
  • Tôi thích nội dung bài blog, nhưng thấy tiếc vì việc dùng các từ viết tắt hay thuật ngữ chuyên môn mà không giải thích làm giảm tính hữu ích với độc giả rộng hơn. Giá mà các thuật ngữ và chữ viết tắt được giải thích rõ để tăng khả năng tiếp cận

    • Với những bài blog như thế này, nội dung thì cực kỳ phong phú nhưng lại đòi hỏi nhiều kiến thức nền nên khó tiếp cận; các công cụ AI rất hữu ích để giải thích và diễn giải dễ hiểu hơn. Gần đây tôi dùng Dia trên trình duyệt và thấy khá hiệu quả. Dù chỉ sao chép-dán vào mô hình AI khác thì bạn vẫn có thể nhận được bản tóm lược gọn gàng cùng phần giải thích cho những chỗ mình thắc mắc

    • Rõ ràng có cảm giác đây là kiểu bài được viết dành riêng cho các nhà nghiên cứu RL. Kết luận của nó giống như: “Ai đó làm ơn tìm cách khiến Q-learning scalable đi!”

    • Ngược lại, tôi nghĩ chính điều đó lại làm cho bài viết gọn gàng hơn

  • Điểm mạnh của các kỹ thuật off-policy như Q-Learning là chỉ cần có dữ liệu gần tối ưu, hoặc thậm chí dữ liệu không tốt, thì cuối cùng vẫn có thể hội tụ đến nghiệm tối ưu. Ví dụ, ngay cả khi chỉ thu thập dữ liệu từ các ván cờ vua không có chiến lược nào rõ ràng rồi dùng làm đầu vào cho Q-Learning, thì cuối cùng vẫn có thể học được policy tối ưu, dù chậm hơn so với khi có dữ liệu tốt

    • Tôi nghĩ điều kiện để chuyện đó xảy ra chính là định nghĩa của một tác vụ “ergodic”, dù từ này đang được dùng hơi biến nghĩa một chút. Nhưng tôi cho rằng cũng sẽ tồn tại những tác vụ không mang tính ergodic như vậy