4 điểm bởi GN⁺ 2024-05-06 | 1 bình luận | Chia sẻ qua WhatsApp

Khóa học nhập môn Deep Reinforcement Learning

  • Đây là một khóa thực hành cơ bản cho các thuật toán Deep Reinforcement Learning cổ điển
  • Khi hoàn thành khóa học, bạn có thể tự triển khai trực tiếp các thuật toán như DQN, SAC, PPO và hiểu được nền tảng lý thuyết của chúng ở mức cao
  • Bạn có thể huấn luyện AI để chơi game Atari hoặc học cách hạ cánh trên Mặt Trăng

Thiết lập môi trường

  • Hướng dẫn cách thiết lập môi trường để tập trung hoàn toàn cho việc học
    • Cài đặt Miniconda (trình quản lý môi trường hỗ trợ chọn phiên bản Python)
    • Checkout repository Git này rồi chuyển đến thư mục tương ứng
    • Tạo và kích hoạt môi trường ảo drlzh
      conda create --name drlzh python=3.11
      conda activate drlzh  
      
    • Cài đặt Poetry và cài đặt các dependencies (bao gồm gymnasium[accept-rom-license] cho Atari)
      pip install poetry
      poetry install
      
    • Cài đặt Visual Studio Code

Cách bắt đầu

  • Mở thư mục repository này trong Visual Studio Code (giữ nguyên thư mục .vscode)
  • Mở notebook 00_Intro.ipynb đầu tiên rồi làm theo
  • Tiếp tục chuyển sang notebook tiếp theo
  • Nếu gặp khó khăn, hãy tham khảo thư mục /solution
  • Xem video trên YouTube để xem giải thích chi tiết cho từng bước lập trình

Ý kiến của GN⁺

  • Reinforcement Learning là một trong những công nghệ AI đang đạt được thành tựu lớn trong lĩnh vực game và robotics, nhưng ứng dụng vào bài toán thực tế vẫn còn khó khăn. Chẳng hạn, quá trình học thường rất tốn thời gian, và trong các tình huống mà an toàn là yêu cầu quan trọng thì không thể để AI thử sai quá nhiều
  • Khóa học này tập trung vào các bài toán đơn giản như game Atari hoặc mô phỏng hạ cánh mặt trăng, vì vậy phù hợp cho người mới bắt đầu; nhưng khi triển khai trong môi trường thực tế, có vẻ cần thêm việc đào tạo
  • Khi có thêm nhiều tài liệu đào tạo mã nguồn mở như thế này, ngày càng nhiều lập trình viên có thể học và áp dụng AI. Đặc biệt, reinforcement learning được dự đoán sẽ trở thành kỹ năng thiết yếu cho kỹ sư trong lĩnh vực robotics hoặc xe tự lái
  • Họ dùng nhiều công cụ như Conda, Poetry để xây dựng môi trường thực hành, điều này có thể khiến người mới thấy gánh nặng khi thiết lập môi trường. Có thể giảm rào cản tham gia bằng cách cung cấp môi trường thực hành trên nền tảng đám mây

1 bình luận

 
GN⁺ 2024-05-06
Ý kiến Hacker News

Dưới đây là phần tóm tắt:

  • Khi cố gắng học Deep Reinforcement Learning (học tăng cường sâu), dù có thể tận dụng được nhiều tài nguyên tuyệt vời, nhưng vẫn thiếu các tài liệu cung cấp sự cân bằng phù hợp giữa lý thuyết và thực hành.
  • Vì vậy, tôi đã quyết định tự tạo ra và chia sẻ dưới dạng mã nguồn mở. Bắt đầu từ đầu, tôi viết lại các thuật toán trong Python Notebook theo hướng tiếp cận mang tính giáo dục.
  • Đó là một loạt hướng dẫn từng bước tập trung thực hành, hướng dẫn cả lý thuyết lẫn bài tập lập trình cho các thuật toán phổ biến nhất như QLearning, DQN, SAC, PPO.

Phản hồi

  • Có nhiều ví dụ đơn giản chạy được trên thực tế, nhưng thiếu tài nguyên thực tiễn để xử lý khi gặp lỗi. Ví dụ, nếu hành động bị kẹt ở giá trị tối đa hoặc quá trình khám phá không diễn ra đúng cách thì có lời khuyên tương ứng rất hữu ích.
  • Các kỹ thuật RL mới nhất vẫn có vấn đề là hiệu năng trong Tetris không vượt trội so với heuristic đơn giản.
  • Chia sẻ RaveForce, một framework DRL tạo nhạc tương tự Gym. Bạn có thể dùng nó để kiểm tra các thuật toán.
  • Có lẽ sẽ hữu ích cho người thiếu nền tảng thống kê/ML trong việc hiểu cách agent học.
  • Nên thêm liên kết video YouTube.
  • Tác giả cho biết đã lấy cảm hứng từ tiêu đề "Neural Network: Zero To Hero" của Andrej Karpathy và có ý kiến cho rằng tên gọi như vậy có thể gây nhầm lẫn với thương hiệu cá nhân.