2 điểm bởi baeba 2025-05-07 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  1. Nhóm DeepMind công bố rằng, bằng cách tận dụng cấu trúc chính sách phân cấpkỹ thuật thích ứng thời gian thực, tác nhân robot bóng bàn đã đạt được năng lực thi đấu ở mức người chơi nghiệp dư.
  2. Robot này đã được kiểm chứng thông qua chuyển giao mô phỏng-sang-thực tế không cần tinh chỉnh trước (zero-shot sim-to-real), thích ứng trong thi đấu thực chiến, và các bài kiểm tra thi đấu với đối thủ là con người thực.
  3. Kết quả cho thấy robot đạt tỷ lệ thắng 100% trước người mới bắt đầu55% trước người chơi trung cấp, qua đó chứng minh năng lực thi đấu vững chắc ở mức người chơi trung cấp.

1. Bối cảnh nghiên cứu và đóng góp

  • Bóng bàn là môn thể thao phức tạp đòi hỏi одновременно cả chiến thuật lẫn điều khiển chuyển động tốc độ cao, mang lại cho robot một bài toán thách thức ở mức con người.

  • Các nghiên cứu trước đây chỉ dừng ở việc thực hiện các pha rally đơn giản, và đây là nghiên cứu đầu tiên về thi đấu cạnh tranh thực sự với con người.

  • Những đóng góp của nghiên cứu gồm:

    • Cấu trúc chính sách phân cấp (HLC + LLC)
    • Kỹ thuật chuyển giao zero-shot sim-to-real
    • Hệ thống thích ứng đối thủ theo thời gian thực
    • Thí nghiệm đánh giá người dùng với 29 người chơi thực

2. Cấu trúc hệ thống và phương pháp huấn luyện

  • Bộ điều khiển cấp thấp (LLC) có các chính sách chuyên biệt cho từng kỹ năng cụ thể (forehand, backhand, giao bóng, v.v.) cùng với bộ mô tả kỹ năng (skill descriptor).
  • Bộ điều khiển cấp cao (HLC) lựa chọn kỹ năng phù hợp bằng cách xét đến tình huống thi đấu, thống kê của đối thủ, và đặc tính của từng LLC.
  • Quá trình huấn luyện diễn ra theo thứ tự dữ liệu con người ban đầu → mô phỏng → áp dụng thực chiến → học lặp lại, từ đó hình thành cấu trúc học curriculum tự động.

3. Đánh giá hiệu năng và phân tích giới hạn

  • Thi đấu với tổng cộng 29 người chơi có trình độ đa dạng:

    • Người mới bắt đầu: thắng 100%
    • Trung cấp: thắng 55%
    • Từ cao cấp trở lên: thua toàn bộ
      → Tỷ lệ thắng tổng thể: 45% (theo trận), 46% (theo set)
  • Trong đánh giá định tính, người tham gia nhận xét robot “thú vị và cuốn hút”, và tự nguyện chơi trung bình hơn 4 phút trong tổng thời lượng 5 phút.

  • Hạn chế:

    • Xử lý underspin còn kém
    • Khó phản ứng với các quả bóng thấp
      → Nguyên nhân là do khó tránh va chạm với bàn bóng bàn và khó ước lượng độ xoáy, đây là các điểm cần cải thiện trong tương lai

Chưa có bình luận nào.

Chưa có bình luận nào.