1 điểm bởi GN⁺ 2024-12-25 | 1 bình luận | Chia sẻ qua WhatsApp

Khoa học máy tính > Học máy

  • Tiêu đề: Adversarial Policies Beat Superhuman Go AIs
  • Tác giả: Tony T. Wang, Adam Gleave, Tom Tseng, Kellin Pelrine, Nora Belrose, Joseph Miller, Michael D. Dennis, Yawen Duan, Viktor Pogrebniak, Sergey Levine, Stuart Russell
  • Ngày gửi: 1 tháng 11 năm 2022 (v1), chỉnh sửa lần cuối 13 tháng 7 năm 2023 (v4)

Tóm tắt

  • Nhóm nghiên cứu đã huấn luyện các chính sách đối nghịch chống lại hệ thống AI Go tiên tiến KataGo và đạt tỷ lệ thắng trên 97% trước KataGo ở mức siêu nhân.
  • Các chính sách đối nghịch không nhằm chơi Go để thắng bằng kỹ năng tốt, mà nhằm buộc KataGo phạm những sai lầm nghiêm trọng.
  • Cuộc tấn công này còn chuyển giao theo kiểu zero-shot sang các AI Go siêu nhân khác, và đủ dễ hiểu để các chuyên gia người chơi có thể thường xuyên đánh bại AI siêu nhân mà không cần sự hỗ trợ của thuật toán.
  • Một lỗ hổng cốt lõi này tiếp tục tồn tại ngay cả trong agent KataGo được huấn luyện đối kháng để chống lại cuộc tấn công.
  • Kết quả nghiên cứu cho thấy các hệ thống AI siêu nhân cũng có thể có những chế độ lỗi bất ngờ.

Thông tin bổ sung

  • Tình trạng bài báo: Đã được chấp nhận tại ICML 2023
  • Chủ đề: Học máy (cs.LG); Trí tuệ nhân tạo (cs.AI); Mật mã học và an ninh (cs.CR); Học máy (stat.ML)
  • Phân loại ACM: I.2.6
  • Trích dẫn: arXiv:2211.00241 [cs.LG] (hoặc arXiv:2211.00241v4 [cs.LG] phiên bản này)
  • Lịch sử gửi:
    • [v1] 1 tháng 11 năm 2022
    • [v2] 9 tháng 1 năm 2023
    • [v3] 18 tháng 2 năm 2023
    • [v4] 13 tháng 7 năm 2023

Cách tiếp cận

  • Truy cập bài báo ở định dạng PDF và các định dạng khác
  • Cung cấp các bài báo liên quan và công cụ trích dẫn

Thông tin arXiv

  • arXiv là nền tảng chia sẻ các bài báo nghiên cứu, cung cấp các bài báo nghiên cứu trên nhiều chủ đề.

1 bình luận

 
GN⁺ 2024-12-25
Bình luận trên Hacker News
  • Một người dùng nói rằng bài báo ban đầu trông rất ấn tượng nhưng khó hiểu. Mặc dù họ biết một chút về Go và AI Go, và biết nhiều về cờ vua cùng AI cờ vua, nhưng cảm thấy bài viết giải thích thiếu và dùng quá nhiều thuật ngữ chuyên môn nên rất khó tiếp nhận

    • Họ cho rằng bài báo đang giấu các ý tưởng của tác giả, dù những ý tưởng ấy có thể vừa đáng ngạc nhiên vừa đơn giản
  • Đưa ra các trường hợp biên của cờ vua và so sánh đánh giá giữa Stockfish và Lc0

    • Trường hợp đầu tiên, Stockfish và Lc0 đều đánh giá bên trắng nhỉnh hơn
    • Trường hợp thứ hai và thứ ba, cả hai đều đánh giá bên đen thắng
    • Trường hợp thứ tư, Lc0 hiểu được nhưng Stockfish thì không
  • Với Go, một người chơi nghiệp dư có thể là đối thủ khó lường vì những nước đi khó đoán

    • Những nước đi có hình dạng bất thường đôi khi lại hiệu quả
  • Nhắc lại rằng sau Deep Blue, người chơi cờ vua đã cải thiện các chiến lược chống máy tính

    • Đối với Go, không gian lớn hơn nên có thể có nhiều chiến lược phản máy hơn
    • Đây là cách tận dụng điểm yếu của hàm đánh giá
  • Cũng nêu rằng trong cờ vua, càng tính toán nhiều thì cơ hội thắng càng cao

    • Elo là chỉ số đo thắng thua; nếu lẫn lộn với độ khó thì có thể dẫn tới lý giải sai
  • Nhắc lại bản chỉnh sửa bài báo từ 2022 đến 2023, có thể đã từng đọc nó trước đó

    • Họ tò mò cách tiếp cận này có hiệu quả đến mức nào với các engine cờ vua kiểu Leela
  • Người dùng cho rằng con người vẫn còn hy vọng

  • Họ cho rằng bài báo sẽ được dùng để tích hợp phòng thủ trước chiến lược đối nghịch trong AI Go

    • Chỉ là sự tò mò thuần túy, nhưng phản ánh bức tranh tổng thể của tiến trình phát triển AI
  • Họ cho rằng kết luận nói rằng "kết quả của chúng tôi cho thấy ngay cả hệ thống AI siêu nhân cũng có thể có chế độ thất bại đáng ngạc nhiên" là đang trống

    • Điều này không có ý nghĩa gì về “siêu trí tuệ” trong tương lai; chúng có thể có hoặc không có các “chế độ thất bại” như vậy