7 điểm bởi ironman0722 2026-03-31 | 1 bình luận | Chia sẻ qua WhatsApp
  • Harness computer-use VLM để chơi Civilization VI bằng lệnh ngôn ngữ tự nhiên
    “mở rộng về phía đông”, “tập trung kinh tế”, “chiến thắng khoa học” và các ý định cấp cao tương tự → tác nhân thực hiện thao tác thực tế

  • Kiến trúc 3 lớp tách biệt chiến lược và thực thi (Strategy / Action / HITL)

    • Strategy Layer: chuyển ngôn ngữ tự nhiên → mục tiêu có cấu trúc, duy trì chiến lược dài hạn và phân rã tác vụ
    • Action Layer: nhận diện trạng thái dựa trên màn hình (VLM) + thực thi bằng chuột/bàn phím (không có API game)
    • HITL Layer: kiến trúc tự chủ có thể kiểm soát, cho phép can thiệp/chỉnh sửa/dừng trong khi thực thi
  • Một chiến lược → được phân rã thành nhiều chuỗi hành động, với 2–16 lần gọi mô hình cho mỗi tác vụ

  • Dựa trên sub-agent để thực thi theo từng tác vụ giới hạn như quản lý thành phố, di chuyển đơn vị

  • Thử nghiệm chuyển đổi “giao diện intent → action”, thay vì dùng các phương pháp RL/IL/script truyền thống

  • Cách tiếp cận ủy quyền chiến lược và điều phối tác nhân, thay vì thao tác trực tiếp

  • Các vấn đề kỹ thuật chính:

    • lỗi perception của VLM,
    • execution drift,
    • khó xác minh thành công hay thất bại
    • trong thực thi nhiều bước, độ trễ và chi phí API tăng lên, chất lượng chiến lược fallback suy giảm
  • Không phải tự động hóa hoàn toàn mà cho phép chỉnh sửa và kiểm soát chiến lược theo thời gian thực dựa trên human-in-the-loop

  • Hệ thống thử nghiệm xử lý bài toán điều khiển / xác minh tác nhân trong môi trường chỉ có UI

  • Trọng tâm không phải bản thân việc chơi game mà là “nâng giao diện người-hệ thống lên cấp độ chiến lược”

1 bình luận

 
bus710 2026-04-01

Đang mải miết hướng tới chiến thắng chinh phục/văn hóa/khoa học/ngoại giao thì kiểu gì cũng bị úp sọt bằng chiến thắng tôn giáo từ đâu đó.