civStation – Tác nhân dựa trên computer-use VLM điều khiển Civilization VI ở cấp độ chiến lược (thậm chí có cả Human in the loop)
(github.com/NomaDamas)-
Harness computer-use VLM để chơi Civilization VI bằng lệnh ngôn ngữ tự nhiên
“mở rộng về phía đông”, “tập trung kinh tế”, “chiến thắng khoa học” và các ý định cấp cao tương tự → tác nhân thực hiện thao tác thực tế -
Kiến trúc 3 lớp tách biệt chiến lược và thực thi (Strategy / Action / HITL)
- Strategy Layer: chuyển ngôn ngữ tự nhiên → mục tiêu có cấu trúc, duy trì chiến lược dài hạn và phân rã tác vụ
- Action Layer: nhận diện trạng thái dựa trên màn hình (VLM) + thực thi bằng chuột/bàn phím (không có API game)
- HITL Layer: kiến trúc tự chủ có thể kiểm soát, cho phép can thiệp/chỉnh sửa/dừng trong khi thực thi
-
Một chiến lược → được phân rã thành nhiều chuỗi hành động, với 2–16 lần gọi mô hình cho mỗi tác vụ
-
Dựa trên sub-agent để thực thi theo từng tác vụ giới hạn như quản lý thành phố, di chuyển đơn vị
-
Thử nghiệm chuyển đổi “giao diện intent → action”, thay vì dùng các phương pháp RL/IL/script truyền thống
-
Cách tiếp cận ủy quyền chiến lược và điều phối tác nhân, thay vì thao tác trực tiếp
-
Các vấn đề kỹ thuật chính:
- lỗi perception của VLM,
- execution drift,
- khó xác minh thành công hay thất bại
- trong thực thi nhiều bước, độ trễ và chi phí API tăng lên, chất lượng chiến lược fallback suy giảm
-
Không phải tự động hóa hoàn toàn mà cho phép chỉnh sửa và kiểm soát chiến lược theo thời gian thực dựa trên human-in-the-loop
-
Hệ thống thử nghiệm xử lý bài toán điều khiển / xác minh tác nhân trong môi trường chỉ có UI
-
Trọng tâm không phải bản thân việc chơi game mà là “nâng giao diện người-hệ thống lên cấp độ chiến lược”
1 bình luận
Đang mải miết hướng tới chiến thắng chinh phục/văn hóa/khoa học/ngoại giao thì kiểu gì cũng bị úp sọt bằng chiến thắng tôn giáo từ đâu đó.