civStation – Tác nhân dựa trên computer-use VLM điều khiển Civilization VI ở cấp độ chiến lược (thậm chí có cả Human in the loop)

ironman0722 · 2026-03-31T14:03:37+09:00

Harness computer-use VLM để chơi Civilization VI bằng lệnh ngôn ngữ tự nhiên “mở rộng về phía đông”, “tập trung kinh tế”, “chiến thắng khoa học” và các ý định cấp cao tương tự → tác nhân thực hiện thao tác thực tế Kiến trúc 3 lớp tách biệt chiến lược và thực thi (Strategy / Action / HITL) Strategy Layer: chuyển ngôn ngữ tự nhiên → mục tiêu có cấu trúc, duy trì chiến lược dài hạn và phân rã tác vụ Action Layer: nhận diện trạng thái dựa trên màn hình (VLM) + thực thi bằng chuột/bàn phím (không có API game) HITL Layer: kiến trúc tự chủ có thể kiểm soát, cho phép can thiệp/chỉnh sửa/dừng trong khi thực thi Một chiến lược → được phân rã thành nhiều chuỗi hành động, với 2–16 lần gọi mô hình cho mỗi tác vụ Dựa trên sub-agent để thực thi theo từng tác vụ giới hạn như quản lý thành phố, di chuyển đơn vị Thử nghiệm chuyển đổi “giao diện intent → action”, thay vì dùng các phương pháp RL/IL/script truyền thống Cách tiếp cận ủy quyền chiến lược và điều phối tác nhân, thay vì thao tác trực tiếp Các vấn đề kỹ thuật chính: lỗi perception của VLM, execution drift, khó xác minh thành công hay thất bại trong thực thi nhiều bước, độ trễ và chi phí API tăng lên, chất lượng chiến lược fallback suy giảm Không phải tự động hóa hoàn toàn mà cho phép chỉnh sửa và kiểm soát chiến lược theo thời gian thực dựa trên human-in-the-loop Hệ thống thử nghiệm xử lý bài toán điều khiển / xác minh tác nhân trong môi trường chỉ có UI Trọng tâm không phải bản thân việc chơi game mà là “nâng giao diện người-hệ thống lên cấp độ chiến lược”

(github.com/NomaDamas)

7 điểm bởi ironman0722 2026-03-31 | 1 bình luận | Chia sẻ qua WhatsApp

Harness computer-use VLM để chơi Civilization VI bằng lệnh ngôn ngữ tự nhiên
“mở rộng về phía đông”, “tập trung kinh tế”, “chiến thắng khoa học” và các ý định cấp cao tương tự → tác nhân thực hiện thao tác thực tế
Kiến trúc 3 lớp tách biệt chiến lược và thực thi (Strategy / Action / HITL)
- Strategy Layer: chuyển ngôn ngữ tự nhiên → mục tiêu có cấu trúc, duy trì chiến lược dài hạn và phân rã tác vụ
- Action Layer: nhận diện trạng thái dựa trên màn hình (VLM) + thực thi bằng chuột/bàn phím (không có API game)
- HITL Layer: kiến trúc tự chủ có thể kiểm soát, cho phép can thiệp/chỉnh sửa/dừng trong khi thực thi
Một chiến lược → được phân rã thành nhiều chuỗi hành động, với 2–16 lần gọi mô hình cho mỗi tác vụ
Quảng cáo
Dựa trên sub-agent để thực thi theo từng tác vụ giới hạn như quản lý thành phố, di chuyển đơn vị
Thử nghiệm chuyển đổi “giao diện intent → action”, thay vì dùng các phương pháp RL/IL/script truyền thống
Cách tiếp cận ủy quyền chiến lược và điều phối tác nhân, thay vì thao tác trực tiếp
Các vấn đề kỹ thuật chính:
- lỗi perception của VLM,
- execution drift,
- khó xác minh thành công hay thất bại
- trong thực thi nhiều bước, độ trễ và chi phí API tăng lên, chất lượng chiến lược fallback suy giảm
Quảng cáo
Không phải tự động hóa hoàn toàn mà cho phép chỉnh sửa và kiểm soát chiến lược theo thời gian thực dựa trên human-in-the-loop
Hệ thống thử nghiệm xử lý bài toán điều khiển / xác minh tác nhân trong môi trường chỉ có UI
Trọng tâm không phải bản thân việc chơi game mà là “nâng giao diện người-hệ thống lên cấp độ chiến lược”

1 bình luận

bus710 2026-04-01

Đang mải miết hướng tới chiến thắng chinh phục/văn hóa/khoa học/ngoại giao thì kiểu gì cũng bị úp sọt bằng chiến thắng tôn giáo từ đâu đó.

civStation – Tác nhân dựa trên computer-use VLM điều khiển Civilization VI ở cấp độ chiến lược (thậm chí có cả Human in the loop)

Bài viết liên quan

1 bình luận