- Factorio Learning Environment (FLE), dựa trên trò chơi Factorio, là một môi trường để kiểm thử lập kế hoạch dài hạn, sinh chương trình và tối ưu hóa tài nguyên
- FLE cung cấp các thử thách có thể mở rộng từ tự động hóa cơ bản đến các nhà máy phức tạp, với hai thiết lập: 'Lab-play' thực hiện 24 tác vụ có cấu trúc với tài nguyên cố định và 'Open-play' cung cấp các nhiệm vụ vô hạn.
- Tầm quan trọng của FLE
- FLE cung cấp hạ tầng, API và các chỉ số để đánh giá sinh mã, suy luận không gian và lập kế hoạch dài hạn.
- Tác nhân phải khai thác tài nguyên và quản lý các chuỗi sản xuất phức tạp, qua đó đặt ra và hoàn thành các mục tiêu ngày càng phức tạp hơn.
- Môi trường và tác nhân
- Tác nhân tương tác với môi trường thông qua Python API, gửi chương trình và nhận phản hồi để cải thiện chiến lược.
- Chương trình của tác nhân tạo ra điểm sản xuất (PS) và các cột mốc thể hiện tiến bộ công nghệ.
- Thiết lập thí nghiệm
- Hai thiết lập thí nghiệm: 'Open-play' và 'Lab-play'.
- Đánh giá sáu mô hình ngôn ngữ tiên tiến: Claude 3.5-Sonnet, GPT-4o, GPT-4o-Mini, Deepseek-v3, Gemini-2-Flash, Llama-3.3-70B-Instruct.
- Open-Play
- Tác nhân có mục tiêu "xây dựng nhà máy lớn nhất" trong một thế giới được tạo sinh theo thủ tục.
- Năng lực của tác nhân được đánh giá thông qua điểm sản xuất; các mô hình tốt hơn cho thấy điểm số cao hơn và đường cong tăng trưởng dốc hơn.
- Lab-Play
- Tác nhân được cấp tài nguyên và phải đạt mục tiêu trong thời gian giới hạn.
- Tác nhân thực hiện nhiệm vụ sản xuất 24 thực thể mục tiêu, trong đó mỗi thực thể ngày càng phức tạp hơn.
- Những nhận định chính
- Năng lực lập trình dự đoán hiệu năng, còn đầu tư công nghệ và lập kế hoạch thúc đẩy tăng trưởng.
- Suy luận không gian và khôi phục lỗi là những thách thức chính.
- Các mô hình thể hiện những phong cách lập trình khác nhau.
- Kết luận
- Ngay cả các LLM mới nhất cũng gặp khó khăn với bài toán điều phối và tối ưu hóa trong các tác vụ tự động hóa.
- Độ phức tạp của cây công nghệ trong Factorio vẫn mang lại một kịch bản đánh giá đầy thách thức, ngay cả khi nghiên cứu AI tiếp tục phát triển.
- FLE được cung cấp như một nền tảng mã nguồn mở để nghiên cứu năng lực của tác nhân trong các miền phức tạp và vô hạn.
1 bình luận
Ý kiến trên Hacker News
Muốn ứng tuyển vào phòng thí nghiệm nghiên cứu Factorio của Anthropic. Tò mò không biết có truyền dữ liệu đa phương thức hay không. Qwen 2.5 VLM phát hành gần đây có vẻ mạnh so với kích thước của nó
Đã có một bài đăng HN về đội dùng học tăng cường để thắng Pokémon Red. Tò mò liệu có thể dùng cách tiếp cận này cho Factorio hay không
Tất cả các mô hình đều cho thấy hạn chế trong việc lập kế hoạch không gian khi xây dựng nhà máy nhiều khu
Có thể dùng LLM như một tác nhân cấp cao để tự động xây dựng các nhà máy lớn, hiệu quả
Có rất nhiều yếu tố thú vị để thử nghiệm. Kịch bản phòng thí nghiệm có yếu tố thời gian có vẻ là một ý tưởng hay
Tò mò liệu có benchmark người chơi thật cho kiểu giao diện này hay không
Tò mò vài năm nữa liệu mọi đối thủ trong game có trở thành LLM có quyền truy cập API điều khiển trò chơi hay không
Là một danh mục khác của tác vụ "Lab Play", thiết kế bộ cân bằng có vẻ sẽ rất thú vị
Muốn xem thêm ảnh của các nhà máy lớn hơn
Thật thú vị khi chỉ có vài kịch bản phức tạp