1 điểm bởi GN⁺ 2025-03-12 | 1 bình luận | Chia sẻ qua WhatsApp
  • Factorio Learning Environment (FLE), dựa trên trò chơi Factorio, là một môi trường để kiểm thử lập kế hoạch dài hạn, sinh chương trình và tối ưu hóa tài nguyên
  • FLE cung cấp các thử thách có thể mở rộng từ tự động hóa cơ bản đến các nhà máy phức tạp, với hai thiết lập: 'Lab-play' thực hiện 24 tác vụ có cấu trúc với tài nguyên cố định và 'Open-play' cung cấp các nhiệm vụ vô hạn.
  • Tầm quan trọng của FLE
    • FLE cung cấp hạ tầng, API và các chỉ số để đánh giá sinh mã, suy luận không gian và lập kế hoạch dài hạn.
    • Tác nhân phải khai thác tài nguyên và quản lý các chuỗi sản xuất phức tạp, qua đó đặt ra và hoàn thành các mục tiêu ngày càng phức tạp hơn.
  • Môi trường và tác nhân
    • Tác nhân tương tác với môi trường thông qua Python API, gửi chương trình và nhận phản hồi để cải thiện chiến lược.
    • Chương trình của tác nhân tạo ra điểm sản xuất (PS) và các cột mốc thể hiện tiến bộ công nghệ.
  • Thiết lập thí nghiệm
    • Hai thiết lập thí nghiệm: 'Open-play' và 'Lab-play'.
    • Đánh giá sáu mô hình ngôn ngữ tiên tiến: Claude 3.5-Sonnet, GPT-4o, GPT-4o-Mini, Deepseek-v3, Gemini-2-Flash, Llama-3.3-70B-Instruct.
  • Open-Play
    • Tác nhân có mục tiêu "xây dựng nhà máy lớn nhất" trong một thế giới được tạo sinh theo thủ tục.
    • Năng lực của tác nhân được đánh giá thông qua điểm sản xuất; các mô hình tốt hơn cho thấy điểm số cao hơn và đường cong tăng trưởng dốc hơn.
  • Lab-Play
    • Tác nhân được cấp tài nguyên và phải đạt mục tiêu trong thời gian giới hạn.
    • Tác nhân thực hiện nhiệm vụ sản xuất 24 thực thể mục tiêu, trong đó mỗi thực thể ngày càng phức tạp hơn.
  • Những nhận định chính
    • Năng lực lập trình dự đoán hiệu năng, còn đầu tư công nghệ và lập kế hoạch thúc đẩy tăng trưởng.
    • Suy luận không gian và khôi phục lỗi là những thách thức chính.
    • Các mô hình thể hiện những phong cách lập trình khác nhau.
  • Kết luận
    • Ngay cả các LLM mới nhất cũng gặp khó khăn với bài toán điều phối và tối ưu hóa trong các tác vụ tự động hóa.
    • Độ phức tạp của cây công nghệ trong Factorio vẫn mang lại một kịch bản đánh giá đầy thách thức, ngay cả khi nghiên cứu AI tiếp tục phát triển.
    • FLE được cung cấp như một nền tảng mã nguồn mở để nghiên cứu năng lực của tác nhân trong các miền phức tạp và vô hạn.

1 bình luận

 
GN⁺ 2025-03-12
Ý kiến trên Hacker News
  • Muốn ứng tuyển vào phòng thí nghiệm nghiên cứu Factorio của Anthropic. Tò mò không biết có truyền dữ liệu đa phương thức hay không. Qwen 2.5 VLM phát hành gần đây có vẻ mạnh so với kích thước của nó

    • Có nhiều nhắc đến việc thiếu năng lực không gian. Tò mò suy nghĩ của mọi người về việc có truyền hình ảnh hay không
    • Công việc này thật đáng kinh ngạc. Muốn tham gia dự án này ngay bây giờ
    • MCP có vẻ là tác vụ bắt buộc tự nhiên để kích hoạt thư viện Python
  • Đã có một bài đăng HN về đội dùng học tăng cường để thắng Pokémon Red. Tò mò liệu có thể dùng cách tiếp cận này cho Factorio hay không

    • "Tác vụ bắt buộc" chính của Factorio là thiết lập tự động hóa cho vật phẩm mới và gói khoa học
    • Hàm phần thưởng có thể bao gồm phần thưởng nhỏ cho tốc độ sản xuất của từng vật phẩm, phần thưởng trung bình cho tự động hóa vật phẩm mới, và phần thưởng lớn cho tự động hóa gói khoa học mới
    • Nói với tác nhân Factorio rằng "hãy xây một nhà máy lớn" cũng giống như nói với tác nhân Pokémon Red rằng "hãy thắng trò chơi"
  • Tất cả các mô hình đều cho thấy hạn chế trong việc lập kế hoạch không gian khi xây dựng nhà máy nhiều khu

    • Lý do LLM yếu trong suy luận không gian là vì không có nhiều dữ liệu huấn luyện
    • Tò mò nếu suy luận không gian được giải quyết thì những năng lực suy luận bổ sung nào sẽ xuất hiện
  • Có thể dùng LLM như một tác nhân cấp cao để tự động xây dựng các nhà máy lớn, hiệu quả

    • Đặt mục tiêu cho sản xuất tài nguyên
    • Tạo đồ thị nhà máy và tính toán vận chuyển tài nguyên
    • Ánh xạ đồ thị sang ngôn ngữ mô tả phần cứng
    • Biên dịch thành bố cục FPGA 2D
    • Ánh xạ kế hoạch thành thiết kế Factorio cụ thể
  • Có rất nhiều yếu tố thú vị để thử nghiệm. Kịch bản phòng thí nghiệm có yếu tố thời gian có vẻ là một ý tưởng hay

    • Thích cách thiết kế framework này khác với các thí nghiệm DOTA 2 hay StarCraft 2
    • Tò mò liệu có kế hoạch xây benchmark tối ưu hóa bố cục hay không
  • Tò mò liệu có benchmark người chơi thật cho kiểu giao diện này hay không

    • Tò mò cảm giác của một Factorio có thể lập trình sẽ như thế nào
  • Tò mò vài năm nữa liệu mọi đối thủ trong game có trở thành LLM có quyền truy cập API điều khiển trò chơi hay không

    • Tò mò liệu có loại tác vụ cụ thể nào mà mô hình gặp khó khăn hay không
  • Là một danh mục khác của tác vụ "Lab Play", thiết kế bộ cân bằng có vẻ sẽ rất thú vị

    • Ngay cả bộ cân bằng nhỏ cũng có thể phức tạp
  • Muốn xem thêm ảnh của các nhà máy lớn hơn

    • Điều này cho thấy rõ một điểm yếu lớn hiện tại của LLM
    • Kỳ vọng những cải thiện lớn hơn từ học trực tuyến/thích nghi
  • Thật thú vị khi chỉ có vài kịch bản phức tạp

    • Luôn nghĩ rằng tác nhân game ML cần hàng trăm câu đố nhỏ để thực sự học được cơ chế game
    • Có thể tạo kịch bản bằng chương trình để dùng như ngân hàng câu hỏi kiểm tra IQ
    • Giả định rằng tác nhân ML sẽ học nhanh hơn khi đánh giá các mẫu từ một ngân hàng kịch bản lớn hơn