2 điểm bởi GN⁺ 2024-04-08 | 1 bình luận | Chia sẻ qua WhatsApp

Chỉ cần nhiều tác tử hơn

  • Phát hiện rằng hiệu năng của các mô hình ngôn ngữ lớn (LLMs) có thể mở rộng theo số lượng tác tử được khởi tạo.
  • Có thể cải thiện LLMs thông qua các phương pháp lấy mẫu và bỏ phiếu, độc lập với các phương pháp phức tạp hiện có, và mức cải thiện có liên quan đến độ khó của tác vụ.
  • Đã thực hiện các thí nghiệm trên diện rộng với nhiều bộ benchmark LLM khác nhau để xác nhận sự tồn tại của phát hiện này, đồng thời nghiên cứu những đặc tính có thể thúc đẩy hiện tượng đó.
  • Mã nguồn được օգտագործված trong nghiên cứu được công khai.

Ý kiến của GN⁺

  • Nghiên cứu này có thể đóng góp quan trọng cho lĩnh vực trí tuệ nhân tạo bằng cách đưa ra một cách tiếp cận mới nhằm cải thiện hiệu năng của các mô hình ngôn ngữ lớn.
  • Phát hiện rằng việc tăng số lượng tác tử có tác động trực tiếp đến cải thiện hiệu năng mang lại một góc nhìn mới về khả năng mở rộng tài nguyên và hiệu quả.
  • Cần có thêm nghiên cứu về cách các kết quả thực nghiệm có thể được áp dụng vào các ứng dụng thực tế.
  • Việc mức cải thiện hiệu năng có liên quan đến độ khó của tác vụ có thể giúp xây dựng chiến lược tối ưu hóa mô hình ngôn ngữ cho các tác vụ cụ thể.
  • Thông qua mã nguồn được công khai, các nhà nghiên cứu khác có thể góp phần tái hiện và mở rộng nghiên cứu này, qua đó thúc đẩy tính minh bạch khoa học và sự hợp tác.

1 bình luận

 
GN⁺ 2024-04-08
Ý kiến trên Hacker News
  • Tóm tắt bình luận thứ nhất:

    • Bài báo này đặt nghi vấn về toàn bộ ý tưởng của thiết lập đa tác tử (ví dụ: Chain-of-thought, LLM-Debate).
    • Một phương pháp thay thế là chạy cùng một truy vấn nhiều lần trên cùng một LLM, rồi dùng thuật toán đo độ tương đồng giữa các câu trả lời để chọn ra đáp án xuất hiện thường xuyên nhất.
    • Thuật toán đơn giản này cho thấy hiệu năng vượt trội ngay cả khi so với các thuật toán đa tác tử khác.
    • Điều này gợi ý rằng các lược đồ đa tác tử không thực sự làm điều gì đặc biệt, và kết quả được cải thiện chủ yếu đến từ việc LLM được chạy nhiều lần cùng prompt yêu cầu chọn câu trả lời tốt nhất.
  • Tóm tắt bình luận thứ hai:

    • Trong 16 tháng qua, người bình luận đã cho rằng cần phân tầng các tác tử thay vì chỉ tập trung vào việc để một tác tử đơn lẻ xử lý đúng mọi thứ.
    • Điều thú vị là suất sinh lợi theo tác vụ giảm rất nhanh, tương tự quy mô lý tưởng của một cuộc họp giữa con người.
    • Họ tự hỏi nếu tinh chỉnh số lượng tác tử chi tiết hơn thì mức độ trùng khớp với quy mô họp lý tưởng sẽ đến đâu.
    • Họ cũng muốn thấy mức cải thiện hiệu năng khi mỗi tác tử được fine-tune theo các mục tiêu hơi khác nhau.
  • Tóm tắt bình luận thứ ba:

    • Điều này có liên quan đến nội dung được giáo sư Edward Chang của khoa khoa học máy tính Đại học Stanford đề cập trong một tập podcast ACM ByteCast gần đây.
    • Cách tiếp cận là để nhiều LLM trò chuyện với nhau về một chủ đề thảo luận, còn con người đóng vai trò điều phối.
    • Câu trả lời cuối cùng mà nhiều LLM đạt được thông qua đối thoại được cải thiện đáng kể cả về độ chính xác lẫn độ chuẩn xác.
  • Tóm tắt bình luận thứ tư:

    • Sự thất vọng trong nghiên cứu về mixture of experts là một suy luận xác suất cơ bản: truy vấn LLM nhiều lần và chọn kết quả theo đa số nhìn chung sẽ cho hiệu năng tốt hơn so với chỉ truy vấn một lần rồi chọn chính kết quả đó.
    • Có vẻ lợi ích này còn có thể được cải thiện thêm bằng cách tìm ra sự kết hợp tốt hơn giữa các LLM khác nhau hoặc các cách tốt hơn để chia tác vụ thành các tác vụ con.
  • Tóm tắt bình luận thứ năm:

    • Nhìn vào biểu đồ, phần lớn lợi ích đạt được với 10 tác tử, tăng lên 20 tác tử thì có thêm một ít lợi ích, và sau đó lợi nhuận giảm dần.
  • Tóm tắt bình luận thứ sáu:

    • Một suy nghĩ đùa vui về mô hình kinh doanh của các công ty cung cấp dịch vụ LLM: dịch vụ xe phải gọi nhiều lần mới tới đích, chất tẩy rửa phải dùng nhiều lần thì quần áo mới "có thể" sạch.
    • Nếu một công ty cung cấp "trí tuệ nhân tạo", thì có lẽ hợp lý hơn là chỉ trả tiền cho những câu trả lời đúng.
  • Tóm tắt bình luận thứ bảy:

    • Có ý kiến cho rằng cách này rất tốn kém và không bền vững, đồng thời đồng ý rằng MoE mới là hướng nên đi tiếp vì các mô hình mới có lẽ cũng sẽ gặp tình trạng lợi nhuận giảm dần.
    • Lượng tính toán cho một prompt đơn lẻ sẽ tăng lên khoảng 7-15 lần.
  • Tóm tắt bình luận thứ tám:

    • Kho lưu trữ được công bố và các prompt dùng trong benchmark rất thú vị.
    • Người bình luận muốn thấy việc benchmark các tác tử dựa trên LLM khi sử dụng một bộ công cụ.
  • Tóm tắt bình luận thứ chín:

    • Nếu cộng tất cả những câu kiểu "x là tất cả những gì cần thiết" lại với nhau, bạn sẽ nhận ra rằng thực ra cần rất nhiều thứ.
  • Tóm tắt bình luận thứ mười:

    • Một ensemble gồm bất kỳ số lượng tác tử GPT 3.5 nào cũng kém chính xác hơn một lần gọi GPT-4.