4 điểm bởi GN⁺ 2025-04-09 | 2 bình luận | Chia sẻ qua WhatsApp
  • Meta đã công bố hai mô hình Llama 4 mới: Scout là mô hình nhỏ và Maverick là mô hình cỡ trung
  • Meta tuyên bố Maverick cho hiệu năng tốt hơn GPT-4o và Gemini 2.0 Flash
  • Maverick đứng thứ 2 trên LMArena, nền tảng so sánh các mô hình AI
  • Điểm ELO được công bố là 1417, cao hơn GPT-4o và thấp hơn một chút so với Gemini 2.5 Pro
  • Điểm ELO cao đồng nghĩa mô hình đó chiến thắng thường xuyên hơn khi được đánh giá so sánh với các mô hình khác

Nghi vấn thao túng benchmark

  • Các nhà nghiên cứu AI đã phát hiện điểm bất thường trong tài liệu của Meta
  • Phiên bản Maverick được dùng trên LMArena khác với phiên bản được công khai cho công chúng
  • Meta cho biết họ đã dùng phiên bản thử nghiệm tối ưu cho hội thoại trên LMArena
  • Đây là mô hình thử nghiệm tập trung vào “khả năng hội thoại (conversationality)”

Phản ứng từ cộng đồng và nền tảng

  • LMArena ra tuyên bố chính thức rằng cách diễn giải chính sách của Meta không phù hợp với kỳ vọng của họ
  • Meta không ghi rõ đây là phiên bản thử nghiệm, và vì vậy LMArena thông báo sẽ thay đổi chính sách bảng xếp hạng
  • Đây là biện pháp nhằm bảo đảm các đánh giá công bằng và có thể tái lập trong tương lai

Giải thích từ Meta

  • Người phát ngôn của Meta, Ashley Gabriel, giải thích trong một tuyên bố qua email rằng công ty thử nghiệm nhiều phiên bản thực nghiệm khác nhau
  • Bà cho biết: “Llama-4-Maverick-03-26-Experimental là một mô hình thử nghiệm được tối ưu cho hội thoại và cũng cho thấy hiệu năng xuất sắc trên LMArena”

2 bình luận

 
ndrgrd 2025-04-10

Đúng là benchmark thì không thể thiếu chuyện thao túng nhỉ.

 
GN⁺ 2025-04-09
Ý kiến Hacker News
  • Việc phát hành Llama 4 có vẻ là một thất bại lớn đối với Meta. Hiệu năng của mô hình không tốt. Mọi bài đưa tin đều tiêu cực
    • Điều này đúng như dự đoán, nhưng khiến người ta tò mò Meta sẽ làm gì tiếp theo. Hiện tại có vẻ họ đang tụt lại phía sau các mô hình mở khác, và canh bạc đầy tham vọng với MoE dường như đã không thành công
    • Tò mò không biết liệu Zuck có ép phát hành hay không. Hẳn là ông ấy đã biết nó chưa sẵn sàng
  • Thật sốc khi các công ty đã đánh cắp tài liệu có bản quyền lại một lần nữa hành xử phi đạo đức
  • Đây là lần đầu Meta bị bắt quả tang
  • Xem các trận đối đầu mẫu (H2H) do LMArena công bố là cách giải thích rõ ràng nhất. Đầu ra của mô hình Meta quá dài dòng và lắm lời. Nhìn vào các phán quyết thì dễ hiểu vì sao mọi người lại phớt lờ bảng xếp hạng LMArena
  • LMArena giờ đã trở nên vô dụng rồi sao?
    • Tôi từng nghĩ nó có khía cạnh chạy hai mô hình trên cùng một truy vấn do người dùng cung cấp. Điều này lẽ ra không thể bị thao túng
    • Tôi không hiểu "tối ưu hóa hội thoại" nghĩa là gì. Tôi không rõ điều này mang lại lợi thế gì trong LMArena
  • Meta đang tự làm hại mình với một AI công khai tệ hại mà mọi người có thể thử (meta.ai). Tôi thường xuyên dùng bản web của GPT 4o, Deepseek, Grok, Google Gemeni 2.5
    • Meta lúc nào cũng tệ nhất nên tôi không còn quan tâm nữa
  • Sẽ không ai ngạc nhiên. Và định luật Goodhart lại một lần nữa phát huy tác dụng
  • Phần đầu bảng xếp hạng đầy rẫy các mô hình thử nghiệm đóng trọng số
  • Tôi tin đây là kiểu thiết kế để nịnh người viết prompt hoặc tâng bốc họ nhiều hơn. Nếu đúng vậy thì thật đáng lo về những người đang đi so sánh chúng