- Meta đã công bố hai mô hình Llama 4 mới: Scout là mô hình nhỏ và Maverick là mô hình cỡ trung
- Meta tuyên bố Maverick cho hiệu năng tốt hơn GPT-4o và Gemini 2.0 Flash
- Maverick đứng thứ 2 trên LMArena, nền tảng so sánh các mô hình AI
- Điểm ELO được công bố là 1417, cao hơn GPT-4o và thấp hơn một chút so với Gemini 2.5 Pro
- Điểm ELO cao đồng nghĩa mô hình đó chiến thắng thường xuyên hơn khi được đánh giá so sánh với các mô hình khác
Nghi vấn thao túng benchmark
- Các nhà nghiên cứu AI đã phát hiện điểm bất thường trong tài liệu của Meta
- Phiên bản Maverick được dùng trên LMArena khác với phiên bản được công khai cho công chúng
- Meta cho biết họ đã dùng phiên bản thử nghiệm tối ưu cho hội thoại trên LMArena
- Đây là mô hình thử nghiệm tập trung vào “khả năng hội thoại (conversationality)”
Phản ứng từ cộng đồng và nền tảng
- LMArena ra tuyên bố chính thức rằng cách diễn giải chính sách của Meta không phù hợp với kỳ vọng của họ
- Meta không ghi rõ đây là phiên bản thử nghiệm, và vì vậy LMArena thông báo sẽ thay đổi chính sách bảng xếp hạng
- Đây là biện pháp nhằm bảo đảm các đánh giá công bằng và có thể tái lập trong tương lai
Giải thích từ Meta
- Người phát ngôn của Meta, Ashley Gabriel, giải thích trong một tuyên bố qua email rằng công ty thử nghiệm nhiều phiên bản thực nghiệm khác nhau
- Bà cho biết: “
Llama-4-Maverick-03-26-Experimental là một mô hình thử nghiệm được tối ưu cho hội thoại và cũng cho thấy hiệu năng xuất sắc trên LMArena”
2 bình luận
Đúng là benchmark thì không thể thiếu chuyện thao túng nhỉ.
Ý kiến Hacker News