Meta vướng tranh cãi thao túng benchmark AI

(theverge.com)

4 điểm bởi GN⁺ 2025-04-09 | 2 bình luận | Chia sẻ qua WhatsApp

Meta đã công bố hai mô hình Llama 4 mới: Scout là mô hình nhỏ và Maverick là mô hình cỡ trung
Meta tuyên bố Maverick cho hiệu năng tốt hơn GPT-4o và Gemini 2.0 Flash
Maverick đứng thứ 2 trên LMArena, nền tảng so sánh các mô hình AI
Điểm ELO được công bố là 1417, cao hơn GPT-4o và thấp hơn một chút so với Gemini 2.5 Pro
Điểm ELO cao đồng nghĩa mô hình đó chiến thắng thường xuyên hơn khi được đánh giá so sánh với các mô hình khác

Nghi vấn thao túng benchmark

Các nhà nghiên cứu AI đã phát hiện điểm bất thường trong tài liệu của Meta
Phiên bản Maverick được dùng trên LMArena khác với phiên bản được công khai cho công chúng
Meta cho biết họ đã dùng phiên bản thử nghiệm tối ưu cho hội thoại trên LMArena
Đây là mô hình thử nghiệm tập trung vào “khả năng hội thoại (conversationality)”

Phản ứng từ cộng đồng và nền tảng

LMArena ra tuyên bố chính thức rằng cách diễn giải chính sách của Meta không phù hợp với kỳ vọng của họ
Meta không ghi rõ đây là phiên bản thử nghiệm, và vì vậy LMArena thông báo sẽ thay đổi chính sách bảng xếp hạng
Đây là biện pháp nhằm bảo đảm các đánh giá công bằng và có thể tái lập trong tương lai

Giải thích từ Meta

Người phát ngôn của Meta, Ashley Gabriel, giải thích trong một tuyên bố qua email rằng công ty thử nghiệm nhiều phiên bản thực nghiệm khác nhau
Bà cho biết: “Llama-4-Maverick-03-26-Experimental là một mô hình thử nghiệm được tối ưu cho hội thoại và cũng cho thấy hiệu năng xuất sắc trên LMArena”

2 bình luận

ndrgrd 2025-04-10

Đúng là benchmark thì không thể thiếu chuyện thao túng nhỉ.

GN⁺ 2025-04-09

Ý kiến Hacker News

Việc phát hành Llama 4 có vẻ là một thất bại lớn đối với Meta. Hiệu năng của mô hình không tốt. Mọi bài đưa tin đều tiêu cực
- Điều này đúng như dự đoán, nhưng khiến người ta tò mò Meta sẽ làm gì tiếp theo. Hiện tại có vẻ họ đang tụt lại phía sau các mô hình mở khác, và canh bạc đầy tham vọng với MoE dường như đã không thành công
- Tò mò không biết liệu Zuck có ép phát hành hay không. Hẳn là ông ấy đã biết nó chưa sẵn sàng
Thật sốc khi các công ty đã đánh cắp tài liệu có bản quyền lại một lần nữa hành xử phi đạo đức
Đây là lần đầu Meta bị bắt quả tang
Xem các trận đối đầu mẫu (H2H) do LMArena công bố là cách giải thích rõ ràng nhất. Đầu ra của mô hình Meta quá dài dòng và lắm lời. Nhìn vào các phán quyết thì dễ hiểu vì sao mọi người lại phớt lờ bảng xếp hạng LMArena
LMArena giờ đã trở nên vô dụng rồi sao?
- Tôi từng nghĩ nó có khía cạnh chạy hai mô hình trên cùng một truy vấn do người dùng cung cấp. Điều này lẽ ra không thể bị thao túng
- Tôi không hiểu "tối ưu hóa hội thoại" nghĩa là gì. Tôi không rõ điều này mang lại lợi thế gì trong LMArena
Meta đang tự làm hại mình với một AI công khai tệ hại mà mọi người có thể thử (meta.ai). Tôi thường xuyên dùng bản web của GPT 4o, Deepseek, Grok, Google Gemeni 2.5
- Meta lúc nào cũng tệ nhất nên tôi không còn quan tâm nữa
Sẽ không ai ngạc nhiên. Và định luật Goodhart lại một lần nữa phát huy tác dụng
Phần đầu bảng xếp hạng đầy rẫy các mô hình thử nghiệm đóng trọng số
Tôi tin đây là kiểu thiết kế để nịnh người viết prompt hoặc tâng bốc họ nhiều hơn. Nếu đúng vậy thì thật đáng lo về những người đang đi so sánh chúng

Meta vướng tranh cãi thao túng benchmark AI

Nghi vấn thao túng benchmark

Phản ứng từ cộng đồng và nền tảng

Giải thích từ Meta

Bài viết liên quan

2 bình luận

Ý kiến Hacker News