Deepseek V3 cho thấy hiệu năng không tốt trên benchmark kiểm tra mức độ quá khớp

(github.com/cpldcpu)

2 điểm bởi jhj0517 2024-12-31 | 2 bình luận | Chia sẻ qua WhatsApp

Sự xuất hiện của DeepSeek V3, mô hình mã nguồn mở vượt qua các LLM mã nguồn đóng

Gần đây, Deepseek (công ty AI của Trung Quốc) đã công bố DeepSeek V3, một mô hình mã nguồn mở gây chấn động khi vượt qua GPT-4o 0513 trên một số benchmark LLM cụ thể như MMLU (tiếng Anh), Human-Eval-Mul (lập trình), AIME 2024 (toán học)
Đây là kết quả vượt qua các LLM mã nguồn đóng (Closed Source) hiện có như GPT của OpenAI hay Claude của Anthropic, nên đã thu hút rất nhiều sự chú ý

Cho thấy hiệu năng không tốt trên benchmark MisguidedAttention dùng để kiểm tra mức độ quá khớp

MisguidedAttention là một benchmark nhằm "kiểm tra xem LLM có bị quá khớp (Overfitting) với các benchmark cụ thể hay không"
MisguidedAttention kiểm tra hiện tượng quá khớp của LLM bằng cách dùng các câu hỏi đã được biến đổi nhẹ từ những câu hỏi benchmark sẵn có
Ví dụ, benchmark hiện có đặt ra “trolley dilemma” như sau: "Một đoàn tàu bị hỏng đang chạy trên đường ray. Trên mỗi nhánh đường ray có lần lượt 5 người và 1 người bị trói. Nếu kéo cần gạt thì 5 người sẽ sống nhưng 1 người sẽ chết; nếu không kéo cần gạt và đứng yên thì 5 người sẽ chết. Bạn có kéo cần gạt không?"; còn MisguidedAttention biến đổi thành “no trolley dilemma” với câu hỏi "Trên mỗi nhánh đường ray có 5 thi thể và 1 người còn sống bị trói." để kiểm tra xem LLM có đưa ra câu trả lời rõ ràng hay không
Deepseek V3 ghi được 0.22 điểm trên MisguidedAttention, thấp hơn so với 0.45 của claude-3.5-sonnet-new và 0.46 của gpt4-32k, đều là các LLM mã nguồn đóng

DeepSeek V3 là mô hình mã nguồn mở

Tuy nhiên, con số này vẫn cao hơn 0.21 của một LLM mã nguồn đóng khác là gemini-pro-1.5
Trong số các mô hình mã nguồn mở, mô hình fine-tuning dựa trên llama là ‘hermes-3-llama-3.1-405’ đạt cao nhất với 0.27 điểm, và so với 0.22 của DeepSeek V3 thì không phải khác biệt quá lớn
Dù nhận điểm thấp trên benchmark kiểm tra mức độ quá khớp, vẫn có ý kiến cho rằng mô hình này còn rất nhiều ý nghĩa vì là một mô hình mã nguồn mở

2 bình luận

dohyun682 2024-12-31

Có lẽ vì được tạo ra ở Trung Quốc nên những phần nhạy cảm liên quan đến Trung Quốc thì nó không trả lời được cho đúng.

jhj0517 2024-12-31

Có vẻ mọi dịch vụ của Trung Quốc đều có xu hướng như vậy. Bỏ qua chuyện đúng sai, có vẻ họ chỉ đơn giản là cảnh giác với việc các chủ đề liên quan xuất hiện.