3 điểm bởi fortune 2025-12-12 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

[GPT-5.1 thinking -> GPT-5.2 thinking]

  • Bài tập bảng tính ngân hàng đầu tư (nội bộ): 59.1% → 68.4%

    • Bài tập mô hình hóa bảng tính 3 báo cáo tài chính/LBO
  • SWE-Bench Pro (công khai): 50.8% → 55.6%

    • Áp dụng bản vá repo thực tế trên 4 ngôn ngữ
  • OpenAI MRCRv2 (8 kim, 128k–256k): 29.6% → 77.0%

    • Tìm và tái hiện thông tin trong tài liệu rất dài
  • ScreenSpot Pro (bao gồm Python): 64.2% → 86.3%

    • Hiểu ảnh chụp màn hình UI và trả lời câu hỏi
  • ARC-AGI-2 (đã xác minh): 17.6% → 52.9%

    • Các câu đố suy luận trừu tượng khó (đã xác minh)

Chưa có bình luận nào.

Chưa có bình luận nào.