Ra mắt GPT-5.2
(openai.com)[GPT-5.1 thinking -> GPT-5.2 thinking]
-
Bài tập bảng tính ngân hàng đầu tư (nội bộ): 59.1% → 68.4%
- Bài tập mô hình hóa bảng tính 3 báo cáo tài chính/LBO
-
SWE-Bench Pro (công khai): 50.8% → 55.6%
- Áp dụng bản vá repo thực tế trên 4 ngôn ngữ
-
OpenAI MRCRv2 (8 kim, 128k–256k): 29.6% → 77.0%
- Tìm và tái hiện thông tin trong tài liệu rất dài
-
ScreenSpot Pro (bao gồm Python): 64.2% → 86.3%
- Hiểu ảnh chụp màn hình UI và trả lời câu hỏi
-
ARC-AGI-2 (đã xác minh): 17.6% → 52.9%
- Các câu đố suy luận trừu tượng khó (đã xác minh)
Chưa có bình luận nào.