Ra mắt GPT‑5.2
(openai.com)- GPT‑5.2 là dòng mô hình AI mạnh nhất dành cho công việc tri thức chuyên môn, với năng lực viết mã, nhận diện hình ảnh và xử lý các dự án phức tạp được cải thiện
- Trong đánh giá GDPval, mô hình vượt hoặc ngang bằng chuyên gia ngành ở 70,9% các tác vụ công việc tri thức thuộc 44 nghề, nhanh hơn 11 lần và chi phí dưới 1%
- Đạt hiệu năng cao nhất trên các benchmark chính như SWE‑Bench Pro 55.6%, GPQA Diamond 92.4%, ARC‑AGI‑1 86.2%
- Cho thấy cải thiện lớn so với GPT‑5.1 ở khả năng hiểu ngữ cảnh dài (256k token), xử lý thông tin thị giác và sử dụng công cụ (98.7%)
- Được triển khai dần trên ChatGPT và API, với mục tiêu nâng cao năng suất và độ tin cậy cho người dùng chuyên môn
Tổng quan về GPT‑5.2
- GPT‑5.2 là dòng mô hình AI cho công việc tri thức chuyên môn, được tăng cường khả năng tạo bảng tính, làm bài thuyết trình, viết mã, nhận diện hình ảnh, hiểu văn bản dài, sử dụng công cụ và xử lý các dự án phức tạp
- Người dùng ChatGPT Enterprise hiện đã tiết kiệm trung bình 40~60 phút mỗi ngày, hơn 10 giờ mỗi tuần, và GPT‑5.2 tiếp tục mở rộng hiệu quả này
- Trên ChatGPT, mô hình được cung cấp dưới ba phiên bản Instant, Thinking, Pro; trên API, nhà phát triển có thể sử dụng ngay
Hiệu năng mô hình
- GPT‑5.2 Thinking là mô hình đầu tiên đạt hiệu năng ngang hoặc vượt cấp độ chuyên gia trong đánh giá GDPval
- Vượt hoặc ngang chuyên gia ở 70,9% các tác vụ công việc tri thức thuộc 44 nghề
- Nhanh hơn chuyên gia 11 lần và chi phí dưới 1%
- Trong đánh giá nội bộ, điểm số ở bài toán mô hình hóa bảng tính cho phân tích ngân hàng đầu tư tăng 9,3% so với GPT‑5.1 (59.1% → 68.4%)
- SWE‑Bench Pro 55.6%, SWE‑Bench Verified 80% cho thấy hiệu năng kỹ thuật phần mềm được nâng cao
- Thực hiện ổn định hơn trong gỡ lỗi mã thực tế, triển khai tính năng, refactor và triển khai phát hành
- Cũng được cải thiện so với GPT‑5.1 trong phát triển frontend và công việc UI 3D
- Tỷ lệ phản hồi sai giảm 30%, làm giảm tần suất hallucination
Hiểu ngữ cảnh dài và nhận thức thị giác
- Lập kỷ lục về khả năng hiểu tổng hợp tài liệu dài trong đánh giá OpenAI MRCRv2
- Đạt độ chính xác gần 100% tới 256k token
- Phù hợp để phân tích tài liệu dài như báo cáo, hợp đồng, bài nghiên cứu
- Tương thích với endpoint
/compact, hỗ trợ workflow mở rộng ngữ cảnh - Hiệu năng nhận thức thị giác được nâng cao, giúp giảm một nửa tỷ lệ lỗi trên biểu đồ, dashboard, ảnh chụp màn hình UI
- Tăng cường khả năng hiểu bố cục không gian của các thành phần trong ảnh
Sử dụng công cụ và tác vụ tổng hợp
- Đạt kỷ lục về khả năng dùng công cụ với Tau2‑bench Telecom 98.7%
- Tăng cường khả năng thực hiện workflow end‑to‑end như hỗ trợ khách hàng nhiều bước, thu thập dữ liệu, phân tích và tạo kết quả
- Ví dụ: xử lý trọn vẹn các quy trình dịch vụ khách hàng phức hợp như chuyến bay bị trễ, nối chuyến và yêu cầu bồi thường
Năng lực khoa học, toán học và suy luận
- Lập kỷ lục trên các benchmark học thuật chính với GPQA Diamond 92.4%, FrontierMath Tier 1–3 40.3%, ARC‑AGI‑1 86.2%, ARC‑AGI‑2 52.9%
- GPT‑5.2 Pro vượt 90% trên ARC‑AGI‑1, với hiệu quả chi phí tăng 390 lần
- GPT‑5.2 Pro và Thinking có thể được dùng để tăng tốc nghiên cứu khoa học
- Đưa ra ví dụ thực tế trong đó mô hình đề xuất và được xác minh một chứng minh lý thuyết thống kê
Trải nghiệm sử dụng trong ChatGPT
- GPT‑5.2 Instant: cung cấp phản hồi nhanh và giải thích rõ ràng, phù hợp cho học tập và công việc hằng ngày
- GPT‑5.2 Thinking: phù hợp với các tác vụ phức tạp như viết mã, tóm tắt văn bản dài, giải toán và bài toán logic, lập kế hoạch
- GPT‑5.2 Pro: cung cấp câu trả lời có độ tin cậy cao cho các câu hỏi khó, đồng thời giảm tỷ lệ lỗi
Tăng cường an toàn
- GPT‑5.2 cải thiện phản hồi trong các cuộc trò chuyện liên quan đến tự tử, sức khỏe tâm thần và phụ thuộc cảm xúc, dựa trên nghiên cứu Safe Completion của GPT‑5
- Tỷ lệ phản hồi không phù hợp giảm so với GPT‑5.1
- Giới thiệu mô hình dự đoán độ tuổi để hạn chế người dùng dưới 18 tuổi tiếp cận nội dung nhạy cảm
- Đang tiếp tục cải thiện vấn đề từ chối quá mức (over‑refusal) của ChatGPT
Giá và cách cung cấp
- Được triển khai dần từ các gói trả phí của ChatGPT (Plus, Pro, Business, Enterprise)
- Trên API, được cung cấp dưới dạng
gpt‑5.2,gpt‑5.2‑chat‑latest,gpt‑5.2‑pro - Giá: $1.75 cho mỗi 1 triệu token đầu vào, $14 cho mỗi 1 triệu token đầu ra, giảm giá 90% cho đầu vào được cache
- Đơn giá cao hơn GPT‑5.1 nhưng giảm tổng chi phí nhờ hiệu quả token tốt hơn
- GPT‑5.1 sẽ được duy trì trong 3 tháng trước khi ngừng dần
- Phiên bản tối ưu cho Codex sẽ được công bố sau
Quan hệ đối tác kỹ thuật
- GPT‑5.2 được phát triển với sự hợp tác của NVIDIA và Microsoft
- Tận dụng hạ tầng trung tâm dữ liệu Azure cùng GPU H100, H200, GB200‑NVL72
- Hỗ trợ nâng cao hiệu quả huấn luyện quy mô lớn và trí tuệ của mô hình
Tóm tắt các benchmark chính
- GDPval: 70.9% (GPT‑5.1 38.8%)
- SWE‑Bench Verified: 80.0%
- OpenAI MRCRv2 (256k): 77.0%
- CharXiv Reasoning (w/ Python): 88.7%
- Tau2‑bench Telecom: 98.7%
- ARC‑AGI‑1 (Verified): 86.2%
- AIME 2025: 100%
- FrontierMath Tier 1–3: 40.3%
GPT‑5.2 vượt trội rõ rệt thế hệ trước về trí tuệ, độ tin cậy và năng suất, qua đó định vị mình như một AI hỗ trợ công việc thực tế ở cấp độ chuyên gia.
1 bình luận
Ý kiến trên Hacker News
Trong vài tháng gần đây tôi trả phí để dùng ChatGPT cho gần như mọi mục đích như lập trình, tin tức, phân tích cổ phiếu, giải quyết vấn đề hằng ngày
Nhưng sau khi dùng thử Gemini 3 kể từ khi ra mắt, tôi thấy nó cho kết quả tốt hơn nhiều trong mọi trường hợp sử dụng
Đặc biệt, nó mạnh ở việc tìm kiếm thông tin mới nhất khi cần tích hợp tìm kiếm web. OCR cũng rất tốt, chữ xấu của tôi mà nó vẫn nhận ra được
Tuy vậy, ứng dụng có nhiều lỗi, phiên hay bị ngắt, và cũng có lỗi khi tải ảnh lên.
Điều tôi khó chịu nhất là mọi liên kết đều phải đi qua tìm kiếm Google, nên muốn vào thẳng trang web thì phải sửa lại.
Nhìn chung, tôi kết luận rằng ChatGPT đang thua về khả năng tích hợp tìm kiếm và có lẽ sẽ khó bắt kịp
Chỉ cần bị gián đoạn thôi là dữ liệu cũng biến mất, đúng kiểu sản phẩm dang dở kiểu Google
Ý tưởng chế độ thoại thì hay nhưng hay hỏng, lại còn tự ý lặp lại câu hỏi
ChatGPT còn mở PDF hay screenshot để dùng làm đầu vào OCR, còn Gemini thì bỏ qua
Nhưng giờ trình duyệt cũng tự xử lý được rồi nên thực ra không cần gửi dữ liệu nhấp chuột cho Google nữa
Sửa thành liên kết trực tiếp cũng không vấn đề gì
Opus 4.5 có chất lượng tốt hơn nhưng bị giới hạn sử dụng quá nhiều, nên tôi đang cân nhắc có nên duy trì nhiều gói thuê bao song song không
Tôi dùng tính năng giọng nói nhiều hơn OCR nên đây là điểm chí mạng
Tôi cũng không hiểu lập luận rằng “tích hợp tìm kiếm là điểm mạnh”. Tôi muốn xem ví dụ nào cho thấy ChatGPT thật sự tệ hơn trong việc tìm thông tin mới nhất
Không có trong thông báo blog, nhưng kích thước context window thực tế là 400 nghìn token
Điều này được ghi rõ trong tài liệu chính thức
Họ cũng nói khả năng tận dụng toàn bộ ngữ cảnh đã được cải thiện nên khá đáng chờ đợi
Tôi từng dùng Codex 5.1 cho dự án Rust/CUDA rồi chuyển sang Gemini 3, ban đầu rất ấn tượng vì nó bắt bug tốt, nhưng chẳng bao lâu sau tôi gần như phát điên vì bỏ qua lệnh, đầu ra lỗi, quy trình suy luận thiếu minh bạch
Quay lại Codex thì thấy ổn định hơn và phản ánh feedback cũng tốt hơn. Giờ còn có thêm chế độ GPT‑5.2 xhigh nữa nên cảm giác như được quà Giáng sinh
Tôi thấy nhớ văn hóa diễn đàn ngày xưa, nơi người ta thẳng thắn bàn về vấn đề và cách giải quyết hơn
Tôi đã thấy nhiều lập trình viên trộn mọi chủ đề như nấu ăn, quà cáp, code... vào cùng một phiên rồi nhận được câu trả lời kỳ quặc
Vì LLM liên tục gửi toàn bộ ngữ cảnh cuộc trò chuyện, nên nên bắt đầu chat mới cho từng chủ đề
Nếu không thì bạn sẽ nhận được mấy câu trả lời kiểu “vợ tôi nghĩ gì về biến toàn cục”
Những ứng dụng như Cursor hay ChatGPT chắc rất khó hiểu đối với họ
Nếu không biết khái niệm context window thì dễ cảm thấy AI quá ngu. Có lẽ vì vậy mà nhiều người đang đánh giá thấp AI
Thêm nữa, không biết mô hình có đang A/B test hay bị giới hạn reasoning token không, nên khó mà tin tưởng hoàn toàn
Muốn tách hẳn thì phải tắt tùy chọn này
Trong hình ảnh mainboard, vị trí RAM, khe PCIe và DisplayPort đều sai hết
Liên kết ảnh
Tôi không hiểu tại sao lại dùng thứ này làm hình quảng bá
Trong benchmark Extended NYT Connections, bản suy luận cao của GPT‑5.2 đã tăng từ 69.9 lên 77.9
Liên kết benchmark
Các bản suy luận trung bình và thấp cũng đều được cải thiện, nhưng Gemini 3 Pro và Grok 4.1 Fast Reasoning vẫn cao hơn
Bài test “con bồ nông đi xe đạp” khá thú vị
Ví dụ hình ảnh
Điểm ARC‑AGI‑2 được cải thiện thật đáng kinh ngạc. Có vẻ khả năng tổng quát hóa đã tăng mạnh
Các mô hình trước đây có cảm giác bị overfit, nhưng giờ thì tự sửa lỗi (self‑correction) tốt hơn hẳn
Nếu mức cải thiện này đạt được mà không cần trung tâm dữ liệu mới hay mở rộng mô hình quy mô lớn, thì tương lai rất đáng mong đợi
Giờ tôi cảm thấy trải nghiệm người dùng quan trọng hơn benchmark
Lý do tôi vẫn tiếp tục đăng ký ChatGPT là nhờ tính năng sắp xếp hội thoại theo dự án
Nhưng mọi nền tảng đều đang cùng mắc các vấn đề cơ bản như
Những vấn đề usability cơ bản này cần được giải quyết
Vì thế benchmark đã trở thành một kiểu trò chơi mèo vờn chuột
Có vẻ bài đăng phàn nàn trên r/Codex bị kiểm duyệt nên tôi nói thật ở đây
Tốc độ có nhanh hơn, nhưng vẫn chậm hơn Opus 4.5, và so với 5.1 thì gần như không cảm nhận được cải thiện
Chi phí token tăng tới 40% mà tôi không thấy tương xứng
Gemini 3 thì miễn phí mà ở mức ChatGPT Pro, còn Claude Code 100 USD/tháng cũng rất mạnh
Có cảm giác OpenAI đang đối mặt với một khủng hoảng mang tính sống còn
Việc knowledge cutoff là tháng 8/2025 cùng với việc tăng giá dường như cho thấy đây là một mô hình pretrain mới
GPT‑5.1 từng được cho là dùng cùng pretrain với GPT‑4o