5 điểm bởi GN⁺ 2025-12-12 | 1 bình luận | Chia sẻ qua WhatsApp
  • GPT‑5.2dòng mô hình AI mạnh nhất dành cho công việc tri thức chuyên môn, với năng lực viết mã, nhận diện hình ảnh và xử lý các dự án phức tạp được cải thiện
  • Trong đánh giá GDPval, mô hình vượt hoặc ngang bằng chuyên gia ngành ở 70,9% các tác vụ công việc tri thức thuộc 44 nghề, nhanh hơn 11 lần và chi phí dưới 1%
  • Đạt hiệu năng cao nhất trên các benchmark chính như SWE‑Bench Pro 55.6%, GPQA Diamond 92.4%, ARC‑AGI‑1 86.2%
  • Cho thấy cải thiện lớn so với GPT‑5.1 ở khả năng hiểu ngữ cảnh dài (256k token), xử lý thông tin thị giácsử dụng công cụ (98.7%)
  • Được triển khai dần trên ChatGPT và API, với mục tiêu nâng cao năng suất và độ tin cậy cho người dùng chuyên môn

Tổng quan về GPT‑5.2

  • GPT‑5.2 là dòng mô hình AI cho công việc tri thức chuyên môn, được tăng cường khả năng tạo bảng tính, làm bài thuyết trình, viết mã, nhận diện hình ảnh, hiểu văn bản dài, sử dụng công cụ và xử lý các dự án phức tạp
  • Người dùng ChatGPT Enterprise hiện đã tiết kiệm trung bình 40~60 phút mỗi ngày, hơn 10 giờ mỗi tuần, và GPT‑5.2 tiếp tục mở rộng hiệu quả này
  • Trên ChatGPT, mô hình được cung cấp dưới ba phiên bản Instant, Thinking, Pro; trên API, nhà phát triển có thể sử dụng ngay

Hiệu năng mô hình

  • GPT‑5.2 Thinking là mô hình đầu tiên đạt hiệu năng ngang hoặc vượt cấp độ chuyên gia trong đánh giá GDPval
    • Vượt hoặc ngang chuyên gia ở 70,9% các tác vụ công việc tri thức thuộc 44 nghề
    • Nhanh hơn chuyên gia 11 lần và chi phí dưới 1%
  • Trong đánh giá nội bộ, điểm số ở bài toán mô hình hóa bảng tính cho phân tích ngân hàng đầu tư tăng 9,3% so với GPT‑5.1 (59.1% → 68.4%)
  • SWE‑Bench Pro 55.6%, SWE‑Bench Verified 80% cho thấy hiệu năng kỹ thuật phần mềm được nâng cao
    • Thực hiện ổn định hơn trong gỡ lỗi mã thực tế, triển khai tính năng, refactor và triển khai phát hành
  • Cũng được cải thiện so với GPT‑5.1 trong phát triển frontend và công việc UI 3D
  • Tỷ lệ phản hồi sai giảm 30%, làm giảm tần suất hallucination

Hiểu ngữ cảnh dài và nhận thức thị giác

  • Lập kỷ lục về khả năng hiểu tổng hợp tài liệu dài trong đánh giá OpenAI MRCRv2
    • Đạt độ chính xác gần 100% tới 256k token
    • Phù hợp để phân tích tài liệu dài như báo cáo, hợp đồng, bài nghiên cứu
  • Tương thích với endpoint /compact, hỗ trợ workflow mở rộng ngữ cảnh
  • Hiệu năng nhận thức thị giác được nâng cao, giúp giảm một nửa tỷ lệ lỗi trên biểu đồ, dashboard, ảnh chụp màn hình UI
    • Tăng cường khả năng hiểu bố cục không gian của các thành phần trong ảnh

Sử dụng công cụ và tác vụ tổng hợp

  • Đạt kỷ lục về khả năng dùng công cụ với Tau2‑bench Telecom 98.7%
  • Tăng cường khả năng thực hiện workflow end‑to‑end như hỗ trợ khách hàng nhiều bước, thu thập dữ liệu, phân tích và tạo kết quả
    • Ví dụ: xử lý trọn vẹn các quy trình dịch vụ khách hàng phức hợp như chuyến bay bị trễ, nối chuyến và yêu cầu bồi thường

Năng lực khoa học, toán học và suy luận

  • Lập kỷ lục trên các benchmark học thuật chính với GPQA Diamond 92.4%, FrontierMath Tier 1–3 40.3%, ARC‑AGI‑1 86.2%, ARC‑AGI‑2 52.9%
  • GPT‑5.2 Pro vượt 90% trên ARC‑AGI‑1, với hiệu quả chi phí tăng 390 lần
  • GPT‑5.2 Pro và Thinking có thể được dùng để tăng tốc nghiên cứu khoa học
    • Đưa ra ví dụ thực tế trong đó mô hình đề xuất và được xác minh một chứng minh lý thuyết thống kê

Trải nghiệm sử dụng trong ChatGPT

  • GPT‑5.2 Instant: cung cấp phản hồi nhanh và giải thích rõ ràng, phù hợp cho học tập và công việc hằng ngày
  • GPT‑5.2 Thinking: phù hợp với các tác vụ phức tạp như viết mã, tóm tắt văn bản dài, giải toán và bài toán logic, lập kế hoạch
  • GPT‑5.2 Pro: cung cấp câu trả lời có độ tin cậy cao cho các câu hỏi khó, đồng thời giảm tỷ lệ lỗi

Tăng cường an toàn

  • GPT‑5.2 cải thiện phản hồi trong các cuộc trò chuyện liên quan đến tự tử, sức khỏe tâm thần và phụ thuộc cảm xúc, dựa trên nghiên cứu Safe Completion của GPT‑5
    • Tỷ lệ phản hồi không phù hợp giảm so với GPT‑5.1
  • Giới thiệu mô hình dự đoán độ tuổi để hạn chế người dùng dưới 18 tuổi tiếp cận nội dung nhạy cảm
  • Đang tiếp tục cải thiện vấn đề từ chối quá mức (over‑refusal) của ChatGPT

Giá và cách cung cấp

  • Được triển khai dần từ các gói trả phí của ChatGPT (Plus, Pro, Business, Enterprise)
  • Trên API, được cung cấp dưới dạng gpt‑5.2, gpt‑5.2‑chat‑latest, gpt‑5.2‑pro
  • Giá: $1.75 cho mỗi 1 triệu token đầu vào, $14 cho mỗi 1 triệu token đầu ra, giảm giá 90% cho đầu vào được cache
    • Đơn giá cao hơn GPT‑5.1 nhưng giảm tổng chi phí nhờ hiệu quả token tốt hơn
  • GPT‑5.1 sẽ được duy trì trong 3 tháng trước khi ngừng dần
  • Phiên bản tối ưu cho Codex sẽ được công bố sau

Quan hệ đối tác kỹ thuật

  • GPT‑5.2 được phát triển với sự hợp tác của NVIDIAMicrosoft
    • Tận dụng hạ tầng trung tâm dữ liệu Azure cùng GPU H100, H200, GB200‑NVL72
    • Hỗ trợ nâng cao hiệu quả huấn luyện quy mô lớn và trí tuệ của mô hình

Tóm tắt các benchmark chính

  • GDPval: 70.9% (GPT‑5.1 38.8%)
  • SWE‑Bench Verified: 80.0%
  • OpenAI MRCRv2 (256k): 77.0%
  • CharXiv Reasoning (w/ Python): 88.7%
  • Tau2‑bench Telecom: 98.7%
  • ARC‑AGI‑1 (Verified): 86.2%
  • AIME 2025: 100%
  • FrontierMath Tier 1–3: 40.3%

GPT‑5.2 vượt trội rõ rệt thế hệ trước về trí tuệ, độ tin cậy và năng suất, qua đó định vị mình như một AI hỗ trợ công việc thực tế ở cấp độ chuyên gia.

1 bình luận

 
GN⁺ 2025-12-12
Ý kiến trên Hacker News
  • Trong vài tháng gần đây tôi trả phí để dùng ChatGPT cho gần như mọi mục đích như lập trình, tin tức, phân tích cổ phiếu, giải quyết vấn đề hằng ngày
    Nhưng sau khi dùng thử Gemini 3 kể từ khi ra mắt, tôi thấy nó cho kết quả tốt hơn nhiều trong mọi trường hợp sử dụng
    Đặc biệt, nó mạnh ở việc tìm kiếm thông tin mới nhất khi cần tích hợp tìm kiếm web. OCR cũng rất tốt, chữ xấu của tôi mà nó vẫn nhận ra được
    Tuy vậy, ứng dụng có nhiều lỗi, phiên hay bị ngắt, và cũng có lỗi khi tải ảnh lên.
    Điều tôi khó chịu nhất là mọi liên kết đều phải đi qua tìm kiếm Google, nên muốn vào thẳng trang web thì phải sửa lại.
    Nhìn chung, tôi kết luận rằng ChatGPT đang thua về khả năng tích hợp tìm kiếm và có lẽ sẽ khó bắt kịp

    • Cách nói “chỉ có vấn đề về policy” là còn quá nhẹ. Mỗi ngày tôi phải chửi vài lần vì lỗi làm bay cả thread hội thoại
      Chỉ cần bị gián đoạn thôi là dữ liệu cũng biến mất, đúng kiểu sản phẩm dang dở kiểu Google
      Ý tưởng chế độ thoại thì hay nhưng hay hỏng, lại còn tự ý lặp lại câu hỏi
    • Tôi lại có trải nghiệm hoàn toàn ngược lại. ChatGPT sẽ tìm kiếm nhiều lần, phân tích kết quả rồi còn tìm tiếp, trong khi Gemini gần như không tìm kiếm
      ChatGPT còn mở PDF hay screenshot để dùng làm đầu vào OCR, còn Gemini thì bỏ qua
    • Lý do liên kết đi qua tìm kiếm Google là vì bên trong có kiểm tra mã độc và phishing
      Nhưng giờ trình duyệt cũng tự xử lý được rồi nên thực ra không cần gửi dữ liệu nhấp chuột cho Google nữa
      Sửa thành liên kết trực tiếp cũng không vấn đề gì
    • Với tôi thì Gemini 3 Pro lại bị hallucination khá nặng. Nó còn bịa ra cả nguồn không tồn tại
      Opus 4.5 có chất lượng tốt hơn nhưng bị giới hạn sử dụng quá nhiều, nên tôi đang cân nhắc có nên duy trì nhiều gói thuê bao song song không
    • Chất lượng nhận diện giọng nói của Gemini tệ đến mức tôi không dùng nổi
      Tôi dùng tính năng giọng nói nhiều hơn OCR nên đây là điểm chí mạng
      Tôi cũng không hiểu lập luận rằng “tích hợp tìm kiếm là điểm mạnh”. Tôi muốn xem ví dụ nào cho thấy ChatGPT thật sự tệ hơn trong việc tìm thông tin mới nhất
  • Không có trong thông báo blog, nhưng kích thước context window thực tế là 400 nghìn token
    Điều này được ghi rõ trong tài liệu chính thức
    Họ cũng nói khả năng tận dụng toàn bộ ngữ cảnh đã được cải thiện nên khá đáng chờ đợi
    Tôi từng dùng Codex 5.1 cho dự án Rust/CUDA rồi chuyển sang Gemini 3, ban đầu rất ấn tượng vì nó bắt bug tốt, nhưng chẳng bao lâu sau tôi gần như phát điên vì bỏ qua lệnh, đầu ra lỗi, quy trình suy luận thiếu minh bạch
    Quay lại Codex thì thấy ổn định hơn và phản ánh feedback cũng tốt hơn. Giờ còn có thêm chế độ GPT‑5.2 xhigh nữa nên cảm giác như được quà Giáng sinh

    • 400 nghìn token thì GPT‑5, 5.1, 5‑mini v.v. đã có từ trước rồi. Nhưng nếu hiệu năng xử lý ngữ cảnh dài được cải thiện thì đó là chuyện rất đáng kể
    • Tôi lại thấy chế độ xhigh cho kết quả tệ hơn high, nên còn tự hỏi có phải là PEBKAC (lỗi ở người dùng) không. Không biết bạn đã thử so sánh chưa
    • Đọc bình luận dạo này chẳng biết là review thật hay quảng bá được tài trợ nữa
      Tôi thấy nhớ văn hóa diễn đàn ngày xưa, nơi người ta thẳng thắn bàn về vấn đề và cách giải quyết hơn
  • Tôi đã thấy nhiều lập trình viên trộn mọi chủ đề như nấu ăn, quà cáp, code... vào cùng một phiên rồi nhận được câu trả lời kỳ quặc
    Vì LLM liên tục gửi toàn bộ ngữ cảnh cuộc trò chuyện, nên nên bắt đầu chat mới cho từng chủ đề
    Nếu không thì bạn sẽ nhận được mấy câu trả lời kiểu “vợ tôi nghĩ gì về biến toàn cục”

    • Thỉnh thoảng tôi nghĩ thế này. Với những người không biết cơ chế hoạt động bên trong của LLM, các công cụ này hẳn trông rất kỳ quái
      Những ứng dụng như Cursor hay ChatGPT chắc rất khó hiểu đối với họ
    • Tôi cũng thấy việc học khóa fast.ai và tự tay thử nhiều mô hình như VLLM giúp ích rất nhiều
      Nếu không biết khái niệm context window thì dễ cảm thấy AI quá ngu. Có lẽ vì vậy mà nhiều người đang đánh giá thấp AI
    • Cũng không rõ nên giữ lại loại ngữ cảnh nào. Tôi từng đưa vào các đoạn văn có phong cách tương tự nhưng kết quả lại còn tệ hơn
      Thêm nữa, không biết mô hình có đang A/B test hay bị giới hạn reasoning token không, nên khó mà tin tưởng hoàn toàn
    • Tùy chọn “Reference chat history” của ChatGPT được bật mặc định, nên dù tạo cuộc trò chuyện mới thì nội dung cũ vẫn có thể bị trộn vào
      Muốn tách hẳn thì phải tắt tùy chọn này
    • Tôi nghe một podcast nói về những người rơi vào “mối quan hệ tình cảm” với LLM, và có vẻ họ không biết rằng chỉ cần reset ngữ cảnh là nó sẽ trở lại thành một thực thể hoàn toàn xa lạ
  • Trong hình ảnh mainboard, vị trí RAM, khe PCIe và DisplayPort đều sai hết
    Liên kết ảnh
    Tôi không hiểu tại sao lại dùng thứ này làm hình quảng bá

    • Ý đồ là để cho thấy hiệu năng thị giác của GPT‑5.2 đã được cải thiện nhưng chưa hoàn hảo. Nếu chỉ chọn kết quả hoàn hảo thì ngược lại còn dễ gây hiểu lầm
    • Cổng USB Type‑A cũng không phải xếp thành 2 cặp mà là 4 cổng
    • Ngay trong bài cũng ghi rõ rằng “cả hai mô hình đều có lỗi, nhưng GPT‑5.2 cho thấy khả năng hiểu tốt hơn”
    • Tôi nghĩ những lỗi kiểu này xuất hiện vì văn hóa cộng đồng AI gần đây có xu hướng sản xuất hàng loạt nội dung sinh ra mà không kiểm chứng kết quả
    • Dù sao thì độ phân giải ảnh cũng ở mức điện thoại gập năm 2003 nên có lỗi cũng không lạ
  • Trong benchmark Extended NYT Connections, bản suy luận cao của GPT‑5.2 đã tăng từ 69.9 lên 77.9
    Liên kết benchmark
    Các bản suy luận trung bình và thấp cũng đều được cải thiện, nhưng Gemini 3 Pro và Grok 4.1 Fast Reasoning vẫn cao hơn

    • Gemini 3 Pro Preview đạt 96.8% ở cùng bài test này quả thật rất ấn tượng
    • Có người khác đã test bằng puzzle Clues by Sam, và GPT‑5 Pro đã đứng số một từ trước rồi
    • Tôi thắc mắc tại sao kết quả Grok 4.1 reasoning lại bị bỏ ra
  • Bài test “con bồ nông đi xe đạp” khá thú vị
    Ví dụ hình ảnh

    • Độ biến động quá lớn nên giá trị kiểm thử không cao. Tôi chạy 10 lần thì một nửa cho ra kết quả hoàn hảo
    • Có lẽ họ phản ánh lại feedback rằng bản 5.1 quá đơn điệu. Tôi cũng có trải nghiệm tương tự với bản POV‑Ray
    • Nhìn nó ngày càng tiến hóa theo hướng khí động học làm tôi có cảm giác AI đang thông minh hơn
    • Mọi người còn đùa rằng “đây là benchmark duy nhất tôi tin”
    • Nhưng dùng mãi một benchmark quá lâu thì cũng không phải điều tốt
  • Điểm ARC‑AGI‑2 được cải thiện thật đáng kinh ngạc. Có vẻ khả năng tổng quát hóa đã tăng mạnh
    Các mô hình trước đây có cảm giác bị overfit, nhưng giờ thì tự sửa lỗi (self‑correction) tốt hơn hẳn
    Nếu mức cải thiện này đạt được mà không cần trung tâm dữ liệu mới hay mở rộng mô hình quy mô lớn, thì tương lai rất đáng mong đợi

    • Tôi cũng chú ý đến kết quả ARC‑AGI‑2. Đây đúng là một bước nhảy lớn
  • Giờ tôi cảm thấy trải nghiệm người dùng quan trọng hơn benchmark
    Lý do tôi vẫn tiếp tục đăng ký ChatGPT là nhờ tính năng sắp xếp hội thoại theo dự án
    Nhưng mọi nền tảng đều đang cùng mắc các vấn đề cơ bản như

    • nói dối một cách đầy tự tin
    • không tuân theo prompt tử tế
    • không thể hiện sự bất định
    • không ngừng khen ngợi vô ích và trả lời dài dòng
    • trích dẫn nguồn không nhất quán
    • không nói rõ là đã xem bản gốc hay chỉ xem bản tóm tắt
      Những vấn đề usability cơ bản này cần được giải quyết
    • Một khi rời khỏi các chỉ số khách quan thì sẽ khó thuyết phục người khác về tính hợp lệ của phép đo, nhưng những chỉ số đo được thì lại rất dễ bị tối ưu để lách
      Vì thế benchmark đã trở thành một kiểu trò chơi mèo vờn chuột
  • Có vẻ bài đăng phàn nàn trên r/Codex bị kiểm duyệt nên tôi nói thật ở đây
    Tốc độ có nhanh hơn, nhưng vẫn chậm hơn Opus 4.5, và so với 5.1 thì gần như không cảm nhận được cải thiện
    Chi phí token tăng tới 40% mà tôi không thấy tương xứng
    Gemini 3 thì miễn phí mà ở mức ChatGPT Pro, còn Claude Code 100 USD/tháng cũng rất mạnh
    Có cảm giác OpenAI đang đối mặt với một khủng hoảng mang tính sống còn

    • Từ Gemini 2.5 lên 3 cũng không thấy cải thiện lớn. Nhìn chung có cảm giác tiến bộ thực chất đang bị chững lại
  • Việc knowledge cutoff là tháng 8/2025 cùng với việc tăng giá dường như cho thấy đây là một mô hình pretrain mới
    GPT‑5.1 từng được cho là dùng cùng pretrain với GPT‑4o

    • Một pretrain mới có chi phí rất lớn nên khó có chuyện chỉ dừng ở mức tăng phiên bản 0.1 đơn giản
    • Hoặc cũng có thể 5.1 là checkpoint cũ hơn, hay đã bị quantization mạnh hơn
    • Hoặc đơn giản là họ lại cho cùng một mô hình ăn thêm một lượt dữ liệu chất lượng thấp (slop) nữa thôi