14 điểm bởi GN⁺ 2025-08-08 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  • GPT-5 mang lại hiệu năng vượt trội hơn các mô hình trước đây trên mọi lĩnh vực như lập trình, toán học, viết lách, sức khỏe và nhận thức thị giác, đồng thời là một hệ thống tích hợp kết hợp phản hồi nhanh với suy luận sâu tùy theo ngữ cảnh
  • ‘GPT-5 Thinking’ áp dụng chuỗi suy luận dài hơn cho các vấn đề phức tạp để tăng độ chính xác, và người dùng gói Pro có thể sử dụng GPT-5 Pro — phiên bản mở rộng của nó — để đạt hiệu năng ở mức cao nhất
  • Trong sử dụng thực tế, tỷ lệ hallucination (tạo ra thông tin sai) đã giảm đáng kể, đồng thời khả năng hiểu đa phương thức, thực hiện chỉ thị và xử lý các tác vụ liên kết công cụ phức tạp được cải thiện
  • Hỗ trợ cho nhà phát triển được tăng cường với các khả năng như tạo UI frontendgỡ lỗi quy mô lớn; trong lĩnh vực sức khỏe, mô hình đạt điểm cao nhất trên HealthBench và đóng vai trò như một đối tác sức khỏe chủ động
  • Về an toàn, mô hình áp dụng huấn luyện “safe completion” để giảm các từ chối không cần thiết, đồng thời có hệ thống phòng vệ nhiều lớp ở mức cao đối với các lĩnh vực sinh học và hóa học

Tổng quan GPT-5

Hệ thống tích hợp

  • Trong một hệ thống duy nhất có mô hình thông minh và hiệu quả, mô hình suy luận sâu (GPT-5 Thinking), cùng bộ định tuyến thời gian thực chọn mô hình phù hợp theo tình huống, độ phức tạp, nhu cầu công cụ và ý định người dùng
  • Khi vượt quá giới hạn sử dụng, phiên bản mini của từng mô hình sẽ xử lý các truy vấn còn lại
  • Trong tương lai, các tính năng này sẽ được hợp nhất thành một mô hình duy nhất

Cải thiện hiệu năng và tính hữu dụng

  • Hiệu năng vượt trội rõ rệt so với GPT-4o trên hầu hết các benchmark
  • Giảm hallucination, cải thiện khả năng làm theo chỉ thị, giảm thiểu phản hồi mang tính xu nịnh (sycophancy)
  • Cải thiện ở ba lĩnh vực cốt lõi
    • Lập trình: tăng cường khả năng tạo frontend phức tạp, gỡ lỗi kho mã quy mô lớn, và tạo UI/UX có tính thẩm mỹ
    • Viết lách: có thể xử lý tính mơ hồ về cấu trúc và diễn đạt với chiều sâu văn chương cùng nhịp điệu, đồng thời tăng cường hỗ trợ viết và biên tập tài liệu hằng ngày
    • Sức khỏe: lập kỷ lục cao nhất trên HealthBench, cung cấp câu trả lời an toàn và chính xác phù hợp với bối cảnh, mức độ hiểu biết và khu vực

Kết quả đánh giá

  • Đạt SOTA với toán học 94.6% (AIME 2025), lập trình SWE-bench Verified 74.9%, đa phương thức MMMU 84.2%, sức khỏe HealthBench Hard 46.2%
  • Trên GPQA, GPT-5 Pro đạt mức cao nhất là 88.4%
  • Khả năng xử lý đa phương thức, liên kết công cụ và tác vụ nhiều bước được cải thiện mạnh

Suy luận hiệu quả

  • Giảm 50~80% lượng token sử dụng cho cùng mức hiệu năng
  • Với các bài toán phức tạp và khó, GPT-5 Thinking giảm rõ rệt tỷ lệ lỗi và hallucination so với o3

Tăng cường độ tin cậy và tính đúng sự thật

  • Trong bài kiểm tra tính xác thực mở, tỷ lệ hallucination giảm 6 lần
  • Giải thích rõ ràng giới hạn khi gặp tác vụ bất khả thi hoặc thiếu thông tin
  • Tỷ lệ sycophantic giảm từ 14.5% xuống dưới 6%

Cải thiện an toàn

  • Huấn luyện “safe completion” cho phép đưa ra câu trả lời an toàn và hữu ích ngay cả với các yêu cầu có khả năng rủi ro
  • Áp dụng hệ thống phòng vệ nhiều lớp cho các kịch bản rủi ro cao trong lĩnh vực sinh học và hóa học

GPT-5 Pro

  • Mô hình suy luận mở rộng dành cho các tác vụ khó nhất
  • Trong đánh giá của chuyên gia, được ưa chuộng hơn GPT-5 Thinking 67.8% và giảm 22% các lỗi quan trọng
  • Hiệu năng cao nhất trong các lĩnh vực sức khỏe, khoa học, toán học và lập trình

Cách sử dụng và quyền truy cập

  • GPT-5 được áp dụng làm mô hình mặc định của ChatGPT, thay thế các mô hình trước đó như GPT-4o, o3...
  • Có thể ép buộc chế độ suy luận bằng cách nhập think hard about this
  • Được triển khai lần lượt cho Plus·Pro·Team·Free, còn Enterprise·Edu sẽ được áp dụng sau 1 tuần
  • Người dùng miễn phí sẽ chuyển sang GPT-5 mini khi vượt quá giới hạn

Nội dung chính cho nhà phát triển về GPT-5

Hiệu năng và đặc điểm

  • Hiệu năng lập trình:

    • SWE-bench Verified 74.9% (o3: 69.1%), số token sử dụng giảm 22%, số lần gọi công cụ giảm 45%
    • Aider polyglot đạt 88%, giảm một phần ba tỷ lệ lỗi khi chỉnh sửa mã
    • Khi tạo mã frontend, được ưa chuộng hơn o3 tới 70%
  • Tác vụ agent:

    • τ 2-bench telecom 96.7%, độ ổn định của gọi nhiều công cụ và gọi song song được cải thiện
    • Có thể xuất thông điệp mở đầu để hiển thị tiến độ và kế hoạch cho người dùng một cách trực quan
  • Ngữ cảnh dài:

    • OpenAI-MRCR(2 needle 128k) 95.2%, BrowseComp Long Context(256k) 88.8%
    • Xử lý tối đa ngữ cảnh 400 nghìn token

Tính năng API mới

  • reasoning_effort: điều chỉnh thời gian suy luận trong phạm vi minimal~high
  • verbosity: đặt mặc định độ dài câu trả lời từ low~high
  • Công cụ tùy chỉnh: có thể gọi bằng plaintext thay vì JSON, hỗ trợ ràng buộc regex/ngữ pháp
  • Tích hợp sẵn các công cụ cơ bản như gọi công cụ song song, tìm kiếm web, tìm kiếm tệp, tạo ảnh
  • Hỗ trợ các tính năng tiết kiệm chi phí như prompt caching và Batch API

Độ ổn định và độ tin cậy

  • Trên các benchmark LongFact và FactScore, tỷ lệ hallucination giảm khoảng 80% so với o3
  • Tăng cường khả năng nhận thức giới hạn của bản thân và ứng phó với tình huống bất ngờ
  • Phù hợp cho các tác vụ rủi ro cao hoặc đòi hỏi độ chính xác cao (mã, dữ liệu, ra quyết định)

Availability & pricing

Các kích cỡ và endpoint được cung cấp

  • Các phiên bản kích cỡ: gpt-5·gpt-5-mini·gpt-5-nano
  • Giao diện được hỗ trợ: có thể dùng dưới dạng mặc định trong Responses API, Chat Completions API, Codex CLI
  • Đặc tính mô hình: dòng GPT‑5 trong API là reasoning model, còn non‑reasoning model của ChatGPT được cung cấp bằng ID riêng

Bảng giá và đơn vị tính phí

  • gpt-5: đầu vào $1.25/triệu token, đầu ra $10/triệu token
  • gpt-5-mini: đầu vào $0.25/triệu, đầu ra $2/triệu
  • gpt-5-nano: đầu vào $0.05/triệu, đầu ra $0.40/triệu
  • gpt-5-chat-latest (không suy luận): đầu vào $1.25/triệu, đầu ra $10/triệu, giống gpt-5

Tóm tắt tính năng hỗ trợ

  • Điều khiển suy luận: chỉ định reasoning_effort với minimal·low·medium·high để điều chỉnh đánh đổi tốc độ ↔ độ chính xác
  • Độ dài phản hồi: dùng verbosity để đặt xu hướng mặc định ngắn / mặc định / dài
  • Tooling: custom tools hỗ trợ gọi bằng đối số plaintext và có thể áp dụng ràng buộc regex/CFG
  • Khả năng thực thi: hỗ trợ gọi công cụ song song, công cụ tích hợp sẵn (web search, file search, image generation...), streaming, Structured Outputs
  • Tối ưu chi phí: giảm chi phí token và độ trễ bằng prompt cachingBatch API
  • Kênh triển khai: GPT‑5 được áp dụng trên toàn bộ Microsoft 365 Copilot, Copilot, GitHub Copilot, Azure AI Foundry

Ví dụ chi phí đơn giản

  • Với gpt-5, khi xử lý 50k token đầu vào + 5k token đầu ra, tổng chi phí ≈ $0.1125
    • Công thức: đầu vào 0.05M × $1.25 = $0.0625, đầu ra 0.005M × $10 = $0.05, tổng $0.1125
  • Với cùng tác vụ bằng gpt-5-mini, tổng chi phí ≈ $0.0175
    • 0.05M đầu vào × $0.25 = $0.0125, 0.005M đầu ra × $2 = $0.01, tổng đúng ra là $0.0225, nhưng khi xét đơn giá đầu ra thì khối lượng công việc thiên về đầu vào sẽ cho thấy chênh lệch lớn hơn
  • Các pipeline có khối lượng đầu ra tạo sinh lớn có động lực chọn mô hình có đơn giá đầu ra thấp

Ghi chú hướng dẫn lựa chọn

  • Nếu độ chính xác là ưu tiên hàng đầu và cần chuỗi công cụ phức tạp cho backend agent, hãy cân nhắc gpt-5
  • Với chỉnh sửa mã hằng ngày, agent nhẹ và xử lý batch số lượng lớn, gpt-5-mini có lợi thế hơn về cân bằng chi phí/chất lượng
  • Với các tác vụ tiền xử lý, kiểm tra quy tắc, tóm tắt đơn giản đòi hỏi độ trễ cực thấp và chi phí cực thấp, gpt-5-nano là lựa chọn phù hợp

Tham khảo

  • Nếu muốn tiếp tục dùng mô hình mặc định non‑reasoning của ChatGPT, hãy chọn gpt-5-chat-latest trong API
  • chỉ thị tường minh về độ dài được ưu tiên, nên bất kể verbosity, nếu chỉ định độ dài cụ thể như “bài luận 5 đoạn”, mô hình sẽ tuân theo chỉ thị

Chưa có bình luận nào.

Chưa có bình luận nào.