3 điểm bởi GN⁺ 2025-08-08 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  • GPT-5 hoạt động như một hệ thống tích hợp với bộ định tuyến thời gian thực (real-time router) chọn đổi mô hình theo ngữ cảnh hội thoại, và trên API cung cấp 3 loại Regular·Mini·Nano với 4 mức suy luận Minimal·Low·Medium·High.
  • Hỗ trợ giới hạn 272.000 token đầu vào128.000 token đầu ra, với đầu vào là văn bản·hình ảnh và đầu ra chỉ hỗ trợ văn bản.
  • Giá được đặt rất cạnh tranh; so với GPT-4o, chi phí đầu vào chỉ bằng một nửa và giảm 90% phí token cache khi tái sử dụng đầu vào trong vài phút gần đây.
  • Trong system card, mô hình tập trung vào giảm ảo giác, tăng khả năng thực thi yêu cầu, giảm tính xu nịnh, cùng định hướng Safe‑Completions để thay vì từ chối nhị phân thì ưu tiên phạm vi phản hồi an toàn.
  • Về bảo mật, khả năng chống prompt injection đã được cải thiện nhưng vẫn còn mở tại tỷ lệ thành công 56,8% khi thử với k=10; ở API có thể kiểm soát luồng token suy luận thông qua reasoning summary và tùy chọn reasoning_effort=minimal.

GPT-5 : Phân tích đặc điểm, giá cả, system card

  • Tác giả Simon Willison đã dùng GPT-5 hằng ngày trong 2 tuần có quyền truy cập preview. Ông nhận xét mô hình không tạo nên cú nhảy đột phá, nhưng tổng thể rất giỏi, lỗi ít hơn và rất phù hợp làm mô hình mặc định nhất quán.
  • Bài viết này là phần đầu tiên trong loạt bài, tổng hợp các đặc tính cốt lõi, giá cả và những gì có thể đọc ra từ system card.

Đặc điểm chính của mô hình

  • Trong ChatGPT, GPT-5 tích hợp mô hình nhanh dùng chung và mô hình suy luận sâu; một kiến trúc hybrid hoạt động bằng cách để real-time router chọn mô hình phù hợp theo loại cuộc hội thoại, mức độ khó, nhu cầu công cụ và tín hiệu ý định rõ ràng.

    real-time router chọn mô hình theo loại hội thoại, độ phức tạp, nhu cầu công cụ và tín hiệu ý định như ‘think hard’; khi đạt giới hạn sử dụng thì phiên bản mini của từng mô hình sẽ thay thế.”

  • Trên API, mô hình được gọn còn 3 nhóm Regular·Mini·Nano, mỗi nhóm hỗ trợ 4 mức suy luận: Minimal·Low·Medium·High.
  • Ngữ cảnh có giới hạn 272.000 token đầu vào128.000 token đầu ra, trong đó token suy luận không hiển thị cũng được tính như token đầu ra.
  • Đầu vào là văn bản·hình ảnh, đầu ra chỉ có văn bản, và knowledge cutoffGPT-5: 2024-09-30, Mini/Nano: 2024-05-30.
  • Khi dùng toàn bộ GPT-5, ông cảm nhận được tính phản hồi vừa chính xác vừa điềm tĩnh, và gần như không có nhu cầu thử lại bằng mô hình khác.

Vị trí trong hệ sinh thái mô hình của OpenAI

  • Theo bảng mapping trong system card, dải sản phẩm trước đó đã được sắp xếp vị trí thay thế bởi dòng GPT-5.
    • GPT-4o → gpt-5-main, GPT-4o-mini → gpt-5-main-mini
    • OpenAI o3 → gpt-5-thinking, o4-mini → gpt-5-thinking-mini
    • GPT-4.1-nano → gpt-5-thinking-nano, o3 Pro → gpt-5-thinking-pro
  • thinking-pro hiện được ghi là “GPT-5 Pro” trong ChatGPT và chỉ có trong gói $200/tháng, đồng thời dùng parallel test-time compute.
  • Ranh giới tính năng vẫn được giữ: audio I/Otạo hình ảnh vẫn do GPT-4o Audio/Realtime cùng GPT Image 1/DALL-E đảm nhận.

Giá cả rất cạnh tranh

  • Giá được định rất cạnh tranh.
    • GPT-5: đầu vào $1.25/một triệu token, đầu ra $10/một triệu token
    • GPT-5 Mini: đầu vào $0.25/một triệu token, đầu ra $2.00/một triệu token
    • GPT-5 Nano: đầu vào $0.05/một triệu token, đầu ra $0.40/một triệu token
  • Giá đầu vào chỉ bằng một nửa của GPT-4o, trong khi giá đầu ra vẫn tương đương.
  • Token suy luận được tính phí như token đầu ra, vì vậy cùng một prompt có thể có chi phí khác nhau tùy theo mức suy luận.
  • Token cache giảm 90% giúp giảm chi phí đáng kể cho giao diện chat có tái gửi ngữ cảnh liên tục.
  • Bảng so sánh đối thủ nêu Claude Opus 4.1, Claude Sonnet 4, Grok 4, Gemini 2.5 Pro với khoảng $2.5~$15/một triệu đầu vào$10~$75/một triệu đầu ra, cho thấy GPT-5 có lợi thế giá.
  • Tác giả từng để GPT-5 tự sắp xếp bảng giá và xảy ra lỗi sắp xếp; khi dựng bảng bằng Python thì việc sắp xếp được xử lý đúng.

Ghi chú thêm từ system card

  • Thành phần dữ liệu huấn luyện bao gồm web công khai, dữ liệu đối tác, dữ liệu do người dùng/huấn luyện viên người thật tạo ra, kèm theo giải thích mức nguyên tắc về việc áp dụng lọc giảm thiểu thông tin cá nhân.
  • Các trục cải tiến chính nhấn mạnh là giảm ảo giác, tăng khả năng thực thi chỉ dẫn, giảm xu nịnh, và tăng cường mạnh ở 3 công dụng phổ biến của ChatGPT là writing·coding·health.
  • Safe-Completions là huấn luyện an toàn tập trung vào đầu ra thay vì chỉ từ chối nhị phân, nhằm giữ mức độ hữu ích trong khi giảm chi tiết rủi ro cho các truy vấn hai mục đích khó phân biệt ý định người dùng như sinh học hoặc an ninh.
  • Đối với sycophancy, họ thực hiện huấn luyện hậu kỳ dựa trên đánh giá và tín hiệu thưởng phản ánh phân phối hội thoại sản xuất để giảm xu hướng “đồng thuận vuốt đuôi”.
  • Ở mặt tính chính xác, với browsing được bật mặc định, mục tiêu là giảm tần suất hallucination khi trả lời chỉ bằng kiến thức nội bộ mà không dùng công cụ.
  • Để chống lừa dối/nói bậy, họ thiết kế phần thưởng để mô hình trung thực thừa nhận “không thể làm được” với nhiệm vụ bất khả thi; đồng thời chạy đánh giá mô phỏng bằng cách cố tình tắt công cụ như browsing nhằm kìm hãm phản hồi bịa đặt.

Prompt injection trong system card

  • Kết quả cho thấy 2 đội red team bên ngoài đã đánh giá prompt injection tập trung vào các điểm yếu cấp hệ thống và đường connector.
  • Trong biểu đồ so sánh, tỷ lệ tấn công thành công của gpt-5-thinking tại k=10 là 56.8%, thấp hơn so với Claude 3.7 / nhiều mô hình khác ở mức 60~90%, nhưng vẫn còn trên một nửa, nên chưa hề gần “đã giải quyết xong”.
  • Kết luận: mặc dù mô hình đã cải thiện, vẫn nên xem an toàn cấp sản phẩmguardrails là tiền đề bắt buộc.

Dấu vết suy luận trong API

  • Ban đầu tác giả nghĩ rằng không thể xem vết suy luận, nhưng trên Responses API có thể nhận tóm tắt reasoning qua reasoning: { "summary": "auto" }.
  • Ở mức suy luận sâu mà không bật tùy chọn này, lượng token suy luận đáng kể có thể được tiêu thụ trước khi có đầu ra hiển thị, gây cảm giác trễ; đặt reasoning_effort=minimal có thể kích hoạt phản hồi streaming nhanh hơn.

Và một vài SVG về chim mòng két

  • Trong benchmark SVG hằng ngày của tác giả là tạo “chim mòng két đạp xe”, kết quả của GPT-5 (mức Medium suy luận mặc định) cho thấy độ chi tiết bánh xe và hình dạng rất tốt, tạo ra vector dễ đọc.
  • GPT-5 Mini thể hiện màu sắc và chuyển sắc tốt, nhưng có lỗi cấu trúc với trường hợp chim mòng két xuất hiện 2 cái cổ.
  • GPT-5 Nano tạo kết quả ở mức đơn giản hóa, với hình dạng xe đạp và chim mòng két gần như chỉ giữ lại phần tóm tắt chức năng.

Tóm tắt điểm áp dụng thực tế

  • Lựa chọn mô hình: bắt đầu bằng Regular; nếu đủ, hạ cấp sang Mini/Nano; bài toán phức tạp nên cân nhắc họthinking và mức suy luận cao.
  • Kiểm soát chi phí: chiến lược hiệu quả là tận dụng token caching 90%, reasoning_effort=minimal, cùng prompt hệ thống ngắnngữ cảnh đã tóm tắt để giảm token đầu ratoken suy luận.
  • Thiết kế bảo mật: prompt injection vẫn còn rủi ro, do đó cần phối hợp các biện pháp hệ thống như giảm quyền cho connector, kiểm tra đầu ra, và template đầu ra an toàn.
  • Áp dụng theo miền: dựa trên phản hồi về giảm hallucination/sycophancy ở writing·coding·health, cho các tác vụ mô tả rủi ro cao như tài liệu hóa công việc, review code, QA y tế nên thiết kế luồng mặc định với browsing + bằng chứng.

Chưa có bình luận nào.

Chưa có bình luận nào.