GPT-5: Đặc điểm chính, giá cả và system card

(simonwillison.net)

3 điểm bởi GN⁺ 2025-08-08 | 1 bình luận | Chia sẻ qua WhatsApp

GPT-5 hoạt động như một hệ thống tích hợp với bộ định tuyến thời gian thực (real-time router) chọn đổi mô hình theo ngữ cảnh hội thoại, và trên API cung cấp 3 loại Regular·Mini·Nano với 4 mức suy luận Minimal·Low·Medium·High.
Hỗ trợ giới hạn 272.000 token đầu vào và 128.000 token đầu ra, với đầu vào là văn bản·hình ảnh và đầu ra chỉ hỗ trợ văn bản.
Giá được đặt rất cạnh tranh; so với GPT-4o, chi phí đầu vào chỉ bằng một nửa và giảm 90% phí token cache khi tái sử dụng đầu vào trong vài phút gần đây.
Trong system card, mô hình tập trung vào giảm ảo giác, tăng khả năng thực thi yêu cầu, giảm tính xu nịnh, cùng định hướng Safe‑Completions để thay vì từ chối nhị phân thì ưu tiên phạm vi phản hồi an toàn.
Về bảo mật, khả năng chống prompt injection đã được cải thiện nhưng vẫn còn mở tại tỷ lệ thành công 56,8% khi thử với k=10; ở API có thể kiểm soát luồng token suy luận thông qua reasoning summary và tùy chọn reasoning_effort=minimal.

GPT-5 : Phân tích đặc điểm, giá cả, system card

Tác giả Simon Willison đã dùng GPT-5 hằng ngày trong 2 tuần có quyền truy cập preview. Ông nhận xét mô hình không tạo nên cú nhảy đột phá, nhưng tổng thể rất giỏi, lỗi ít hơn và rất phù hợp làm mô hình mặc định nhất quán.
Bài viết này là phần đầu tiên trong loạt bài, tổng hợp các đặc tính cốt lõi, giá cả và những gì có thể đọc ra từ system card.

Đặc điểm chính của mô hình

Trong ChatGPT, GPT-5 tích hợp mô hình nhanh dùng chung và mô hình suy luận sâu; một kiến trúc hybrid hoạt động bằng cách để real-time router chọn mô hình phù hợp theo loại cuộc hội thoại, mức độ khó, nhu cầu công cụ và tín hiệu ý định rõ ràng.

“real-time router chọn mô hình theo loại hội thoại, độ phức tạp, nhu cầu công cụ và tín hiệu ý định như ‘think hard’; khi đạt giới hạn sử dụng thì phiên bản mini của từng mô hình sẽ thay thế.”
Trên API, mô hình được gọn còn 3 nhóm Regular·Mini·Nano, mỗi nhóm hỗ trợ 4 mức suy luận: Minimal·Low·Medium·High.
Ngữ cảnh có giới hạn 272.000 token đầu vào và 128.000 token đầu ra, trong đó token suy luận không hiển thị cũng được tính như token đầu ra.
Đầu vào là văn bản·hình ảnh, đầu ra chỉ có văn bản, và knowledge cutoff là GPT-5: 2024-09-30, Mini/Nano: 2024-05-30.
Khi dùng toàn bộ GPT-5, ông cảm nhận được tính phản hồi vừa chính xác vừa điềm tĩnh, và gần như không có nhu cầu thử lại bằng mô hình khác.

Vị trí trong hệ sinh thái mô hình của OpenAI

Theo bảng mapping trong system card, dải sản phẩm trước đó đã được sắp xếp vị trí thay thế bởi dòng GPT-5.
- GPT-4o → gpt-5-main, GPT-4o-mini → gpt-5-main-mini
- OpenAI o3 → gpt-5-thinking, o4-mini → gpt-5-thinking-mini
- GPT-4.1-nano → gpt-5-thinking-nano, o3 Pro → gpt-5-thinking-pro
thinking-pro hiện được ghi là “GPT-5 Pro” trong ChatGPT và chỉ có trong gói $200/tháng, đồng thời dùng parallel test-time compute.
Ranh giới tính năng vẫn được giữ: audio I/O và tạo hình ảnh vẫn do GPT-4o Audio/Realtime cùng GPT Image 1/DALL-E đảm nhận.

Giá cả rất cạnh tranh

Giá được định rất cạnh tranh.
- GPT-5: đầu vào $1.25/một triệu token, đầu ra $10/một triệu token
- GPT-5 Mini: đầu vào $0.25/một triệu token, đầu ra $2.00/một triệu token
- GPT-5 Nano: đầu vào $0.05/một triệu token, đầu ra $0.40/một triệu token
Giá đầu vào chỉ bằng một nửa của GPT-4o, trong khi giá đầu ra vẫn tương đương.
Token suy luận được tính phí như token đầu ra, vì vậy cùng một prompt có thể có chi phí khác nhau tùy theo mức suy luận.
Token cache giảm 90% giúp giảm chi phí đáng kể cho giao diện chat có tái gửi ngữ cảnh liên tục.
Bảng so sánh đối thủ nêu Claude Opus 4.1, Claude Sonnet 4, Grok 4, Gemini 2.5 Pro với khoảng $2.5~$15/một triệu đầu vào và $10~$75/một triệu đầu ra, cho thấy GPT-5 có lợi thế giá.
Tác giả từng để GPT-5 tự sắp xếp bảng giá và xảy ra lỗi sắp xếp; khi dựng bảng bằng Python thì việc sắp xếp được xử lý đúng.

Ghi chú thêm từ system card

Thành phần dữ liệu huấn luyện bao gồm web công khai, dữ liệu đối tác, dữ liệu do người dùng/huấn luyện viên người thật tạo ra, kèm theo giải thích mức nguyên tắc về việc áp dụng lọc giảm thiểu thông tin cá nhân.
Các trục cải tiến chính nhấn mạnh là giảm ảo giác, tăng khả năng thực thi chỉ dẫn, giảm xu nịnh, và tăng cường mạnh ở 3 công dụng phổ biến của ChatGPT là writing·coding·health.
Safe-Completions là huấn luyện an toàn tập trung vào đầu ra thay vì chỉ từ chối nhị phân, nhằm giữ mức độ hữu ích trong khi giảm chi tiết rủi ro cho các truy vấn hai mục đích khó phân biệt ý định người dùng như sinh học hoặc an ninh.
Đối với sycophancy, họ thực hiện huấn luyện hậu kỳ dựa trên đánh giá và tín hiệu thưởng phản ánh phân phối hội thoại sản xuất để giảm xu hướng “đồng thuận vuốt đuôi”.
Ở mặt tính chính xác, với browsing được bật mặc định, mục tiêu là giảm tần suất hallucination khi trả lời chỉ bằng kiến thức nội bộ mà không dùng công cụ.
Để chống lừa dối/nói bậy, họ thiết kế phần thưởng để mô hình trung thực thừa nhận “không thể làm được” với nhiệm vụ bất khả thi; đồng thời chạy đánh giá mô phỏng bằng cách cố tình tắt công cụ như browsing nhằm kìm hãm phản hồi bịa đặt.

Prompt injection trong system card

Kết quả cho thấy 2 đội red team bên ngoài đã đánh giá prompt injection tập trung vào các điểm yếu cấp hệ thống và đường connector.
Trong biểu đồ so sánh, tỷ lệ tấn công thành công của gpt-5-thinking tại k=10 là 56.8%, thấp hơn so với Claude 3.7 / nhiều mô hình khác ở mức 60~90%, nhưng vẫn còn trên một nửa, nên chưa hề gần “đã giải quyết xong”.
Kết luận: mặc dù mô hình đã cải thiện, vẫn nên xem an toàn cấp sản phẩm và guardrails là tiền đề bắt buộc.

Dấu vết suy luận trong API

Ban đầu tác giả nghĩ rằng không thể xem vết suy luận, nhưng trên Responses API có thể nhận tóm tắt reasoning qua reasoning: { "summary": "auto" }.
Ở mức suy luận sâu mà không bật tùy chọn này, lượng token suy luận đáng kể có thể được tiêu thụ trước khi có đầu ra hiển thị, gây cảm giác trễ; đặt reasoning_effort=minimal có thể kích hoạt phản hồi streaming nhanh hơn.

Và một vài SVG về chim mòng két

Trong benchmark SVG hằng ngày của tác giả là tạo “chim mòng két đạp xe”, kết quả của GPT-5 (mức Medium suy luận mặc định) cho thấy độ chi tiết bánh xe và hình dạng rất tốt, tạo ra vector dễ đọc.
GPT-5 Mini thể hiện màu sắc và chuyển sắc tốt, nhưng có lỗi cấu trúc với trường hợp chim mòng két xuất hiện 2 cái cổ.
GPT-5 Nano tạo kết quả ở mức đơn giản hóa, với hình dạng xe đạp và chim mòng két gần như chỉ giữ lại phần tóm tắt chức năng.

Tóm tắt điểm áp dụng thực tế

Lựa chọn mô hình: bắt đầu bằng Regular; nếu đủ, hạ cấp sang Mini/Nano; bài toán phức tạp nên cân nhắc họthinking và mức suy luận cao.
Kiểm soát chi phí: chiến lược hiệu quả là tận dụng token caching 90%, reasoning_effort=minimal, cùng prompt hệ thống ngắn và ngữ cảnh đã tóm tắt để giảm token đầu ra và token suy luận.
Thiết kế bảo mật: prompt injection vẫn còn rủi ro, do đó cần phối hợp các biện pháp hệ thống như giảm quyền cho connector, kiểm tra đầu ra, và template đầu ra an toàn.
Áp dụng theo miền: dựa trên phản hồi về giảm hallucination/sycophancy ở writing·coding·health, cho các tác vụ mô tả rủi ro cao như tài liệu hóa công việc, review code, QA y tế nên thiết kế luồng mặc định với browsing + bằng chứng.

1 bình luận

GN⁺ 2025-08-08

Ý kiến Hacker News

Thật ra mình thấy khá ấn tượng và nhận thấy độ tin cậy cao hơn, nhưng khi nhớ tới hình ảnh GPT-5 mà mọi người kỳ vọng trong 2 năm qua thì có chút tiếc vì nó dường như chỉ là cải tiến dần dần, ổn định chứ chưa phải cuộc đột phá đảo lộn thế giới. Mình cũng thấy bầu không khí cho rằng chỉ có cách mở rộng quy mô thuần túy là đủ đang va vào giới hạn. Nếu việc tiến bộ chỉ cần đổ thêm tài nguyên tính toán, thì OpenAI hẳn đã không phải dành thời gian chỉnh sửa tinh vi hệ thống định tuyến người dùng cũ để nâng chất lượng tương tác trung bình từng chút một. Mình trước đây cũng nghi ngờ luận điểm rằng tăng dữ liệu/tính toán là đủ để đạt AGI. Mình thấy đáng lo là ngành đang ngày càng đóng kín hơn và bài trình bày gần như chỉ còn ngôn ngữ tiếp thị thay vì thông tin thực chất, nên ai cũng như thể không biết mô hình hiện tại đang ở trạng thái nào. Trong các khoản đầu tư tỉ đô, chuyện này có thể không tránh khỏi. Dù sao cũng không thể loại trừ khả năng sẽ có một mô hình vô cùng lớn được công bố sau này.
- Mình nghĩ đổi mới thực sự đang xảy ra âm thầm trong cách tận dụng công cụ và năng lực đa phương thức. Trí tuệ chung thì vẫn thay đổi dần, nhưng khả năng sử dụng công cụ nhiều bước và tương tác với thế giới thực đã cải thiện rõ rệt so với một năm trước. Mình kỳ vọng luồng phản hồi theo hướng này sẽ quay lại thành trí thông minh tốt hơn.
Có vẻ như mở rộng quy mô không phải là thuốc tiên. Tò mò không biết liệu nhà đầu tư có sẵn sàng tài trợ cho người khác với lập luận có căn cứ theo hướng này không. Mình không hiểu vì sao cứ nhất loạt với một hướng duy nhất (LLM → AGI). Trong thị trường đã bão hòa bởi các ông lớn, mình không thấy cần đầu tư thêm một startup LLM khác. Ngay cả khi LLM đạt AGI một ngày nào đó, vẫn còn nhiều cách để làm được nhanh hơn, rẻ hơn. Đi tới đó mà không có phương án dự phòng cũng rủi ro. Mình tin quy luật S-curve của công nghệ cũng áp dụng cho AI. Bản thân mình và những bạn bè có nền tảng toán/học thuật quen với lập luận định lượng đều hoài nghi rằng “mở rộng quy mô” là câu trả lời.
Có vẻ đã được xác nhận rằng GPU có thể học nhiều dạng thông tin và áp dụng cho các bài toán đa dạng. Nhưng để dùng thực sự hiệu quả thì luôn cần thêm nỗ lực để nghĩ cách áp dụng cho từng bài toán cụ thể. Nếu có thể hỏi GPT “làm sao tạo startup trị giá 1 tỷ USD trong 1 năm với 1.000 USD” và nhận được đáp án, chắc chắn đã có ai đó làm được rồi. Trong một thời gian nữa, cuối cùng con người vẫn phải trực tiếp đổ mồ hôi. Một lúc lâu thì việc huấn luyện để giảm lỗi hay sai sót lặp đi lặp lại mới là hướng có ý nghĩa thực tế.
Mình nghĩ hiệu năng đang nhân đôi mỗi 4~7 tháng. Xu hướng đó vẫn tiếp tục. Tốc độ đó đã phi lý rồi. Mong đợi nhiều hơn mình nghĩ lại chỉ khiến mình bị cuốn theo quảng cáo thổi phồng. Tình trạng hiệu năng tăng gấp đôi 2~3 lần mỗi năm không hề phải xem là bão hòa. liên kết liên quan
Thực chất đây là nâng cấp theo hướng tiến bộ dần (theo góc nhìn hiệu năng), nhưng từ góc nhìn đơn giản hóa sản phẩm, một lối đi mang tính “nhảy vọt” đã là hướng của GPT-5 từ 6 tháng trước. Cảm giác là sau này phát triển AI vẫn sẽ là cuộc chiến của những cải thiện nhỏ, tinh vi.
Cá nhân mình thấy mơ hồ trước lời khẳng định của OpenAI rằng hiện tượng “hallucination” giảm rõ rệt. Theo trải nghiệm, Claude 4 (Sonnet, Opus) vẫn bị hallucination gần hằng ngày, ngay cả trong câu hỏi rất nhỏ hoặc khó; kể cả chỗ rất đơn giản cũng vậy.
- Trong phần demo công bố cũng thấy nhiều lần hallucination (dùng Claude và GPT, kể cả bản trả phí hay miễn phí đều diễn ra). Nếu bạn không thấy nó xuất hiện, mình xem đó là dối trá hoặc thiếu năng lực. Vấn đề gốc của LLM là do chúng học theo sở thích con người nên tối ưu cho các lỗi ẩn (stealthy errors). Mình rất thận trọng khi công cụ có khả năng gây lỗi ẩn dù tỉ lệ thất bại thấp. Những mô hình kiểu này làm chậm mọi việc và khiến debug cực khó. Ví dụ lỗi thụt lề trong Python là lỗi “ẩn” khó nhìn thấy bề ngoài nhưng vẫn rất khó tránh. Với bug nguồn như vậy, bạn có thể chụp ngay bằng thông điệp lỗi, còn với lỗi ẩn của LLM thì không thể nhận ra như thế; vì vậy nó khó. Cuối cùng, nó có vẻ khuyến khích văn hóa “LGTM” (Looks Good To Me) kiểu bỏ qua.
- Chỉ cần nói “Bạn sai” một câu, Claude hay ChatGPT có thể lập tức tự sụp đổ rồi lặp lại hallucination, và chúng không biết cách phản hồi tự tin rằng đúng hay sai một cách bền bỉ.
- Mình nghĩ Simon đã tận dụng LLM từ lâu nên có trực giác đặt câu hỏi để giảm hallucination.
- Mình cũng nghĩ còn phụ thuộc vào prompt đầu vào. Claude 4 mình đã dùng bị hallucination rất thường xuyên, đặc biệt khi sinh JSON có rất nhiều lỗi cú pháp nhưng lại được tạo ra với sự tự tin cao.
“Bạn là GPT5 à?” “Không, tôi là 4o, 5 chưa ra.” “Nó vừa ra hôm nay.” “À đúng rồi, tôi là GPT5.” <i>Đã đạt giới hạn sử dụng miễn phí của 4o</i>; một tình huống lẫn lộn giữa thực tế và thông tin mô hình.
Mình thấy chính sách giá tấn công của OpenAI khá bất ngờ. Nếu thực sự không có cạnh tranh, họ đâu cần phải đưa ra những con số như vậy. Mình nghĩ điều đó cho thấy cạnh tranh đã rất gay gắt.
- Ở thị trường ứng dụng, họ giành thắng thế áp đảo, nhưng ở phía API lại thua Anthropic. bài viết liên quan
- Mình đoán không phải tác động do mất khách hàng PRO gần đây (kể cả mình). Theo mình, mô hình PRO không có giá trị gấp 10 lần PLUS. Khi các đối thủ mới như z.ai xuất hiện, càng ngày việc tạo khác biệt dịch vụ càng khó.
- Mình thấy đợt này thực chất chỉ khoảng 5% cải thiện. Mình nghĩ đây là lựa chọn không tránh khỏi vì không thể tránh bị thua trong cuộc cạnh tranh giá với Gemini 2.5 Pro. Việc Cursor đổi mặc định cũng bị kéo theo bởi điều đó.
- Mô hình Nano 5 cents là một thay đổi rất thú vị. Nhờ đó Google có thể sẽ lại cắt giảm giá trong một thời gian để đỡ chịu sức ép sau khi vừa mới tăng giá chậm rãi gần đây.
- Mình cũng nghĩ có thể họ đưa ra chính sách này vì cần thêm dữ liệu thôi.
Khi GPT-5 trong API gồm regular, mini, nano và cho phép chọn 4 mức reasoning (minimal, low, medium, high) cho từng mô hình, mình lại thấy có vẻ phức tạp hơn thời GPT 4.1 chỉ có 3 tùy chọn (regular, mini, nano). Giờ chỉ một mô hình mini đã có 4 mức từ minimal đến high, tức là 8 lựa chọn; thực tế là mình liên tục phải cân nhắc xem nên tối ưu prompt hay đổi version/thay reasoning level.
- Trên thực tế, đã có thêm nhiều lựa chọn theo từng mức reasoning như o3-mini-high, o3-mini-medium, o3-mini-low, o4-mini-high, o4-mini-medium, o4-mini-low... nên cách của GPT-5 nhìn có vẻ đơn giản hơn.
- Với từng mô hình, cấu trúc n=1,2,3 cho mức reasoning m=0,1,2,3 làm cho nó trông có trật tự hơn. Dễ nhận ra tổ hợp nào nâng chất lượng lên hơn mức nào.
- Ý “đơn giản hơn” ở đây là trước đây, ở chat service hay API model tối ưu cho chat dùng một lớp điều phối (harness) dựa trên heuristic để tự đổi reasoning level và model, còn trên API giờ người dùng trực tiếp có mental model rõ ràng để chọn loại model và reasoning effort. Tùy chọn nhiều hơn nhưng cách chọn rõ hơn.
- Cuối cùng, do OpenAI thu phí theo token nên người ta buộc phải thử rất nhiều phiên bản.
Mình tò mò vì sao với reasoning model (kể cả GPT-5), tùy chọn chỉnh trực tiếp temperature và top-p bị bỏ đi. Với tác vụ nhỏ, tính nhất quán quan trọng thì mất mát đó làm phản hồi kém linh hoạt, và khi dùng API, kiểm soát tinh chỉnh như vậy cực kỳ quan trọng.
- Cài đặt sampler đều ảnh hưởng tiêu cực tới safety và alignment nên họ chỉ cho phép top_p/top_k, loại bỏ tfs, min_p, top_n sigma... Việc giới hạn temperature trong 0~2 cũng vì lý do tương tự. Theo mình, open-source thậm chí đã đi trước về sampler. Việc vẫn rút ra hiệu năng như vậy mới là điểm cho thấy năng lực kỹ thuật của OpenAI thật đáng nể.
Dù là doanh nghiệp giá trị hàng tỉ đô, vẫn đáng tiếc khi đánh giá công bằng của một mô hình chỉ dựa gần như duy nhất vào một benchmark nhân tạo kiểu BBQ, dù đã có rất nhiều trường hợp dùng thực tế trong tuyển dụng, kinh doanh, giáo dục, v.v.
Hình ảnh pelican đạp xe dạng SVG vẫn là một bài toán “khó đối với AI” theo hướng hài hước mà thú vị.
- Mình muốn hỏi: có ai thử vẽ SVG pelican đang đạp xe trực tiếp bằng text editor chưa? Thực tế con người cũng không dễ làm như vậy.
Khác với trước đây, có vẻ GPT-5 được huấn luyện tốt hơn trong việc dùng công cụ để thu thập ngữ cảnh. Thực tế so với 4.1 và o3, nó giải quyết bài toán bằng cách trả về ngay trong lượt đầu tới cả 6 danh mục, rất ấn tượng. Gọi công cụ nhiều hơn thì đương nhiên tiêu hao token nhiều hơn, nhưng nhờ chính sách giá tấn công lần này, có vẻ không quá đáng ngại. Nếu thiết kế prompt tốt, bạn cũng có thể giảm tần suất dùng công cụ. ví dụ liên quan
Bài review ngắn gọn, tỉ mỉ của Simon thật sự giúp mình hiểu kết quả thực tế hơn rất nhiều.
Trước quan điểm rằng Claude và o3 trong các model năm nay có vẻ ít hallucination hơn, tác giả đã thêm ý định của mình ở đúng chỗ trong bài để bổ sung phần giải thích.

GPT-5: Đặc điểm chính, giá cả và system card

GPT-5 : Phân tích đặc điểm, giá cả, system card

Đặc điểm chính của mô hình

Vị trí trong hệ sinh thái mô hình của OpenAI

Giá cả rất cạnh tranh

Ghi chú thêm từ system card

Prompt injection trong system card

Dấu vết suy luận trong API

Và một vài SVG về chim mòng két

Tóm tắt điểm áp dụng thực tế

Bài viết liên quan

1 bình luận

Ý kiến Hacker News