1 điểm bởi GN⁺ 2025-08-08 | 1 bình luận | Chia sẻ qua WhatsApp
  • GPT-5 API đã được ra mắt chính thức, mang lại mức khả năng mã hóa và xử lý tác vụ tác tử mới cho các nhà phát triển
  • Đạt SOTA (hiệu năng tốt nhất) tại các đánh giá quan trọng như SWE-bench Verified, Aider polyglot và thể hiện tính ưu việt trong nhiều trường hợp khách hàng như Cursor, Windsurf, Vercel
  • Thể hiện sức mạnh trong các tác vụ tác tử thời gian chạy dài, tích hợp công cụ tinh xảo, xử lý ngữ cảnh dài và các công việc thực tế phức tạp khác
  • Nhờ các tham số chi tiết như verbosity, reasoning_effort và hỗ trợ công cụ tùy chỉnh, nhà phát triển có thể tự chủ điều chỉnh theo nhu cầu
  • Cung cấp nhiều lựa chọn về chi phí/hiệu năng với gpt-5, gpt-5-mini, gpt-5-nano, đồng thời tích hợp với Microsoft và nhiều công cụ cho nhà phát triển

Ra mắt GPT-5 và tầm quan trọng

  • OpenAI đã công bố GPT-5 trên nền tảng API, nhấn mạnh đây là mô hình có hiệu năng tối ưu nhất cho viết mã và tác vụ tác tử trong số các mô hình đã ra mắt
  • Đạt SOTA trong các benchmark mã hóa chủ chốt, và được huấn luyện phối hợp cùng các nhóm thử nghiệm của startup và doanh nghiệp thực tế
  • Tạo mã, sửa lỗi, chỉnh sửa mã, truy vấn cơ sở mã phức tạp... cho thấy GPT-5 hoạt động nổi trội như một cộng tác viên trong công việc phát triển thực tế
  • Khả năng tuân thủ chỉ dẫn chi tiết đã được nâng cao, đồng thời cải thiện khả năng mô tả hành vikế hoạch trước và sau khi gọi công cụ
  • Hiệu năng phát triển frontend cũng xuất sắc, được đánh giá cao hơn 70% so với các mô hình hiện có trong bài kiểm tra nội bộ

Các đối tác quan trọng và trường hợp sử dụng thực tế

  • Cursor, Windsurf, Vercel, Manus, Notion, Inditex đánh giá cao trí thông minh, khả năng điều chỉnh, xử lý lỗi công cụ và chất lượng mã của GPT-5
  • Trong môi trường triển khai thực tế, GPT-5 cho thấy độ ổn định và hiệu quả vượt trội hơn mô hình trước đó cho các công việc nền phức tạp, vai trò tác tử chạy dài hạn và tích hợp công cụ tinh xảo

Chỉ số benchmark và hiệu năng

  • SWE-bench Verified (vá lỗi sự cố phần mềm thực tế): 74,9% hiệu năng cao hơn o3, đồng thời dùng ít token hơn 22% và ít gọi công cụ hơn 45%, cải thiện hiệu quả rõ rệt
  • Aider polyglot (đánh giá chỉnh sửa mã): đạt 88%, giảm tỉ lệ lỗi còn 1/3 so với o3
  • Phân tích cơ sở mã phức tạp, nâng cấp LLM lớn theo truy vấn của người gọi để nhà phát triển/nhà nghiên cứu dễ dàng khai thác hơn
  • Tạo mã frontend thể hiện lợi thế 70% trong thử nghiệm về cả cảm giác thẩm mỹ và độ chính xác

Tác vụ tác tử và kết quả ngữ cảnh dài

  • τ2-bench telecom (benchmark gọi công cụ) đạt 96,7%, ghi nhận SOTA mới nhất
  • Khả năng hoàn thành nhiệm vụ cao khi thực thi hàng chục lời gọi công cụ theo chuỗi hoặc song song
  • Đạt điểm cao nhất trong các đánh giá thực thi chỉ dẫn của COLLIEScale MultiChallenge
  • Trong các bài Q&A ngữ cảnh dài OpenAI-MRCR, BrowseComp Long Context, GPT-5 vượt qua o3 và GPT-4.1
  • Hỗ trợ độ dài ngữ cảnh lên tới 400.000 token, phù hợp cho phân tích tài liệu/cuộc hội thoại quy mô lớn

Độ tin cậy và an toàn

  • Trong các đánh giá LongFact, FactScore, GPT-5 giảm hơn 80% lỗi sai sự thật so với o3
  • Nhận diện và cảnh báo giới hạn của bản thân, đặc biệt tăng độ chính xác trong các câu hỏi về sức khỏe
  • Trong sử dụng thực tế, ở những lĩnh vực quan trọng vẫn nên kiểm chứng bởi nhà phát triển

Khả năng kiểm soát cho nhà phát triển và tính năng mới của API

  • reasoning_effort: kiểm soát cân bằng giữa tốc độ phản hồi và chất lượng suy luận bằng các giá trị minimal/low/medium/high
    • minimal: phản hồi nhanh, high: suy luận logic chất lượng cao
  • verbosity: điều chỉnh độ dài đầu ra bằng low/medium/high
    • Nếu có chỉ thị rõ ràng thì chỉ thị sẽ được ưu tiên hơn tham số
  • Công cụ tùy chỉnh: hỗ trợ định dạng thuần văn bản (plaintext), không chỉ JSON; có thể ràng buộc định dạng đầu vào công cụ bằng regex hoặc Context-Free Grammar
  • Giảm lo ngại về lỗi escape JSON trong đoạn mã/lập báo cáo lớn, giúp việc tích hợp công cụ cho nhà phát triển dễ dàng hơn

Các mô hình API và chính sách giá đa dạng

  • gpt-5: $1.25/1 triệu token đầu vào, $10/1 triệu token đầu ra
  • gpt-5-mini: $0.25/1 triệu token đầu vào, $2/1 triệu token đầu ra
  • gpt-5-nano: $0.05/1 triệu token đầu vào, $0.40/1 triệu token đầu ra
  • Tất cả mô hình đều hỗ trợ các chức năng chính gồm reasoning_effort, verbosity, custom tools, gọi công cụ song song, công cụ tích hợp web/file/image, và streaming
  • gpt-5-chat-latest là mô hình không có reasoning dành cho ChatGPT, được công bố với cùng mức giá

Tích hợp và khả năng mở rộng

  • Ra mắt tích hợp trên nhiều nền tảng Microsoft như Microsoft 365 Copilot, GitHub Copilot, Azure AI Foundry
  • Ứng dụng như động cơ lõi cho các hệ thống tác tử của nhà phát triển như Cursor, Windsurf, GitHub Copilot, Codex CLI
  • Đánh giá nội bộ của nhóm alpha tester và các sản phẩm tự động hóa mã/công việc khác đặt ra chuẩn mới so với mô hình trước đây

An toàn, độ tin cậy và tài liệu bổ sung

  • Khả năng trả về thông tin sai lệch (hallucination) giảm đáng kể, đồng thời mô tả trung thực hơn về quy trình thực thi và giới hạn của mô hình
  • Thông qua System Card và blog nghiên cứu nội bộ, OpenAI công khai chi tiết về triển khai, đánh giá và các biện pháp an toàn
  • GPT-5 là đối tác lập trình tự động hóa cao cấp và chuyên biệt cho tự động hóa luồng công việc tác tử phức tạp

Kết luận

  • GPT-5 là mô hình tập trung cho công việc lập trình và tác tử mạnh nhất trong số các LLM đã ra đời đến nay, là đối tác đổi mới được tối ưu hóa cho môi trường phát triển và tự động hóa công việc thực tế.
  • Với API và hệ sinh thái công cụ đã tiến hóa, nhiều tùy chọn dung lượng và giá khác nhau cùng thành tích benchmark cao, GPT-5 mở ra thời đại sản xuất mới cho nhà phát triển và tổ chức

1 bình luận

 
GN⁺ 2025-08-08
Bình luận Hacker News
  • Tôi chưa nhận thấy sự khác biệt rõ rệt về năng lực phát triển phần mềm giữa Opus và GPT-5, nhưng với tôi điều quan trọng là chúng giữ được ngữ cảnh trong thời gian dài và tiến về mục tiêu đã đặt ra như thế nào; trong kỹ thuật phần mềm thực tế, tôi nghĩ đây là phần then chốt. Tôi tò mò về chỉ số đánh giá nào có thể đo và xác minh chính xác điều này.
    • Trong một số tuần gần đây, ở các thử nghiệm của Charlie Labs về khả năng giữ bối cảnh công việc dài hạn của GPT-5, tôi thấy kết quả khá ấn tượng. Khi cho GPT-5 xử lý 10 issue trên GitHub để so với Claude Code, chênh lệch hiệu năng rất lớn. Nội dung thử nghiệm này xem tại đây. Trong các ngữ cảnh phức tạp kéo dài khoảng 30–45 phút, dù hướng đi đổi giữa chừng, nó vẫn bám sát tốt và xử lý tốt cả các thread khổng lồ của Linear hay GitHub. Dù số issue còn ít, nhưng rất ấn tượng; sẽ tiếp tục mở rộng thêm để đo hiệu năng.
    • Mình hay tạo ra các mục tiêu phức tạp với bối cảnh thay đổi liên tục mỗi ngày, nên khả năng giữ ngữ cảnh này là bắt buộc. Thật đáng tiếc GitHub Copilot hiện bị "bị bỏ lại" trong các công cụ hỗ trợ code hiện có; so với Anthropic, OpenAI, Google và các model khác, nó không nhận được nhiều chú ý. Khi thử tính năng web-based spaces, thấy nó phù hợp hơn cho công việc lớn hơn so với IDE, nhưng nhược điểm là việc thu thập ngữ cảnh và review kết quả mất lâu hơn nếu so với việc mình làm trực tiếp. Có vẻ nó có điểm mạnh ở việc tích lũy bối cảnh.
    • Ở thời điểm hiện tại, các LLM hàng đầu giải được hầu hết vấn đề nếu cung cấp đủ ngữ cảnh. Mỗi lần thất bại, tôi thường dành hầu hết thời gian để tìm ra phần bối cảnh nào còn thiếu. Vì vậy tôi cần khả năng thu thập ngữ cảnh tập trung hơn. Trong trường hợp sử dụng của tôi, điều quan trọng là lọc đúng các tài liệu thật sự liên quan từ code file, issue, PR và thảo luận. Tôi kỳ vọng GPT-5 sẽ tiến thêm một bước ở điểm này; nếu nó có kết quả tương đương hoặc tốt hơn Opus trong khi rẻ hơn thì càng đáng mong đợi.
    • Chính sách giá GPT-5 so với Opus đã tốt hơn nhiều, giờ đã hạ gần mức của Gemini 2.5 Pro.
    • Nếu GPT-5 thực sự chạy được ngữ cảnh 400k, thì tôi nghĩ đó là đủ để vượt Opus một cách có ý nghĩa.
  • Tôi đang test gpt-5-mini trong kịch bản RAG và cho đến giờ rất ấn tượng. Khi kết hợp với tùy chọn reasoning_effort="minimal", đây là trường hợp duy nhất không tạo ra thông tin sai trong các phần mà các model cũ thường bịa; có ảnh chụp màn hình ở đây, và sẽ có thêm các đánh giá formal sau.
    • Với câu hỏi “Sản phẩm gì là product manager làm?”, GPT-4 trả lời kiểu sáo mòn về hợp tác giữa các phòng ban, còn GPT-5 trả lời “Tôi không biết”. Chỉ từ câu đó tôi thấy AI như vừa “mở mắt”.
    • phi-4 và gemma-3n trong kịch bản RAG cũng cho thấy giảm hallucination đáng kể: chúng chỉ dùng đúng ngữ cảnh đã cấp và không bịa lời khi ngoài ngữ cảnh.
    • Tôi nghĩ đây mới là thay đổi lớn nhất. Mình hay dùng workflow nhiều tool call, và việc model tạo ra công cụ giả trước đây là vấn đề lớn; thậm chí bỏ qua luôn bước gọi tool rồi đưa ra đáp án vô căn cứ. Có vẻ phần thưởng huấn luyện gần đây đang cải thiện rõ rệt ở cả hai mặt: giảm hallucination và giảm bỏ qua tool call.
  • Trong khoảng một tuần gần đây tôi đã thử nghiệm khoảng 70 giờ với nhiều công cụ như Cursor, Claude Code. Kết quả rất ấn tượng và đáng tin hơn, nhưng điều chạy ổn định liên tục nhất vẫn là các model dòng Claude. Khác benchmark, tôi thấy trong sử dụng thật thì đây mới là quan trọng. Tôi mong các model GPT mới chạy tốt ở case này; cạnh tranh đang sôi động và giá cũng tốt nên kỳ vọng khá cao.
    • Nhờ cập nhật tool mới Cursor (1.4), thậm chí các model như Gemini cũng dùng tool đáng tin hơn hẳn. Trước đây ngay cả thao tác cơ bản như sửa file vẫn hay lỗi, giờ gần như luôn đúng.
    • Tôi nghĩ phần này còn phụ thuộc vào stack đang dùng. Gần đây xem video giới thiệu Convex của t3.gg tại video, Convex; kiến trúc này giúp lần thử đầu tiên đúng ngay, dùng thử thì tôi thấy phù hợp. Tôi cho rằng phát triển workflow sẽ chuyển: thay vì nhảy thẳng vào code, tạo nhiều ticket trước ở PM tool (dường như Linear đang lên trend), để AI sàng lọc ra ticket nào có thể chạy song song rồi thực thi, sau đó làm song song nhiều ticket trong IDE hoặc Warp. Tôi chưa chuyển hoàn toàn sang cách này nhưng nghĩ sắp tới phải đổi; và để làm được thì git worktree sẽ là bắt buộc. Tài liệu liên quan, docs, blog
    • Tôi tò mò họ đã làm đến mức nào để có thể nói “tốt, đáng tin”. 70 giờ có thể làm được cả PoC, nhưng tôi quan tâm mức độ hoàn thiện khi tiếp tục thêm nhiều tính năng.
    • Mô hình reasoning của OpenAI cho code và giải quyết vấn đề tốt hơn, nhưng tôi thấy Claude Code vẫn thực dụng hơn; dù bản thân model có thể yếu, nó phù hợp hơn khi dùng thật.
  • Nếu chỉ nhìn hiệu năng benchmark, policy giá cực hấp dẫn: input token $1.25/million, input đã cache $0.125/million, output $10/million. So với Claude Opus 4.1 là input $15/million, output $75/million. Điều quan trọng giờ là tool usage có tốt hơn Claude Code đến mức nào; demo thấy ổn, nhưng trên Tau2-bench airline lại thua o3 nên chưa thể khẳng định.
    • Sau vài giờ test trực tiếp gần đây, tôi thấy GPT-5 ngày càng ổn so với Opus 4.1; sau vài tháng dùng Claude Code 200 plan, output dần trở nên thất vọng, nên tôi nghĩ GPT-5 đã đi trước một bước.
    • Mô hình hoạt động hỗn hợp với hơn hai model con nhưng lại áp dụng giá token đồng nhất khá thú vị. Có vẻ họ dự đoán để model rẻ được dùng nhiều hơn, nên cấu trúc giá như vậy; nếu user thường xuyên kéo sang model mạnh hơn, tôi tò mò liệu model giá có giữ vững hay không, hoặc có lẽ họ đã giữ biên lợi nhuận đủ dày nên không lo.
    • Giá không phải là chi phí. Mức giá hiện tại có vẻ cố tình thấp để giành thị phần nền tảng, có thể không phản ánh chi phí vận hành thực. Tôi đoán khoản 400 tỷ USD nhận được tháng 3 sẽ được đổ khá nhiều vào cuộc đua giá như vậy.
  • Họ thông báo rằng “GPT-5 lập kỷ lục mới 96.7% trên benchmark agentic task tool calling (τ2-bench telecom)”, nhưng trong benchmark airline lại thua o3; nên bài trình bày dường như chỉ làm nổi bật thông tin có lợi cho họ.
    • Vì tôi trực tiếp viết phần đồ thị và section này nên muốn nhấn mạnh dữ liệu tốt nhất thực sự nằm ở telecom. Retail và airline đều chấm tự động quá khắc nghiệt: chỉ một đáp án đúng duy nhất, nên những giải pháp tốt khác không nhận điểm. Telecom chấm theo trạng thái đầu ra và cho phép nhiều đáp án đúng, bù đắp nhược điểm của chấm tự động; khi đó tín hiệu hiệu năng thật của model hiện rõ hơn, nên tập trung vào telecom có lý. Xem thêm bài báo tau2-bench. Vì các đánh giá này không có partial score nên một lỗi nhỏ có thể ảnh hưởng rất lớn tới tổng điểm, nên hiệu năng thật có thể cao hoặc thấp hơn điểm số.
    • Về chi phí, o3 được biết là vận hành khá đắt, nên nếu GPT-5 rẻ hơn o3 thì dù hiệu năng gần nhau cũng đã là cải thiện có ý nghĩa.
    • Vì bản thân bài viết đã đề cập kết quả thấp ở airline, nên tôi không nghĩ đây là câu hỏi bẫy.
  • Tôi thấy phần hỗ trợ CFG (context-free grammar) và regex rất thú vị; đặc biệt tò mò xem có khác gì so với Lark-like CFG của llguidance khi triển khai JSON schema trong OpenAI API. Nguồn liên quan
    • Phần tôi kỳ vọng nhất trong đợt ra mắt này là CFG và đầu ra có cấu trúc. Các nơi khác (API, Google, OpenAI...) trước đây vẫn vướng nhiều vấn đề khi đưa vào dùng thực tế ở phần này, nên tôi muốn thử càng sớm càng tốt.
  • Cursor hiện dùng miễn phí mấy ngày, và sau khi từng là power user coding agentic ở nhiều IDE/CLI, tôi cảm thấy combo Cursor + GPT-5 rất ổn; nếu có thời gian hãy dùng thử trực tiếp.
  • Việc có thể ép trực tiếp CFG cho output làm tôi rất ngạc nhiên và thích thú, tôi tò mò cơ chế ép đúng ngữ pháp trong bước sampling hoạt động thế nào.
    • Tôi đoán sẽ là kiểu “structured generation” hoặc “guided generation”. Nếu có thể dùng trực tiếp LLM thì kỹ thuật này đã có từ trước ví dụ 1, ví dụ 2. Ý tưởng là ở mỗi bước sinh token, thay vì lấy toàn bộ vocabulary, chỉ đưa ra tập token hợp lệ theo ngữ pháp hiện tại; ví dụ với JSON grammar, sau { chỉ cho phép những token hợp lệ tiếp theo.
    • Giữ pool sampling chỉ gồm token hợp lệ theo quy tắc sinh ngữ pháp, tức là ràng buộc trực tiếp trong quá trình inference.
  • Việc benchmark chỉ so GPT-5 với phiên bản trước của chính nó, mà không so với model đối thủ, gợi cho tôi hình ảnh Apple chỉ so với iPhone đời trước.
  • Khi test GPT-5 trên bài khó, nó phân tích vấn đề mà Gemini không giải được rất tốt; nhưng sau đó sửa code thì thất bại tới 6 lần. Khi đưa kết quả phân tích của GPT-5 cho Google Gemini, Gemini lập tức đưa ra đúng code sửa. Kết luận là ChatGPT phân tích/review code rất tốt, còn coding thực tế thì vẫn thiếu.
    • Tôi cũng làm cùng một bài rồi: Gemini (GCA) và CoPilot (Claude) đều phân tích giống hệt nhau và đều đưa cùng một giải pháp sai; khi chỉ lỗi thì chúng vẫn đưa ra lời giải sai hơn. Tôi chưa từng dùng ChatGPT cho case này, nhưng sắp thử.