Đánh giá thực tế GPT-5 của Every

(every.to)

11 điểm bởi GN⁺ 2025-08-08 | 1 bình luận | Chia sẻ qua WhatsApp

GPT-5 được đánh giá là mô hình tốt nhất cho đa số người dùng phổ thông trong ChatGPT, với các cải thiện lớn về tốc độ, tính đơn giản và chất lượng phản hồi
Về giá API, mô hình này có năng lực cạnh tranh rất mạnh so với đối thủ, đặc biệt GPT-5-mini rẻ hơn Google Gemini 2.5 Flash và GPT-5 Standard rẻ hơn Claude 4 Opus 12 lần
Mô hình rất mạnh ở công việc hằng ngày, pair programming, nghiên cứu và gỡ lỗi, nhưng vẫn có giới hạn trong lập trình agentic và đánh giá chất lượng văn bản
Trong phần đánh giá của nhóm, GPT-5 thể hiện thế mạnh ở các tác vụ được xác định rõ, hợp nhất mã, viết bản nháp và phân tích chuyên sâu, nhưng còn gây hụt hẫng ở công việc tự trị kéo dài và phát triển quy mô lớn mang tính sáng tạo
Trong các bài benchmark, mô hình rất tốt ở giải quyết một số vấn đề cụ thể, hiện thực tính năng ứng dụng và năng lực nghiên cứu, nhưng ở game, thiết kế UI và độ nhất quán khi viết thì Opus 4.1 được đánh giá cao hơn

GPT-5 trong ChatGPT

Tốc độ là đặc điểm nổi bật nhất: với câu hỏi đơn giản thì phản hồi gần như tức thì, còn với yêu cầu phức tạp thì tự kéo dài thời gian suy luận để đưa ra câu trả lời sâu hơn
Menu chọn mô hình đã bị loại bỏ và thay bằng cơ chế tự động chuyển đổi (auto-switcher), tự chọn phiên bản không suy luận hoặc suy luận tùy theo yêu cầu
- Câu hỏi kiến thức đơn giản dùng bản không suy luận tốc độ cao
- Yêu cầu tạo nội dung, viết mã hoặc phân tích phức tạp dùng bản suy luận
Câu trả lời được trình bày theo hướng dễ đọc, với tiêu đề phụ có cấu trúc, khoảng trắng và chữ in đậm
Trong Canvas, có thể tạo ứng dụng frontend theo kiểu one-shot, nhưng tồn tại giới hạn 1.000 dòng mã cùng một số hạn chế tính năng
Việc cung cấp mô hình reasoning ở dạng miễn phí và mặc định đã nâng chất lượng trải nghiệm AI đại chúng lên đáng kể

GPT-5 trong API

GPT-5-mini: $0.25 cho mỗi 1 triệu token đầu vào → rẻ hơn Google Gemini 2.5 Flash ($0.30)
GPT-5 Standard: $1.25 cho mỗi 1 triệu token đầu vào → ngang giá Google Gemini 2.5 Pro, và chỉ bằng 1/12 mức giá của Claude 4 Opus ($15)
Giá token đầu ra cao hơn o4-mini, nhưng mô hình có khả năng tuân thủ prompt (steerability) rất tốt nên mạnh ở các công việc đòi hỏi chỉ dẫn chi tiết
Với tỷ lệ hiệu năng trên giá thành như vậy, GPT-5 có khả năng cao sẽ lôi kéo người dùng từ các đối thủ trên thị trường API

Kỹ thuật agentic

Rất tốt ở các tác vụ backend chính xác, gỡ lỗi và hiểu mã, nhưng kém hiệu quả trong việc tự trị viết mã dài hạn và các công việc frontend quy mô lớn
Cursor và Codex CLI được thiết kế thiên về pair programming hơn là phát triển kiểu ủy quyền hoàn toàn (fully agentic)
So với Claude Code, mô hình thiếu độ bền trong các tác vụ dài hạn và mức độ tự trị, đồng thời tốc độ xử lý khối lượng công việc cũng thấp hơn

Đánh giá chi tiết theo trường hợp sử dụng

Công việc hằng ngày: hỏi đáp nhanh mà không cần chọn mô hình, xử lý toàn diện cả các câu hỏi cần nghiên cứu, tần suất ảo giác cũng giảm
Pair programming: xuất sắc trong sửa lỗi, hiện thực tính năng và hiểu codebase lớn; cả tốc độ lẫn độ chính xác đều cao
Viết lách: giảm bớt các mẫu câu mang đậm “giọng AI”, biểu đạt đa dạng hơn, phù hợp để viết bản nháp và có thể học một phong cách cụ thể
Kỹ thuật agentic: trong dự án dài hạn và sinh mã tự trị, mô hình hay bị khựng và chất lượng đầu ra thấp
Biên tập văn bản: độ nhất quán kém trong đánh giá chất lượng bài viết và mức độ tự nhiên của câu chữ, nên độ tin cậy thấp

Insight từ bàn tròn của nhóm

Kieran Klaassen (phụ trách Cora): GPT-5 phù hợp với công việc lặp đi lặp lại dựa trên chỉ dẫn chi tiết, ở mức có thể thay thế Sonnet 3.5

"GPT-5 làm đúng những gì bạn bảo. Cẩn thận, từng bước nhỏ, và không bao giờ đi chệch hướng — và đó cũng chính là vấn đề của tôi. Nó mạnh về coding nhưng không được tối ưu cho tác vụ agentic. Trong quy trình phát triển lặp truyền thống hơn, kiểu như ‘cái này tốt rồi, giờ làm tiếp cái kia’, nó rất dễ làm việc cùng. Nhưng đó là cách chúng ta làm việc với AI trong năm 2024. GPT-5 không phải một cú nhảy vọt tới tương lai, mà là một Sonnet 3.5 killer."
Danny Aziz (phụ trách Spiral): tối ưu cho các tác vụ có phạm vi xác định rõ như hợp nhất mã phức tạp, nhưng với review dài hạn và phân tích quy mô lớn thì vẫn thích Claude hơn

"Khoảnh khắc kỳ diệu của GPT-5 là khi hợp nhất hai codebase phức tạp. Framework mã nguồn mở tôi đang dùng không làm được tính năng tôi muốn, nên tôi yêu cầu nó ghép mã từ framework khác vào. Không xong chỉ trong một lần, nhưng tôi có cảm giác đang cộng tác để cùng tiến gần tới mục tiêu. Tôi rất thích dùng GPT-5 cho các tác vụ coding rõ ràng, được định nghĩa tốt. Với các tác vụ agentic dài hạn như code review, tôi vẫn dùng Claude Code, nhưng khi bị mắc kẹt hoặc lười phải suy nghĩ sâu, GPT-5 sẽ đưa tôi tới đích."
Alex Duffy (trưởng bộ phận giáo dục AI): với người dùng miễn phí, đây là bản nâng cấp lớn so với GPT-4o; mạnh ở xử lý dữ liệu khối lượng lớn và các tác vụ có cấu trúc

"Với người dùng phổ thông, GPT-5 rõ ràng là một bản nâng cấp so với GPT-4o. Nếu bạn dùng gói miễn phí, khác biệt sẽ rất dễ nhận ra. Người dùng chuyên sâu vẫn có thể dùng các công cụ chuyên biệt như o3 hay Opus, nhưng với developer, giá trị của GPT-5 là một mô hình đáng tin cậy và bám prompt rất tốt. Nó đặc biệt phù hợp để tóm tắt và sắp xếp một lượng thông tin khổng lồ với chất lượng cao. Giá token đầu ra đắt hơn o4-mini, nhưng đổi lại khả năng tuân thủ chỉ dẫn rất mạnh. GPT-5-mini có thể cạnh tranh về giá với Flash, và nếu tốc độ đủ tốt thì nó có thể trở thành một dark horse thực sự."
Naveen Naidu (EIR): đã phối hợp với GPT-5 để sửa được lỗi app bị treo mà anh không giải quyết được suốt 4 ngày

"Trong ứng dụng AI ghi âm thành văn ‘Monologue’ mà tôi đang làm, tôi đã không tìm ra lỗi khiến app bị treo suốt 4 ngày. Tôi đã dành 4 tiếng vào Chủ nhật với Claude Code mà vẫn thất bại. Với GPT-5, tôi phối hợp như với một đồng nghiệp để lần theo chỗ có vấn đề, và cuối cùng đã tìm ra đúng bug."
Katie Parrott (nhà văn, phụ trách vận hành AI): hài lòng với GPT-5 hơn Opus khi viết bản thảo đầu tiên; mạnh ở phỏng vấn và thiết kế câu hỏi; nhưng vibe coding lại kém hiệu quả

"Tôi dùng GPT-5 cho viết lách để biến dàn ý thành bản thảo đầu tiên, và kết quả rất tốt. Sau vài prompt để nó học phong cách của Every, tôi yêu cầu một phong cách kiểu ‘giao điểm giữa bài báo của Atlantic và một bài đăng Hacker News nổi tiếng’, và đầu ra rất mạnh. Những mẫu sáo mòn thường thấy trong văn AI như ‘It’s not just X, but Y’ đã giảm hẳn. Khi phỏng vấn, nó cũng giúp dựng khung câu hỏi rất tốt. Với việc viết bản nháp, tôi hài lòng với GPT-5 hơn cả Opus.
Nhưng khi vibe coding trong Codex thì nó lại kém hiệu quả hơn. Nó cứ muốn chia công việc thành những phần nhỏ và tôi phải bấm ‘tiếp tục’ mỗi lần. Nó cũng không giải thích kế hoạch cho bước tiếp theo như Claude."
Yash Poojary (phụ trách Sparkle): chưa thật sự thuyết phục trong coding Swift, nhưng là lựa chọn số một cho phân tích kỹ thuật phức tạp, thiết kế và đánh giá trade-off

"Với tôi, Swift là tất cả. Ban đầu GPT-5 không gây ấn tượng. Phải có prompt thiết lập cụ thể thì mới dùng ổn. Dù vậy, trong coding Swift, nó vẫn chưa đến mức thay thế được Claude.
Nhưng ở nghiên cứu thuần túy thì nó là tốt nhất. Ví dụ, khi tôi hỏi cách tìm file trùng lặp trên Mac, nó đưa ra bản phân tích kỹ thuật chính xác nhất trong tất cả AI mà tôi từng thấy. Cảm giác như một kiến trúc sư hệ thống IQ 140 đã xây hệ thống đó ba lần và kể lại toàn bộ bài học rút ra. Nếu chỉ triển khai thuần túy thì tôi vẫn dùng Claude, nhưng với bối cảnh sâu, phân tích trade-off và thảo luận thiết kế thì tôi dùng GPT-5."
Dan’s mom (góc nhìn người dùng phổ thông): đánh giá đây là một trong những câu trả lời tốt nhất từng thấy trên ChatGPT về lượng thông tin, khả năng đọc và độ mượt

"Mô hình này thật sự đáng kinh ngạc. Nó toàn diện hơn rất nhiều so với mọi câu trả lời tôi từng nhận được từ ChatGPT. Thông tin dễ đọc và mạch lạc. Mô hình này đúng là vàng ròng."

Kết quả benchmark chi tiết

Đánh giá viết lách: thiếu độ nhất quán ngay cả với cùng một bài, độ tin cậy thấp hơn Opus
Làm game one-shot: chạy ổn định nhưng thiếu sáng tạo và độ vui; Opus 4.1 được đánh giá tốt hơn
AI Diplomacy: hiệu năng với prompt mặc định thấp, nhưng với chỉ dẫn được tối ưu thì ngang Flash; steerability là điểm mạnh
Câu đố bất khả thi: giải xong trong 1 phút 10 giây, nhanh vượt trội so với o3
Làm ứng dụng âm nhạc one-shot: hiện thực được các chức năng tương tự GarageBand, UI đơn giản; thiết kế của Opus 4 được ưa thích hơn
Các bài test khác: cho thấy sự khác biệt rõ rệt về “tính cách” giữa Claude và GPT-5 trong benchmark Pelican on a bicycle và thup

1 bình luận

anveloper 2025-08-11

Hầu hết câu trả lời từ GPT-5 đều mất hơn 10 giây để suy nghĩ. Đến mức khiến mình có cảm giác như: với từng ấy thời gian chắc mình đã kịp hỏi thêm 3~4 câu rồi? Nhưng đồng thời cũng lại thấy kiểu, à vậy thì lẽ ra mình nên hỏi thêm nhiều câu hơn nữa.
Không rõ về mặt kỹ thuật có thật sự vượt trội hay không, nó chỉ trông như một cách tạo ra kết quả tốt hơn bằng cách đơn giản là dùng nhiều thời gian hơn thôi