24 điểm bởi GN⁺ 3 ngày trước | 16 bình luận | Chia sẻ qua WhatsApp
  • Cộng đồng Reddit r/codex đang thảo luận so sánh hiệu năng coding của hai mô hình, và đa số người dùng hiện ủng hộ GPT 5.5 vượt trội hơn
  • GPT 5.5 nổi bật về độ ổn định và độ chính xác, trong khi Opus 4.7 vấp phải nhiều phàn nàn về việc suy giảm hiệu năng gần đây và giới hạn mức sử dụng
  • Cũng có đánh giá cho rằng ở mảng frontend/UI design, Opus 4.7 vẫn nhỉnh hơn đôi chút
  • Nhiều người dùng chỉ ra việc Claude(Opus) bị thiếu tài nguyên tính toán dẫn đến bị điều chỉnh giảm hiệu năng (lobotomize), đồng thời đặt câu hỏi về độ tin cậy
  • Cũng có ý kiến cho rằng vì hiệu năng của các mô hình AI sẽ tiếp tục cải thiện, nên về dài hạn khả năng tiếp cận, giá cả, giới hạn sử dụng và chính sách kiểm duyệt có thể trở thành tiêu chí lựa chọn quan trọng hơn lợi thế hiện tại

So sánh hiệu năng coding tổng thể

  • Phần lớn bình luận đồng ý rằng GPT 5.5 vượt trội trong coding/lập trình nói chung
  • GPT 5.5 nhanh, có năng lực và chú ý đến chi tiết tốt hơn Opus 4.7
  • GPT 5.5 hiệu quả trong việc sửa bug và phát hiện các dependency bị thiếu
  • Cũng có đánh giá rằng năng lực coding thuần túy của Opus 4.7 là tương đương, nhưng nó có xu hướng "lười" (lazy), đôi khi chỉ làm ở mức tối thiểu
  • GPT 5.5 có xu hướng đánh giá phạm vi ảnh hưởng của code và nắm các điểm cần cân nhắc trước khi hành động, trong khi Opus 4.7 thường muốn nhanh chóng tạo ra một giải pháp ở mức trung bình

UI/frontend design

  • Trong các tác vụ design và frontend, Opus 4.7 cho kết quả nhỉnh hơn một chút
  • Tuy nhiên, cũng có trường hợp GPT 5.5 triển khai gần như hoàn hảo ngay từ một lần (one-shot) thiết kế website cho ban nhạc chỉ với logo
  • Kết quả công việc UI/UX của Codex thay đổi tùy theo chất lượng prompt và việc có cung cấp manh mối trực quan hay không
  • Có khuyến nghị chiến lược kết hợp: dùng GPT 5.5 để xây nền tảng và cấu trúc, sau đó dùng Opus 4.7 để tinh chỉnh frontend design
  • Cũng có đề xuất tận dụng các công cụ miễn phí như Meta Muse Spark để bù đắp phần UI

Vấn đề ổn định và giới hạn sử dụng của Opus 4.7

  • Nhiều người tin rằng Opus 4.7 đã bị điều chỉnh giảm hiệu năng do thiếu tài nguyên tính toán khi lượng người dùng mới tăng mạnh
  • Có nhiều phàn nàn rằng 4.7 (và 4.6) đã liên tục bị giảm sức mạnh (nerfed)
  • Có báo cáo cho thấy Opus 4.7 trong max effort mode tạo ra nhiều hallucination
  • Có trường hợp một prompt chưa hoàn tất trong phiên 18 phút đã tiêu tốn lượng quota tương đương 5 giờ giới hạn sử dụng
  • Gói đăng ký Claude Pro $20 bị đánh giá là có giới hạn dùng Opus rất chặt

Ưu và nhược điểm của GPT 5.5

  • GPT 5.5 ổn định và duy trì chất lượng nhất quán, không bị tụt hiệu năng (regress)
  • Có người dùng đánh giá rằng họ chưa phát hiện việc nó tạo ra thông tin sai
  • Tuy vậy, nó cũng có xu hướng "lười", chỉ thực hiện ở mức tối thiểu đúng như những gì prompt nêu ra, nên cần prompt chi tiết hoặc quá trình lập kế hoạch/Q&A từ trước
  • Có xu hướng tiêu thụ token nhiều hơn
  • So với GPT 5.4 (gói $20), 5.5 tiêu tốn giới hạn sử dụng gấp đôi trong khi cải thiện benchmark chỉ khoảng 2~5%, nên cũng có nghi vấn về hiệu quả chi phí

So sánh giá và gói đăng ký

  • Với người dùng cá nhân, có ý kiến cho rằng gói ChatGPT Pro $100 có hiệu quả chi phí tốt
  • Có khuyến nghị chiến lược kết hợp Codex + Kimi $10 hoặc Gemini $22 để bổ sung cho công việc UI
  • Nếu đã dùng Google storage, thì Gemini thực tế chỉ ở mức $10~15
  • Cũng có người dùng đang cân nhắc chuyển hoàn toàn từ tài khoản Claude Max sang GPT Plus

Góc nhìn dài hạn

  • Trong vài tháng tới, mọi mô hình, bao gồm cả các mô hình Trung Quốc, có thể sẽ đạt ít nhất mức Opus 4.6 và được cung cấp với giá thấp hơn
  • So với bản thân hiệu năng mô hình, khả năng tiếp cận, giá cả, giới hạn sử dụng, kiểm duyệt và năng lực nhận thức ngữ cảnh có thể sẽ trở thành yếu tố khác biệt quan trọng hơn
  • Dù hiện tại GPT 5.5 đang dẫn trước, vẫn có lo ngại rằng giống như Claude từng suy giảm sau thời kỳ đỉnh cao, Codex cũng có thể sớm bị điều chỉnh giảm hiệu năng
  • Cũng có sự quan tâm đến việc so sánh với các mô hình khác như Kimi 2.6, GLM và MiniMax

16 bình luận

 
dicebattle 2 ngày trước

Tưởng rằng âm thầm vá ngầm để hạ hiệu năng thì sẽ không ai nhận ra, nhưng thật ra trực giác của con người cũng sắc bén hơn tưởng tượng nhiều, nên chỉ cần tổng hợp cảm nhận của tôi + những gì mọi người trong cộng đồng nói là ra đáp án ngay.

"Vậy rốt cuộc mày làm được gì đâu, haha" nên đành phải dùng thôi....

 
funnycat 2 ngày trước

Từ thời 3.5 tôi luôn dùng Claude làm chính, nhưng từ 5.5 thì tôi bắt đầu dùng GPT làm chính. Khá ổn đấy.

 
tkddls8848 2 ngày trước

Hay là chỉ lập kế hoạch bằng Claude rồi chỉ thực thi bằng Codex?

 
cosine20 2 ngày trước

Dạo này tôi cũng đang làm như vậy. Chỉ là chính sách sandbox của Codex CLI quá chặt, nên khi giao cả việc build và test cho nó thì khá là bất tiện.

 

Cả hai đều nói năng nghe thật bực mình. Mà thôi, cả hai cũng lười nữa, làm mà còn bỏ sót cả những gì được yêu cầu.

 
jimmy2056 2 ngày trước

Cái này hoàn toàn giống với cảm nhận của tôi, nên tôi đang trả gói 100 USD của GPT để dùng.
Còn Claude bản 200 USD thì tôi đang nghĩ có nên hạ xuống gói 100 không.

 

codex 5.4 dùng tiếng Hàn khá kỳ, nhưng về hiệu năng thì đã vượt opus 4.6 và opus 4.7 rồi (rào cản là cách hành văn kỳ lạ / kiểu như 열었습니다, 닫았습니다, 밀겠습니다, v.v.)

codex 5.5 thì cách nói cũng đã bình thường hơn, lại còn cẩn thận và thông minh hơn nhiều; opus 4.7 = rất lười, cảm giác rất rõ là đang tiết kiệm chi phí suy luận, thậm chí còn có cảm giác như thụt lùi so với opus 4.6

 
dicebattle 2 ngày trước

Nếu ở thời mẫu 5.3 chuyên cho codex, cảm giác đúng là như đang nói chuyện với một nhân viên cấp dưới chỉ giỏi code nhưng gần như không biết mở lời,
thì từ 5.4 nó bắt đầu nói năng từng chút một, và từ 5.5 thì có vẻ như đã tỉnh táo lại được một nửa.
Đến giờ nó vẫn có lúc gọi API là “hợp đồng”, hay thỉnh thoảng lại tuôn ra kiểu trộn tiếng Anh với tiếng Hàn một cách điên cuồng, nên đôi khi vẫn phải ghi kiểu “hãy giải thích cho dễ hiểu, và nói với ít tiếng Anh nhất có thể”.

Dù vậy, về hiệu năng sinh code thì theo cảm nhận của tôi, từ mốc 5.4 nó đã vượt opus rồi. Opus 4.7 có ra nhưng tôi còn chưa buồn thử qua. Trông vẫn quá rõ là lại kiểu marketing theo phong cách “Anthropic” mà thôi.

 
cosine20 2 ngày trước

Ngược lại, tôi lại thấy Opus 4.6, 4.7 bắt đầu trở nên kỳ lạ khi dùng tiếng Hàn ấy chứ haha

 

Những ai trước đây đã dựng harness bằng Claude thì thấy Claude tốt hơn, còn nếu mới dùng lần đầu thì GPT lại tốt hơn. Xét về hiệu quả chi phí thì GPT áp đảo, gói 20 đô là đã đủ rồi.

 
memevibe82 2 ngày trước

Theo tôi, với những người vốn đã làm phát triển phần mềm thì GPT 5.5 tốt hơn.

Còn với những người không phải dân phát triển thì Claude tốt hơn.

Nhưng cũng không cần tranh luận quá nhiều,

quan trọng nhất vẫn là tạo ra thứ gì đó hữu ích..

 

Nhìn chung có vẻ GPT 5.5 vượt trội hơn. Trước giờ tôi chỉ dùng Claude Code (Opus 4.7) thôi.. Có lẽ cũng phải bắt đầu dùng Codex nghiêm túc mới được.

 

Thực ra từ GPT-5 thì nó đã nhỉnh hơn trong kế hoạch và trừ phần thiết kế front-end.

Chỉ là cộng đồng phản ứng hơi chậm thôi..

 
unknowncyder 2 ngày trước

Tôi cũng đồng ý.
Trong suốt thời gian qua, trải nghiệm thực tế của tôi và phản ứng từ cộng đồng lại trái ngược nhau, nên tôi đã luôn cảm thấy có một khoảng cách.

 
love7peace 2 ngày trước

Đúng vậy.

 
treestae 1 ngày trước

Một năm trước tôi còn cực kỳ khuyến nghị Claude, nhưng dạo gần đây thì tôi cực kỳ khuyến nghị ứng dụng Codex.