25 điểm bởi GN⁺ 13 ngày trước | 16 bình luận | Chia sẻ qua WhatsApp
  • Cộng đồng Reddit r/codex đang thảo luận so sánh hiệu năng coding của hai mô hình, và đa số người dùng hiện ủng hộ GPT 5.5 vượt trội hơn
  • GPT 5.5 nổi bật ở độ ổn định và độ chính xác, trong khi Opus 4.7 bị phàn nàn nhiều về suy giảm hiệu năng gần đây và vấn đề giới hạn sử dụng
  • Cũng có đánh giá cho rằng Opus 4.7 vẫn nhỉnh hơn đôi chút trong mảng frontend/UI design
  • Nhiều người dùng chỉ ra việc Claude(Opus) bị thiếu tài nguyên tính toán dẫn đến bị hạ hiệu năng (lobotomize), từ đó đặt câu hỏi về độ tin cậy
  • Cũng có ý kiến cho rằng hiệu năng của các mô hình AI sẽ tiếp tục cải thiện, nên về dài hạn, khả năng tiếp cận, giá, giới hạn sử dụng và chính sách kiểm duyệt có thể trở thành tiêu chí lựa chọn quan trọng hơn lợi thế hiện tại

So sánh hiệu năng coding tổng thể

  • Phần lớn bình luận đồng ý rằng GPT 5.5 vượt trội trong coding/lập trình nói chung
  • GPT 5.5 nhanh, có năng lực tốt và chú ý đến chi tiết hơn Opus 4.7
  • GPT 5.5 hiệu quả trong việc sửa bug và phát hiện dependency bị thiếu
  • Cũng có nhận xét rằng bản thân năng lực code thuần túy của Opus 4.7 là tương đương, nhưng nó có xu hướng "lười" (lazy), đôi khi chỉ làm ở mức tối thiểu
  • GPT 5.5 có xu hướng đánh giá phạm vi ảnh hưởng của đoạn code và nắm các điểm cần cân nhắc trước khi hành động, trong khi Opus 4.7 lại thiên về nhanh chóng tạo ra giải pháp ở mức trung bình

UI/frontend design

  • Trong các tác vụ thiết kế và frontend, Opus 4.7 cho ra kết quả nhỉnh hơn đôi chút
  • Tuy vậy, cũng có trường hợp GPT 5.5 triển khai gần như hoàn hảo chỉ trong một lần (one-shot) thiết kế website cho ban nhạc chỉ từ logo
  • Kết quả cho công việc UI/UX của Codex thay đổi tùy theo chất lượng prompt và việc có cung cấp gợi ý trực quan hay không
  • Có khuyến nghị chiến lược kết hợp: dùng GPT 5.5 để xây nền tảng và cấu trúc, rồi dùng Opus 4.7 để tinh chỉnh thiết kế frontend
  • Cũng có đề xuất tận dụng các công cụ miễn phí như Meta Muse Spark để bổ sung cho phần UI

Vấn đề ổn định và giới hạn sử dụng của Opus 4.7

  • Nhận định rằng Opus 4.7 đã bị hạ hiệu năng do thiếu tài nguyên tính toán khi lượng người dùng mới tăng đột biến hiện đang khá phổ biến
  • Có nhiều phàn nàn rằng 4.7 (và 4.6) đã nhiều lần bị giảm sức mạnh (nerfed)
  • Có báo cáo rằng Opus 4.7 trong chế độ max effort xuất hiện nhiều hallucination
  • Có trường hợp một prompt chưa hoàn tất trong phiên 18 phút đã tiêu tốn giới hạn sử dụng tương đương 5 giờ
  • Nhiều người đánh giá giới hạn dùng Opus trong gói Claude Pro $20 là rất ngặt nghèo

Ưu và nhược điểm của GPT 5.5

  • GPT 5.5 ổn định và duy trì chất lượng nhất quán mà không có dấu hiệu tụt hiệu năng (regress)
  • Có người dùng nhận xét rằng họ vẫn chưa thấy nó tạo ra thông tin sai
  • Tuy nhiên, nó cũng có xu hướng "lười", chỉ làm đúng mức tối thiểu theo những gì được nêu trong prompt, nên thường cần prompt chi tiết hoặc quy trình lập kế hoạch/hỏi đáp trước
  • Nó có xu hướng tiêu thụ token nhiều hơn
  • So với GPT 5.4 (gói $20), bản 5.5 tiêu tốn giới hạn sử dụng gấp đôi nhưng mức cải thiện benchmark chỉ khoảng 2~5%, nên cũng có nghi vấn về hiệu quả chi phí

So sánh giá và gói thuê bao

  • Với nhu cầu cá nhân, có ý kiến cho rằng gói ChatGPT Pro $100 có hiệu quả chi phí rất tốt
  • Có khuyến nghị kết hợp Codex với Kimi $10 hoặc Gemini $22 để bổ sung cho công việc UI
  • Nếu đã dùng Google Storage thì Gemini thực tế chỉ tương đương khoảng $10~15
  • Cũng có người dùng đang cân nhắc chuyển hoàn toàn từ tài khoản Claude Max sang GPT Plus

Góc nhìn dài hạn

  • Có ý kiến cho rằng chỉ trong vài tháng tới, mọi mô hình bao gồm cả các mô hình Trung Quốc sẽ đạt mức từ Opus 4.6 trở lên và có thể được cung cấp với giá thấp hơn
  • Khác biệt quan trọng trong tương lai được dự báo sẽ nằm ở khả năng tiếp cận, giá, giới hạn sử dụng, kiểm duyệt và năng lực nhận thức ngữ cảnh, hơn là bản thân hiệu năng mô hình
  • Dù hiện tại GPT 5.5 đang nhỉnh hơn, vẫn có lo ngại rằng Codex rồi cũng có thể bị hạ hiệu năng, giống như cách Claude từng suy giảm sau thời kỳ đỉnh cao
  • Cũng có sự quan tâm tới việc so sánh với các mô hình khác như Kimi 2.6, GLM và MiniMax

16 bình luận

 
dicebattle 12 ngày trước

Tưởng rằng âm thầm vá ngầm để hạ hiệu năng thì sẽ không ai nhận ra, nhưng thật ra trực giác của con người cũng sắc bén hơn tưởng tượng nhiều, nên chỉ cần tổng hợp cảm nhận của tôi + những gì mọi người trong cộng đồng nói là ra đáp án ngay.

"Vậy rốt cuộc mày làm được gì đâu, haha" nên đành phải dùng thôi....

 

Từ thời 3.5 tôi luôn dùng Claude làm chính, nhưng từ 5.5 thì tôi bắt đầu dùng GPT làm chính. Khá ổn đấy.

 
tkddls8848 12 ngày trước

Hay là chỉ lập kế hoạch bằng Claude rồi chỉ thực thi bằng Codex?

 

Dạo này tôi cũng đang làm như vậy. Chỉ là chính sách sandbox của Codex CLI quá chặt, nên khi giao cả việc build và test cho nó thì khá là bất tiện.

 

Cả hai đều nói năng nghe thật bực mình. Mà thôi, cả hai cũng lười nữa, làm mà còn bỏ sót cả những gì được yêu cầu.

 
jimmy2056 13 ngày trước

Cái này hoàn toàn giống với cảm nhận của tôi, nên tôi đang trả gói 100 USD của GPT để dùng.
Còn Claude bản 200 USD thì tôi đang nghĩ có nên hạ xuống gói 100 không.

 

codex 5.4 dùng tiếng Hàn khá kỳ, nhưng về hiệu năng thì đã vượt opus 4.6 và opus 4.7 rồi (rào cản là cách hành văn kỳ lạ / kiểu như 열었습니다, 닫았습니다, 밀겠습니다, v.v.)

codex 5.5 thì cách nói cũng đã bình thường hơn, lại còn cẩn thận và thông minh hơn nhiều; opus 4.7 = rất lười, cảm giác rất rõ là đang tiết kiệm chi phí suy luận, thậm chí còn có cảm giác như thụt lùi so với opus 4.6

 
dicebattle 12 ngày trước

Nếu ở thời mẫu 5.3 chuyên cho codex, cảm giác đúng là như đang nói chuyện với một nhân viên cấp dưới chỉ giỏi code nhưng gần như không biết mở lời,
thì từ 5.4 nó bắt đầu nói năng từng chút một, và từ 5.5 thì có vẻ như đã tỉnh táo lại được một nửa.
Đến giờ nó vẫn có lúc gọi API là “hợp đồng”, hay thỉnh thoảng lại tuôn ra kiểu trộn tiếng Anh với tiếng Hàn một cách điên cuồng, nên đôi khi vẫn phải ghi kiểu “hãy giải thích cho dễ hiểu, và nói với ít tiếng Anh nhất có thể”.

Dù vậy, về hiệu năng sinh code thì theo cảm nhận của tôi, từ mốc 5.4 nó đã vượt opus rồi. Opus 4.7 có ra nhưng tôi còn chưa buồn thử qua. Trông vẫn quá rõ là lại kiểu marketing theo phong cách “Anthropic” mà thôi.

 

Ngược lại, tôi lại thấy Opus 4.6, 4.7 bắt đầu trở nên kỳ lạ khi dùng tiếng Hàn ấy chứ haha

 

Những ai trước đây đã dựng harness bằng Claude thì thấy Claude tốt hơn, còn nếu mới dùng lần đầu thì GPT lại tốt hơn. Xét về hiệu quả chi phí thì GPT áp đảo, gói 20 đô là đã đủ rồi.

 
memevibe82 13 ngày trước

Theo tôi, với những người vốn đã làm phát triển phần mềm thì GPT 5.5 tốt hơn.

Còn với những người không phải dân phát triển thì Claude tốt hơn.

Nhưng cũng không cần tranh luận quá nhiều,

quan trọng nhất vẫn là tạo ra thứ gì đó hữu ích..

 

Nhìn chung có vẻ GPT 5.5 vượt trội hơn. Trước giờ tôi chỉ dùng Claude Code (Opus 4.7) thôi.. Có lẽ cũng phải bắt đầu dùng Codex nghiêm túc mới được.

 

Thực ra từ GPT-5 thì nó đã nhỉnh hơn trong kế hoạch và trừ phần thiết kế front-end.

Chỉ là cộng đồng phản ứng hơi chậm thôi..

 
unknowncyder 12 ngày trước

Tôi cũng đồng ý.
Trong suốt thời gian qua, trải nghiệm thực tế của tôi và phản ứng từ cộng đồng lại trái ngược nhau, nên tôi đã luôn cảm thấy có một khoảng cách.

 
love7peace 12 ngày trước

Đúng vậy.

 

Một năm trước tôi còn cực kỳ khuyến nghị Claude, nhưng dạo gần đây thì tôi cực kỳ khuyến nghị ứng dụng Codex.