1 điểm bởi GN⁺ 2 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Đã code với Claude/Anthropic suốt 3 tháng, nhưng độ tin cậy khi làm việc ở quy mô repo giảm xuống, đến mức cần một workflow giám sát riêng
  • giai đoạn 4.7, mô hình hay ảo giác rằng tính năng đã hoàn tất dù phần triển khai thực tế chỉ khoảng 40%, đồng thời tỏ ra quá tự tin quanh các stub/placeholder
  • Dù trả mức phí Max x20, gánh nặng tiêu thụ token và giám sát lại lớn hơn lợi ích năng suất, nên ngày 12/5 đã chuyển sang GPT-5.5 + Codex
  • Codex hiểu mã lân cận tốt hơn mà không cần prompt quá mức, bắt hồi quy tốt hơn, giúp vòng lặp lint/test và các đợt refactor quy mô lớn trở nên có thể quản lý
  • Việc chuyển đổi gần như chỉ là đổi CLAUDE.md→AGENTS.md và giữ nguyên hooks, và với workflow này thì không có ý định quay lại

Luồng phát triển đã thay đổi ra sao sau khi chuyển từ Claude sang Codex

  • Trong 3 tháng qua chủ yếu code với Claude/Anthropic; vào thời điểm Opus 4.6 ra mắt, các điểm mạnh được cảm nhận là hiểu kiến trúc, xử lý ngữ cảnh lớn và triển khai tính năng nhanh
  • Theo thời gian, độ tin cậy trong các tác vụ ở quy mô repo giảm dần, đến mức cần một workflow riêng để giám sát mô hình
    • Nhiều agent để kiểm tra hồi quy ở các file lân cận
    • Agent “senior reviewer” gắn vào mỗi commit quan trọng
    • Xác minh liên tục để phát hiện drift trong triển khai và các phần cài đặt chưa hoàn thiện
    • Pipeline lint/test để bắt những tác vụ mà mô hình tự tin tuyên bố là đã xong
  • giai đoạn 4.7, các vấn đề trong workflow cá nhân còn rõ rệt hơn
    • Ảo giác rằng tính năng đã hoàn tất dù phần triển khai thực tế chỉ ở mức khoảng 40%
    • Thể hiện sự tự tin vô căn cứ quanh các stub/placeholder
    • Xuất hiện hành vi né tránh như nói rằng “cần một session riêng” hoặc ước lượng tiến độ quá mức ngay cả với những thay đổi thực tế hoàn toàn khả thi
  • Dù đang trả mức phí Max x20, cảm nhận rõ hơn lại là mức tiêu thụ token tăng và gánh nặng giám sát tăng, chứ không phải cải thiện năng suất
  • Cuối cùng, vào ngày 12/5 đã chuyển sang GPT-5.5 + Codex, và việc code với AI sau nhiều tháng bắt đầu giống cảm giác dễ chịu hơn là căng thẳng

Những ưu điểm cảm nhận được với GPT-5.5 + Codex

  • Codex hiểu mã lân cận tốt ngay cả khi không cần prompt quá mức, và bắt hồi quy tốt hơn
  • Vòng phản hồi lint/test hoạt động chặt chẽ hơn, và refactor quy mô lớn cũng thực sự trở nên có thể quản lý
  • Các quyết định về hạ tầng và thay đổi kiến trúc diễn tiến theo một hướng nhất quán thay vì rời rạc, và mô hình có xu hướng hoàn thành công việc thật sự hơn là chỉ tỏ ra như đã xong
  • Hầu như tránh dùng /fast vì có vẻ sẽ đốt nhanh hạn mức theo tuần, nhưng chỉ với high/xhigh thôi cũng đã cải thiện năng suất đáng kể
  • Khi đưa file zip của toàn bộ repo vào GPT-5.5 Pro extended thinking, nó giúp giải quyết những vấn đề mà các mô hình khác đã liên tục thất bại
  • Việc chuyển đổi cũng không có ma sát đáng kể
    • CLAUDE.md được chuyển thành AGENTS.md
    • hooks được giữ nguyên
    • Hầu như không cần thay đổi toàn bộ workflow
  • Điều này không có nghĩa là ai cũng phải chuyển ngay lập tức, nhưng với workflow này thì trước mắt không có ý định quay lại

1 bình luận

 
Ý kiến trên Hacker News
  • Công cụ AI không phải kiểu như chọn đội thể thao yêu thích rồi chỉ cổ vũ một bên. Cứ học cả hai, nếu được thì học hết, rồi dùng thứ hợp nhất trong tuần này
    Tháng sau có thể lại khác. Tôi dùng hai gói thuê bao, nhưng cũng hiểu là không phải ai cũng làm vậy được

    • Đúng là bây giờ không khí đang như thế, nhưng phần lớn là vì con người có xu hướng cảm thấy như thể nếu ai đó chọn phương án khác thì đồng nghĩa đang nói mình sai
      Các công cụ đều ổn, có người đạt kết quả tốt hơn với bên này hay bên kia, và như đã nói, sang tuần mọi thứ hoàn toàn có thể khác
    • Tôi cũng vậy, bên nào hợp với mình ở thời điểm hiện tại thì tôi dùng bên đó, và vẫn tiếp tục kiểm thử, tiếp tục thử nghiệm
    • Chuẩn. Các model vẫn đang thay đổi liên tục. Hôm nay là Anthropic, ngày mai là OpenAI, rồi lại Anthropic, tuần sau có thể là một đối thủ mới từ Trung Quốc, tháng sau biết đâu Google lại tỉnh táo ra. Cứ lặp đi lặp lại vậy
    • Tôi đã dùng thử Codex và Gemini khoảng một tuần, và đến giờ thì Codex là thứ hợp tôi nhất
      Nhưng vì tôi tìm được phiếu giảm giá premium 18 tháng giá 15€ trên Kinguin nên cũng dùng Gemini, thành ra khi chạm quota thì tôi chuyển một số việc sang Gemini
  • Opus 4.7 cho cảm giác tập trung vào việc tỏ ra hữu ích và năng suất, cũng như kiểu trình diễn cho có
    Codex thì thực sự làm xong việc

  • Sẽ rất hay nếu bạn có thể chia sẻ thêm một chút về quy trình làm việc của mình. Tôi muốn học xem bạn làm gì và làm như thế nào để thử làm theo
    Tôi cũng tò mò vì sao bạn đưa toàn bộ kho mã vào GPT, và bạn dùng những công nghệ cùng sách nào
    Tôi thì nhập prompt, chờ Codex làm xong, rồi lại hỏi xem nó có xử lý những việc phụ cận hiển nhiên mà trước đây tôi tự làm hay chưa. Lúc đó nó mới làm tiếp, sau đó tôi dành thời gian cho /review và kiểm thử thủ công, rồi lại quay về các đơn vị công việc nhỏ. Với các tính năng lớn thì tôi dùng plan, cũng dùng tiện ích mở rộng VSCode, và đã thử cả 5.4 lẫn 5.5 nhưng có vẻ bản trước hợp với tôi hơn

  • Ở đây có thể dùng model không phải của OpenAI bằng cách nào?

  • Vấn đề của Claude là nó không chạy liên tục như Codex. Claude có thể tốt hơn, nhưng Codex cố hoàn thành công việc đến cùng
    Claude thì cứ dừng lại, mà kể cả có khả năng đó đi nữa thì cũng quá đắt nên chắc khác biệt không lớn. Có thể nó tương đương hoặc tốt hơn, nhưng giờ thì tôi không còn rõ nữa và cũng không dùng nữa. 4.5 là tốt nhất vào lúc mới ra mắt

  • Tôi cũng từng thấy Codex như phép màu, nhưng cứ chờ đến lúc nó hỏng là được. Ba ngày trước tôi cũng nghĩ vậy, còn bây giờ thì thành thật mà nói tôi thấy nó còn tệ hơn Claude
    Tôi dùng 24/7 với 5 tài khoản Pro, nên có thể khẳng định là nó không còn như một tuần trước nữa và bây giờ thật sự tệ đi rất nhiều

    • Altman đã thừa nhận vào thứ Năm/thứ Sáu rằng trạng thái của Codex rất tệ, và họ đang cố tìm xem điều gì đã thay đổi
    • Có hiện tượng suy giảm hiệu năng do vấn đề caching, và cũng đã có tweet nói về chuyện này. Giờ họ đã rollback và hiệu năng được nói là đã quay về mức cơ sở
    • 5 tài khoản Pro, ý bạn là tài khoản Plus à?