- Claude Sonnet 4.5 là mô hình AI mới nhất thể hiện hiệu năng hàng đầu về lập trình, suy luận và toán học
- Claude Code được cập nhật bổ sung checkpoint, giao diện terminal được cải tiến, tiện ích mở rộng VS Code và tính năng quản lý bộ nhớ, cho phép duy trì các tác vụ phức tạp trong thời gian dài
- Claude Agent SDK mới được công bố cung cấp hạ tầng cốt lõi cho phát triển agent, giúp trực tiếp xây dựng nhiều công cụ giải quyết vấn đề khác nhau
- Trên các benchmark như SWE-bench và OSWorld, mô hình vượt xa các đối thủ cạnh tranh, chứng minh thế mạnh về toán học, suy luận và độ phù hợp theo miền
- Về mặt an toàn, đây cũng được đánh giá là mô hình có alignment tốt nhất, với khả năng phòng thủ trước prompt injection và chặn nội dung rủi ro được cải thiện
Tổng quan về Claude Sonnet 4.5
- Claude Sonnet 4.5 là mô hình lập trình tốt nhất hiện nay, đồng thời cho thấy hiệu năng mạnh nhất trong việc xây dựng agent phức tạp và sử dụng máy tính
- Trong mọi môi trường làm việc hiện đại mà chúng ta sử dụng như phần mềm, bảng tính và các công cụ khác, mã nguồn là yếu tố cốt lõi
- Khả năng suy luận và giải quyết bài toán toán học cũng được cải thiện rõ rệt so với các mô hình trước, nhờ đó tăng tính ứng dụng trong nhiều lĩnh vực chuyên môn
- Được cung cấp với mức giá giống Sonnet 4 trước đây ($3 / $15 cho mỗi triệu token)
Các cập nhật sản phẩm chính
- Claude Code
- Bổ sung tính năng checkpoint để lưu giữa chừng và hỗ trợ rollback trong quá trình làm việc
- Cải thiện giao diện terminal, ra mắt tiện ích mở rộng gốc cho VS Code
- Thêm context editing và công cụ bộ nhớ, hỗ trợ xử lý các tác vụ dài hạn và phức tạp
- Claude Apps
- Hỗ trợ trực tiếp chạy mã và tạo tệp (bảng tính, slide, tài liệu) ngay trong cuộc trò chuyện
- Claude for Chrome
- Cung cấp tiện ích mở rộng cho người dùng Max, hỗ trợ tự động hóa công việc trong trình duyệt
Claude Agent SDK
- Công bố cho các nhà phát triển bên ngoài hạ tầng agent mà Anthropic đã dùng nội bộ để tạo ra Claude Code
- Cung cấp nền tảng giải quyết những bài toán khó như quản lý bộ nhớ dài hạn, kiểm soát quyền hạn và điều phối nhiều sub-agent
- Có thể dùng để xây dựng nhiều loại agent khác ngoài lập trình
Hiệu năng và benchmark
- Đạt thành tích cao nhất trên SWE-bench Verified, có thể duy trì các tác vụ lập trình nhiều bước dài hạn trong hơn 30 giờ
- Đạt 61.4% trên benchmark OSWorld (Sonnet 4 trước đó là 42.2%)
- Năng lực trong đánh giá suy luận, toán học và đa ngôn ngữ (MMMLU) cũng được cải thiện mạnh, đồng thời cho thấy chất lượng vượt trội trong đánh giá của các chuyên gia tài chính, pháp lý, y khoa và STEM
- Qua phản hồi khách hàng, mô hình đã được kiểm chứng về khả năng ứng dụng production trong các công việc dài hạn, hiểu codebase phức tạp và triển khai mã nhanh, chính xác
Trường hợp khách hàng sử dụng
- Cursor: xác nhận hiệu năng hàng đầu trong giải quyết vấn đề phức tạp
- GitHub Copilot: cải thiện suy luận nhiều bước và khả năng hiểu mã
- Lĩnh vực bảo mật: rút ngắn 44% thời gian xử lý lỗ hổng, tăng 25% độ chính xác
- Canva, Figma: cải thiện năng suất đột phá trong làm việc với codebase lớn và tạo prototype
- Devin: hiệu năng lập kế hoạch tăng 18%, tăng cường khả năng kiểm thử và thực thi mã
An toàn và alignment
- Sonnet 4.5 có mức alignment cao nhất trong các mô hình mà Anthropic từng công bố
- Đã thực hiện huấn luyện tăng cường về an toàn nhằm giảm các hành vi không mong muốn như sycophancy, lừa dối, theo đuổi quyền lực và cổ vũ hoang tưởng
- Có tiến bộ đáng kể trong phòng thủ trước tấn công prompt injection, đồng thời áp dụng kỹ thuật diễn giải cơ chế vào đánh giá an toàn
- Tính toán điểm số tự động về khả năng bị lạm dụng thông qua hệ thống kiểm toán hành vi tự động, đáp ứng tiêu chuẩn an toàn cao
- Được phát hành dưới lớp bảo vệ AI Safety Level 3 (ASL-3), áp dụng bộ lọc cho đầu vào và đầu ra nguy hiểm (ví dụ: rủi ro liên quan đến hóa học, sinh học, bức xạ và hạt nhân)
Bản xem trước nghiên cứu
- Cùng với Claude Sonnet 4.5, Anthropic cung cấp bản preview nghiên cứu tạm thời có tên "Imagine with Claude"
- Trình diễn khả năng tạo phần mềm tức thời bằng cách phản hồi và thích nghi theo yêu cầu của người dùng trong thời gian thực, không cần mã hay chức năng được lập lịch sẵn
- Người đăng ký Max có thể trải nghiệm trong 5 ngày
Thông tin bổ sung và migration
Kết luận và khuyến nghị
- Claude Sonnet 4.5 là mô hình thay thế drop-in với hiệu năng được cải thiện cho mọi môi trường sử dụng như API, ứng dụng và Claude Code
- Mô hình hội tụ hiệu năng, tính ứng dụng và độ nhất quán ở đẳng cấp thế giới trong lập trình, xây dựng agent và sử dụng máy tính
- Với chính sách an toàn vượt trội và hệ sinh thái công cụ rộng cho nhà phát triển, mô hình sẽ tăng tốc năng suất và đổi mới cho các nhà phát triển và tổ chức CNTT
- Cung cấp năng lực mạnh hơn ở cùng một mức giá, vì vậy đáng để nâng cấp
1 bình luận
Ý kiến Hacker News
Cá nhân tôi thấy rất ấn tượng, và dù đây không hẳn là một so sánh toàn diện, cảm giác chung là nó cho hiệu năng nhỉnh hơn GPT-5-Codex một chút
Đặc biệt, tôi nghĩ nó thực sự tỏa sáng trong chế độ trình thông dịch mã Python/Node.js mới của claude.ai
Tôi khuyên nên thử dùng prompt như bên dưới
Nó cũng xử lý tốt một đợt refactor cơ sở dữ liệu phức tạp theo từng bước, tôi đã ghi chi tiết trong blog
Có một điều tôi muốn nhờ @simonw và những ai quan tâm tới benchmark LLM
Mong mọi người công khai cả thời gian hoàn thành tác vụ
Bài viết này là một trải nghiệm kiểu “chạy được ngay trên claude.ai”, nhưng không có thông tin timestamp cho biết kết quả xuất hiện khi nào
Ngay cả bảng xếp hạng coding LLM ngoài kia cũng hoàn toàn thiếu thông tin về thời gian thực hiện, điều này khá đáng tiếc
Giữa các mô hình và nền tảng, thời gian hoàn thành chênh lệch rất lớn; khi thử lặp lại/reboot hay cải thiện prompt thì tốc độ suy luận, lượng token tiêu thụ, hiệu quả tooling, chi phí và độ thông minh của mô hình đều cùng tác động
Đặc biệt, các mô hình như Grok Code Fast và Cerebras Code dù chưa phải mạnh nhất vẫn cho phép xử lý nhiều việc hơn nhờ tốc độ suy luận nhanh hơn hơn 10 lần; mô hình nhanh thật sự có lợi thế
Benchmark đáng tham khảo: swebench, bảng xếp hạng tbench, gosuevals agents
Tôi đã thử nhưng trong môi trường của tôi thì không hoạt động
Nghe nói đây là các lệnh để thiết lập công cụ LLM CLI; tùy chọn -e là cài ở chế độ editable, còn [test] là cài các dependency cho test
Công cụ tôi đang có không hỗ trợ shell command (pip, pytest), git clone hay chạy Python
Nó chỉ có thể chạy JavaScript trong môi trường trình duyệt, không thể thực thi lệnh ở mức shell
Tôi muốn hỏi bạn kỳ vọng điều gì ở đây: cần hiểu cách set up test, hay mong đợi chính tính năng đó hoạt động?
Dành cho những ai tò mò về ví dụ prompt kiểu “hãy đóng thành file zip”
Chắc nhiều người không có thời gian tự mở gist ra xem; nếu nó thực sự hoạt động tốt thì tôi muốn nghe thêm cảm nhận về kết quả
Tôi tò mò không biết Claude Sonnet 4.5 có còn trả lời mọi câu hỏi theo kiểu “bạn hoàn toàn đúng!” nữa không, hay giờ đã nói chuyện như một lập trình viên thực thụ rồi
Tôi thắc mắc vì sao bạn lại có được quyền truy cập bản preview sớm
Chia sẻ trải nghiệm thực tế
Tôi đã áp dụng cùng một prompt cho Sonnet 4.5 (Claude Code) và GPT-5-Codex trên một web app lớn khoảng 200 nghìn LoC
Yêu cầu là: “từ ‘Go to Conversation’ hoặc ‘Go to Report’, nếu nhập tiêu đề không khớp với phần tử chuẩn thì sau 2 giây hãy thực hiện fuzzy search”
Sonnet 4.5 đưa ra kết quả sau khoảng 3 phút, nhưng code khá cẩu thả, không tái sử dụng được auth hiện có mà lại định tạo mới auth phía server
Ngay cả khi chỉ ra vấn đề và re-prompt thì cũng không cải thiện đáng kể, và nó cũng không viết test dù đây là yêu cầu bắt buộc
Ngược lại, GPT-5-Codex mất khoảng 20 phút, nhưng xử lý rất kỹ error handling và nhiều edge case khác nhau, đồng thời còn viết test mà không cần chỉ dẫn riêng
API cũng hoạt động mượt mà, và xét về độ hoàn thiện tổng thể thì chất lượng ở mức một Senior developer
Tôi không muốn một bản triển khai “nhanh nhưng bẩn” trong 3 phút nên chắc chắn chọn phương án 20 phút
Tôi khá bất ngờ vì Sonnet cho ra kết quả nhanh như kỳ vọng, nhưng một triển khai thiếu chất lượng và không có test thì vô nghĩa
Tôi hơi lo nghe như đang chỉ trích, nhưng tôi nghĩ nếu bắt đầu bằng một prompt dạng câu đơn giản như vậy thì kết quả ít nhiều sẽ mang tính ngẫu nhiên
Điều quan trọng là phải nhóm logic và điều kiện chi tiết rõ ràng hơn, trong khi ví dụ prompt kia gần như là một câu chạy dài
Với công việc phức tạp hoặc quan trọng, tôi cho rằng prompt nên cụ thể tới mức dài gấp 5~20 lần
Nếu input có cấu trúc và codebase đã có pattern rõ ràng, AI cũng sẽ trả về kết quả tốt hơn nhiều
Ngoài đời, nếu bạn chỉ giao cho một Junior developer hay cả team một yêu cầu một câu ngắn gọn mà không giải thích chi tiết, thì việc kết quả không như mong muốn cũng là điều dễ hiểu
Tôi khuyên nên đầu tư thêm vài phút để chuẩn bị prompt ban đầu, khả năng có kết quả hài lòng sẽ cao hơn
Tôi muốn hỏi bạn có dùng gói ChatGPT Pro trả phí không, và Codex CLI có nằm trong đó không
Tôi đang dùng Sonnet/Opus nhờ gói Max của Claude, nhưng nếu ChatGPT Pro cũng dùng được Codex thì tôi sẵn sàng chuyển
Tôi cũng có trải nghiệm tương tự
Tuần trước tôi đã dùng Codex để phát triển thành công một parser XPath 1.0 C++20 hoàn chỉnh, và giờ đang tiếp tục hỗ trợ XPath 2.0
Codex liên tục cho kết quả xuất sắc, và ngoài việc phải dùng bản cloud (vì bản local khó dùng do bug) thì tôi không có vấn đề gì đáng kể
Sonnet liên tục mắc kẹt ở các tác vụ độ phức tạp cao, và với 4.5 tôi cũng không cảm nhận được bước tiến nào rõ rệt
Cụ thể, phần xử lý date-time thì Claude gần như bó tay, còn Codex làm rất hoàn hảo
Thật ra tôi vốn có thiện cảm với Anthropic, nhưng đến hiện tại thì OpenAI rõ ràng đang đi trước rất xa
Nếu muốn cạnh tranh với Codex, Claude cần tạo ra một bước đột phá quan trọng; chưa kể giá còn đắt và chất lượng dịch vụ có vấn đề nên người dùng rời đi khá nhiều
Điều đó khá khớp với kỳ vọng của tôi
Codex gần với một công cụ vibe coding hơn, còn Claude Code tập trung nhiều hơn vào hướng AI-assisted development
Tôi lại thích Claude hơn
Codex tự vận hành khá tốt, nhưng khi cần đổi hướng thì hơi cố chấp một cách khó chịu, ví dụ chỉ chỉnh một file rất đơn giản mà cũng cứ muốn xử lý bằng script Python, và khả năng cập nhật thông tin mới cũng chưa tốt
Ngay cả khi tôi yêu cầu giải thích, nó cũng có xu hướng chỉ muốn thực thi mà thiếu ngữ cảnh
Vấn đề quản lý quyền hạn cũng vẫn còn. Sandbox của Codex rất hay, nhưng tôi lại lo nó có thể commit nhầm, nên thà chỉ để nó chỉnh sửa thôi
Có thể dùng Codex như một MCP server, nhưng cá nhân tôi thích để Claude làm cộng tác viên lập kế hoạch, lên kế hoạch bằng Codex rồi cùng Claude và theo phong cách của mình để hoàn thiện việc cộng tác
Tôi cũng khuyên thử thêm
ultrathinkvào prompt và bật nhạc lên khi thử nghiệmTham khảo: liên kết Reddit về ultrathink
Nhìn khả năng của các mô hình gần đây khiến tôi cảm thấy chán nản
Những bí quyết nhỏ nhặt để viết code sạch mà tôi tích lũy suốt nhiều năm dường như đang biến thành các chi tiết vô nghĩa
Những gì trước đây tôi xem là cốt lõi giờ lại dần trở thành “chi tiết triển khai” trong prompt
Cảm giác như năng lực của tôi đang dần bị tự động hóa thay thế
Những bí quyết chi tiết đó vốn dĩ từ đầu cũng có tầm quan trọng khá mơ hồ; kỹ năng thực sự rốt cuộc vẫn là toàn bộ quá trình kiếm tiền bằng phần mềm
Vì AI, sẽ có còn nhiều phần mềm được tạo ra hơn nữa, và sẽ cần chuyên gia quản lý chúng
Tôi cũng từng cảm thấy khủng hoảng như vậy trong hơn 4 tuần đầu, khi tập trung làm việc vài tháng trong một vai trò chuyên về AI
Đặc biệt, tôi thấy bối rối vì có cảm giác 25 năm năng lực phát triển phần mềm mình tích lũy trở nên vô nghĩa
Nếu bạn chấp nhận và thích nghi thêm một chút, mọi thứ sẽ ổn hơn rất nhiều
Tôi thật sự muốn bạn nhớ rằng bạn còn nhiều hơn cả kỹ năng viết code của mình
Trước đây có lẽ bạn vui vì người khác bị tự động hóa thay thế, giờ chỉ là đến lượt bạn thôi
Đó chính là hiện tượng “phá hủy sáng tạo” làm cho nền kinh tế vận động năng động
Trước đây tôi cũng nghĩ vậy, nhưng gần đây sau khi dùng thực tế thì kết luận là nó không hữu ích đến thế
Đặc biệt, khi người thiếu kinh nghiệm dựa vào vibe coding thì kết quả thường vô nghĩa, và chỉ cần tác vụ hơi phức tạp một chút là lỗi/sai sót nghiêm trọng xảy ra rất thường xuyên
Tự động hóa frontend cũng không làm tôi hài lòng; ví dụ ngay cả tác vụ rất đơn giản nó cũng tạo ra lượng code dài hơn mức cần thiết
Rốt cuộc nó chỉ làm tốt các frontend react/nextjs cơ bản và clone các site phổ biến, còn các yêu cầu khác thường hay thiết kế tinh vi thì khá khó
Thực tế là các công cụ vibe coding không làm tăng năng suất nhiều đến vậy
Tóm lại, con người vẫn phải chịu trách nhiệm bảo trì hệ thống (code/hạ tầng, v.v.), và quá trình con người hiểu được cấu trúc cũng như nguyên lý hoạt động của hệ thống là điều tuyệt đối không thể tự động hóa
Cuối cùng, những developer có tư duy chuyên gia sẽ trở thành nguồn lực hiếm và vì thế còn quan trọng hơn nữa
Tôi đã giao cho Sonnet 4 và Opus 4.1 một tác vụ thay thế code đơn giản nhưng cả hai đều thất bại
Đó là kiểu chuyển đổi mà ngay cả người mới cũng làm được, nhưng tôi lo các mô hình đang mải chạy theo điểm benchmark mà lại bỏ lỡ hiệu năng thực tế
Sau khi tôi đưa prompt tiếp theo kiểu “hãy làm đúng chính xác yêu cầu của tôi”, Sonnet thành công còn Opus thì rơi vào vòng lặp vô hạn
Từ lâu đã có lo ngại rằng sự ám ảnh với benchmark có thể gây hại cho hiệu năng thực tế
Với tôi, Claude từ 3.7 lên 4 thì trải nghiệm thực tế lại tệ hơn, trong khi benchmark tăng mạnh
Tôi cũng hiểu rằng bản thân việc benchmarking đang là một bài toán bị tụt hậu so với tốc độ phát triển AI
Về cơ bản, tôi nghĩ chu kỳ vẫn cứ lặp lại kiểu “chạy benchmark để đạt điểm cao nhất → ngoài đời hiệu năng giảm → vài tuần sau lại tung mô hình tốt hơn”
Các mô hình đều đang tham chiếu cùng nguồn dữ liệu (internet, github, sách, v.v.) và tối ưu cho các bài test chuẩn hóa, nên tôi không rõ ngoài điểm số thì còn lại sự khác biệt hay giá trị riêng nào nữa
Giờ tôi nghĩ nên gom các ví dụ LLM xử lý sai vào một cơ sở dữ liệu cộng đồng, trong tay tôi cũng có khá nhiều trường hợp như vậy
Những yêu cầu đơn giản như sửa một lỗi lint thì tôi nghĩ tự xử lý rồi đi tiếp còn hơn
Thay vì cố gán ý nghĩa cho từng tác vụ nhỏ như vậy, nên tìm giá trị ở chỗ AI cho ra kết quả xuất sắc trong những vấn đề phức tạp hơn nhiều
Trên biểu đồ thì Sonnet 4 dường như đã vượt GPT-5-codex ở benchmark SWE verified, nhưng trải nghiệm thực tế của tôi là với bài toán phức tạp thì GPT-5-codex vượt trội hơn hẳn
GPT-5 giống một đồng đội bóng chày đánh home run giỏi nhưng kỹ năng cơ bản ở vị trí outfielder lại thiếu vững
Ngay cả khi phối hợp với các agent khác nó cũng thường xuyên tạo drama, và gần đây khi tôi nói sẽ chuyển sang claude code thì nó lại khăng khăng đòi
git reset --hard, hành vi rất khó lườngNgược lại, gemini và claude là những cộng tác viên tuyệt vời
Tôi không nghĩ chuỗi sự việc này là điều được chủ đích cho GPT-5, mà có lẽ là kết quả của tinh thần nội bộ ở OpenAI đang xuống rất nhiều
Trường hợp của tôi thì 5-codex tiêu tốn token quá nhanh, và cũng tuân thủ chỉ dẫn trong agents.md kém hơn Claude
Đặc biệt, ngay cả với lệnh không có gì đáng nói nó cũng muốn viết những script bash hoặc python thật hoành tráng
Trường hợp của tôi thì ngược hẳn: GPT-5-codex rất chậm và kết quả cũng bình thường
Nếu bị ép phải dùng nó thì tôi thà bỏ luôn việc dùng AI
Tôi không nghĩ hiệu năng mô hình có một chuẩn tuyệt đối
Ví dụ, ngay cả khi chỉ định Claude-Opus thì đôi lúc câu trả lời vẫn còn tệ hơn mô hình siêu rẻ
Mức dao động hiệu năng khá lớn, có lẽ vì tài nguyên server thay đổi theo tình trạng lưu lượng
Anthropic trước đây cũng từng chính thức nhắc tới việc hiệu năng suy giảm do ảnh hưởng từ các thử nghiệm
Tôi cũng nghĩ GPT vào giờ cao điểm có thể bị giảm hiệu năng do vấn đề dung lượng data center
Các mô hình của Anthropic có vẻ được tuning cho vibe-coding
Chúng hợp với Python/TypeScript đơn giản, nhưng yếu ở code khoa học/phức tạp và các codebase quy mô lớn
Tôi cũng không kỳ vọng Sonnet mới sẽ có thay đổi lớn
Tôi rất để ý tới câu quảng bá “thực hiện tác vụ phức tạp nhiều bước mà không mất tập trung trong hơn 30 giờ”
Theo bài viết của The Verge và các nguồn khác, người ta nói nó đã liên tục tạo một bản clone Slack trong 30 giờ bằng cách tận dụng 11.000 dòng code
Tôi vẫn hoài nghi rằng khi để LLM chạy không giám sát suốt 30 giờ thì chất lượng đầu ra thực tế sẽ đến đâu
Bài viết liên quan
Chạy liên tục 30 giờ không phải thứ có thể đạt được chỉ bằng cách để riêng LLM tự làm
Bắt buộc phải có cấu hình môi trường như tích hợp công cụ bên ngoài, quản lý ngữ cảnh, v.v.
Thậm chí còn cần thiết lập hệ thống đa agent
Đó là kiểu công việc đòi hỏi rất nhiều công sức về hạ tầng và cấu hình
Cụm “làm việc không giám sát trong 30 giờ” bản thân nó quá mơ hồ nên không có nhiều tính cụ thể
Ví dụ, nếu mỗi giờ chỉ xử lý 1 token thì trong 30 giờ cũng có thể mới chỉ tới bước viết được một dòng
Tôi tò mò không biết các công cụ quản lý context của mô hình có thực sự được sử dụng hay không, và prompt 200 nghìn đến 1 triệu token đã được vận hành theo cách kỹ thuật nào
Tôi vừa thử nghiệm nhanh một issue đơn giản, và giống các mô hình trước, Sonnet 4.5 cũng sa vào hố thỏ bằng cách tiếp cận vấn đề quá phức tạp
Phần lớn chỉ là trial & error, lặp đi lặp lại kiểu phản hồi “giờ chắc vấn đề đã được giải quyết rồi”
Ví dụ, có lỗi trong pipeline GH Actions là build system không được nhận diện vì thiếu source file; Sonnet 4.5 cứ lặp đi lặp lại những cách giải sai lệch như tạo file JSON giả, hay đặt tham số workflow không tồn tại
Trong khi đó, chỉ cần override step để nó in ra “Hello world” là xong
Tôi tò mò vì sao AI lại yếu trong kiểu tư duy đơn giản “ra ngoài chiếc hộp” như vậy
Cảm giác như một thiên tài IQ 170 nhưng lại không biết đi phương tiện công cộng
Tôi đang trả phí cho cả Gemini, Claude và OpenAI, và gần đây đi tới kết luận rằng ChatGPT đang dẫn trước khá xa
Câu trả lời ngắn gọn hơn, giàu thông tin hơn, và khi thử Claude 4.5 thì tôi cũng không cảm thấy có cải thiện lớn
Tôi cũng giống vậy, đăng ký cả ba dịch vụ
Phân tích tình huống phức tạp thì ChatGPT là tốt nhất, nhưng riêng viết code thì Claude làm tốt hơn
Tôi dùng ChatGPT để thiết kế và giải quyết vấn đề, rồi chuyển câu trả lời đó cho Claude hoặc Gemini để triển khai
Gemini thì cả hai mặt đều ở mức trên trung bình
Tổng thể thì ChatGPT có phần tốt hơn, nhưng Gemini cũng có thể trở thành tốt nhất trong bối cảnh sử dụng thực tế nếu tận dụng AI Studio, tối ưu cấu hình và điều chỉnh system prompt
Ví dụ, nano banana là SOTA nhưng Qwen-Edit ít bị kiểm duyệt hơn nên tôi thấy tính thực dụng cao hơn
Trong dịch vụ thương mại điện tử bản địa hóa mà tôi đang vận hành, nano banana không dùng được vì hạn chế tạo hình ảnh phụ nữ, còn Qwen-Edit thì dùng khá ổn không vấn đề gì
Tôi cũng trả phí cả Claude Max lẫn ChatGPT Codex
Trước đây tôi là fan của Claude nhưng dạo gần đây gần như chỉ dùng codex
Khi bị kẹt thì tôi chỉ giao Claude các việc đơn giản hoặc chạy thử song song, nhưng Claude Code với Sonnet/Opus cho kết quả rõ ràng kém hơn Codex
Mong bạn làm rõ là bạn đang nhắc tới codex phải không
Tôi cũng tò mò Grok thế nào, liệu có đang bắt kịp không
Tôi vẫn chưa dùng Claude, nhưng tôi đang dùng AI cho nhiều việc khác nhau như hiệu đính các bài viết chính trị
Với một số chủ đề nhạy cảm cụ thể, tôi từng gặp cảnh ChatGPT dừng hẳn vì guardrail
Việc chỉ phát hiện các từ như “sex + kid” rồi chặn tuyệt đối bất kể ngữ cảnh thực tế là điều tôi không thể chấp nhận
Nó giống như một trình xử lý văn bản kiểm duyệt chủ đề và chặn luôn việc soạn thảo, nên tôi thấy nó không làm tròn vai trò của một công cụ
Thực tế, với các chủ đề như vậy, tỷ lệ nội dung không thể chấp nhận được cao hơn quá nhiều so với hội thoại hợp pháp, nên từ góc độ đa số nhà cung cấp dịch vụ thì chặn là hợp lý
Ví dụ, tôi từng gặp tình huống rất khó xử khi ứng dụng quản lý phả hệ động vật thân tộc mà tôi phát triển chỉ cần có các từ breeding/breeders là cũng bị chặn
Tôi cho rằng “dịch vụ” không phải là công cụ
Nếu bạn cần một công cụ thật sự thì câu trả lời là tự chạy LLM ở local
Cuối cùng, tôi nghĩ AI có ít guardrail nhất sẽ chiếm lĩnh thị trường
Trong số các frontier model hiện nay thì Grok là bên ít hạn chế nhất, nhưng vẫn còn nhiều chỗ để cải thiện
Tương tự, khi tôi dùng ChatGPT/DallE để tạo hình coupon sinh nhật cho con gái, thì 3/4 tổng thời gian bị tiêu tốn chỉ để lách qua các chính sách nội dung khác nhau
Theo trải nghiệm khiêm tốn của tôi, Claude còn chặn hội thoại ở các chủ đề “gây tranh cãi” nhanh và mạnh hơn nhiều
Tôi đã thử một bài test nhanh cùng với System Initiative
Một lỗi hạ tầng 503 mà làm thủ công phải mất hơn 2 giờ, nhưng khi kết hợp lại thì chỉ mất 15 phút để giải quyết
Các trường hợp sử dụng khác tôi có ghi lại trong blog
System Initiative chính thức
Blog chia sẻ trải nghiệm