- Claude Haiku 4.5 là một mô hình cỡ nhỏ nhưng vẫn mang lại hiệu năng lập trình ở mức Claude Sonnet 4 với chi phí chỉ bằng một phần ba và tốc độ nhanh hơn hơn 2 lần
- Trên các benchmark phát triển thực tế như SWE-bench Verified, mô hình cho thấy hiệu quả và độ phản hồi khi coding bằng AI vượt qua thế hệ trước
- Khi kết hợp với Sonnet 4.5, có thể triển khai cấu hình đa tác nhân hoặc chia nhỏ và thực thi các bài toán phức tạp, phù hợp với công việc thời gian thực và môi trường độ trễ thấp
- Có thể tận dụng ưu thế trí tuệ cao và tốc độ trong chatbot thời gian thực, hỗ trợ khách hàng, pair programming và nhiều tình huống khác
- Kết quả đánh giá an toàn cho thấy đây là mô hình có mức độ căn chỉnh cao nhất trong các mô hình Anthropic, được phát hành theo chuẩn AI Safety Level 2(ASL-2)
- $1/$5 cho mỗi một triệu token đầu vào/đầu ra
Giới thiệu
- Claude Haiku 4.5 là dòng mô hình cỡ nhỏ mới nhất của Anthropic, được cân bằng giữa hiệu năng, tốc độ và hiệu quả chi phí cho mọi người dùng
- Mô hình thể hiện năng lực lập trình tương đương Claude Sonnet 4, trong khi chi phí chỉ bằng một phần ba và tốc độ nhanh hơn hơn 2 lần
- Ở một số tác vụ nhất định (như sử dụng máy tính), mô hình còn cho hiệu năng cao hơn Sonnet 4
- Đặc biệt trong các công cụ thời gian thực như Claude for Chrome hay Claude Code, mô hình mang lại môi trường hỗ trợ AI gần như không có độ trễ
Tính năng chính và trường hợp sử dụng
- Phù hợp với công việc thời gian thực, độ trễ thấp, giúp chatbot, dịch vụ khách hàng, pair programming và các tình huống tương tự đạt hiệu quả cao
- Với người dùng Claude Code, mô hình cho thấy độ phản hồi nhanh trong các dự án đa tác nhân, tạo mẫu nhanh và các tác vụ tương tự, mang lại hiệu năng lý tưởng
- Hiện tại Sonnet 4.5 vẫn là mô hình đầu bảng, nhưng Haiku 4.5 mang lại hiệu năng tương tự cùng hiệu quả chi phí cao
- Cũng có thể dùng hai mô hình cùng nhau; ví dụ Sonnet 4.5 có thể phân rã bài toán phức tạp để nhiều Haiku 4.5 xử lý song song các tác vụ con
- Claude Haiku 4.5 khả dụng toàn cầu từ hôm nay, và nhà phát triển có thể dùng ngay trong Claude API với tên
claude-haiku-4-5
- Mức giá là $1/$5 cho mỗi một triệu token đầu vào/đầu ra
Benchmark và đánh giá người dùng
- Haiku 4.5 là một trong những mô hình mạnh nhất mà Anthropic từng phát hành
- Nhiều công ty như Augment, Warp, Gamma cho biết trong thử nghiệm thực tế, họ xác nhận chất lượng mã đạt hơn 90% so với Sonnet 4.5
- Mô hình cho thấy bước tiến vượt bậc ở coding tác nhân, điều phối tác nhân con và các bài toán sử dụng máy tính, tối đa hóa tính tức thời trong trải nghiệm phát triển
- Trước đây thường phải đánh đổi giữa chất lượng, tốc độ và chi phí, nhưng Haiku 4.5 đã đạt được cả tốc độ lẫn hiệu quả chi phí
- Mô hình vừa mang lại trí tuệ vừa có độ phản hồi thời gian thực, mở ra những khả năng mới cho ứng dụng AI
- Hiệu năng từng được xem là đỉnh cao công nghệ chỉ 6 tháng trước nay đã có thể đạt được với chi phí thấp hơn và tốc độ nhanh hơn
- Mô hình xử lý workflow phức tạp nhanh và ổn định, đồng thời có thể tự hiệu chỉnh theo thời gian thực
- Ở các tác vụ xử lý chỉ thị cụ thể như tạo văn bản cho slide, mô hình ghi nhận tỷ lệ thực thi vượt trội so với các mô hình trước đó
- Khi kết hợp với GitHub Copilot và các công cụ tương tự, mô hình cung cấp chất lượng mã gần với Sonnet 4 nhưng nhanh hơn
Đánh giá an toàn
- Qua nhiều đánh giá về an toàn và căn chỉnh, mô hình cho thấy tỷ lệ hành vi có vấn đề thấp, đồng thời khả năng căn chỉnh cũng được cải thiện so với phiên bản trước (Claude Haiku 3.5)
- Mô hình thậm chí có tỷ lệ hành vi lệch chuẩn thấp hơn Sonnet 4.5/Opus 4.1, nên được đánh giá là mô hình an toàn nhất mà Anthropic từng tạo ra
- Mức rủi ro về hóa học, sinh học, phóng xạ và hạt nhân (CBRN) cũng được đánh giá là rất thấp, vì vậy mô hình được phát hành theo tiêu chuẩn ASL-2
- So với ASL-3 áp dụng các giới hạn nghiêm ngặt hơn (Sonnet 4.5, Opus 4.1), mô hình có thể được sử dụng linh hoạt hơn
Thông tin bổ sung
- Claude Haiku 4.5 có thể dùng ngay trong Claude Code, ứng dụng Anthropic và các nền tảng liên quan
- Nhờ khả năng xử lý hiệu quả, người dùng có thể tận hưởng hiệu năng cấp premium trong giới hạn sử dụng
- Trên API, Amazon Bedrock, Google Cloud Vertex AI và các nền tảng khác, đây là lựa chọn thay thế tiết kiệm cho Haiku 3.5 và Sonnet 4
- Có thể xem chi tiết kỹ thuật, kết quả đánh giá và thông tin khác tại system card, trang giới thiệu mô hình và tài liệu
2 bình luận
Trong Claude Code, bạn có thể dùng bằng cách gõ
/model haiku. Nhanh hơn Sonnet mà kết quả cũng tốt nên dùng khá ổn.Ý kiến trên Hacker News
Chia sẻ một bức vẽ chú bồ nông dễ thương đang đi chiếc xe đạp trông hơi đáng ngờ liên kết
Six months in LLMs,
giải thích tag pelican riding a bicycle,
phương pháp benchmark
Shitaki Mushroom riding a rowboat
Prompt: t3.chat prompt Claude 4.5 Haiku (Reasoning High): 178.98 token/sec, 1691 tokens, Time-to-First: 0.69 giây
Và Grok 4 Fast thì ổn với kiểu pelican+xe đạp, nhưng yếu hơn ở các yêu cầu khác
Mẫu Grok, prompt: t3.chat prompt Grok 4 Fast (Reasoning High): 171.49 token/sec, 1291 tokens, Time-to-First: 4.5 giây
Cuối cùng là kết quả GPT-5: mẫu, prompt: t3.chat prompt GPT-5 (Reasoning High): 115.11 tok/sec, 4598 tokens, Time-to-First: 4.5 giây
Dù mang tính chủ quan, nhưng các đốm nấm của Haiku thật sự rất ấn tượng
Và khoảng cách hiệu năng giữa benchmark công khai và kịch bản thử nghiệm không chính thức là nhỏ nhất ở các model của Anthropic
Nhiều khi model của Anthropic còn cho kết quả tốt hơn trên benchmark mở
Time-to-First của Haiku cũng là một lợi thế đáng kể
Dù mới chỉ là thử nghiệm rất sớm, kết quả đã khá ấn tượng
Khác với GPT-5, nó sửa đổi chính xác hơn vì ít chèn thêm các đoạn code không cần thiết khi thay đổi code
Nhờ vậy, trong môi trường thực tế, Haiku 4.5 có thể rẻ hơn về mặt hiệu quả sử dụng dù chi phí niêm yết cao hơn
Vấn đề là sức mạnh thương hiệu
Dù Haiku 4.5 có thể có chất lượng tương đương Sonnet 4, nhưng do cách nhìn nhận về model nhỏ và một số lần suy giảm hiệu năng gần đây, sẽ không dễ để chọn Haiku 4.5 thay vì Sonnet 4.5
Tò mò không biết Haiku 3, 3.5, 4.5 có ở cùng một dải tham số đại khái hay không, và sẽ rất tốt nếu mọi thông tin model được công khai minh bạch
Vì vậy phần lớn mọi người có xu hướng muốn dùng model lớn, nhưng cá nhân tôi nghĩ GPT-5 là lựa chọn ấn tượng nhất về giá so với hiệu năng
Giá tham khảo:
Haiku 3: input $0.25/M, output $1.25/M
Haiku 4.5: input $1.00/M, output $5.00/M
GPT-5: input $1.25/M, output $10.00/M
GPT-5-mini: input $0.25/M, output $2.00/M
GPT-5-nano: input $0.05/M, output $0.40/M
GLM-4.6: input $0.60/M, output $2.20/M
Trung bình 220 token/sec, gần như gấp đôi các model tương đương
Nếu tốc độ này được duy trì ổn định thì giá trị sẽ cực lớn
Tham khảo thì tốc độ này tương tự Gemini 2.5 Flash Lite
Groq, Cerebras... cũng có thể đạt 1000 token/sec, nhưng không phải các model có thể so sánh trực tiếp
Anthropic trong các benchmark cá nhân tôi làm lúc nào cũng cho kết quả tốt hơn benchmark mở, nên tôi rất kỳ vọng
Nếu tốc độ, hiệu năng và giá vẫn giữ được như vậy về sau, Haiku 4.5 sẽ là lựa chọn rất tốt cho phần lớn công việc lập trình
Sonnet có lẽ chỉ dùng trong một số tình huống cụ thể
Trước đây các model Claude từng bị giảm hiệu năng ở các chuỗi tác vụ dài trên 7 phút, nên nếu Haiku 4.5 cũng vậy thì đó là một điểm yếu
Nhưng tôi vẫn chưa kịp thử các tác vụ dài
Vấn đề là trong Claude Code, mức sử dụng Haiku 4.5 và Sonnet 4.5 hiện đang bị tính như nhau dù chênh lệch giá rất lớn
Trang hỗ trợ cũng chưa được cập nhật tài liệu hỗ trợ
Những thông tin như vậy đáng ra nên được thông báo ngay trong ngày ra mắt
Các hệ thống công cụ, kiểm thử, thông báo như trên đang làm lu mờ hiệu năng rất ấn tượng của model Anthropic
Giờ cuối cùng cũng có bản mới nên tôi đang nâng cấp tất cả bot của mình (à không, agent)
Dạo này việc so sánh model và tính năng quá phiền phức và mệt mỏi
Mỗi hệ sinh thái LLM lại có giới hạn khác nhau nên cứ phải qua lại liên tục, và tôi đang trả $20/tháng cho cả Claude Code lẫn Codex
Tôi cũng dùng Cursor nhưng không quan tâm bên trong nó đang dùng model nào
Tôi chỉ muốn một công cụ tích hợp, ổn định
Nó nên tự động tốt hơn ở phía backend mà tôi không phải bận tâm chuyện gì đang xảy ra
Kiểu như máy chủ TLS vậy, tích hợp ở CLI/Neovim/IDE ở đâu cũng được
Nhưng rồi lại có ý kiến nói cách dựa trên ví dụ tốt hơn, mỗi cách đều có ưu và nhược điểm, nhưng ngành này chưa có đồng thuận tiêu chuẩn nên cũng khó tìm ví dụ tốt
Trước đây có người trả lời tôi bằng cụm “bug-driven development” và tôi rất thích, nhưng rốt cuộc tôi vẫn làm kiểu gì cũng được miễn ra kết quả rồi sửa bug với lỗi sau
Vì thế tôi đang dùng GitHub Copilot Pro+
Có model mới là chọn được ngay lập tức (Claude Haiku 4.5 cũng đã có)
Tôi chưa từng dùng hết hạn mức premium, chắc vì tôi không phải người dùng quá nặng
Tôi chưa thử bản CLI nhưng thấy khá thú vị
Trước khi plugin IntelliJ được cập nhật, tôi thường phải sang VS Code để gửi prompt rồi quay lại
Spacestrên bản web cũng hữu ích cho các việc lặt vặtTôi không rõ Copilot so với từng LLM riêng lẻ thì thế nào, nhưng miễn là nó chỉ xuất hiện khi tôi muốn và âm thầm làm tốt công việc là đủ
Một mặt là để tránh lock-in, mặt khác là giảm sự bất tiện khi phải đổi công cụ, và ngay cả khi có bị lock-in thì vẫn dễ chuyển đi
Tôi tò mò về tương lai của Opus
Không biết nó sẽ tiếp tục đi theo hướng hiệu năng và giá kiểu “quái vật”, hay cú nhảy từ 4 lên 4.5 sẽ nhẹ hơn
Dĩ nhiên tôi cũng không rõ việc đánh số phiên bản có thật sự mang ý nghĩa gì ngoài tác dụng marketing hay không
Tôi chỉ là người theo dõi ngành chứ không phải người trực tiếp làm hay phát triển, nhưng chuyện fine-tune model nhỏ bằng model lớn là thực hành khá phổ biến trong ngành
GPT-4 Turbo nhanh và rẻ hơn bản GPT-4 gốc rất nhiều thì tôi chỉ nghĩ ra được lý do đó
Việc OpenAI giấu reasoning token cũng là một chiến lược để ngăn đối thủ học từ dữ liệu đó
Có lẽ họ vẫn tiếp tục phát triển ba cỡ model lớn/vừa/nhỏ, rồi quyết định thời điểm phát hành theo nhu cầu thị trường và năng lực của model
Tôi đã thử so sánh Haiku và Sonnet với một câu hỏi cần tài liệu hóa code thực tế
Haiku bịa ra chính output của hàm nên trả lời sai, còn Sonnet thì đúng
Kết quả Sonnet: liên kết
Mức giá input $1, output $5 rẻ hơn Sonnet 4.5, nhưng hiện giờ có quá nhiều LLM nhỏ và nhanh nên với coding agent quy mô lớn, model rẻ hơn mới là điều quan trọng
Sonnet vẫn được dùng nhiều dù đắt, nên Haiku nếu chất lượng đủ tốt thì chắc chắn cũng sẽ rất hút người dùng
Gần như mọi model mã nguồn mở giá rẻ đều không có caching hiệu quả đến mức này
Cái này thực sự có thể rất lớn
Tốc độ quan trọng hơn rất nhiều, nên tôi sẵn sàng trả cho Haiku 4.5 nhiều hơn Sonnet 4.5
Thời gian chờ câu trả lời thật sự quá lãng phí
Với tôi, vượt 73% trên SWE Bench là đủ tốt
Theo tôi biết thì đây là sản phẩm Reasoner cỡ nhỏ đầu tiên của Anthropic, và cũng đính kèm thông tin system card
System card PDF
(xem thêm thảo luận liên quan tại đây)
Trên Extended NYT Connections (benchmark trò chơi nối nhóm), Haiku 4.5 đạt 20.0 điểm, Haiku 3.5 đạt 10.0 điểm, Sonnet 3.7 đạt 19.2 điểm, Sonnet 4.0 đạt 26.6 điểm, Sonnet 4.5 đạt 46.1 điểm
Với tư cách là lập trình viên freelance, chỉ riêng tốc độ phản hồi nhanh hơn 3 lần thôi cũng đã đủ đáng giá
Tôi rất kỳ vọng rằng chuyển sang model này thay vì claude 4.5 sẽ giúp tăng năng suất hơn nhiều
Tôi tò mò các model nhỏ như thế này dùng để làm gì? Tốc độ? Chuẩn bị cho on-device? Giảm phí API? Nếu đa số đều đang dùng gói thuê bao Claude thì có vẻ không có nhiều ý nghĩa lắm
Ở công ty tôi, ngoài các công việc code nội bộ phức tạp thì gần như mọi thứ đều do model nhỏ xử lý
Các môi trường hướng tới người dùng, workflow (trích xuất, biến đổi, dịch, hợp nhất, đánh giá...) đều chạy được bằng mini/nano model
Điều này giúp tiết kiệm context window của phiên chính và tăng thông lượng token đáng kể
Liên kết bảng xếp hạng OpenRouter
Dĩ nhiên Gemini 2.5 Pro cũng xếp hạng cao hơn tôi tưởng