Anthropic công bố Claude Haiku 4.5

(anthropic.com)

5 điểm bởi GN⁺ 2025-10-16 | 2 bình luận | Chia sẻ qua WhatsApp

Claude Haiku 4.5 là một mô hình cỡ nhỏ nhưng vẫn mang lại hiệu năng lập trình ở mức Claude Sonnet 4 với chi phí chỉ bằng một phần ba và tốc độ nhanh hơn hơn 2 lần
Trên các benchmark phát triển thực tế như SWE-bench Verified, mô hình cho thấy hiệu quả và độ phản hồi khi coding bằng AI vượt qua thế hệ trước
Khi kết hợp với Sonnet 4.5, có thể triển khai cấu hình đa tác nhân hoặc chia nhỏ và thực thi các bài toán phức tạp, phù hợp với công việc thời gian thực và môi trường độ trễ thấp
Có thể tận dụng ưu thế trí tuệ cao và tốc độ trong chatbot thời gian thực, hỗ trợ khách hàng, pair programming và nhiều tình huống khác
Kết quả đánh giá an toàn cho thấy đây là mô hình có mức độ căn chỉnh cao nhất trong các mô hình Anthropic, được phát hành theo chuẩn AI Safety Level 2(ASL-2)
$1/$5 cho mỗi một triệu token đầu vào/đầu ra

Giới thiệu

Claude Haiku 4.5 là dòng mô hình cỡ nhỏ mới nhất của Anthropic, được cân bằng giữa hiệu năng, tốc độ và hiệu quả chi phí cho mọi người dùng
Mô hình thể hiện năng lực lập trình tương đương Claude Sonnet 4, trong khi chi phí chỉ bằng một phần ba và tốc độ nhanh hơn hơn 2 lần
Ở một số tác vụ nhất định (như sử dụng máy tính), mô hình còn cho hiệu năng cao hơn Sonnet 4
Đặc biệt trong các công cụ thời gian thực như Claude for Chrome hay Claude Code, mô hình mang lại môi trường hỗ trợ AI gần như không có độ trễ

Tính năng chính và trường hợp sử dụng

Phù hợp với công việc thời gian thực, độ trễ thấp, giúp chatbot, dịch vụ khách hàng, pair programming và các tình huống tương tự đạt hiệu quả cao
Với người dùng Claude Code, mô hình cho thấy độ phản hồi nhanh trong các dự án đa tác nhân, tạo mẫu nhanh và các tác vụ tương tự, mang lại hiệu năng lý tưởng
Hiện tại Sonnet 4.5 vẫn là mô hình đầu bảng, nhưng Haiku 4.5 mang lại hiệu năng tương tự cùng hiệu quả chi phí cao
Cũng có thể dùng hai mô hình cùng nhau; ví dụ Sonnet 4.5 có thể phân rã bài toán phức tạp để nhiều Haiku 4.5 xử lý song song các tác vụ con
Claude Haiku 4.5 khả dụng toàn cầu từ hôm nay, và nhà phát triển có thể dùng ngay trong Claude API với tên claude-haiku-4-5
Mức giá là $1/$5 cho mỗi một triệu token đầu vào/đầu ra

Benchmark và đánh giá người dùng

Haiku 4.5 là một trong những mô hình mạnh nhất mà Anthropic từng phát hành
Nhiều công ty như Augment, Warp, Gamma cho biết trong thử nghiệm thực tế, họ xác nhận chất lượng mã đạt hơn 90% so với Sonnet 4.5
Mô hình cho thấy bước tiến vượt bậc ở coding tác nhân, điều phối tác nhân con và các bài toán sử dụng máy tính, tối đa hóa tính tức thời trong trải nghiệm phát triển
Trước đây thường phải đánh đổi giữa chất lượng, tốc độ và chi phí, nhưng Haiku 4.5 đã đạt được cả tốc độ lẫn hiệu quả chi phí
Mô hình vừa mang lại trí tuệ vừa có độ phản hồi thời gian thực, mở ra những khả năng mới cho ứng dụng AI
Hiệu năng từng được xem là đỉnh cao công nghệ chỉ 6 tháng trước nay đã có thể đạt được với chi phí thấp hơn và tốc độ nhanh hơn
Mô hình xử lý workflow phức tạp nhanh và ổn định, đồng thời có thể tự hiệu chỉnh theo thời gian thực
Ở các tác vụ xử lý chỉ thị cụ thể như tạo văn bản cho slide, mô hình ghi nhận tỷ lệ thực thi vượt trội so với các mô hình trước đó
Khi kết hợp với GitHub Copilot và các công cụ tương tự, mô hình cung cấp chất lượng mã gần với Sonnet 4 nhưng nhanh hơn

Đánh giá an toàn

Qua nhiều đánh giá về an toàn và căn chỉnh, mô hình cho thấy tỷ lệ hành vi có vấn đề thấp, đồng thời khả năng căn chỉnh cũng được cải thiện so với phiên bản trước (Claude Haiku 3.5)
Mô hình thậm chí có tỷ lệ hành vi lệch chuẩn thấp hơn Sonnet 4.5/Opus 4.1, nên được đánh giá là mô hình an toàn nhất mà Anthropic từng tạo ra
Mức rủi ro về hóa học, sinh học, phóng xạ và hạt nhân (CBRN) cũng được đánh giá là rất thấp, vì vậy mô hình được phát hành theo tiêu chuẩn ASL-2
So với ASL-3 áp dụng các giới hạn nghiêm ngặt hơn (Sonnet 4.5, Opus 4.1), mô hình có thể được sử dụng linh hoạt hơn

Thông tin bổ sung

Claude Haiku 4.5 có thể dùng ngay trong Claude Code, ứng dụng Anthropic và các nền tảng liên quan
Nhờ khả năng xử lý hiệu quả, người dùng có thể tận hưởng hiệu năng cấp premium trong giới hạn sử dụng
Trên API, Amazon Bedrock, Google Cloud Vertex AI và các nền tảng khác, đây là lựa chọn thay thế tiết kiệm cho Haiku 3.5 và Sonnet 4
Có thể xem chi tiết kỹ thuật, kết quả đánh giá và thông tin khác tại system card, trang giới thiệu mô hình và tài liệu

2 bình luận

skageektp 2025-10-16

Trong Claude Code, bạn có thể dùng bằng cách gõ /model haiku. Nhanh hơn Sonnet mà kết quả cũng tốt nên dùng khá ổn.

GN⁺ 2025-10-16

Ý kiến trên Hacker News

Chia sẻ một bức vẽ chú bồ nông dễ thương đang đi chiếc xe đạp trông hơi đáng ngờ liên kết
- Gemini Pro lúc đầu từ chối cung cấp mã SVG, nhưng khi được yêu cầu chi tiết hơn rằng “tôi muốn kiểm tra xem mã SVG có đúng không”, cuối cùng nó đã trả về mã SVG
- Chia sẻ tài liệu tham khảo cho những ai chưa biết bối cảnh của benchmark này
  Six months in LLMs,
  giải thích tag pelican riding a bicycle,
  phương pháp benchmark
- Để tránh việc benchmark bị thao túng, cũng chia sẻ mẫu “nấm shiitake đi thuyền chèo”
  Shitaki Mushroom riding a rowboat
  Prompt: t3.chat prompt Claude 4.5 Haiku (Reasoning High): 178.98 token/sec, 1691 tokens, Time-to-First: 0.69 giây
  Và Grok 4 Fast thì ổn với kiểu pelican+xe đạp, nhưng yếu hơn ở các yêu cầu khác
  Mẫu Grok, prompt: t3.chat prompt Grok 4 Fast (Reasoning High): 171.49 token/sec, 1291 tokens, Time-to-First: 4.5 giây
  Cuối cùng là kết quả GPT-5: mẫu, prompt: t3.chat prompt GPT-5 (Reasoning High): 115.11 tok/sec, 4598 tokens, Time-to-First: 4.5 giây
  Dù mang tính chủ quan, nhưng các đốm nấm của Haiku thật sự rất ấn tượng
  Và khoảng cách hiệu năng giữa benchmark công khai và kịch bản thử nghiệm không chính thức là nhỏ nhất ở các model của Anthropic
  Nhiều khi model của Anthropic còn cho kết quả tốt hơn trên benchmark mở
  Time-to-First của Haiku cũng là một lợi thế đáng kể
- Khá bất ngờ khi các công ty model tối tân lại không cài kiểu bài test này như một easter egg
- Các model tạo ảnh dường như lúc nào cũng vất vả khi vẽ cánh tay của cung thủ, nên có người đề xuất dùng prompt test đơn giản là một cung thủ cưỡi ngựa bắn tên lửa vào chiếc thuyền buồm trên hồ để so sánh mọi model
Dù mới chỉ là thử nghiệm rất sớm, kết quả đã khá ấn tượng
Khác với GPT-5, nó sửa đổi chính xác hơn vì ít chèn thêm các đoạn code không cần thiết khi thay đổi code
Nhờ vậy, trong môi trường thực tế, Haiku 4.5 có thể rẻ hơn về mặt hiệu quả sử dụng dù chi phí niêm yết cao hơn
Vấn đề là sức mạnh thương hiệu
Dù Haiku 4.5 có thể có chất lượng tương đương Sonnet 4, nhưng do cách nhìn nhận về model nhỏ và một số lần suy giảm hiệu năng gần đây, sẽ không dễ để chọn Haiku 4.5 thay vì Sonnet 4.5
Tò mò không biết Haiku 3, 3.5, 4.5 có ở cùng một dải tham số đại khái hay không, và sẽ rất tốt nếu mọi thông tin model được công khai minh bạch
Vì vậy phần lớn mọi người có xu hướng muốn dùng model lớn, nhưng cá nhân tôi nghĩ GPT-5 là lựa chọn ấn tượng nhất về giá so với hiệu năng
Giá tham khảo:
Haiku 3: input $0.25/M, output $1.25/M
Haiku 4.5: input $1.00/M, output $5.00/M
GPT-5: input $1.25/M, output $10.00/M
GPT-5-mini: input $0.25/M, output $2.00/M
GPT-5-nano: input $0.05/M, output $0.40/M
GLM-4.6: input $0.60/M, output $2.20/M
- Cập nhật, Haiku 4.5 không chỉ chính xác khi chỉnh sửa code mà còn rất nhanh
  Trung bình 220 token/sec, gần như gấp đôi các model tương đương
  Nếu tốc độ này được duy trì ổn định thì giá trị sẽ cực lớn
  Tham khảo thì tốc độ này tương tự Gemini 2.5 Flash Lite
  Groq, Cerebras... cũng có thể đạt 1000 token/sec, nhưng không phải các model có thể so sánh trực tiếp
  Anthropic trong các benchmark cá nhân tôi làm lúc nào cũng cho kết quả tốt hơn benchmark mở, nên tôi rất kỳ vọng
  Nếu tốc độ, hiệu năng và giá vẫn giữ được như vậy về sau, Haiku 4.5 sẽ là lựa chọn rất tốt cho phần lớn công việc lập trình
  Sonnet có lẽ chỉ dùng trong một số tình huống cụ thể
  Trước đây các model Claude từng bị giảm hiệu năng ở các chuỗi tác vụ dài trên 7 phút, nên nếu Haiku 4.5 cũng vậy thì đó là một điểm yếu
  Nhưng tôi vẫn chưa kịp thử các tác vụ dài
  Vấn đề là trong Claude Code, mức sử dụng Haiku 4.5 và Sonnet 4.5 hiện đang bị tính như nhau dù chênh lệch giá rất lớn
  Trang hỗ trợ cũng chưa được cập nhật tài liệu hỗ trợ
  Những thông tin như vậy đáng ra nên được thông báo ngay trong ngày ra mắt
  Các hệ thống công cụ, kiểm thử, thông báo như trên đang làm lu mờ hiệu năng rất ấn tượng của model Anthropic
- Tôi đã chờ bản cập nhật Haiku từ lâu, và vẫn dùng các bản trước đều đặn vì chúng thông minh mà vẫn rẻ
  Giờ cuối cùng cũng có bản mới nên tôi đang nâng cấp tất cả bot của mình (à không, agent)
- Tôi nghĩ chỉ nhìn giá mà không có mức sử dụng token trung bình thường ngày thì không mang nhiều ý nghĩa
Dạo này việc so sánh model và tính năng quá phiền phức và mệt mỏi
Mỗi hệ sinh thái LLM lại có giới hạn khác nhau nên cứ phải qua lại liên tục, và tôi đang trả $20/tháng cho cả Claude Code lẫn Codex
Tôi cũng dùng Cursor nhưng không quan tâm bên trong nó đang dùng model nào
Tôi chỉ muốn một công cụ tích hợp, ổn định
Nó nên tự động tốt hơn ở phía backend mà tôi không phải bận tâm chuyện gì đang xảy ra
Kiểu như máy chủ TLS vậy, tích hợp ở CLI/Neovim/IDE ở đâu cũng được
- Dù có chọn một cách thôi thì ban đầu là phát triển dựa trên prompt, rồi chuyển sang dựa trên context, rồi lại tận dụng đặc tả chi tiết, còn giờ người ta lại bảo cách tiếp cận hội thoại là tốt
  Nhưng rồi lại có ý kiến nói cách dựa trên ví dụ tốt hơn, mỗi cách đều có ưu và nhược điểm, nhưng ngành này chưa có đồng thuận tiêu chuẩn nên cũng khó tìm ví dụ tốt
  Trước đây có người trả lời tôi bằng cụm “bug-driven development” và tôi rất thích, nhưng rốt cuộc tôi vẫn làm kiểu gì cũng được miễn ra kết quả rồi sửa bug với lỗi sau
- Với tôi, ưu tiên số một là có thể dùng xuyên suốt giữa CLI, neovim hay IDE mà không bị căng thẳng vì phải đổi tooling
  Vì thế tôi đang dùng GitHub Copilot Pro+
  Có model mới là chọn được ngay lập tức (Claude Haiku 4.5 cũng đã có)
  Tôi chưa từng dùng hết hạn mức premium, chắc vì tôi không phải người dùng quá nặng
  Tôi chưa thử bản CLI nhưng thấy khá thú vị
  Trước khi plugin IntelliJ được cập nhật, tôi thường phải sang VS Code để gửi prompt rồi quay lại
  Spaces trên bản web cũng hữu ích cho các việc lặt vặt
  Tôi không rõ Copilot so với từng LLM riêng lẻ thì thế nào, nhưng miễn là nó chỉ xuất hiện khi tôi muốn và âm thầm làm tốt công việc là đủ
- Một lựa chọn khác là dùng model openrouter/auto trên OpenRouter openrouter.ai để tự động chọn giữa GPT-5, Gemini 2.5 Pro, Claude Sonnet 4.5 và nhiều model khác
- Cũng có thể dùng Crystal để chạy đồng thời Codex và Claude Code rồi chọn kết quả tốt hơn
- Tôi cũng dùng OpenRouter vì lý do tương tự
  Một mặt là để tránh lock-in, mặt khác là giảm sự bất tiện khi phải đổi công cụ, và ngay cả khi có bị lock-in thì vẫn dễ chuyển đi
Tôi tò mò về tương lai của Opus
Không biết nó sẽ tiếp tục đi theo hướng hiệu năng và giá kiểu “quái vật”, hay cú nhảy từ 4 lên 4.5 sẽ nhẹ hơn
- Opus 4.1 mới được phát hành gần đây, nên mức thay đổi từ 4.1 lên 4.5 có lẽ sẽ nhỏ hơn so với nâng cấp Sonnet 4 -> 4.5
  Dĩ nhiên tôi cũng không rõ việc đánh số phiên bản có thật sự mang ý nghĩa gì ngoài tác dụng marketing hay không
- Cảm giác của tôi là Sonnet và Haiku 4.5 dùng cùng base model như bản 4, và cải tiến chủ yếu là fine-tune bằng dữ liệu tạo từ Opus
  Tôi chỉ là người theo dõi ngành chứ không phải người trực tiếp làm hay phát triển, nhưng chuyện fine-tune model nhỏ bằng model lớn là thực hành khá phổ biến trong ngành
  GPT-4 Turbo nhanh và rẻ hơn bản GPT-4 gốc rất nhiều thì tôi chỉ nghĩ ra được lý do đó
  Việc OpenAI giấu reasoning token cũng là một chiến lược để ngăn đối thủ học từ dữ liệu đó
- Opus từng biến mất một thời gian rồi gần đây lại xuất hiện
  Có lẽ họ vẫn tiếp tục phát triển ba cỡ model lớn/vừa/nhỏ, rồi quyết định thời điểm phát hành theo nhu cầu thị trường và năng lực của model
- Tò mò không biết model còn nhỏ hơn Haiku sẽ tên là gì. Hay là "Claude Phrase"?
Tôi đã thử so sánh Haiku và Sonnet với một câu hỏi cần tài liệu hóa code thực tế
Haiku bịa ra chính output của hàm nên trả lời sai, còn Sonnet thì đúng
- Kết quả Haiku: liên kết
  Kết quả Sonnet: liên kết
Mức giá input $1, output $5 rẻ hơn Sonnet 4.5, nhưng hiện giờ có quá nhiều LLM nhỏ và nhanh nên với coding agent quy mô lớn, model rẻ hơn mới là điều quan trọng
Sonnet vẫn được dùng nhiều dù đắt, nên Haiku nếu chất lượng đủ tốt thì chắc chắn cũng sẽ rất hút người dùng
- Khi tận dụng caching thì giá có thể giảm xuống 10 cent cho mỗi triệu input
  Gần như mọi model mã nguồn mở giá rẻ đều không có caching hiệu quả đến mức này
  Cái này thực sự có thể rất lớn
- Tôi là lập trình viên chuyên nghiệp nên không quá bận tâm về chi phí
  Tốc độ quan trọng hơn rất nhiều, nên tôi sẵn sàng trả cho Haiku 4.5 nhiều hơn Sonnet 4.5
  Thời gian chờ câu trả lời thật sự quá lãng phí
  Với tôi, vượt 73% trên SWE Bench là đủ tốt
- Ở góc độ dùng API thì Claude Code đúng là đã đắt hơn (nếu tin benchmark thì chất lượng cũng đã cải thiện)
- 3.5 Haiku từng là $0.8/$4, còn 4.5 là $1/$5 nên hơi thất vọng So với các model giá rẻ hiện tại của OpenAI và Gemini (GPT-5-Nano $0.05/$0.40 · Gemini 2.0 Flash Lite $0.075/$0.30), mức giá này kém cạnh tranh hơn
Theo tôi biết thì đây là sản phẩm Reasoner cỡ nhỏ đầu tiên của Anthropic, và cũng đính kèm thông tin system card
System card PDF
(xem thêm thảo luận liên quan tại đây)
Trên Extended NYT Connections (benchmark trò chơi nối nhóm), Haiku 4.5 đạt 20.0 điểm, Haiku 3.5 đạt 10.0 điểm, Sonnet 3.7 đạt 19.2 điểm, Sonnet 4.0 đạt 26.6 điểm, Sonnet 4.5 đạt 46.1 điểm
Với tư cách là lập trình viên freelance, chỉ riêng tốc độ phản hồi nhanh hơn 3 lần thôi cũng đã đủ đáng giá
Tôi rất kỳ vọng rằng chuyển sang model này thay vì claude 4.5 sẽ giúp tăng năng suất hơn nhiều
Tôi tò mò các model nhỏ như thế này dùng để làm gì? Tốc độ? Chuẩn bị cho on-device? Giảm phí API? Nếu đa số đều đang dùng gói thuê bao Claude thì có vẻ không có nhiều ý nghĩa lắm
- Giờ đã có GPT-5-mini và Haiku 4.5, tôi thậm chí muốn hỏi ngược lại là “trường hợp nào mới thật sự cần model lớn?”
  Ở công ty tôi, ngoài các công việc code nội bộ phức tạp thì gần như mọi thứ đều do model nhỏ xử lý
  Các môi trường hướng tới người dùng, workflow (trích xuất, biến đổi, dịch, hợp nhất, đánh giá...) đều chạy được bằng mini/nano model
- Trong Claude code, model nhỏ được thiết kế để tự động nhận ủy quyền từ Sonnet 4.5 khi ngữ cảnh rõ ràng và tác vụ được xác định tốt (có thể cấu hình)
  Điều này giúp tiết kiệm context window của phiên chính và tăng thông lượng token đáng kể
- Rất phù hợp để làm các submodule chuyên biệt cho tool call do model lớn gọi tới
- Workflow Cerebras Qwen Coder mà tôi dùng gần như realtime (3k tps), nên nó giống một shell ngôn ngữ tự nhiên hơn là agent, và có thể lặp thử nhanh trước khi lập kế hoạch rồi chuyển sang model lớn
- Chỉ cần nhìn bảng xếp hạng LLM của OpenRouter cũng thấy phần lớn model thật sự được dùng cho vibe/agentic coding đều thuộc “small class”
  Liên kết bảng xếp hạng OpenRouter
  Dĩ nhiên Gemini 2.5 Pro cũng xếp hạng cao hơn tôi tưởng