5 điểm bởi GN⁺ 2025-10-16 | 2 bình luận | Chia sẻ qua WhatsApp
  • Claude Haiku 4.5 là một mô hình cỡ nhỏ nhưng vẫn mang lại hiệu năng lập trình ở mức Claude Sonnet 4 với chi phí chỉ bằng một phần batốc độ nhanh hơn hơn 2 lần
  • Trên các benchmark phát triển thực tế như SWE-bench Verified, mô hình cho thấy hiệu quả và độ phản hồi khi coding bằng AI vượt qua thế hệ trước
  • Khi kết hợp với Sonnet 4.5, có thể triển khai cấu hình đa tác nhân hoặc chia nhỏ và thực thi các bài toán phức tạp, phù hợp với công việc thời gian thựcmôi trường độ trễ thấp
  • Có thể tận dụng ưu thế trí tuệ cao và tốc độ trong chatbot thời gian thực, hỗ trợ khách hàng, pair programming và nhiều tình huống khác
  • Kết quả đánh giá an toàn cho thấy đây là mô hình có mức độ căn chỉnh cao nhất trong các mô hình Anthropic, được phát hành theo chuẩn AI Safety Level 2(ASL-2)
  • $1/$5 cho mỗi một triệu token đầu vào/đầu ra

Giới thiệu

  • Claude Haiku 4.5 là dòng mô hình cỡ nhỏ mới nhất của Anthropic, được cân bằng giữa hiệu năng, tốc độ và hiệu quả chi phí cho mọi người dùng
  • Mô hình thể hiện năng lực lập trình tương đương Claude Sonnet 4, trong khi chi phí chỉ bằng một phần ba và tốc độ nhanh hơn hơn 2 lần
  • Ở một số tác vụ nhất định (như sử dụng máy tính), mô hình còn cho hiệu năng cao hơn Sonnet 4
  • Đặc biệt trong các công cụ thời gian thực như Claude for Chrome hay Claude Code, mô hình mang lại môi trường hỗ trợ AI gần như không có độ trễ

Tính năng chính và trường hợp sử dụng

  • Phù hợp với công việc thời gian thực, độ trễ thấp, giúp chatbot, dịch vụ khách hàng, pair programming và các tình huống tương tự đạt hiệu quả cao
  • Với người dùng Claude Code, mô hình cho thấy độ phản hồi nhanh trong các dự án đa tác nhân, tạo mẫu nhanh và các tác vụ tương tự, mang lại hiệu năng lý tưởng
  • Hiện tại Sonnet 4.5 vẫn là mô hình đầu bảng, nhưng Haiku 4.5 mang lại hiệu năng tương tự cùng hiệu quả chi phí cao
  • Cũng có thể dùng hai mô hình cùng nhau; ví dụ Sonnet 4.5 có thể phân rã bài toán phức tạp để nhiều Haiku 4.5 xử lý song song các tác vụ con
  • Claude Haiku 4.5 khả dụng toàn cầu từ hôm nay, và nhà phát triển có thể dùng ngay trong Claude API với tên claude-haiku-4-5
  • Mức giá là $1/$5 cho mỗi một triệu token đầu vào/đầu ra

Benchmark và đánh giá người dùng

  • Haiku 4.5 là một trong những mô hình mạnh nhất mà Anthropic từng phát hành
  • Nhiều công ty như Augment, Warp, Gamma cho biết trong thử nghiệm thực tế, họ xác nhận chất lượng mã đạt hơn 90% so với Sonnet 4.5
  • Mô hình cho thấy bước tiến vượt bậc ở coding tác nhân, điều phối tác nhân con và các bài toán sử dụng máy tính, tối đa hóa tính tức thời trong trải nghiệm phát triển
  • Trước đây thường phải đánh đổi giữa chất lượng, tốc độ và chi phí, nhưng Haiku 4.5 đã đạt được cả tốc độ lẫn hiệu quả chi phí
  • Mô hình vừa mang lại trí tuệ vừa có độ phản hồi thời gian thực, mở ra những khả năng mới cho ứng dụng AI
  • Hiệu năng từng được xem là đỉnh cao công nghệ chỉ 6 tháng trước nay đã có thể đạt được với chi phí thấp hơn và tốc độ nhanh hơn
  • Mô hình xử lý workflow phức tạp nhanh và ổn định, đồng thời có thể tự hiệu chỉnh theo thời gian thực
  • Ở các tác vụ xử lý chỉ thị cụ thể như tạo văn bản cho slide, mô hình ghi nhận tỷ lệ thực thi vượt trội so với các mô hình trước đó
  • Khi kết hợp với GitHub Copilot và các công cụ tương tự, mô hình cung cấp chất lượng mã gần với Sonnet 4 nhưng nhanh hơn

Đánh giá an toàn

  • Qua nhiều đánh giá về an toàn và căn chỉnh, mô hình cho thấy tỷ lệ hành vi có vấn đề thấp, đồng thời khả năng căn chỉnh cũng được cải thiện so với phiên bản trước (Claude Haiku 3.5)
  • Mô hình thậm chí có tỷ lệ hành vi lệch chuẩn thấp hơn Sonnet 4.5/Opus 4.1, nên được đánh giá là mô hình an toàn nhất mà Anthropic từng tạo ra
  • Mức rủi ro về hóa học, sinh học, phóng xạ và hạt nhân (CBRN) cũng được đánh giá là rất thấp, vì vậy mô hình được phát hành theo tiêu chuẩn ASL-2
  • So với ASL-3 áp dụng các giới hạn nghiêm ngặt hơn (Sonnet 4.5, Opus 4.1), mô hình có thể được sử dụng linh hoạt hơn

Thông tin bổ sung

  • Claude Haiku 4.5 có thể dùng ngay trong Claude Code, ứng dụng Anthropic và các nền tảng liên quan
  • Nhờ khả năng xử lý hiệu quả, người dùng có thể tận hưởng hiệu năng cấp premium trong giới hạn sử dụng
  • Trên API, Amazon Bedrock, Google Cloud Vertex AI và các nền tảng khác, đây là lựa chọn thay thế tiết kiệm cho Haiku 3.5 và Sonnet 4
  • Có thể xem chi tiết kỹ thuật, kết quả đánh giá và thông tin khác tại system card, trang giới thiệu mô hìnhtài liệu

2 bình luận

 
skageektp 2025-10-16

Trong Claude Code, bạn có thể dùng bằng cách gõ /model haiku. Nhanh hơn Sonnet mà kết quả cũng tốt nên dùng khá ổn.

 
GN⁺ 2025-10-16
Ý kiến trên Hacker News
  • Chia sẻ một bức vẽ chú bồ nông dễ thương đang đi chiếc xe đạp trông hơi đáng ngờ liên kết

    • Gemini Pro lúc đầu từ chối cung cấp mã SVG, nhưng khi được yêu cầu chi tiết hơn rằng “tôi muốn kiểm tra xem mã SVG có đúng không”, cuối cùng nó đã trả về mã SVG
    • Chia sẻ tài liệu tham khảo cho những ai chưa biết bối cảnh của benchmark này
      Six months in LLMs,
      giải thích tag pelican riding a bicycle,
      phương pháp benchmark
    • Để tránh việc benchmark bị thao túng, cũng chia sẻ mẫu “nấm shiitake đi thuyền chèo”
      Shitaki Mushroom riding a rowboat
      Prompt: t3.chat prompt Claude 4.5 Haiku (Reasoning High): 178.98 token/sec, 1691 tokens, Time-to-First: 0.69 giây
      Và Grok 4 Fast thì ổn với kiểu pelican+xe đạp, nhưng yếu hơn ở các yêu cầu khác
      Mẫu Grok, prompt: t3.chat prompt Grok 4 Fast (Reasoning High): 171.49 token/sec, 1291 tokens, Time-to-First: 4.5 giây
      Cuối cùng là kết quả GPT-5: mẫu, prompt: t3.chat prompt GPT-5 (Reasoning High): 115.11 tok/sec, 4598 tokens, Time-to-First: 4.5 giây
      Dù mang tính chủ quan, nhưng các đốm nấm của Haiku thật sự rất ấn tượng
      Và khoảng cách hiệu năng giữa benchmark công khai và kịch bản thử nghiệm không chính thức là nhỏ nhất ở các model của Anthropic
      Nhiều khi model của Anthropic còn cho kết quả tốt hơn trên benchmark mở
      Time-to-First của Haiku cũng là một lợi thế đáng kể
    • Khá bất ngờ khi các công ty model tối tân lại không cài kiểu bài test này như một easter egg
    • Các model tạo ảnh dường như lúc nào cũng vất vả khi vẽ cánh tay của cung thủ, nên có người đề xuất dùng prompt test đơn giản là một cung thủ cưỡi ngựa bắn tên lửa vào chiếc thuyền buồm trên hồ để so sánh mọi model
  • Dù mới chỉ là thử nghiệm rất sớm, kết quả đã khá ấn tượng
    Khác với GPT-5, nó sửa đổi chính xác hơn vì ít chèn thêm các đoạn code không cần thiết khi thay đổi code
    Nhờ vậy, trong môi trường thực tế, Haiku 4.5 có thể rẻ hơn về mặt hiệu quả sử dụng dù chi phí niêm yết cao hơn
    Vấn đề là sức mạnh thương hiệu
    Dù Haiku 4.5 có thể có chất lượng tương đương Sonnet 4, nhưng do cách nhìn nhận về model nhỏ và một số lần suy giảm hiệu năng gần đây, sẽ không dễ để chọn Haiku 4.5 thay vì Sonnet 4.5
    Tò mò không biết Haiku 3, 3.5, 4.5 có ở cùng một dải tham số đại khái hay không, và sẽ rất tốt nếu mọi thông tin model được công khai minh bạch
    Vì vậy phần lớn mọi người có xu hướng muốn dùng model lớn, nhưng cá nhân tôi nghĩ GPT-5 là lựa chọn ấn tượng nhất về giá so với hiệu năng
    Giá tham khảo:
    Haiku 3: input $0.25/M, output $1.25/M
    Haiku 4.5: input $1.00/M, output $5.00/M
    GPT-5: input $1.25/M, output $10.00/M
    GPT-5-mini: input $0.25/M, output $2.00/M
    GPT-5-nano: input $0.05/M, output $0.40/M
    GLM-4.6: input $0.60/M, output $2.20/M

    • Cập nhật, Haiku 4.5 không chỉ chính xác khi chỉnh sửa code mà còn rất nhanh
      Trung bình 220 token/sec, gần như gấp đôi các model tương đương
      Nếu tốc độ này được duy trì ổn định thì giá trị sẽ cực lớn
      Tham khảo thì tốc độ này tương tự Gemini 2.5 Flash Lite
      Groq, Cerebras... cũng có thể đạt 1000 token/sec, nhưng không phải các model có thể so sánh trực tiếp
      Anthropic trong các benchmark cá nhân tôi làm lúc nào cũng cho kết quả tốt hơn benchmark mở, nên tôi rất kỳ vọng
      Nếu tốc độ, hiệu năng và giá vẫn giữ được như vậy về sau, Haiku 4.5 sẽ là lựa chọn rất tốt cho phần lớn công việc lập trình
      Sonnet có lẽ chỉ dùng trong một số tình huống cụ thể
      Trước đây các model Claude từng bị giảm hiệu năng ở các chuỗi tác vụ dài trên 7 phút, nên nếu Haiku 4.5 cũng vậy thì đó là một điểm yếu
      Nhưng tôi vẫn chưa kịp thử các tác vụ dài
      Vấn đề là trong Claude Code, mức sử dụng Haiku 4.5 và Sonnet 4.5 hiện đang bị tính như nhau dù chênh lệch giá rất lớn
      Trang hỗ trợ cũng chưa được cập nhật tài liệu hỗ trợ
      Những thông tin như vậy đáng ra nên được thông báo ngay trong ngày ra mắt
      Các hệ thống công cụ, kiểm thử, thông báo như trên đang làm lu mờ hiệu năng rất ấn tượng của model Anthropic
    • Tôi đã chờ bản cập nhật Haiku từ lâu, và vẫn dùng các bản trước đều đặn vì chúng thông minh mà vẫn rẻ
      Giờ cuối cùng cũng có bản mới nên tôi đang nâng cấp tất cả bot của mình (à không, agent)
    • Tôi nghĩ chỉ nhìn giá mà không có mức sử dụng token trung bình thường ngày thì không mang nhiều ý nghĩa
  • Dạo này việc so sánh model và tính năng quá phiền phức và mệt mỏi
    Mỗi hệ sinh thái LLM lại có giới hạn khác nhau nên cứ phải qua lại liên tục, và tôi đang trả $20/tháng cho cả Claude Code lẫn Codex
    Tôi cũng dùng Cursor nhưng không quan tâm bên trong nó đang dùng model nào
    Tôi chỉ muốn một công cụ tích hợp, ổn định
    Nó nên tự động tốt hơn ở phía backend mà tôi không phải bận tâm chuyện gì đang xảy ra
    Kiểu như máy chủ TLS vậy, tích hợp ở CLI/Neovim/IDE ở đâu cũng được

    • Dù có chọn một cách thôi thì ban đầu là phát triển dựa trên prompt, rồi chuyển sang dựa trên context, rồi lại tận dụng đặc tả chi tiết, còn giờ người ta lại bảo cách tiếp cận hội thoại là tốt
      Nhưng rồi lại có ý kiến nói cách dựa trên ví dụ tốt hơn, mỗi cách đều có ưu và nhược điểm, nhưng ngành này chưa có đồng thuận tiêu chuẩn nên cũng khó tìm ví dụ tốt
      Trước đây có người trả lời tôi bằng cụm “bug-driven development” và tôi rất thích, nhưng rốt cuộc tôi vẫn làm kiểu gì cũng được miễn ra kết quả rồi sửa bug với lỗi sau
    • Với tôi, ưu tiên số một là có thể dùng xuyên suốt giữa CLI, neovim hay IDE mà không bị căng thẳng vì phải đổi tooling
      Vì thế tôi đang dùng GitHub Copilot Pro+
      Có model mới là chọn được ngay lập tức (Claude Haiku 4.5 cũng đã có)
      Tôi chưa từng dùng hết hạn mức premium, chắc vì tôi không phải người dùng quá nặng
      Tôi chưa thử bản CLI nhưng thấy khá thú vị
      Trước khi plugin IntelliJ được cập nhật, tôi thường phải sang VS Code để gửi prompt rồi quay lại
      Spaces trên bản web cũng hữu ích cho các việc lặt vặt
      Tôi không rõ Copilot so với từng LLM riêng lẻ thì thế nào, nhưng miễn là nó chỉ xuất hiện khi tôi muốn và âm thầm làm tốt công việc là đủ
    • Một lựa chọn khác là dùng model openrouter/auto trên OpenRouter openrouter.ai để tự động chọn giữa GPT-5, Gemini 2.5 Pro, Claude Sonnet 4.5 và nhiều model khác
    • Cũng có thể dùng Crystal để chạy đồng thời Codex và Claude Code rồi chọn kết quả tốt hơn
    • Tôi cũng dùng OpenRouter vì lý do tương tự
      Một mặt là để tránh lock-in, mặt khác là giảm sự bất tiện khi phải đổi công cụ, và ngay cả khi có bị lock-in thì vẫn dễ chuyển đi
  • Tôi tò mò về tương lai của Opus
    Không biết nó sẽ tiếp tục đi theo hướng hiệu năng và giá kiểu “quái vật”, hay cú nhảy từ 4 lên 4.5 sẽ nhẹ hơn

    • Opus 4.1 mới được phát hành gần đây, nên mức thay đổi từ 4.1 lên 4.5 có lẽ sẽ nhỏ hơn so với nâng cấp Sonnet 4 -> 4.5
      Dĩ nhiên tôi cũng không rõ việc đánh số phiên bản có thật sự mang ý nghĩa gì ngoài tác dụng marketing hay không
    • Cảm giác của tôi là Sonnet và Haiku 4.5 dùng cùng base model như bản 4, và cải tiến chủ yếu là fine-tune bằng dữ liệu tạo từ Opus
      Tôi chỉ là người theo dõi ngành chứ không phải người trực tiếp làm hay phát triển, nhưng chuyện fine-tune model nhỏ bằng model lớn là thực hành khá phổ biến trong ngành
      GPT-4 Turbo nhanh và rẻ hơn bản GPT-4 gốc rất nhiều thì tôi chỉ nghĩ ra được lý do đó
      Việc OpenAI giấu reasoning token cũng là một chiến lược để ngăn đối thủ học từ dữ liệu đó
    • Opus từng biến mất một thời gian rồi gần đây lại xuất hiện
      Có lẽ họ vẫn tiếp tục phát triển ba cỡ model lớn/vừa/nhỏ, rồi quyết định thời điểm phát hành theo nhu cầu thị trường và năng lực của model
    • Tò mò không biết model còn nhỏ hơn Haiku sẽ tên là gì. Hay là "Claude Phrase"?
  • Tôi đã thử so sánh Haiku và Sonnet với một câu hỏi cần tài liệu hóa code thực tế
    Haiku bịa ra chính output của hàm nên trả lời sai, còn Sonnet thì đúng

  • Mức giá input $1, output $5 rẻ hơn Sonnet 4.5, nhưng hiện giờ có quá nhiều LLM nhỏ và nhanh nên với coding agent quy mô lớn, model rẻ hơn mới là điều quan trọng
    Sonnet vẫn được dùng nhiều dù đắt, nên Haiku nếu chất lượng đủ tốt thì chắc chắn cũng sẽ rất hút người dùng

    • Khi tận dụng caching thì giá có thể giảm xuống 10 cent cho mỗi triệu input
      Gần như mọi model mã nguồn mở giá rẻ đều không có caching hiệu quả đến mức này
      Cái này thực sự có thể rất lớn
    • Tôi là lập trình viên chuyên nghiệp nên không quá bận tâm về chi phí
      Tốc độ quan trọng hơn rất nhiều, nên tôi sẵn sàng trả cho Haiku 4.5 nhiều hơn Sonnet 4.5
      Thời gian chờ câu trả lời thật sự quá lãng phí
      Với tôi, vượt 73% trên SWE Bench là đủ tốt
    • Ở góc độ dùng API thì Claude Code đúng là đã đắt hơn (nếu tin benchmark thì chất lượng cũng đã cải thiện)
    • 3.5 Haiku từng là $0.8/$4, còn 4.5 là $1/$5 nên hơi thất vọng So với các model giá rẻ hiện tại của OpenAI và Gemini (GPT-5-Nano $0.05/$0.40 · Gemini 2.0 Flash Lite $0.075/$0.30), mức giá này kém cạnh tranh hơn
  • Theo tôi biết thì đây là sản phẩm Reasoner cỡ nhỏ đầu tiên của Anthropic, và cũng đính kèm thông tin system card
    System card PDF
    (xem thêm thảo luận liên quan tại đây)

  • Trên Extended NYT Connections (benchmark trò chơi nối nhóm), Haiku 4.5 đạt 20.0 điểm, Haiku 3.5 đạt 10.0 điểm, Sonnet 3.7 đạt 19.2 điểm, Sonnet 4.0 đạt 26.6 điểm, Sonnet 4.5 đạt 46.1 điểm

  • Với tư cách là lập trình viên freelance, chỉ riêng tốc độ phản hồi nhanh hơn 3 lần thôi cũng đã đủ đáng giá
    Tôi rất kỳ vọng rằng chuyển sang model này thay vì claude 4.5 sẽ giúp tăng năng suất hơn nhiều

  • Tôi tò mò các model nhỏ như thế này dùng để làm gì? Tốc độ? Chuẩn bị cho on-device? Giảm phí API? Nếu đa số đều đang dùng gói thuê bao Claude thì có vẻ không có nhiều ý nghĩa lắm

    • Giờ đã có GPT-5-mini và Haiku 4.5, tôi thậm chí muốn hỏi ngược lại là “trường hợp nào mới thật sự cần model lớn?”
      Ở công ty tôi, ngoài các công việc code nội bộ phức tạp thì gần như mọi thứ đều do model nhỏ xử lý
      Các môi trường hướng tới người dùng, workflow (trích xuất, biến đổi, dịch, hợp nhất, đánh giá...) đều chạy được bằng mini/nano model
    • Trong Claude code, model nhỏ được thiết kế để tự động nhận ủy quyền từ Sonnet 4.5 khi ngữ cảnh rõ ràng và tác vụ được xác định tốt (có thể cấu hình)
      Điều này giúp tiết kiệm context window của phiên chính và tăng thông lượng token đáng kể
    • Rất phù hợp để làm các submodule chuyên biệt cho tool call do model lớn gọi tới
    • Workflow Cerebras Qwen Coder mà tôi dùng gần như realtime (3k tps), nên nó giống một shell ngôn ngữ tự nhiên hơn là agent, và có thể lặp thử nhanh trước khi lập kế hoạch rồi chuyển sang model lớn
    • Chỉ cần nhìn bảng xếp hạng LLM của OpenRouter cũng thấy phần lớn model thật sự được dùng cho vibe/agentic coding đều thuộc “small class”
      Liên kết bảng xếp hạng OpenRouter
      Dĩ nhiên Gemini 2.5 Pro cũng xếp hạng cao hơn tôi tưởng