16 điểm bởi GN⁺ 2025-07-26 | 1 bình luận | Chia sẻ qua WhatsApp
  • Có thể so sánh rõ ràng giá của nhiều nhà cung cấp LLM (ví dụ: OpenAI, Anthropic, Google) theo cùng một tiêu chí (giá trên mỗi token)
    • Hỗ trợ bảng và biểu đồ theo dạng nhà cung cấp, mô hình, Input ($/M), Output ($/M)
  • Thời điểm cập nhật dữ liệu gần nhất: 26 tháng 7, 2025
  • Cung cấp dữ liệu nền tảng có thể dùng tham khảo cho phân tích hiệu năng trên chi phí trước khi chọn một mô hình cụ thể
  • Có thể nhận thông tin mới nhất định kỳ bằng cách đăng ký bản tin

1 bình luận

 
GN⁺ 2025-07-26
Ý kiến trên Hacker News
  • (Làm việc tại OpenRouter) Chúng tôi đã phối hợp với các nhà cung cấp có API cung cấp thông tin về giá và model để giải quyết vấn đề này, nhờ đó có thể luôn giữ thông tin trên marketplace ở trạng thái mới nhất, điều này làm tôi nhớ đến thời cách đây 1 năm khi mọi người còn chia sẻ nội dung qua các cuộc trò chuyện trên Slack, gần đây cấu trúc giá token đã trở nên rất phức tạp do mỗi nhà cung cấp đều có nhiều yếu tố như độ dài prompt, caching, v.v., thực ra điểm quan trọng không phải là giá theo token ở cấp model mà là giá theo token ở cấp endpoint, ví dụ cùng một model nhưng giá có thể khác nhau tùy endpoint như bản nhanh/chậm, thinking/non-thinking, v.v., chúng tôi đã đổ rất nhiều công sức để xử lý toàn bộ việc này và hiện kết quả đang được công khai trên OpenRouter (dù tôi thừa nhận là định dạng hiện tại vẫn chưa phải kiểu được sắp xếp dễ xem nếu chỉ tập trung vào giá)
    • Tôi vừa thử làm cho nó ngắn gọn và dễ xem hơn ngay bây giờ, thực sự cảm ơn vì công sức này, chia sẻ dự án llm-pricing
  • Tôi tự hỏi liệu dữ liệu có bị sai không, giá input token của Google Gemini 2.5 Flash-Lite là $0.10 nhưng ở đây có vẻ hiển thị là $0.40, tham khảo bảng giá chính thức
    • Dữ liệu không sai, có lẽ là tôi đã đọc nhầm bảng của bạn, (sửa: có lẽ tôi đã trả lời sai, trả lời như vậy là không ổn)
  • Thông tin này rất tuyệt, nhưng xét về UX thì vẫn cần cân nhắc thêm rất nhiều
    • Ngay cả cùng một model thì giá cũng khác nhau tùy nhà cung cấp
    • Mỗi nhà cung cấp lại tối ưu theo tiêu chí khác nhau như tốc độ, chi phí, v.v.
    • Ngay cả cùng một model cũng có các phiên bản lượng tử hóa khác nhau
    • Một số nơi như Grok API còn cung cấp mức giá theo lô (batch)
    • Còn có vô số điều kiện có thể lọc thêm như “thinking/non-thinking”, có đa phương thức hay không, v.v.
    • Điểm benchmark cũng là một biến số
      Điều này phần nào có thể tham khảo từ artificialanalysis.ai, nơi cung cấp blended cost (chi phí tổng hợp input/output), nhưng trên thực tế mô hình tính phí Input/Output cũng có thể tiếp tục thay đổi tùy mục đích sử dụng, tôi đang mong chờ đến khi xuất hiện một trang có UI so sánh thực sự tốt, hy vọng sẽ có ai đó làm điều đó sớm
    • (Làm việc tại OpenRouter) Thực ra có một công cụ so sánh model rất đơn giản, chỉ là không nổi bật lắm trên website, ví dụ: trang so sánh model của OpenRouter
    • Tôi tự hỏi liệu có thể giải quyết vấn đề này bằng cách thêm một cột “provider”, tức nơi thực sự thực hiện API call, vào bảng hay không
    • Có vẻ việc tạo ra một so sánh công bằng là rất khó, cách tốt nhất là thể hiện rõ các trade-off của từng điều kiện để người dùng tự đánh giá, ý tưởng về một nền tảng kiểu token exchange nơi người dùng đăng yêu cầu còn doanh nghiệp cạnh tranh cung cấp dịch vụ phù hợp cũng khá thú vị, cũng có thể tưởng tượng ra một marketplace nơi ai cũng có thể chia sẻ năng lực tính toán của mình, nhưng vấn đề gian dối về năng lực thực tế hoặc làm rò rỉ dữ liệu sẽ cần được giải quyết riêng
    • Làm ơn đừng quá coi trọng bảng xếp hạng benchmark nữa, thật đáng tiếc khi bầu không khí hiện tại vẫn khiến mọi người ám ảnh quá mức với kiểu so sánh này
  • Trước đây, để tìm mức giá của các model mới phát hành, tôi phải lục lọi qua vô số trang quảng bá và thấy rất bực bội, giờ có thể xem một lượt trên OpenRouter nên rất tiện
  • Vấn đề cốt lõi là token khác nhau tùy nhà cung cấp/model, vượt ra ngoài khác biệt ở tokenizer model, ngay cả trong cùng một nhà cung cấp cũng có sự chênh lệch rất lớn
    • Ví dụ với input hình ảnh, gpt-4o-mini tiêu thụ nhiều token gấp 10 lần so với gpt-4
    • Output của gemini 2.5 pro thông thường bị tính phí theo token, nhưng khi dùng structured output thì mỗi ký tự lại được tính là một token
    • Thông tin giá theo token tuy quan trọng, nhưng điều thực sự cần biết là cùng một truy vấn/phản hồi thì mỗi model tốn bao nhiêu tiền, vì không phải mọi token đều giống nhau
    • Tôi định chạy cùng một thí nghiệm mỗi ngày rồi thêm chi phí đó thành một cột trong bảng, ví dụ có thể đo bằng cách đưa cùng một prompt "tóm tắt bài viết này trong 200 từ" vào tất cả model
    • Tôi muốn nghe giải thích chi tiết hơn về việc trong gemini 2.5 pro, khi dùng structured output thì ký tự = token, tôi chưa thực sự hiểu khác biệt là gì
  • Hiện tại trang đang bị down, nhưng tôi cũng muốn giới thiệu công cụ tính giá LLM của Simon Willison (llm-prices.com)
  • Tôi muốn biết với ngân sách khoảng $2500 cho phần cứng thì có thể chạy model nào ở local, nếu chưa đủ thì cần khoảng bao nhiêu, và sẽ rất hay nếu có một hướng dẫn về cách tự chạy ở local
    • Nếu bạn quan tâm đến việc dùng LLM local thì ollama.com là điểm khởi đầu, có thể quy đổi số node sang dung lượng RAM (GB), ví dụ model Deepseek-r1:7b cần khoảng 7GB, cửa sổ ngữ cảnh càng lớn thì càng cần nhiều bộ nhớ hơn, nếu định dựng máy AI với ngân sách $2500 thì tôi khuyên nên chọn cấu hình có nhiều unified memory như LPDDR5, link tham khảo: Framework AIMax300
    • 18 tháng trước tôi mua Mac Mini M2Pro 32GB với giá $1900 và nó chạy khá ổn cả các model local 40B đã lượng tử hóa, khi model local không đủ mạnh thì tôi cũng dùng tổ hợp Gemini 2.5 flash/pro với gemini-cli, cả API thương mại lẫn model local hiện đều có rất nhiều lựa chọn tốt, nên tốt nhất là chọn từng thứ một rồi nhanh chóng tập trung vào việc xây dựng
    • Tốt nhất là mua 2 card đồ họa 3090 cũ với giá quanh $600 mỗi chiếc, 3090 đến giờ vẫn có hiệu năng/giá rất tốt
    • Kimi và deepseek là một trong số rất ít model mà chênh lệch hiệu năng không quá lớn ngay cả khi so với các nhà cung cấp cloud lớn
    • Với các model thuộc hệ ollama, chỉ cần CPU đủ ổn là một số model đã có thể chạy mượt mà
  • Trước đây gần như cách duy nhất để biết giá theo từng nhà cung cấp là phải đi từng website, OpenRouter là một phương án thay thế tốt, họ còn liệt kê cả model mở và cho phép ước lượng tương đối giá/quy mô thực của model, cũng như mức trợ giá hiện tại
    • OpenRouter API có một endpoint để truy vấn thông tin model và giá (tài liệu API model của OpenRouter), nhược điểm là mỗi model chỉ cung cấp thông tin của một nhà cung cấp, điều này không thành vấn đề với model thương mại, nhưng với model mã nguồn mở thì giá giữa các nhà cung cấp có thể chênh tới 5~10 lần, nên chỉ nên dùng để tham khảo
  • Tôi muốn có một tài liệu kết hợp dữ liệu giá với thông tin benchmark phổ biến để cho thấy model nào có “giá trị trên chi phí” (điểm benchmark/chi phí token) tốt nhất
  • Chính sách giá của mỗi nhà cung cấp phức tạp hơn nhiều so với kiểu chỉ tính input/output đơn giản
    • Giá giờ thấp điểm của DeepSeek
    • Giá batch của OpenAI/Anthropic
    • Giá theo từng mức cửa sổ ngữ cảnh của Google/Grok
    • Tính phí tách riêng token thinking/non-thinking của Qwen
    • Giá theo tier của input token cho Qwen coder
      Nhân tiện, bài liên quan: X.com paradite_