1 điểm bởi GN⁺ 2025-06-18 | 1 bình luận | Chia sẻ qua WhatsApp
  • Cùng với việc ra mắt chính thức các mô hình Gemini 2.5 Flash và Pro, Google đã công bố bản preview của mô hình Flash-Lite rẻ nhất và nhanh nhất
  • Flash-Lite được tối ưu cho các tác vụ nhạy cảm với độ trễ như dịch thuật, phân loại, đồng thời cung cấp độ trễ thấp hơnchất lượng tổng thể cao hơn so với 2.0 Flash/Flash-Lite
  • Tất cả các mô hình 2.5 đều hỗ trợ các tính năng như đầu vào đa phương thức, ngữ cảnh dài 1M token, kết nối công cụ (tìm kiếm, thực thi mã, v.v.), và có thể chuyển đổi chế độ Thinking
  • Được thiết kế với trọng tâm tối ưu hiệu năng trên chi phí (Pareto Frontier), dòng sản phẩm này phù hợp để xử lý lưu lượng lớn
  • Flash-Lite và Flash cũng đang được tùy biến để dùng cho tìm kiếm, và nhà phát triển có thể sử dụng các mô hình preview hoặc chính thức trên Google AI Studio và Vertex AI

Đặc điểm của Flash-Lite

  • mô hình rẻ nhất và nhanh nhất, có giá $0.10 cho mỗi 1 triệu token đầu vào và $0.40 cho mỗi 1 triệu token đầu ra
  • hiệu năng trên chi phí rất tốt, đặc biệt phù hợp với các tác vụ có lượng yêu cầu lớn như dịch thuật và phân loại
  • Chất lượng tổng thể đã được cải thiện so với 2.0 Flash-Lite trước đó; theo chuẩn khoa học (GPQA) tăng từ 64.6% → 66.7%, và toán học (AIME 2025) tăng từ 49.8% → 63.1%
  • sinh mã và chỉnh sửa mã, lần lượt đạt 34.3% và 27.1%, thấp hơn các mô hình hiệu năng cao nhưng vẫn là lựa chọn hiệu quả về chi phí
  • Hiệu năng xử lý đa phương thức được giữ ở mức 72.9%, còn hiểu hình ảnh được cải thiện từ 51.3% lên 57.5%
  • Khi bật chế độ suy luận (Thinking), độ chính xác tổng thể tăng lên; ví dụ trên HumanEval tăng từ 5.1% → 6.9%, còn trên SWE-bench multi-task tăng từ 42.6% → 44.9%
  • Ở các hạng mục như tính đúng thực tế (SimpleQA)hiểu ngữ cảnh dài (MRCR), hiệu năng cũng cải thiện rõ rệt khi bật Thinking; đặc biệt, độ chính xác với ngữ cảnh dài ở mức 1M token tăng hơn 3 lần, từ 5.4% lên 16.8%
  • Năng lực đa ngôn ngữ (MMLU) cũng tăng, đạt 81.1% ở chế độ non-thinking và 84.5% ở chế độ Thinking

1 bình luận

 
GN⁺ 2025-06-18
Ý kiến Hacker News
  • Bài đăng của Google không nhắc tới, nhưng có vẻ như đợt này cũng bao gồm việc tăng giá cho Gemini 2.5 Flash
    Theo mức giá lưu trữ của 2.5 Flash Preview, giá là $0.15 cho mỗi 1 triệu token đầu vào văn bản/hình ảnh/video, âm thanh là $1.00, đầu ra có cấu trúc non-thinking là $0.60 và thinking là $3.50
    Ở mức giá mới, không còn phân biệt giữa thinking và non-thinking nữa
    Đầu vào văn bản/hình ảnh/video tăng gấp đôi lên $0.30 cho mỗi 1 triệu token, âm thanh giữ nguyên ở $1.00, còn đầu ra là $2.50 cho mỗi 1 triệu token, tức đắt hơn đáng kể so với non-thinking trước đây nhưng lại rẻ hơn thinking
    Có thể xem chi tiết giá tại đây

    • Bài blog có thêm thông tin về thay đổi giá
      Liên kết tham khảo chi tiết

    • Có ý kiến nhắc rằng từng có dự đoán công nghệ AI rồi sẽ trở nên cực kỳ rẻ, nhưng hiện tại thì giá vẫn đang tăng

    • Có người nói khi Gemini mới ra mắt, giá của nó rẻ đến mức bất thường, rẻ hơn đối thủ quá nhiều, và giờ có vẻ Google chỉ đang phản ánh lại mức giá thực tế hơn

    • Giá tăng gấp đôi một cách rất thản nhiên
      Nhìn lại Gemini 2.0 Flash từng ở mức $0.10/$0.40 thì có thể cảm nhận khá rõ biên độ tăng

    • Có ý kiến cho rằng đây là một thay đổi được phát hiện rất sắc bén
      Họ nghĩ thay đổi giá này khá quan trọng đối với Gemini, vốn từng có thể trở thành GOAT trong mảng audio-to-audio

  • Có người cho rằng thời Gemini Pro từng được cung cấp miễn phí trên AI Studio là lúc rất nhiều người dùng nó
    Sau đó hiệu năng lại kém đi, và giờ thì họ quay lại dùng Claude cho các công việc quan trọng
    Gemini cho cảm giác giống một người bạn nói nhiều điều không cần thiết
    Dù vậy, họ vẫn hay dùng Gemini để brainstorming, rồi tinh chỉnh prompt mà Gemini tạo ra để dùng tiếp trong Claude

    • Nếu nhìn vào bảng xếp hạng Aider thì trải nghiệm của tôi lại không cho thấy Gemini luôn vượt trội
      Tôi chỉ trực tiếp dùng Aider API nên không có trải nghiệm với AI Studio
      Claude vẫn cho hiệu năng ổn ngay cả khi prompt sơ sài, đặc biệt là khi định hướng còn mơ hồ thì nó khá có cảm giác
      Khi tôi có định hướng rõ ràng mình muốn gì thì Gemini 2.5 Pro (bật Thinking) lại tốt hơn, và mã chạy ổn định hơn
      Với o4-mini và o3 thì có cảm giác chúng "suy nghĩ" thông minh hơn một chút, nhưng mã lại kém ổn định hơn (Gemini ổn định hơn)
      Càng tăng độ phức tạp thì Claude dường như càng yếu đi, và theo tiêu chí của tôi thì Gemini và o3 được đánh giá cao hơn
      Từ sau khi o3-mini ra mắt, tôi chưa từng quay lại Claude nữa

    • Tôi cũng có trải nghiệm tương tự
      Ban đầu nó có vẻ giải được cả bài toán phức tạp, nhưng với các tác vụ đơn giản thì lại khó điều khiển
      Câu trả lời quá dài dòng, trong khi UX là yếu tố quan trọng nhất nên hiện tại tôi thích UX của Claude Code hơn

    • Tôi cũng vậy; dù đã tạo Gem với prompt elaborate để buộc trả lời ngắn gọn, nó vẫn dài dòng và còn mở rộng phạm vi câu hỏi một cách không cần thiết, điều này khá khó chịu

    • Tôi không có thông tin nội bộ, nhưng có cảm giác mô hình đã bị lượng tử hóa (quantized)
      Tôi quan sát thấy những mẫu hành vi như lặp vô hạn một ký tự, kiểu hiện tượng mà trước giờ chỉ thấy ở các mô hình đã lượng tử hóa

    • Tôi muốn họ quay lại bản preview cũ
      Bản preview cân bằng hơn và thực sự cũng biết phản biện hữu ích, còn bản phát hành chính thức (GA) thì đã chuyển sang giọng điệu tích cực quá mức

  • Tôi rất ấn tượng với Gemini đến mức đã ngừng dùng OpenAI
    Thỉnh thoảng tôi vẫn thử cả ba model qua OpenRouter, nhưng hiện tại hơn 90% thời gian là dùng Gemini
    So với năm ngoái khi 90% là ChatGPT thì đây là thay đổi khá lớn

    • Tôi vốn có lập trường chỉ trích Google, nhưng lần này thực sự thấy các model rất xuất sắc
      Đặc biệt, context window cực lớn là một điểm cộng rất đáng kể

    • Tôi cũng vậy, lần này tôi đã hủy đăng ký Claude và nghĩ rằng Gemini đang bắt kịp rất nhanh

  • Tôi nghĩ sau thông báo lần này, Flash Lite đã được nâng từ mức "vô dụng" lên thành "một công cụ hữu ích"
    Flash Lite rẻ, và hơn hết điểm mạnh là "nhanh", gần như luôn phản hồi trong dưới 1 giây (thấp nhất 200ms, trung bình 400ms)
    Dịch vụ của chúng tôi là Brokk(brokk.ai) hiện đang dùng Flash 2.0 (không phải Lite) cho Quick Edits, và lần này đang cân nhắc đưa 2.5 Lite vào
    Tôi vẫn băn khoăn về vai trò của một model yếu hơn Flash 2.5 vốn đã chậm vì Thinking
    Phản hồi nhanh là điều quan trọng, nhưng khi bật thinking thì tốc độ chậm đi nên khá lưng chừng

    • Theo tôi thì miễn nó suy nghĩ đủ nhanh là được, còn có suy nghĩ nhiều đến đâu cũng không thành vấn đề
  • Tôi tò mò ngoài mảng lập trình thì mọi người dùng Gemini như thế nào, và vì sao lại chọn nó
    Khi xây ứng dụng, mọi người có thiết kế backend GenAI theo kiểu có thể thay nhà cung cấp không, hay có dùng nhiều nhà cung cấp để cân bằng tải vì lý do giá hoặc độ tin cậy không, và nếu sau này LLM cũng có một kiểu spot market thì sẽ thay đổi điều gì

    • Theo trải nghiệm của tôi, Gemini 2.5 Pro nổi bật trong các tác vụ không phải lập trình như dịch, tóm tắt (dùng với Canva)
      Điều đó có được nhờ context window rất lớn và hạn mức sử dụng cao
      Đặc biệt trong việc tạo báo cáo nghiên cứu, tôi thấy Gemini tốt hơn ChatGPT
      Có lẽ vì Google mạnh về tìm kiếm nên báo cáo của nó dựa trên nhiều nguồn hơn và chính xác hơn
      Tôi cũng thích phong cách viết của nó hơn, và việc có thể xuất sang Google Docs cũng rất tiện
      Tuy vậy, UI của nó vẫn kém đối thủ khá nhiều, và việc thiếu hoặc làm chưa tốt các tính năng cốt lõi như Custom instruction, Projects, Temporary Chat là nhược điểm lớn

    • Điểm hữu ích là có thể nạp vào cùng lúc rất nhiều tài liệu NDA, rồi chỉ trong vài giây nó rút ra đúng phần liên quan
      Nhờ context window lớn và khả năng trích chính xác thông tin cần thiết rất tốt nên nó đặc biệt phù hợp cho kiểu công việc này

    • Gemini Flash 2.0 cực kỳ rẻ và là một model mạnh cho workload cấp doanh nghiệp
      Nó không phải mức trí tuệ tối tân nhất, nhưng với giá rẻ, tốc độ nhanh và độ tin cậy cao trong structured output, tôi rất hài lòng khi phát triển với nó
      Tôi dự định sẽ thử nâng cấp sang 2.5 Lite

    • Tôi dùng lexikon.ai rất nhiều, đặc biệt là cho xử lý hàng loạt hình ảnh thì tôi dùng Gemini nhiều
      Giá API thị giác của Google rẻ hơn rất nhiều so với các nhà cung cấp lớn khác như OpenAI và Anthropic nên rất tốt

    • Tôi dùng Gemini 2.5 Flash (tùy chọn non-thinking) như một đối tác cùng suy nghĩ
      Nó giúp tôi sắp xếp suy nghĩ, đồng thời tự động đưa ra cả những đầu vào mà tôi chưa nghĩ tới
      Tôi cũng dùng nó cho việc tự phản tư, ném vào đó những suy nghĩ hay băn khoăn của mình rồi tham khảo phản hồi từ AI

  • Tôi muốn hỏi có ai hiện tại không truy cập được API 2.5-pro không
    Tôi gặp lỗi "projects/349775993245/locations/us-west4/publishers/google/models/gemini-2.5-pro không được tìm thấy hoặc bạn không có quyền truy cập"
    Và có dòng hướng dẫn bảo hãy xác nhận rằng mình đang dùng đúng phiên bản model hợp lệ

  • Tôi đang vận hành một dịch vụ suy luận/xử lý dữ liệu LLM quy mô lớn và làm khá nhiều việc profiling chi phí lẫn hiệu năng của nhiều model open-weight
    Điều vẫn còn kỳ lạ trong cách định giá LLM là nhà cung cấp vẫn tính phí tuyến tính theo lượng token tiêu thụ, trong khi chi phí hệ thống thực tế lại tăng theo bậc hai khi độ dài chuỗi tăng lên
    Vì kiến trúc model, thuật toán suy luận và phần cứng ngày nay hầu như đã khá giống nhau, nên có vẻ khi quyết định giá, nhà cung cấp tham chiếu rất nhiều vào thống kê lịch sử về mẫu yêu cầu của khách hàng
    Cuối cùng, việc tăng giá khi họ đã thu thập đủ dữ liệu về mẫu sử dụng thực tế cũng không phải là điều gì mới mẻ

  • So với 2.0 Flash Lite, giá xử lý âm thanh của 2.5 Flash Lite đã tăng 6.33 lần
    Đầu vào âm thanh của 2.5 Flash Lite là $0.5 cho mỗi 1 triệu token, trong khi 2.0 là $0.075
    Tôi tò mò vì sao giá token âm thanh lại tăng mạnh đến vậy

  • Nếu giả định tỷ lệ token đầu vào : đầu ra là 3:1, thì blended price đã tăng 3.24 lần so với trước, và nếu lấy 2.0 Flash làm chuẩn thì gần như tăng gấp 5 lần
    Vì vậy, có vẻ 2.0 Flash vẫn còn cạnh tranh trong nhiều trường hợp sử dụng, đặc biệt là ngoài lĩnh vực lập trình
    Dù hiệu năng thấp hơn một chút, việc chia prompt thành nhiều lần gọi có thể còn đem lại hiệu quả thực tế tốt hơn
    Tôi đã kỳ vọng 2.5 Flash sẽ là lựa chọn áp đảo, nên thấy khá tiếc
    (Tài liệu giá liên quan có thể xem tại đây)