Ra mắt Gemini 2.5 Flash

(developers.googleblog.com)

5 điểm bởi GN⁺ 2025-04-18 | 1 bình luận | Chia sẻ qua WhatsApp

Gemini 2.5 Flash là mô hình suy luận lai được cung cấp qua Google AI Studio và Vertex AI, cải thiện mạnh khả năng suy luận trong khi vẫn giữ được tốc độ và chi phí
Thông qua tính năng suy nghĩ (bật/tắt) và thiết lập thinking_budget, có thể tinh chỉnh chi tiết hiệu năng, chi phí và độ trễ
Có thể thiết lập ngân sách suy nghĩ để tinh chỉnh số token tối đa mà mô hình có thể tạo ra, từ đó cung cấp câu trả lời chính xác và toàn diện hơn cho các tác vụ phức tạp
Đây là mô hình suy luận tiết kiệm chi phí nhất của Google, mang lại hiệu năng cao so với chi phí thấp và có thể điều chỉnh linh hoạt theo nhiều trường hợp sử dụng
Hiện đã có thể dùng ở dạng preview trên Google AI Studio và Vertex AI, đồng thời cũng có thể cấu hình qua API

Ra mắt bản xem trước Gemini 2.5 Flash

Google đã công bố Gemini 2.5 Flash ở dạng bản xem trước (preview) thông qua Google AI Studio và Vertex AI
So với 2.0 Flash trước đây, khả năng suy luận được cải thiện đáng kể, trong khi vẫn duy trì tốc độ và hiệu quả chi phí
Đây là mô hình suy luận lai hoàn chỉnh đầu tiên, cho phép nhà phát triển bật hoặc tắt chế độ suy nghĩ (thinking)
Có thể điều chỉnh cân bằng giữa chất lượng, chi phí và độ trễ phản hồi bằng thiết lập thinking_budget
Ngay cả khi tắt chế độ suy nghĩ, mô hình vẫn duy trì hiệu năng tốt hơn 2.0 Flash

Khả năng suy luận của Gemini 2.5 Flash

Gemini 2.5 Flash không tạo câu trả lời ngay lập tức mà hoạt động theo cấu trúc suy nghĩ trước rồi mới trả lời
Tạo câu trả lời chính xác và toàn diện hơn cho các bài toán phức tạp, bài toán toán học hoặc câu hỏi phân tích nghiên cứu
Trên benchmark Hard Prompts của LMArena, mô hình cho thấy hiệu năng chỉ đứng sau 2.5 Pro
So với các mô hình khác, mô hình này cung cấp hiệu năng tương đương với mức giá rẻ hơn và kích thước mô hình nhỏ hơn

Mô hình suy luận tiết kiệm chi phí nhất

Gemini 2.5 Flash được đánh giá là mô hình suy luận có hiệu năng trên giá thành tốt nhất
Mô hình này mới được đưa vào đường cong hiệu quả chi phí theo chất lượng (Pareto frontier) của Google

Tính năng điều chỉnh suy nghĩ: `thinking_budget`

Cung cấp khả năng tinh chỉnh chi tiết giữa chất lượng, chi phí và độ trễ để phù hợp với nhiều trường hợp sử dụng khác nhau
thinking_budget là số token tối đa mà mô hình có thể dùng cho quá trình suy nghĩ
- Ví dụ: tăng budget sẽ cải thiện chất lượng nhưng cũng làm tăng chi phí và độ trễ
Với các câu hỏi đơn giản không cần suy nghĩ, hệ thống sẽ tự động áp dụng budget thấp
Phạm vi budget là 0 ~ 24.576 token, có thể điều chỉnh bằng thanh trượt hoặc tham số API trong AI Studio và Vertex AI

Ví dụ prompt theo mức độ suy luận

Cần mức suy luận thấp

“Thank you” bằng tiếng Tây Ban Nha
Hỏi số lượng tỉnh bang của Canada

Cần mức suy luận trung bình

Tính xác suất tung hai con xúc xắc ra tổng bằng 7
Lập thời gian biểu để chơi bóng rổ 5 giờ trong tuần dựa trên lịch trình

Cần mức suy luận cao

Bài toán tính ứng suất cơ học của dầm
Bài toán viết hàm đánh giá công thức kiểu Excel
- Cần xử lý phụ thuộc, độ ưu tiên toán tử và phát hiện vòng lặp

Bắt đầu

Có thể sử dụng phiên bản preview trên Google AI Studio, Vertex AI và ứng dụng Gemini
Khám phá khả năng giải quyết bài toán phức tạp bằng cách thử nghiệm tham số thinking_budget

Ví dụ mã:

from google import genai  

client = genai.Client(api_key=&quot;GEMINI_API_KEY&quot;)  

response = client.models.generate_content(  
  model=&quot;gemini-2.5-flash-preview-04-17&quot;,  
  contents=&quot;You roll two dice. What’s the probability they add up to 7?&quot;,  
  config=genai.types.GenerateContentConfig(  
    thinking_config=genai.types.ThinkingConfig(  
      thinking_budget=1024  
    )  
  )  
)  

print(response.text)

Xem thêm trong tài liệu dành cho nhà phát triển và Gemini Cookbook
Trong thời gian tới sẽ có thêm nhiều tính năng được bổ sung, đồng thời tiếp tục được cải tiến cho đến trước khi phát hành chính thức

1 bình luận

GN⁺ 2025-04-18

Ý kiến Hacker News

Việc Google cung cấp miễn phí Gemini 2.5 Pro (thử nghiệm) là một sự kiện lớn. Tôi chưa từng dùng các mẫu đắt tiền hơn của OpenAI nên không thể so sánh, nhưng so với các mẫu miễn phí tôi từng dùng trước đây thì Gemini 2.5 Pro cho thấy bước tiến đáng kể. Mẫu này thông minh hơn tôi trong hầu hết các chủ đề tôi xử lý, và nó không cố gắng đồng ý với tôi mà còn tranh luận với tôi. Giờ đây mọi nhu cầu AI thường ngày của tôi đều tập trung vào Gemini, và tôi mong chờ được hỏi nó về các chủ đề chuyên sâu. Tôi đang tạo ra các công cụ mới để nâng cao giá trị của mẫu này
Một trong những tính năng thường bị bỏ qua của các mẫu Gemini là có thể viết và chạy mã Python trực tiếp qua API. Plugin llm-gemini của tôi hỗ trợ điều này: liên kết GitHub. Không có chi phí bổ sung cho việc chạy mã, bạn chỉ trả tiền cho token đầu vào và đầu ra. Ví dụ, một lần dùng 10 đầu vào và 1.531 đầu ra có chi phí là 0,536 cent
Mẫu Gemini Flash là mẫu ít được chú ý nhất, nhưng trong sử dụng thực tế lại có hiệu năng trên giá thành tốt nhất và cung cấp công cụ đa phương thức. Google đang âm thầm chiến thắng trong cuộc đua AI
Thông tin ẩn khi đào sâu tài liệu của Gemini 2.5 Flash: với đầu vào hình ảnh, mẫu không chỉ có thể tạo hộp giới hạn 2D cho các chủ thể liên quan mà còn có thể tạo cả segmentation mask. Việc tạo segmentation mask bằng mẫu Flash ở mức giá này là khá ấn tượng. Segmentation mask được triển khai bằng cách tạo ra một chuỗi b64 đại diện cho mask
Với một người không phải lập trình viên như tôi, Google đang trở nên tuyệt vời một cách đáng kinh ngạc. Nó cung cấp mã hoạt động ngay từ đầu. Khi tôi yêu cầu viết mã để scrape và phân tích dữ liệu từ một website, nó đã viết ra mã để scrape và phân tích dữ liệu. Chỉ là phân loại và tổng hợp dữ liệu cơ bản, nhưng tôi không hề kỳ vọng điều đó
Thêm nhiều đổi mới hơn từ Google. OpenAI có hai vấn đề lớn. Thứ nhất là pipeline chip tích hợp theo chiều dọc của Google cùng kiến thức sâu về chuỗi cung ứng và vận hành cần thiết để sản xuất chip AI. Điều này mang lại lợi thế chi phí rất lớn ở mọi giai đoạn. Thứ hai là sự khan hiếm dữ liệu và lợi thế không công bằng của mạng xã hội như một nguồn tri thức được cập nhật liên tục. Dữ liệu mới đang ngày càng trở thành yếu tố khác biệt có giá trị. SamA nhận thức được các vấn đề này và xem chúng là các vấn đề nền tảng sẽ quyết định liệu OpenAI có thành công hay không
Giá của Gemini 2.0 Flash tăng 50%. Nghe có vẻ nhiều, nhưng Flash vẫn rất rẻ so với các mẫu khác có chất lượng tương đương
Phát hiện một điểm thú vị trong mã của thư viện API Python: liên kết GitHub. thinking_budget đã được tài liệu hóa, nhưng rất khó hiểu include_thoughts là gì. Tôi vẫn chưa tìm ra cách dùng tùy chọn này để Gemini trả về bản tóm tắt suy nghĩ
Trong khi Google cung cấp các mẫu ấn tượng qua API và AI Studio miễn phí, thì mẫu được dùng trong ứng dụng Gemini lại có vẻ kém hơn nhiều. Trong vài tuần gần đây tôi đã dùng Gemini Advanced với tài khoản Workspace, nhưng mẫu này có vẻ suy nghĩ trong thời gian ngắn hơn, cho đầu ra ngắn hơn, và cửa sổ ngữ cảnh cũng có vẻ rất xa so với con số quảng bá là 1 triệu token. Có vẻ như Google đang cố ý giới hạn ứng dụng Gemini
Khi chạy PDF nội bộ (3 trang, độ khó trung bình) làm benchmark json:
- gemini-flash-2.0: độ chính xác khoảng 60%, 1 USD cho mỗi 6.250 trang
- gemini-2.5-flash-preview (không suy nghĩ): độ chính xác khoảng 80%, 1 USD cho mỗi 1.700 trang
- gemini-2.5-flash-preview (có suy nghĩ): độ chính xác khoảng 80%, 1 USD cho mỗi 350 trang
- gemini-flash-2.5: độ chính xác khoảng 90%, 1 USD cho mỗi 150 trang
- Tôi ước gì biến thể có suy nghĩ được tách riêng khỏi biến thể thông thường. Khi tham số của mẫu ảnh hưởng lớn đến giá thành như vậy thì rất dễ gây nhầm lẫn

Ra mắt Gemini 2.5 Flash

Ra mắt bản xem trước Gemini 2.5 Flash

Khả năng suy luận của Gemini 2.5 Flash

Mô hình suy luận tiết kiệm chi phí nhất

Tính năng điều chỉnh suy nghĩ: thinking_budget

Ví dụ prompt theo mức độ suy luận

Cần mức suy luận thấp

Cần mức suy luận trung bình

Cần mức suy luận cao

Bắt đầu

Bài viết liên quan

1 bình luận

Ý kiến Hacker News

Tính năng điều chỉnh suy nghĩ: `thinking_budget`