- Gemini 2.5 Flash là mô hình suy luận lai được cung cấp qua Google AI Studio và Vertex AI, cải thiện mạnh khả năng suy luận trong khi vẫn giữ được tốc độ và chi phí
- Thông qua tính năng suy nghĩ (bật/tắt) và thiết lập
thinking_budget, có thể tinh chỉnh chi tiết hiệu năng, chi phí và độ trễ
- Có thể thiết lập ngân sách suy nghĩ để tinh chỉnh số token tối đa mà mô hình có thể tạo ra, từ đó cung cấp câu trả lời chính xác và toàn diện hơn cho các tác vụ phức tạp
- Đây là mô hình suy luận tiết kiệm chi phí nhất của Google, mang lại hiệu năng cao so với chi phí thấp và có thể điều chỉnh linh hoạt theo nhiều trường hợp sử dụng
- Hiện đã có thể dùng ở dạng preview trên Google AI Studio và Vertex AI, đồng thời cũng có thể cấu hình qua API
Ra mắt bản xem trước Gemini 2.5 Flash
- Google đã công bố Gemini 2.5 Flash ở dạng bản xem trước (preview) thông qua Google AI Studio và Vertex AI
- So với 2.0 Flash trước đây, khả năng suy luận được cải thiện đáng kể, trong khi vẫn duy trì tốc độ và hiệu quả chi phí
- Đây là mô hình suy luận lai hoàn chỉnh đầu tiên, cho phép nhà phát triển bật hoặc tắt chế độ suy nghĩ (thinking)
- Có thể điều chỉnh cân bằng giữa chất lượng, chi phí và độ trễ phản hồi bằng thiết lập
thinking_budget
- Ngay cả khi tắt chế độ suy nghĩ, mô hình vẫn duy trì hiệu năng tốt hơn 2.0 Flash
Khả năng suy luận của Gemini 2.5 Flash
- Gemini 2.5 Flash không tạo câu trả lời ngay lập tức mà hoạt động theo cấu trúc suy nghĩ trước rồi mới trả lời
- Tạo câu trả lời chính xác và toàn diện hơn cho các bài toán phức tạp, bài toán toán học hoặc câu hỏi phân tích nghiên cứu
- Trên benchmark Hard Prompts của LMArena, mô hình cho thấy hiệu năng chỉ đứng sau 2.5 Pro
- So với các mô hình khác, mô hình này cung cấp hiệu năng tương đương với mức giá rẻ hơn và kích thước mô hình nhỏ hơn
Mô hình suy luận tiết kiệm chi phí nhất
- Gemini 2.5 Flash được đánh giá là mô hình suy luận có hiệu năng trên giá thành tốt nhất
- Mô hình này mới được đưa vào đường cong hiệu quả chi phí theo chất lượng (Pareto frontier) của Google
Tính năng điều chỉnh suy nghĩ: thinking_budget
- Cung cấp khả năng tinh chỉnh chi tiết giữa chất lượng, chi phí và độ trễ để phù hợp với nhiều trường hợp sử dụng khác nhau
thinking_budget là số token tối đa mà mô hình có thể dùng cho quá trình suy nghĩ
- Ví dụ: tăng budget sẽ cải thiện chất lượng nhưng cũng làm tăng chi phí và độ trễ
- Với các câu hỏi đơn giản không cần suy nghĩ, hệ thống sẽ tự động áp dụng budget thấp
- Phạm vi budget là 0 ~ 24.576 token, có thể điều chỉnh bằng thanh trượt hoặc tham số API trong AI Studio và Vertex AI
Ví dụ prompt theo mức độ suy luận
Cần mức suy luận thấp
- “Thank you” bằng tiếng Tây Ban Nha
- Hỏi số lượng tỉnh bang của Canada
Cần mức suy luận trung bình
- Tính xác suất tung hai con xúc xắc ra tổng bằng 7
- Lập thời gian biểu để chơi bóng rổ 5 giờ trong tuần dựa trên lịch trình
Cần mức suy luận cao
- Bài toán tính ứng suất cơ học của dầm
- Bài toán viết hàm đánh giá công thức kiểu Excel
- Cần xử lý phụ thuộc, độ ưu tiên toán tử và phát hiện vòng lặp
Bắt đầu
- Có thể sử dụng phiên bản preview trên Google AI Studio, Vertex AI và ứng dụng Gemini
- Khám phá khả năng giải quyết bài toán phức tạp bằng cách thử nghiệm tham số
thinking_budget
- Ví dụ mã:
from google import genai
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-2.5-flash-preview-04-17",
contents="You roll two dice. What’s the probability they add up to 7?",
config=genai.types.GenerateContentConfig(
thinking_config=genai.types.ThinkingConfig(
thinking_budget=1024
)
)
)
print(response.text)
- Xem thêm trong tài liệu dành cho nhà phát triển và Gemini Cookbook
- Trong thời gian tới sẽ có thêm nhiều tính năng được bổ sung, đồng thời tiếp tục được cải tiến cho đến trước khi phát hành chính thức
1 bình luận
Ý kiến Hacker News
Việc Google cung cấp miễn phí Gemini 2.5 Pro (thử nghiệm) là một sự kiện lớn. Tôi chưa từng dùng các mẫu đắt tiền hơn của OpenAI nên không thể so sánh, nhưng so với các mẫu miễn phí tôi từng dùng trước đây thì Gemini 2.5 Pro cho thấy bước tiến đáng kể. Mẫu này thông minh hơn tôi trong hầu hết các chủ đề tôi xử lý, và nó không cố gắng đồng ý với tôi mà còn tranh luận với tôi. Giờ đây mọi nhu cầu AI thường ngày của tôi đều tập trung vào Gemini, và tôi mong chờ được hỏi nó về các chủ đề chuyên sâu. Tôi đang tạo ra các công cụ mới để nâng cao giá trị của mẫu này
Một trong những tính năng thường bị bỏ qua của các mẫu Gemini là có thể viết và chạy mã Python trực tiếp qua API. Plugin llm-gemini của tôi hỗ trợ điều này: liên kết GitHub. Không có chi phí bổ sung cho việc chạy mã, bạn chỉ trả tiền cho token đầu vào và đầu ra. Ví dụ, một lần dùng 10 đầu vào và 1.531 đầu ra có chi phí là 0,536 cent
Mẫu Gemini Flash là mẫu ít được chú ý nhất, nhưng trong sử dụng thực tế lại có hiệu năng trên giá thành tốt nhất và cung cấp công cụ đa phương thức. Google đang âm thầm chiến thắng trong cuộc đua AI
Thông tin ẩn khi đào sâu tài liệu của Gemini 2.5 Flash: với đầu vào hình ảnh, mẫu không chỉ có thể tạo hộp giới hạn 2D cho các chủ thể liên quan mà còn có thể tạo cả segmentation mask. Việc tạo segmentation mask bằng mẫu Flash ở mức giá này là khá ấn tượng. Segmentation mask được triển khai bằng cách tạo ra một chuỗi b64 đại diện cho mask
Với một người không phải lập trình viên như tôi, Google đang trở nên tuyệt vời một cách đáng kinh ngạc. Nó cung cấp mã hoạt động ngay từ đầu. Khi tôi yêu cầu viết mã để scrape và phân tích dữ liệu từ một website, nó đã viết ra mã để scrape và phân tích dữ liệu. Chỉ là phân loại và tổng hợp dữ liệu cơ bản, nhưng tôi không hề kỳ vọng điều đó
Thêm nhiều đổi mới hơn từ Google. OpenAI có hai vấn đề lớn. Thứ nhất là pipeline chip tích hợp theo chiều dọc của Google cùng kiến thức sâu về chuỗi cung ứng và vận hành cần thiết để sản xuất chip AI. Điều này mang lại lợi thế chi phí rất lớn ở mọi giai đoạn. Thứ hai là sự khan hiếm dữ liệu và lợi thế không công bằng của mạng xã hội như một nguồn tri thức được cập nhật liên tục. Dữ liệu mới đang ngày càng trở thành yếu tố khác biệt có giá trị. SamA nhận thức được các vấn đề này và xem chúng là các vấn đề nền tảng sẽ quyết định liệu OpenAI có thành công hay không
Giá của Gemini 2.0 Flash tăng 50%. Nghe có vẻ nhiều, nhưng Flash vẫn rất rẻ so với các mẫu khác có chất lượng tương đương
Phát hiện một điểm thú vị trong mã của thư viện API Python: liên kết GitHub.
thinking_budgetđã được tài liệu hóa, nhưng rất khó hiểuinclude_thoughtslà gì. Tôi vẫn chưa tìm ra cách dùng tùy chọn này để Gemini trả về bản tóm tắt suy nghĩTrong khi Google cung cấp các mẫu ấn tượng qua API và AI Studio miễn phí, thì mẫu được dùng trong ứng dụng Gemini lại có vẻ kém hơn nhiều. Trong vài tuần gần đây tôi đã dùng Gemini Advanced với tài khoản Workspace, nhưng mẫu này có vẻ suy nghĩ trong thời gian ngắn hơn, cho đầu ra ngắn hơn, và cửa sổ ngữ cảnh cũng có vẻ rất xa so với con số quảng bá là 1 triệu token. Có vẻ như Google đang cố ý giới hạn ứng dụng Gemini
Khi chạy PDF nội bộ (3 trang, độ khó trung bình) làm benchmark json: