- Gemini 3.5 Flash là mô hình Gemini 3.5 đầu tiên kết hợp trí tuệ và khả năng thực thi ở đẳng cấp frontier, hướng đến các tác vụ dài hạn cho agent và lập trình
- Vẫn giữ tốc độ của dòng Flash nhưng vượt Gemini 3.1 Pro ở Terminal-Bench 2.1 76.2%, GDPval-AA 1656 Elo và các chỉ số khác
- Tốc độ xử lý theo token đầu ra nhanh hơn 4 lần so với các mô hình frontier khác, và trong nhiều trường hợp chi phí cũng chưa đến một nửa, phù hợp cho các tác vụ agent dài hạn
- Thực hiện các tác vụ nhiều bước như phát triển ứng dụng, chuyển đổi mã legacy sang Next.js, hiện thực game dựa trên bài báo nghiên cứu và tạo bản phác thảo UX trong Antigravity và AI Studio
- Được cung cấp làm mô hình mặc định cho ứng dụng Gemini và Search AI Mode, đồng thời áp dụng vào Gemini Spark và quy trình làm việc của các đối tác doanh nghiệp; 3.5 Pro dự kiến ra mắt vào tháng tới
Công bố Gemini 3.5 và phạm vi cung cấp
- Gemini 3.5 là dòng mô hình mới nhất kết hợp trí tuệ và khả năng thực thi ở đẳng cấp frontier, được định vị là mô hình để xây dựng các agent năng lực cao hơn
- Mô hình ra mắt đầu tiên là 3.5 Flash, mang lại hiệu năng đẳng cấp frontier cho agent và lập trình, tập trung vào các tác vụ dài hạn phức tạp có tính hữu dụng thực tế
- 3.5 Flash được cung cấp thông qua nhiều sản phẩm Google và công cụ dành cho nhà phát triển
- Cung cấp cho người dùng phổ thông qua ứng dụng Gemini và AI Mode của Google Search
- Nhà phát triển có thể sử dụng qua Google Antigravity, Gemini API trong Google AI Studio và Android Studio
- Cung cấp cho doanh nghiệp qua Gemini Enterprise Agent Platform và Gemini Enterprise
- 3.5 Pro cũng đang được phát triển, đã được sử dụng nội bộ và dự kiến ra mắt vào tháng tới
Hiệu năng của 3.5 Flash
- 3.5 Flash duy trì tốc độ của dòng Flash đồng thời mang lại trí tuệ có thể cạnh tranh với các mô hình flagship cỡ lớn trên nhiều phương diện
- Đây là mô hình lập trình kiểu agent mạnh nhất của Google, vượt Gemini 3.1 Pro trên các benchmark khó về lập trình và agent
- Terminal-Bench 2.1: 76.2%
- GDPval-AA: 1656 Elo
- MCP Atlas: 83.6%
- Hiểu đa phương thức CharXiv Reasoning: 84.2%
- Tốc độ xử lý theo token đầu ra mỗi giây nhanh hơn 4 lần so với các mô hình frontier khác
- Trên chỉ số của Artificial Analysis, mô hình nằm ở góc phần tư trên bên phải, cho thấy mức đánh đổi thấp hơn giữa chất lượng và độ trễ
Tác vụ agent quy mô lớn
- Nhờ sự cân bằng giữa tốc độ và hiệu năng, 3.5 Flash phù hợp với các tác vụ agent dài hạn
- Giúp rút ngắn thời gian cho các công việc vốn mất vài ngày với nhà phát triển hoặc vài tuần với người kiểm toán, và trong nhiều trường hợp có thể thực hiện với chi phí chưa đến một nửa so với các mô hình frontier khác
- Có thể nhanh chóng lập kế hoạch, xây dựng và lặp lại trong quá trình giải quyết vấn đề thực tế
- Phát triển ứng dụng mới
- Bảo trì codebase
- Hỗ trợ chuẩn bị tài liệu tài chính
- Khi kết hợp với harness Antigravity đã được cập nhật, mô hình trở thành một engine thực thi có thể triển khai các sub-agent cộng tác cho những trường hợp sử dụng khó, xử lý vấn đề ở quy mô lớn
- Vẫn duy trì hiệu năng đẳng cấp frontier trong khi thực thi ổn định các workflow nhiều bước và tác vụ lập trình dưới sự giám sát
Ví dụ sử dụng Antigravity và AI Studio
- 3.5 Flash thực thi workflow nhiều bước trong Antigravity để tự động đổi tên và phân loại các tài sản phi cấu trúc theo tiêu chí động
- Trong Antigravity, sử dụng hai agent để tổng hợp bài báo AlphaZero và viết mã một trò chơi có thể chơi hoàn chỉnh trong vòng 6 giờ
- Dùng harness Antigravity để chuyển đổi một codebase legacy phức tạp sang Next.js
- Trong Antigravity, sử dụng sub-agent để tạo cảnh quan đô thị mới và phát triển game bằng vòng lặp tự cải thiện nhanh giữa hai agent builder và player
- Dựa trên nền tảng đa phương thức mạnh mẽ của Gemini 3, 3.5 Flash tạo ra web UI và đồ họa phong phú, tương tác hơn
- Tạo hoạt ảnh tương tác cho bài báo nghiên cứu AI trong AI Studio
- Chuyển mô tả văn bản thông thường thành phần cứng tương tác trong AI Studio
- Chạy song song nhiều concept trong AI Studio để tạo toàn bộ concept branding cho một sự kiện gây quỹ ở trường học
- Tạo các cách tiếp cận UX khác nhau cho luồng checkout chỉ trong 60 giây trong AI Studio
Ứng dụng cho doanh nghiệp và nhà phát triển
- Năng lực agent của 3.5 Flash đã được sử dụng trong workflow của nhà phát triển và doanh nghiệp
- Trong quá trình phát triển dòng mô hình Gemini 3.5, Google đã cùng các đối tác trong ngành xác định những điểm phát sinh công việc lặp lại và độ phức tạp
- Các đối tác đang ghi nhận hiệu quả, từ tự động hóa các workflow kéo dài nhiều tuần trong lĩnh vực ngân hàng và fintech đến việc giúp đội ngũ khoa học dữ liệu tìm insight trong môi trường dữ liệu phức tạp
-
Shopify
- Chạy song song các sub-agent để phân tích dữ liệu phức tạp trong dài hạn và đưa ra dự báo tăng trưởng của người bán chính xác hơn ở quy mô toàn cầu
-
Macquarie Bank
- Đang thử nghiệm cách tăng tốc onboarding khách hàng bằng việc suy luận trên các tài liệu phức tạp dài hơn 100 trang, truy xuất thông tin liên quan và tạo khuyến nghị đáng tin cậy với độ trễ thấp
-
Salesforce
- Tích hợp 3.5 Flash vào Agentforce để tự động hóa các tác vụ doanh nghiệp phức tạp bằng nhiều sub-agent có thể giữ ngữ cảnh và thực thi các lệnh gọi công cụ nhiều lượt phức tạp
-
Ramp
- Hỗ trợ OCR thông minh và đáng tin cậy hơn bằng cách kết hợp hiểu đa phương thức trên hóa đơn phức tạp với suy luận về các mẫu trong quá khứ
-
Xero
- Cho phép agent tự chủ quản lý các workflow phức tạp kéo dài nhiều tuần như xác định nhà cung cấp và thu thập thông tin cho biểu mẫu thuế 1099, từ đó tự động hóa các tác vụ quản trị lặp lại của doanh nghiệp nhỏ
-
Databricks
- Sử dụng workflow kiểu agent để giám sát và truy xuất thông tin theo thời gian thực, suy luận trên các tập dữ liệu quy mô lớn để chẩn đoán vấn đề và đề xuất bản sửa lỗi cũng như giải pháp
Ứng dụng cho AI agent cá nhân và Search
- 3.5 Flash trở thành mô hình mặc định trong ứng dụng Gemini và AI Mode của Search trên toàn cầu
- Tại Google I/O, các tính năng mới áp dụng khả năng agent của 3.5 Flash vào đời sống hằng ngày đã được công bố
- Gemini Spark là agent AI cá nhân sử dụng 3.5 Flash
- Hoạt động 24 giờ mỗi ngày
- Điều hướng đời sống số theo chỉ dẫn của người dùng và hành động thay mặt họ
- Bắt đầu được phát hành cho những tester đáng tin cậy từ hôm nay
- Dự kiến cung cấp bản beta vào tuần tới cho người đăng ký Google AI Ultra tại Mỹ
- Khả năng lập trình kiểu agent được cải thiện của 3.5 Flash mang lại trải nghiệm thông minh hơn trên toàn bộ Search
- Giới thiệu một agent thông tin mới hoạt động 24 giờ vì người dùng
- Cho phép trải nghiệm UI tạo sinh năng động hơn
- Search sử dụng 3.5 Flash để tạo tư liệu trực quan tương tác giải thích mẫu Gyroid
Biện pháp an toàn
- Gemini 3.5 được phát triển theo Frontier Safety Framework
- Các biện pháp an toàn về cyber và CBRN được tăng cường, làm giảm khả năng tạo nội dung có hại và giảm khả năng từ chối nhầm các truy vấn an toàn
- Áp dụng các kỹ thuật học an toàn và giảm thiểu mới, tiên tiến hơn
- Bao gồm công cụ interpretability giúp kiểm tra và hiểu suy luận nội bộ của AI trước khi cung cấp phản hồi
1 bình luận
Ý kiến Hacker News
Con bồ nông trông khá ổn: https://github.com/simonw/llm-gemini/issues/133#issuecomment...
Nhưng xe đạp thì không ổn lắm. Nó quên mất thanh nối giữa bàn đạp và bánh sau, còn các khung khác cũng bị rối kỳ cục
Chi phí cũng đắt. Chỉ riêng con bồ nông đó đã tốn 13 cent: https://www.llm-prices.com/#it=11&ot=14403&sel=gemini-3.5-fl...
Ví dụ này rõ ràng đã khá hơn nhiều và chi tiết thì nhiều đến vô lý, nhưng hình dáng khung cơ bản vẫn sai. Với trang web cũng thấy cùng một kiểu mẫu: nó chỉ thêm nhiều thứ như nút bấm hơn
Tôi còn thử đưa SVG con bồ nông bị lỗi vào một mô hình ảnh để nó tìm khuyết điểm, mà nó vẫn không phát hiện ra các phần hỏng
https://www.gianlucagimini.it/portfolio-item/velocipedia/
Giá mỗi một triệu token đầu vào/đầu ra:
Gemini 2.5 Flash: $0.30/$2.50
Gemini 3.0 Flash Preview: $0.50/$3.00
Gemini 3.5 Flash: $1.50/$9.00
Xu hướng giá khá thú vị. Tôi không nhớ từng thấy tăng giá gấp 3 ở đúng model kế tiếp cùng phân khúc như vậy, và việc 3 chỉ từng có bản Preview cũng khá buồn cười
3.5 Flash có chi phí gần bằng Gemini 2.5 Pro vốn là $1.25/$10
Gemini 2.5 Flash (27 điểm): $172 (1.0x)
Gemini 2.5 Pro (35 điểm): $649 (3.8x)
Gemini 3.0 Flash (46 điểm): $278 (1.6x)
Gemini 3.5 Flash (55 điểm): $1,552 (9.0x, hoặc 2.4x so với 2.5 Pro)
Đây là một cú tăng giá rất lớn. So với Gemini 3.0 Flash thì là 5.6 lần
Vì vậy việc có một lớp trừu tượng không bị khóa vào nhà cung cấp thật sự rất hợp lý. Nếu dùng Kotlin thì Koog rất tốt
Hoặc cũng có thể họ thấy benchmark tốt nên nghĩ rằng có thể tăng giá. Nhưng hiện tại vẫn chưa có vẻ họ có đủ thị phần để biện minh cho quyết định đó
https://ai.google.dev/gemini-api/docs/models/gemini-3.5-flas...
Đáng chú ý là Google gắn nhãn model lần này là Stable chứ không phải Preview. So với xu hướng phát hành gần đây thì khá khác thường
Cộng thêm mức tăng giá gấp 3, giá Flash này đọc ra giống như mức sàn dài hạn mà Google muốn duy trì hơn là một biện pháp tạm thời rồi sẽ rút lại sau
Tuy nhiên vẫn khó nói đây chỉ là Google đọc đúng xu hướng hay cả ngành đang âm thầm thiết lập lại mặt bằng cho suy luận giá rẻ
https://gistpreview.github.io/?3496285c5dac5ba10ebbc0b201a1a...
Gemini 2.5 Pro - 5,325 tokens:
https://gistpreview.github.io/?cc5e0fefeaaffecd228c16c95e736...
Gemini 2.5 Flash - 7,556 tokens:
https://gistpreview.github.io/?263d6058fe526a62b8f270f0620ec...
Gemma 4 31B IT - 3,261 tokens trong AI Studio:
https://gistpreview.github.io/?858a42b96af864859a3b89508619d...
Gemma 4 26B A4B IT - 4,034 tokens trong AI Studio:
https://gistpreview.github.io/?4adb7703897e0c6b583f9de928e4a...
8112 tokens @ 52.97 TPS, 0.85s TTFT
https://gistpreview.github.io/?7bdefff99aca89d1bc12405323bd4...
Toàn bộ phiên: https://gist.github.com/abtinf/7bdefff99aca89d1bc12405323bd4...
Được tạo bằng LM Studio trên Macbook Pro M2 Max
https://huggingface.co/hesamation/Qwen3.6-35B-A3B-Claude-4.6...
https://gistpreview.github.io/?557f979c82701862bc26d24f10399...
https://claude.ai/public/artifacts/128ebe5a-add7-406a-9bce-6...
Có phải tôi già thật rồi không khi cứ nghe ai nói "Flash" là lập tức nghĩ tới "hãy cân nhắc HTML5 thay thế"?
Flash, ah, ah, saviour of the universe. Flash, ah, ah, he'll save every one of us!
Trong suốt bao nhiêu năm trời mà tôi cũng chẳng còn đếm nổi, mỗi lần nghe từ "flash" là tôi luôn nghĩ đến câu này
Mốc kiến thức: tháng 1 năm 2025
Cập nhật mới nhất: tháng 5 năm 2026
Tôi có cảm giác rất ominous về độ trễ này
Vì vậy để có chất lượng suy luận cao hơn, phải tập trung quá trình huấn luyện, và dữ liệu cần cực kỳ chất lượng cao, mật độ cao
Nếu khả năng dùng công cụ mạnh, thì việc model dùng dữ liệu cũ tự nó có thể không quá quan trọng, vì nó có thể tìm thông tin mới. Chỉ là hiện tại đa số model sẽ không tự làm vậy nếu không được gợi nhẹ
Theo tôi biết thì dòng Qwen 3 đều bắt đầu từ cùng một model nền, rồi chỉ fine-tune/hậu huấn luyện để cải thiện các chỉ số khác nhau. Dòng Gemini 3 cũng có thể đều như vậy, và có khi ngay lúc này họ đang đồng thời huấn luyện các model nền Gemini 4 với tri thức mới nhất
Tôi đang dùng google ai pro plan và đã thử 3.5 Flash trong Antigravity, nhưng chỉ sau hai prompt là đã dùng hết hạn mức. Nếu đây không phải lỗi thì đúng là không thể dùng nổi
Nhìn không khí trên subreddit Gemini thì có vẻ bị cắt mạnh hơn trước nhiều. Có lẽ tôi cũng sẽ hủy AI Pro
Bản cập nhật này còn làm app hỏng luôn. Mỗi lần sửa tin nhắn là app lại crash. Tôi còn đang dùng Pixel mà vẫn thế
Đồng hồ 2000 token của Gemini 3.5 Flash không tệ. https://clocks.brianmoore.com/
Tăng giá gấp 3 cho một model gần như tương đương. Người ta từng nói AI sẽ ngày càng rẻ và có mặt khắp nơi mà
Mức giá này thật vô lý
Có vẻ Gemini 3.5 Pro cũng sẽ tăng giá theo. 12 x 5 = 60?
Google trông như đang muốn chúng ta dùng các model Trung Quốc