Gemini 3.5 Flash

(blog.google)

6 điểm bởi GN⁺ 2026-05-20 | 1 bình luận | Chia sẻ qua WhatsApp

Gemini 3.5 Flash là mô hình Gemini 3.5 đầu tiên kết hợp trí tuệ và khả năng thực thi ở đẳng cấp frontier, hướng đến các tác vụ dài hạn cho agent và lập trình
Vẫn giữ tốc độ của dòng Flash nhưng vượt Gemini 3.1 Pro ở Terminal-Bench 2.1 76.2%, GDPval-AA 1656 Elo và các chỉ số khác
Tốc độ xử lý theo token đầu ra nhanh hơn 4 lần so với các mô hình frontier khác, và trong nhiều trường hợp chi phí cũng chưa đến một nửa, phù hợp cho các tác vụ agent dài hạn
Thực hiện các tác vụ nhiều bước như phát triển ứng dụng, chuyển đổi mã legacy sang Next.js, hiện thực game dựa trên bài báo nghiên cứu và tạo bản phác thảo UX trong Antigravity và AI Studio
Được cung cấp làm mô hình mặc định cho ứng dụng Gemini và Search AI Mode, đồng thời áp dụng vào Gemini Spark và quy trình làm việc của các đối tác doanh nghiệp; 3.5 Pro dự kiến ra mắt vào tháng tới

Công bố Gemini 3.5 và phạm vi cung cấp

Gemini 3.5 là dòng mô hình mới nhất kết hợp trí tuệ và khả năng thực thi ở đẳng cấp frontier, được định vị là mô hình để xây dựng các agent năng lực cao hơn
Mô hình ra mắt đầu tiên là 3.5 Flash, mang lại hiệu năng đẳng cấp frontier cho agent và lập trình, tập trung vào các tác vụ dài hạn phức tạp có tính hữu dụng thực tế
3.5 Flash được cung cấp thông qua nhiều sản phẩm Google và công cụ dành cho nhà phát triển
- Cung cấp cho người dùng phổ thông qua ứng dụng Gemini và AI Mode của Google Search
- Nhà phát triển có thể sử dụng qua Google Antigravity, Gemini API trong Google AI Studio và Android Studio
- Cung cấp cho doanh nghiệp qua Gemini Enterprise Agent Platform và Gemini Enterprise
3.5 Pro cũng đang được phát triển, đã được sử dụng nội bộ và dự kiến ra mắt vào tháng tới

Hiệu năng của 3.5 Flash

3.5 Flash duy trì tốc độ của dòng Flash đồng thời mang lại trí tuệ có thể cạnh tranh với các mô hình flagship cỡ lớn trên nhiều phương diện
Đây là mô hình lập trình kiểu agent mạnh nhất của Google, vượt Gemini 3.1 Pro trên các benchmark khó về lập trình và agent
- Terminal-Bench 2.1: 76.2%
- GDPval-AA: 1656 Elo
- MCP Atlas: 83.6%
- Hiểu đa phương thức CharXiv Reasoning: 84.2%
Tốc độ xử lý theo token đầu ra mỗi giây nhanh hơn 4 lần so với các mô hình frontier khác
Trên chỉ số của Artificial Analysis, mô hình nằm ở góc phần tư trên bên phải, cho thấy mức đánh đổi thấp hơn giữa chất lượng và độ trễ

Tác vụ agent quy mô lớn

Nhờ sự cân bằng giữa tốc độ và hiệu năng, 3.5 Flash phù hợp với các tác vụ agent dài hạn
Giúp rút ngắn thời gian cho các công việc vốn mất vài ngày với nhà phát triển hoặc vài tuần với người kiểm toán, và trong nhiều trường hợp có thể thực hiện với chi phí chưa đến một nửa so với các mô hình frontier khác
Có thể nhanh chóng lập kế hoạch, xây dựng và lặp lại trong quá trình giải quyết vấn đề thực tế
- Phát triển ứng dụng mới
- Bảo trì codebase
- Hỗ trợ chuẩn bị tài liệu tài chính
Khi kết hợp với harness Antigravity đã được cập nhật, mô hình trở thành một engine thực thi có thể triển khai các sub-agent cộng tác cho những trường hợp sử dụng khó, xử lý vấn đề ở quy mô lớn
Vẫn duy trì hiệu năng đẳng cấp frontier trong khi thực thi ổn định các workflow nhiều bước và tác vụ lập trình dưới sự giám sát

Ví dụ sử dụng Antigravity và AI Studio

3.5 Flash thực thi workflow nhiều bước trong Antigravity để tự động đổi tên và phân loại các tài sản phi cấu trúc theo tiêu chí động
Trong Antigravity, sử dụng hai agent để tổng hợp bài báo AlphaZero và viết mã một trò chơi có thể chơi hoàn chỉnh trong vòng 6 giờ
Dùng harness Antigravity để chuyển đổi một codebase legacy phức tạp sang Next.js
Trong Antigravity, sử dụng sub-agent để tạo cảnh quan đô thị mới và phát triển game bằng vòng lặp tự cải thiện nhanh giữa hai agent builder và player
Dựa trên nền tảng đa phương thức mạnh mẽ của Gemini 3, 3.5 Flash tạo ra web UI và đồ họa phong phú, tương tác hơn
- Tạo hoạt ảnh tương tác cho bài báo nghiên cứu AI trong AI Studio
- Chuyển mô tả văn bản thông thường thành phần cứng tương tác trong AI Studio
- Chạy song song nhiều concept trong AI Studio để tạo toàn bộ concept branding cho một sự kiện gây quỹ ở trường học
- Tạo các cách tiếp cận UX khác nhau cho luồng checkout chỉ trong 60 giây trong AI Studio

Ứng dụng cho doanh nghiệp và nhà phát triển

Năng lực agent của 3.5 Flash đã được sử dụng trong workflow của nhà phát triển và doanh nghiệp
Trong quá trình phát triển dòng mô hình Gemini 3.5, Google đã cùng các đối tác trong ngành xác định những điểm phát sinh công việc lặp lại và độ phức tạp
Các đối tác đang ghi nhận hiệu quả, từ tự động hóa các workflow kéo dài nhiều tuần trong lĩnh vực ngân hàng và fintech đến việc giúp đội ngũ khoa học dữ liệu tìm insight trong môi trường dữ liệu phức tạp
Shopify
- Chạy song song các sub-agent để phân tích dữ liệu phức tạp trong dài hạn và đưa ra dự báo tăng trưởng của người bán chính xác hơn ở quy mô toàn cầu
Macquarie Bank
- Đang thử nghiệm cách tăng tốc onboarding khách hàng bằng việc suy luận trên các tài liệu phức tạp dài hơn 100 trang, truy xuất thông tin liên quan và tạo khuyến nghị đáng tin cậy với độ trễ thấp
Salesforce
- Tích hợp 3.5 Flash vào Agentforce để tự động hóa các tác vụ doanh nghiệp phức tạp bằng nhiều sub-agent có thể giữ ngữ cảnh và thực thi các lệnh gọi công cụ nhiều lượt phức tạp
Ramp
- Hỗ trợ OCR thông minh và đáng tin cậy hơn bằng cách kết hợp hiểu đa phương thức trên hóa đơn phức tạp với suy luận về các mẫu trong quá khứ
Xero
- Cho phép agent tự chủ quản lý các workflow phức tạp kéo dài nhiều tuần như xác định nhà cung cấp và thu thập thông tin cho biểu mẫu thuế 1099, từ đó tự động hóa các tác vụ quản trị lặp lại của doanh nghiệp nhỏ
Databricks
- Sử dụng workflow kiểu agent để giám sát và truy xuất thông tin theo thời gian thực, suy luận trên các tập dữ liệu quy mô lớn để chẩn đoán vấn đề và đề xuất bản sửa lỗi cũng như giải pháp

Ứng dụng cho AI agent cá nhân và Search

3.5 Flash trở thành mô hình mặc định trong ứng dụng Gemini và AI Mode của Search trên toàn cầu
Tại Google I/O, các tính năng mới áp dụng khả năng agent của 3.5 Flash vào đời sống hằng ngày đã được công bố
Gemini Spark là agent AI cá nhân sử dụng 3.5 Flash
- Hoạt động 24 giờ mỗi ngày
- Điều hướng đời sống số theo chỉ dẫn của người dùng và hành động thay mặt họ
- Bắt đầu được phát hành cho những tester đáng tin cậy từ hôm nay
- Dự kiến cung cấp bản beta vào tuần tới cho người đăng ký Google AI Ultra tại Mỹ
Khả năng lập trình kiểu agent được cải thiện của 3.5 Flash mang lại trải nghiệm thông minh hơn trên toàn bộ Search
- Giới thiệu một agent thông tin mới hoạt động 24 giờ vì người dùng
- Cho phép trải nghiệm UI tạo sinh năng động hơn
- Search sử dụng 3.5 Flash để tạo tư liệu trực quan tương tác giải thích mẫu Gyroid

Biện pháp an toàn

Gemini 3.5 được phát triển theo Frontier Safety Framework
Các biện pháp an toàn về cyber và CBRN được tăng cường, làm giảm khả năng tạo nội dung có hại và giảm khả năng từ chối nhầm các truy vấn an toàn
Áp dụng các kỹ thuật học an toàn và giảm thiểu mới, tiên tiến hơn
Bao gồm công cụ interpretability giúp kiểm tra và hiểu suy luận nội bộ của AI trước khi cung cấp phản hồi

1 bình luận

GN⁺ 2026-05-20

Ý kiến Hacker News

Con bồ nông trông khá ổn: https://github.com/simonw/llm-gemini/issues/133#issuecomment...
Nhưng xe đạp thì không ổn lắm. Nó quên mất thanh nối giữa bàn đạp và bánh sau, còn các khung khác cũng bị rối kỳ cục
Chi phí cũng đắt. Chỉ riêng con bồ nông đó đã tốn 13 cent: https://www.llm-prices.com/#it=11&ot=14403&sel=gemini-3.5-fl...
- Con bồ nông đó trông như đến Miami vì một hội nghị crypto
- Điều này thể hiện hoàn hảo hiện tượng tôi từng cảm nhận trong tiến bộ của các mô hình ngôn ngữ lớn. Khi bảo nó cải thiện SVG kiểu này, nó không sửa các lỗi như thiếu thanh ngang hay tay chân bị tách rời, mà chỉ thêm nhiều yếu tố hơn
  Ví dụ này rõ ràng đã khá hơn nhiều và chi tiết thì nhiều đến vô lý, nhưng hình dáng khung cơ bản vẫn sai. Với trang web cũng thấy cùng một kiểu mẫu: nó chỉ thêm nhiều thứ như nút bấm hơn
  Tôi còn thử đưa SVG con bồ nông bị lỗi vào một mô hình ảnh để nó tìm khuyết điểm, mà nó vẫn không phát hiện ra các phần hỏng
- Việc quên chainstay là kết quả rất thường thấy khi bảo một người bất kỳ vẽ xe đạp
  https://www.gianlucagimini.it/portfolio-item/velocipedia/
  
  most ended up drawing something that was pretty far off from a regular men’s bicycle
- Cảm giác như nó nắm khá đúng cái chất rất Google: không ngầu nhưng vẫn luôn cố tỏ ra hợp thời với giới trẻ
- Mặt trời đó rất giống mặt trời xuất hiện ở nền của một bài HN nổi bật khác về bảo tàng OS: https://news.ycombinator.com/item?id=48195009
Giá mỗi một triệu token đầu vào/đầu ra:
Gemini 2.5 Flash: $0.30/$2.50
Gemini 3.0 Flash Preview: $0.50/$3.00
Gemini 3.5 Flash: $1.50/$9.00
Xu hướng giá khá thú vị. Tôi không nhớ từng thấy tăng giá gấp 3 ở đúng model kế tiếp cùng phân khúc như vậy, và việc 3 chỉ từng có bản Preview cũng khá buồn cười
3.5 Flash có chi phí gần bằng Gemini 2.5 Pro vốn là $1.25/$10
- Cách này còn đánh giá thấp mức tăng chi phí. 3.5 Flash cũng dùng nhiều token hơn. Theo artificialanalysis.ai, chênh lệch chi phí để chạy bộ đánh giá đầy đủ có vẻ gần với mức giá thực tế hơn:
  Gemini 2.5 Flash (27 điểm): $172 (1.0x)
  Gemini 2.5 Pro (35 điểm): $649 (3.8x)
  Gemini 3.0 Flash (46 điểm): $278 (1.6x)
  Gemini 3.5 Flash (55 điểm): $1,552 (9.0x, hoặc 2.4x so với 2.5 Pro)
  Đây là một cú tăng giá rất lớn. So với Gemini 3.0 Flash thì là 5.6 lần
- Có lẽ ngay từ đầu họ chưa từng định tiếp tục cung cấp model giá rẻ. Đây là cách tự nhiên để bắt đầu gây sức ép sau khi đã có người xây dịch vụ trên API của họ
  Vì vậy việc có một lớp trừu tượng không bị khóa vào nhà cung cấp thật sự rất hợp lý. Nếu dùng Kotlin thì Koog rất tốt
- Cần thêm một khoảnh khắc DeepSeek nữa. Nếu không thì AI sẽ trở nên khó tiếp cận với người bình thường, và thành thứ chỉ các tập đoàn lớn mới gánh nổi
- Nếu Google thực sự đang chạy suy luận rẻ hơn nơi khác nhờ TPU, thì chuyện này tạo cảm giác như một tín hiệu đáng lo. Có thể hóa ra việc phục vụ mô hình ngôn ngữ lớn có lãi là rất khó
  Hoặc cũng có thể họ thấy benchmark tốt nên nghĩ rằng có thể tăng giá. Nhưng hiện tại vẫn chưa có vẻ họ có đủ thị phần để biện minh cho quyết định đó
- Chẳng phải 3.5 Flash đang được gắn nhãn Stable chứ không phải Preview sao? Hay tôi đọc nhầm?
  https://ai.google.dev/gemini-api/docs/models/gemini-3.5-flas...
Đáng chú ý là Google gắn nhãn model lần này là Stable chứ không phải Preview. So với xu hướng phát hành gần đây thì khá khác thường
Cộng thêm mức tăng giá gấp 3, giá Flash này đọc ra giống như mức sàn dài hạn mà Google muốn duy trì hơn là một biện pháp tạm thời rồi sẽ rút lại sau
Tuy nhiên vẫn khó nói đây chỉ là Google đọc đúng xu hướng hay cả ngành đang âm thầm thiết lập lại mặt bằng cho suy luận giá rẻ
Create animated SVG of a frog on a boat rowing through jungle river. Single page self contained HTML page with SVG
3.5 Flash: Thinking Medium - 7516 tokens
https://gistpreview.github.io/?5c9858fd2057e678b55d563d9bff0...
3.5 Flash: Thinking High - 7280 tokens
https://gistpreview.github.io/?1cab3d70064349d08cf5952cdc165...
3.1 Pro - 28,258 tokens
https://gistpreview.github.io/?6bf3da2f80487608b9525bce53018...
3.1 đã suy nghĩ trong 3 phút để tạo ra, nhưng lại là model duy nhất thực sự thêm được chuyển động hoạt ảnh đúng nghĩa
- Gemini 3.1 Flash Lite Thinking High - 2,526 tokens:
  https://gistpreview.github.io/?3496285c5dac5ba10ebbc0b201a1a...
  Gemini 2.5 Pro - 5,325 tokens:
  https://gistpreview.github.io/?cc5e0fefeaaffecd228c16c95e736...
  Gemini 2.5 Flash - 7,556 tokens:
  https://gistpreview.github.io/?263d6058fe526a62b8f270f0620ec...
  Gemma 4 31B IT - 3,261 tokens trong AI Studio:
  https://gistpreview.github.io/?858a42b96af864859a3b89508619d...
  Gemma 4 26B A4B IT - 4,034 tokens trong AI Studio:
  https://gistpreview.github.io/?4adb7703897e0c6b583f9de928e4a...
- hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF @ Q6_K
  8112 tokens @ 52.97 TPS, 0.85s TTFT
  https://gistpreview.github.io/?7bdefff99aca89d1bc12405323bd4...
  Toàn bộ phiên: https://gist.github.com/abtinf/7bdefff99aca89d1bc12405323bd4...
  Được tạo bằng LM Studio trên Macbook Pro M2 Max
  https://huggingface.co/hesamation/Qwen3.6-35B-A3B-Claude-4.6...
- Đây là kết quả GPT 5.5 High thinking. Kết quả đầu tiên không phải hoạt ảnh nên phải thêm prompt nối tiếp thứ hai là "it's not animated though"
  https://gistpreview.github.io/?557f979c82701862bc26d24f10399...
- Opus 4.7
  https://claude.ai/public/artifacts/128ebe5a-add7-406a-9bce-6...
- Tất cả đều rất buồn cười. Chỉ riêng 3.5 Flash Thinking High là bị méo mó một cách kỳ quặc. Còn cái mũ của 3.1 Pro thì đúng là không hiểu nổi
Có phải tôi già thật rồi không khi cứ nghe ai nói "Flash" là lập tức nghĩ tới "hãy cân nhắc HTML5 thay thế"?
- Hầu như chẳng có bao nhiêu thứ từng làm nên sự vui nhộn của văn hóa Flash được chuyển sang HTML5
- Flash designer thực sự rất tuyệt. Một trong những thứ mà web phần nào làm thụt lùi là các công cụ RAD của thập niên 90 và 2000
- Các bạn trẻ à!
  Flash, ah, ah, saviour of the universe. Flash, ah, ah, he'll save every one of us!
  Trong suốt bao nhiêu năm trời mà tôi cũng chẳng còn đếm nổi, mỗi lần nghe từ "flash" là tôi luôn nghĩ đến câu này
Mốc kiến thức: tháng 1 năm 2025
Cập nhật mới nhất: tháng 5 năm 2026
Tôi có cảm giác rất ominous về độ trễ này
- Ít nhất trong một số trường hợp, có vẻ họ đang đi theo hướng huấn luyện bằng nhiều dữ liệu tổng hợp hơn và dữ liệu được tuyển chọn rất gắt. Đặc biệt với model nhỏ, không có chỗ để nhét cả thế giới vào vài chục đến vài trăm GB trọng số mô hình, nên không thể mở rộng bề rộng tri thức đến cực hạn
  Vì vậy để có chất lượng suy luận cao hơn, phải tập trung quá trình huấn luyện, và dữ liệu cần cực kỳ chất lượng cao, mật độ cao
  Nếu khả năng dùng công cụ mạnh, thì việc model dùng dữ liệu cũ tự nó có thể không quá quan trọng, vì nó có thể tìm thông tin mới. Chỉ là hiện tại đa số model sẽ không tự làm vậy nếu không được gợi nhẹ
  Theo tôi biết thì dòng Qwen 3 đều bắt đầu từ cùng một model nền, rồi chỉ fine-tune/hậu huấn luyện để cải thiện các chỉ số khác nhau. Dòng Gemini 3 cũng có thể đều như vậy, và có khi ngay lúc này họ đang đồng thời huấn luyện các model nền Gemini 4 với tri thức mới nhất
- Không nên bắt model lôi sự thật ra từ trọng số. Nó cần được neo vào nguồn dữ liệu thực
- Bạn có thể giải thích ý đó nghĩa là gì không?
- Tôi cứ nghĩ đó là lựa chọn của Google
Tôi đang dùng google ai pro plan và đã thử 3.5 Flash trong Antigravity, nhưng chỉ sau hai prompt là đã dùng hết hạn mức. Nếu đây không phải lỗi thì đúng là không thể dùng nổi
- Hôm qua hoặc hôm kia Google đã hạ hạn mức AI Pro từ 33 lần mức sử dụng tiêu chuẩn xuống còn 4 lần
  Nhìn không khí trên subreddit Gemini thì có vẻ bị cắt mạnh hơn trước nhiều. Có lẽ tôi cũng sẽ hủy AI Pro
  Bản cập nhật này còn làm app hỏng luôn. Mỗi lần sửa tin nhắn là app lại crash. Tôi còn đang dùng Pixel mà vẫn thế
Đồng hồ 2000 token của Gemini 3.5 Flash không tệ. https://clocks.brianmoore.com/
Tăng giá gấp 3 cho một model gần như tương đương. Người ta từng nói AI sẽ ngày càng rẻ và có mặt khắp nơi mà
- Chắc ý họ là lan khắp nơi như mốt dùng crack
- Nếu tin vào benchmark thì có thể xem nó là ba phần tư giá của 3.1 Pro
Mức giá này thật vô lý
Có vẻ Gemini 3.5 Pro cũng sẽ tăng giá theo. 12 x 5 = 60?
Google trông như đang muốn chúng ta dùng các model Trung Quốc

Gemini 3.5 Flash

Công bố Gemini 3.5 và phạm vi cung cấp

Hiệu năng của 3.5 Flash

Tác vụ agent quy mô lớn

Ví dụ sử dụng Antigravity và AI Studio

Ứng dụng cho doanh nghiệp và nhà phát triển

Shopify

Macquarie Bank

Salesforce

Ramp

Xero

Databricks

Ứng dụng cho AI agent cá nhân và Search

Biện pháp an toàn

Bài viết liên quan

1 bình luận

Ý kiến Hacker News