Gemini 3.5 Flash
(deepmind.google)- Gemini 3.5 Flash của Google DeepMind là mô hình Preview cung cấp khả năng suy luận nâng cao cho các tác vụ agent và lập trình, đồng thời vẫn giữ độ trễ thấp và khả năng mở rộng của dòng Flash
- Năng lực cốt lõi là hiểu đa phương thức, xử lý đồng thời văn bản, âm thanh, hình ảnh, mã và video, bên cạnh các quy trình công việc dài và tác vụ lập trình lặp lại
- Các ví dụ công khai bao gồm từ tạo UI nhanh, xây dựng trò chơi dựa trên bài báo nghiên cứu đến thiết kế thành phố ảo, nhấn mạnh phạm vi ứng dụng trong các tác vụ kiểu agent
- Trong các benchmark, mô hình ghi điểm cao nhất trong bảng ở nhiều hạng mục như MCP Atlas 83.6%, Toolathlon 56.5%, Finance Agent v2 57.9%, MMMU-Pro 83.6%
- Đầu vào hỗ trợ văn bản, hình ảnh, video, âm thanh và PDF; đầu ra là văn bản; cung cấp 1M token đầu vào và 64k token đầu ra, cùng gọi hàm, đầu ra có cấu trúc, công cụ tìm kiếm và thực thi mã
Vị trí của Gemini 3.5 Flash
- Gemini 3.5 Flash là mô hình cung cấp suy luận nâng cao ở “mức độ trễ và khả năng mở rộng của Flash”
- Các lĩnh vực áp dụng gồm agent, lập trình, tác vụ hằng ngày, suy luận nâng cao, hiểu đa phương thức và hiểu ngữ cảnh dài
- Trạng thái mô hình là Preview
Những tác vụ được nhắm tới ở độ trễ mức Flash
- Trọng tâm là cung cấp đồng thời tốc độ nhanh và trí tuệ
- Mục tiêu là trở thành mô hình giữ được tốc độ và khả năng mở rộng mà không phải đánh đổi trí tuệ
- Xử lý suy luận tầm xa và các tác vụ lập trình lặp lại
- Hỗ trợ hiểu đa phương thức trên văn bản, âm thanh, hình ảnh, mã và video
Ví dụ ứng dụng agent
- Nhiều ví dụ tác vụ được đưa ra để thể hiện năng lực agent tốc độ cao
- Tạo 6 tùy chọn UI thanh toán trong chưa tới 60 giây
- Tạo 64 biến thể fractal với tốc độ cao
- Nhận đầu vào là bài báo AlphaGo và tự động xây dựng một trò chơi thông minh
- Điều phối nhiều workflow để tạo và cải thiện thương hiệu cho sự kiện gây quỹ với đầu vào tối thiểu
- Chuyển mô tả văn bản thành một thành phần HTML tương tác hoàn chỉnh
- Nhiều agent cùng tạo bài hát bằng thư viện nhạc Strudel
- Điều phối một nhóm agent chuyên môn để thiết kế và xây dựng thành phố ảo
- Tự động đổi tên và cấu trúc lại các bộ dữ liệu lộn xộn
- Triển khai agent để liên tục cải thiện trò chơi theo thời gian thực
Trường hợp khách hàng và cải thiện hiệu năng
- Armadin cho biết mô hình Flash mới nhất của Gemini đạt kết quả cao hơn 42% so với Flash 3 trong benchmark an ninh mạng đa lượt đường dài, đồng thời hiệu quả token được cải thiện 68%
- Trong bộ đánh giá tác vụ doanh nghiệp của Box, Gemini 3.5 Flash cao hơn 19.6% so với Gemini 3 Flash
- Độ chính xác trích xuất dữ liệu và tính toán cho khách hàng Life Sciences tăng lên 96.4%
- Độ chính xác tạo báo cáo tài chính dựa trên dữ liệu có cấu trúc cho Financial Services tăng 46.7%
- Junie của JetBrains đánh giá Gemini 3.5 Flash mang lại chất lượng lập trình và suy luận gần với Gemini Pro, trong khi vẫn giữ đặc tính tốc độ và chi phí của Flash
- Hiệu năng lập trình ở mức suy luận thấp được cải thiện 10–20% so với thế hệ Flash trước
Kết quả benchmark
- Gemini 3.5 Flash được nhấn mạnh mạnh mẽ như một mô hình cho workflow agent
- Benchmark lập trình
- Terminal-bench 2.1 Agentic terminal coding: 76.2%
- SWE-Bench Pro Public: 55.1%
- Benchmark agent và sử dụng công cụ
- MCP Atlas: 83.6% là điểm cao nhất trong bảng
- Toolathlon: 56.5% là điểm cao nhất trong bảng
- Điều khiển UI và tác vụ chuyên môn
- OSWorld-Verified: 78.4%
- Finance Agent v2: 57.9% là điểm cao nhất trong bảng
- GDPval-AA Elo: 1656
- Benchmark đa phương thức
- CharXiv Reasoning: 84.2% là điểm cao nhất trong bảng
- MMMU-Pro: 83.6% là điểm cao nhất trong bảng
- Blueprint-Bench 2: 33.6%
- Ngữ cảnh dài và suy luận
- MRCR v2 128k trung bình: 77.3%
- MRCR v2 1M pointwise: 26.6%, cao hơn Gemini 3 Flash và Gemini 3.1 Pro có thể so sánh
- Humanity’s Last Exam: 40.2%
- ARC-AGI-2: 72.1%
- Chi tiết phương pháp đánh giá có tại Gemini 3.5 Flash evals methodology
Thông tin mô hình và môi trường khả dụng
- Đầu vào hỗ trợ văn bản, hình ảnh, video, âm thanh, PDF
- Đầu ra là văn bản
- Ngữ cảnh và mốc kiến thức
- Token đầu vào: 1M
- Token đầu ra: 64k
- Mốc cắt kiến thức: tháng 1 năm 2025
- Tính năng sử dụng công cụ
- Gọi hàm
- Đầu ra có cấu trúc
- Dùng tìm kiếm như một công cụ
- Thực thi mã
- Các môi trường khả dụng gồm Gemini App, Gemini API, Gemini Enterprise, Gemini Enterprise Agent Platform, Google AI Mode, Google AI Studio, Google Antigravity và Android Studio
- Tài liệu cho nhà phát triển được cung cấp tại Gemini API models documentation
- Model card được cung cấp tại Gemini 3.5 Flash model card
1 bình luận
Ý kiến trên Hacker News
pipx install llm # or brew install llmllm install llm-gemini --upgradellm keys set gemini# paste API key herellm -m gemini-1.5-flash-latest 'a short poem about otters'https://github.com/simonw/llm-gemini/releases/tag/0.1a4
So với tự dựng thì không tệ, nhưng trong số các mô hình tuyến đầu, điểm khác biệt cốt lõi của Gemini là đa phương thức native. Giờ GPT-4o đã ra, tôi không rõ vì sao một tổ chức không bị ràng buộc với GCP lại chọn Gemini. Nếu không xử lý toàn bộ một cuốn sách hay bộ phim trong một lần thì ngữ cảnh 128k của GPT-4o cũng đủ, và tôi tò mò liệu có nơi nào ở quy mô thực tế đang làm những tác vụ không thể làm được khi giảm từ 1 triệu xuống 100 nghìn hay không
Điểm mạnh của Gemini không phải là khả năng giải câu đố logic mà là độ dài ngữ cảnh. Nếu đang ôn thi, bạn chỉ cần đưa toàn bộ giáo trình vào chat; nếu phải dùng một ngôn ngữ đã chết cho một hệ thống kiểm thử cũ mà trên Internet không có thông tin, bạn có thể đưa vào sổ tay tham chiếu 1.300 trang rồi hỏi
Tôi đã thử đưa Gemini 1.5 Pro vào nhiều quy trình công việc, nhưng nó quá tệ. Đặc biệt khi đưa video hoặc âm thanh vào thì hallucination nhiều đến khó tin. Tôi không biết một mô hình đa phương thức nhỏ và hay hallucination có ca sử dụng thực tế trong hầu hết doanh nghiệp hay không; nếu không đáng tin thì nó chỉ là đồ chơi
Ngay cả khi so với GPT-4o, mô hình đa phương thức rẻ nhất của OpenAI, GPT-3.5-Turbo có chi phí bằng 1/10 GPT-4o, giá $0.5 cho 1 triệu token đầu vào, $1.50 cho 1 triệu token đầu ra, và cửa sổ ngữ cảnh 16K. Gemini 1.5 Flash có giá $0.35 cho 1 triệu token đầu vào và $0.53 cho 1 triệu token đầu ra với prompt từ 128K trở xuống. Với các tác vụ đa phương thức không cần trí tuệ cấp GPT-4, đặc biệt là xử lý tài liệu, Gemini Flash trông gần như tiết kiệm 95% chi phí
Bạn không cần phải nghĩ đi nghĩ lại khi đưa ngữ cảnh vào, cũng không phải tạo các cách vòng tránh để xử lý việc vượt quá ngữ cảnh. Nếu phần lớn ca sử dụng xử lý văn bản hơn là đa phương thức, lợi thế này có vẻ khá rõ ràng
Tôi thử năm sáu lần rồi bỏ cuộc, hy vọng phiên bản này nhanh và ổn định hơn
Theo trực giác, khi ngữ cảnh dài hơn, ta sẽ đụng đến giới hạn về việc có thể nhồi bao nhiêu sự hiểu biết vào một điểm duy nhất trong không gian vector, và có lẽ sẽ cần kiến trúc tốt hơn để chọn các phần liên quan trong ngữ cảnh
Tôi không biết đây có phải thông tin công khai không, nhưng kích thước chiều của embedding là một lựa chọn kiến trúc. Tôi nghĩ đó chỉ là vấn đề thiết kế và ràng buộc tài nguyên, hơn là một giới hạn mang tính nguyên lý
Nếu có bài viết liên quan hoặc tài liệu đọc thêm thì rất mong được giới thiệu
Số lượng head hoặc kích thước vector key có thể tăng bất cứ lúc nào
Nhưng chỉ có một số nhân vật, chú thích cũng nghèo nàn, và chi phí khoảng $20. Nếu làm 10 lần thì mức độ chỉ đủ ổn để đôi lần đánh lừa bạn
Nhưng chúng ta không nên để điều đó trở thành tương lai
Với Google, nếu liệt kê danh sách mô hình bằng chính API, có vẻ họ cung cấp khoảng 10 mô hình thông qua một đường dẫn mà trong Google Cloud Console gọi là Generative Language API, còn tài liệu gọi là Gemini API. Tên mô hình thì nhiều hơn 10, nhưng một số mô hình có nhiều bí danh.
Trong số đó, chỉ có 3 mô hình có thông tin giá trên trang tài liệu giá của Gemini API, và 2 trong số đó là preview nên giá sẽ áp dụng trong tương lai. Trong Generative Language API trên console, chỉ có đúng 1 mô hình không phải preview trong 3 mô hình trên trang tài liệu là được hiển thị giá. Danh sách Cloud SKU không có Generative Language API, còn Gemini API thì có nhưng cũng chỉ có đúng mô hình đó. Cloud Price list mà trang console liên kết là “giá mới nhất” thì hoàn toàn không có cả Generative Language API lẫn Gemini API. Tôi không hiểu vì sao lại có nhiều mục khác nhau như vậy
Tôi cũng rất tò mò mô hình LLM dựa trên ký tự sẽ được so sánh như thế nào. Với ngữ cảnh 2 triệu, nút thắt tính toán sẽ mờ nhạt đi. Tuy nhiên tôi không rõ kích thước từ vựng đóng vai trò gì. Vì embedding vốn đã chứa một phần lớn tri thức, từ vựng lớn có thể quan trọng. Ngược lại, nếu dùng từ vựng dựa trên ký tự thì có vẻ có thể giải quyết nhiều vấn đề như token lỗi, số học, vần điệu. Việc triển khai và huấn luyện đúng tokenizer subword cũng trông khá phức tạp, còn ở mức ký tự thì hẳn phải rất đơn giản
Trên máy chủ suy luận, một phần đáng kể bộ nhớ nằm trong KV cache, và để tích lũy embedding thông qua attention thì cần liên hệ nhiều token hơn rất nhiều với nhau, trong khi mỗi token lại có “ý nghĩa” yếu hơn. Một ngày nào đó có thể sẽ chạm tới điểm này. Cuối cùng, ta sẽ cần các LLM đa phương thức hiểu được hình ảnh và âm thanh tới mức pixel và tần số, và có lẽ văn bản rốt cuộc cũng sẽ muốn như vậy
Ít nhất tôi nghĩ thông thường là vậy. Cách tiếp cận này có vẻ sẽ cho chất lượng cao hơn so với bảng chữ cái La Mã. Tôi tự hỏi liệu chỉ so sánh cách LLM xử lý tiếng Anh và tiếng Trung có đủ để kiểm tra điều đó không
Thứ hai, các mô hình này, nói rất đại khái, biến token thành “nghĩa trung bình” ở lớp embedding, các lớp attention kết hợp ý nghĩa, còn các lớp feedforward khớp tổ hợp ý nghĩa hiện tại với một thứ gì đó giống như các nguyên mẫu hay prototype đã học. Khi đi từ mảnh từ xuống ký tự, tất cả những điều này trở nên rối hơn. Ví dụ, ngay từ “nghĩa trung bình” của “a” là gì đã mơ hồ, nên tôi cho rằng hiện vẫn chưa có đủ kỹ thuật để huấn luyện tốt mô hình dựa trên ký tự
Chỉ là suy đoán của người không rành, nhưng có lẽ vì transformer không phải là bộ nhận dạng mẫu đa dụng, mà chỉ bắt được các mẫu ở một mức độ hạt nhất định
“ChatGPT” là một cái tên khá thô và phức tạp, còn OpenAI tạo cảm giác như một tổ chức vô diện. Tất nhiên điều đó có thể thay đổi, nhưng ở thời điểm này có vẻ đã khá muộn. Khi ra thị trường, họ chắc hẳn có đủ tiền để sáng tạo hơn
“GPT4o” thật đấy à? Thậm chí “GPT4 Omni” còn dễ nói chuyện hơn, và đó cũng là ý nghĩa của chữ “o”. Họ đang đánh giá thấp nghiêm trọng số lượng người dùng phổ thông
GPT-4 turbo(gpt-4-0125-preview) 31.0, GPT-4o 30.7, GPT-4 turbo(gpt-4-turbo-2024-04-09) 29.7, GPT-4 turbo(gpt-4-1106-preview) 28.8, Claude 3 Opus 27.3, GPT-4(0613) 26.1, Llama 3 Instruct 70B 24.0, Gemini Pro 1.5 19.9, Mistral Large 17.7, Gemini 1.5 Flash 15.3, Mistral Medium 15.0, Gemini Pro 1.0 14.2, Llama 3 Instruct 8B 12.3, Mixtral-8x22B Instruct 12.2
Theo https://ai.google.dev/pricing, có vẻ nó được định giá rẻ hơn gpt3.5-turbo một chút, nhưng thực tế so sánh ra sao thì không biết
Tôi đã dùng song song Gemini Pro và ChatGPT 4 trong vài tháng cho lập trình thực tế, kiến trúc hệ thống, và thỉnh thoảng là câu hỏi chung; ChatGPT hữu ích hơn ít nhất 80%. Gemini hoặc sai, hoặc lan man dài dòng trước khi đi đến câu trả lời hữu ích, đến mức không đáng dùng. Thứ tôi cần không phải là nhanh hơn. Có thể giờ nó đã “thông minh” hơn, tức là hữu ích hơn, nhưng chưa biết