Gemini 3.5 Flash

(deepmind.google)

2 điểm bởi GN⁺ 2024-05-15 | 1 bình luận | Chia sẻ qua WhatsApp

Gemini 3.5 Flash của Google DeepMind là mô hình Preview cung cấp khả năng suy luận nâng cao cho các tác vụ agent và lập trình, đồng thời vẫn giữ độ trễ thấp và khả năng mở rộng của dòng Flash
Năng lực cốt lõi là hiểu đa phương thức, xử lý đồng thời văn bản, âm thanh, hình ảnh, mã và video, bên cạnh các quy trình công việc dài và tác vụ lập trình lặp lại
Các ví dụ công khai bao gồm từ tạo UI nhanh, xây dựng trò chơi dựa trên bài báo nghiên cứu đến thiết kế thành phố ảo, nhấn mạnh phạm vi ứng dụng trong các tác vụ kiểu agent
Trong các benchmark, mô hình ghi điểm cao nhất trong bảng ở nhiều hạng mục như MCP Atlas 83.6%, Toolathlon 56.5%, Finance Agent v2 57.9%, MMMU-Pro 83.6%
Đầu vào hỗ trợ văn bản, hình ảnh, video, âm thanh và PDF; đầu ra là văn bản; cung cấp 1M token đầu vào và 64k token đầu ra, cùng gọi hàm, đầu ra có cấu trúc, công cụ tìm kiếm và thực thi mã

Vị trí của Gemini 3.5 Flash

Gemini 3.5 Flash là mô hình cung cấp suy luận nâng cao ở “mức độ trễ và khả năng mở rộng của Flash”
Các lĩnh vực áp dụng gồm agent, lập trình, tác vụ hằng ngày, suy luận nâng cao, hiểu đa phương thức và hiểu ngữ cảnh dài
Trạng thái mô hình là Preview

Những tác vụ được nhắm tới ở độ trễ mức Flash

Trọng tâm là cung cấp đồng thời tốc độ nhanh và trí tuệ
- Mục tiêu là trở thành mô hình giữ được tốc độ và khả năng mở rộng mà không phải đánh đổi trí tuệ
Xử lý suy luận tầm xa và các tác vụ lập trình lặp lại
Hỗ trợ hiểu đa phương thức trên văn bản, âm thanh, hình ảnh, mã và video

Ví dụ ứng dụng agent

Nhiều ví dụ tác vụ được đưa ra để thể hiện năng lực agent tốc độ cao
- Tạo 6 tùy chọn UI thanh toán trong chưa tới 60 giây
- Tạo 64 biến thể fractal với tốc độ cao
- Nhận đầu vào là bài báo AlphaGo và tự động xây dựng một trò chơi thông minh
- Điều phối nhiều workflow để tạo và cải thiện thương hiệu cho sự kiện gây quỹ với đầu vào tối thiểu
- Chuyển mô tả văn bản thành một thành phần HTML tương tác hoàn chỉnh
- Nhiều agent cùng tạo bài hát bằng thư viện nhạc Strudel
- Điều phối một nhóm agent chuyên môn để thiết kế và xây dựng thành phố ảo
- Tự động đổi tên và cấu trúc lại các bộ dữ liệu lộn xộn
- Triển khai agent để liên tục cải thiện trò chơi theo thời gian thực

Trường hợp khách hàng và cải thiện hiệu năng

Armadin cho biết mô hình Flash mới nhất của Gemini đạt kết quả cao hơn 42% so với Flash 3 trong benchmark an ninh mạng đa lượt đường dài, đồng thời hiệu quả token được cải thiện 68%
Trong bộ đánh giá tác vụ doanh nghiệp của Box, Gemini 3.5 Flash cao hơn 19.6% so với Gemini 3 Flash
- Độ chính xác trích xuất dữ liệu và tính toán cho khách hàng Life Sciences tăng lên 96.4%
- Độ chính xác tạo báo cáo tài chính dựa trên dữ liệu có cấu trúc cho Financial Services tăng 46.7%
Junie của JetBrains đánh giá Gemini 3.5 Flash mang lại chất lượng lập trình và suy luận gần với Gemini Pro, trong khi vẫn giữ đặc tính tốc độ và chi phí của Flash
- Hiệu năng lập trình ở mức suy luận thấp được cải thiện 10–20% so với thế hệ Flash trước

Kết quả benchmark

Gemini 3.5 Flash được nhấn mạnh mạnh mẽ như một mô hình cho workflow agent
Benchmark lập trình
- Terminal-bench 2.1 Agentic terminal coding: 76.2%
- SWE-Bench Pro Public: 55.1%
Benchmark agent và sử dụng công cụ
- MCP Atlas: 83.6% là điểm cao nhất trong bảng
- Toolathlon: 56.5% là điểm cao nhất trong bảng
Điều khiển UI và tác vụ chuyên môn
- OSWorld-Verified: 78.4%
- Finance Agent v2: 57.9% là điểm cao nhất trong bảng
- GDPval-AA Elo: 1656
Benchmark đa phương thức
- CharXiv Reasoning: 84.2% là điểm cao nhất trong bảng
- MMMU-Pro: 83.6% là điểm cao nhất trong bảng
- Blueprint-Bench 2: 33.6%
Ngữ cảnh dài và suy luận
- MRCR v2 128k trung bình: 77.3%
- MRCR v2 1M pointwise: 26.6%, cao hơn Gemini 3 Flash và Gemini 3.1 Pro có thể so sánh
- Humanity’s Last Exam: 40.2%
- ARC-AGI-2: 72.1%
Chi tiết phương pháp đánh giá có tại Gemini 3.5 Flash evals methodology

Thông tin mô hình và môi trường khả dụng

Đầu vào hỗ trợ văn bản, hình ảnh, video, âm thanh, PDF
Đầu ra là văn bản
Ngữ cảnh và mốc kiến thức
- Token đầu vào: 1M
- Token đầu ra: 64k
- Mốc cắt kiến thức: tháng 1 năm 2025
Tính năng sử dụng công cụ
- Gọi hàm
- Đầu ra có cấu trúc
- Dùng tìm kiếm như một công cụ
- Thực thi mã
Các môi trường khả dụng gồm Gemini App, Gemini API, Gemini Enterprise, Gemini Enterprise Agent Platform, Google AI Mode, Google AI Studio, Google Antigravity và Android Studio
Tài liệu cho nhà phát triển được cung cấp tại Gemini API models documentation
Model card được cung cấp tại Gemini 3.5 Flash model card

1 bình luận

GN⁺ 2024-05-15

Ý kiến trên Hacker News

Tôi đã nâng cấp plugin llm-gemini để cung cấp quyền truy cập Gemini Flash qua CLI
pipx install llm # or brew install llm
llm install llm-gemini --upgrade
llm keys set gemini
# paste API key here
llm -m gemini-1.5-flash-latest 'a short poem about otters'
https://github.com/simonw/llm-gemini/releases/tag/0.1a4
Nhìn vào các benchmark như MMLU, có vẻ điều này về cơ bản có nghĩa đây là một mô hình có chất lượng cỡ Llama 3 70B, độ trễ token đầu tiên dưới 1 giây, không ở mức GPT-4/Opus nhưng có đa phương thức native và ngữ cảnh 1 triệu token
So với tự dựng thì không tệ, nhưng trong số các mô hình tuyến đầu, điểm khác biệt cốt lõi của Gemini là đa phương thức native. Giờ GPT-4o đã ra, tôi không rõ vì sao một tổ chức không bị ràng buộc với GCP lại chọn Gemini. Nếu không xử lý toàn bộ một cuốn sách hay bộ phim trong một lần thì ngữ cảnh 128k của GPT-4o cũng đủ, và tôi tò mò liệu có nơi nào ở quy mô thực tế đang làm những tác vụ không thể làm được khi giảm từ 1 triệu xuống 100 nghìn hay không
- Với 1 triệu token, bạn có thể đưa 2.000 trang tài liệu vào cửa sổ ngữ cảnh trước khi bắt đầu chat
  Điểm mạnh của Gemini không phải là khả năng giải câu đố logic mà là độ dài ngữ cảnh. Nếu đang ôn thi, bạn chỉ cần đưa toàn bộ giáo trình vào chat; nếu phải dùng một ngôn ngữ đã chết cho một hệ thống kiểm thử cũ mà trên Internet không có thông tin, bạn có thể đưa vào sổ tay tham chiếu 1.300 trang rồi hỏi
- Tôi không nghĩ đây có thể là chất lượng Llama 3 70B
  Tôi đã thử đưa Gemini 1.5 Pro vào nhiều quy trình công việc, nhưng nó quá tệ. Đặc biệt khi đưa video hoặc âm thanh vào thì hallucination nhiều đến khó tin. Tôi không biết một mô hình đa phương thức nhỏ và hay hallucination có ca sử dụng thực tế trong hầu hết doanh nghiệp hay không; nếu không đáng tin thì nó chỉ là đồ chơi
- Lý do một tổ chức không bị ràng buộc với GCP chọn Gemini là giá. Đặc biệt với các tác vụ đa phương thức không cần đến chất lượng GPT-4
  Ngay cả khi so với GPT-4o, mô hình đa phương thức rẻ nhất của OpenAI, GPT-3.5-Turbo có chi phí bằng 1/10 GPT-4o, giá $0.5 cho 1 triệu token đầu vào, $1.50 cho 1 triệu token đầu ra, và cửa sổ ngữ cảnh 16K. Gemini 1.5 Flash có giá $0.35 cho 1 triệu token đầu vào và $0.53 cho 1 triệu token đầu ra với prompt từ 128K trở xuống. Với các tác vụ đa phương thức không cần trí tuệ cấp GPT-4, đặc biệt là xử lý tài liệu, Gemini Flash trông gần như tiết kiệm 95% chi phí
- Nó giống như hỏi vì sao cần Gmail 1GB khi một tài khoản Yahoo 50MB có vẻ là đủ
  Bạn không cần phải nghĩ đi nghĩ lại khi đưa ngữ cảnh vào, cũng không phải tạo các cách vòng tránh để xử lý việc vượt quá ngữ cảnh. Nếu phần lớn ca sử dụng xử lý văn bản hơn là đa phương thức, lợi thế này có vẻ khá rõ ràng
- Vài tháng trước tôi đã thử dùng 1 triệu token với Gemini, nhưng nó bị crash hoặc phản hồi rất chậm rồi cuối cùng cũng crash
  Tôi thử năm sáu lần rồi bỏ cuộc, hy vọng phiên bản này nhanh và ổn định hơn
Tôi xem ngữ cảnh 1 triệu token mặc định là tính năng lớn ở đây, nhưng cần có benchmark tốt hơn để đo lường điều đó thực sự có ý nghĩa gì
Theo trực giác, khi ngữ cảnh dài hơn, ta sẽ đụng đến giới hạn về việc có thể nhồi bao nhiêu sự hiểu biết vào một điểm duy nhất trong không gian vector, và có lẽ sẽ cần kiến trúc tốt hơn để chọn các phần liên quan trong ngữ cảnh
- Nếu nói về sử dụng production, thì đa phương thức của một mô hình có chi phí mỗi token chỉ bằng 4–7% so với mô hình đa phương thức rẻ nhất của OpenAI là một tính năng quan trọng, chứ không phải một demo không bền vững về mặt kinh tế
- Tôi không rõ giới hạn một điểm duy nhất trong không gian vector ở chiều nào được nói tới
  Tôi không biết đây có phải thông tin công khai không, nhưng kích thước chiều của embedding là một lựa chọn kiến trúc. Tôi nghĩ đó chỉ là vấn đề thiết kế và ràng buộc tài nguyên, hơn là một giới hạn mang tính nguyên lý
- Tôi tò mò liệu có thể giải thích cho người chỉ biết sơ về vector và cơ sở dữ liệu vector hiểu rằng việc đưa sự hiểu biết vào một điểm duy nhất trong không gian vector nghĩa là gì không
  Nếu có bài viết liên quan hoặc tài liệu đọc thêm thì rất mong được giới thiệu
- Chúng ta đang xử lý multi-head attention, nên có nhiều điểm cho mỗi token
  Số lượng head hoặc kích thước vector key có thể tăng bất cứ lúc nào
- Thực tế thì không tốt đến vậy. Có thể tạo các demo nghe có vẻ thuyết phục như “đưa vào 6,5 tập Harry Potter và nó tạo ra một bản đồ SVG liên kết các nhân vật kèm chú thích”
  Nhưng chỉ có một số nhân vật, chú thích cũng nghèo nàn, và chi phí khoảng $20. Nếu làm 10 lần thì mức độ chỉ đủ ổn để đôi lần đánh lừa bạn
Một mô hình nhẹ nhưng chỉ dùng được trên cloud, nghe thú vị thật. Các ông lớn công nghệ này thực sự rất muốn sở hữu cả mức sử dụng AI
Nhưng chúng ta không nên để điều đó trở thành tương lai
Một điểm OpenAI làm tốt hơn Google là họ thực sự công khai giá API, và cách đặt tên cũng tương đối nhất quán
Với Google, nếu liệt kê danh sách mô hình bằng chính API, có vẻ họ cung cấp khoảng 10 mô hình thông qua một đường dẫn mà trong Google Cloud Console gọi là Generative Language API, còn tài liệu gọi là Gemini API. Tên mô hình thì nhiều hơn 10, nhưng một số mô hình có nhiều bí danh.
Trong số đó, chỉ có 3 mô hình có thông tin giá trên trang tài liệu giá của Gemini API, và 2 trong số đó là preview nên giá sẽ áp dụng trong tương lai. Trong Generative Language API trên console, chỉ có đúng 1 mô hình không phải preview trong 3 mô hình trên trang tài liệu là được hiển thị giá. Danh sách Cloud SKU không có Generative Language API, còn Gemini API thì có nhưng cũng chỉ có đúng mô hình đó. Cloud Price list mà trang console liên kết là “giá mới nhất” thì hoàn toàn không có cả Generative Language API lẫn Gemini API. Tôi không hiểu vì sao lại có nhiều mục khác nhau như vậy
Có vẻ độ dài ngữ cảnh đã đủ rộng rãi cho hầu hết tác vụ, nên tôi thắc mắc vì sao chúng ta vẫn còn dùng token subword

Tôi cũng rất tò mò mô hình LLM dựa trên ký tự sẽ được so sánh như thế nào. Với ngữ cảnh 2 triệu, nút thắt tính toán sẽ mờ nhạt đi. Tuy nhiên tôi không rõ kích thước từ vựng đóng vai trò gì. Vì embedding vốn đã chứa một phần lớn tri thức, từ vựng lớn có thể quan trọng. Ngược lại, nếu dùng từ vựng dựa trên ký tự thì có vẻ có thể giải quyết nhiều vấn đề như token lỗi, số học, vần điệu. Việc triển khai và huấn luyện đúng tokenizer subword cũng trông khá phức tạp, còn ở mức ký tự thì hẳn phải rất đơn giản

Cơ chế attention học hiệu quả hơn nhiều khi có thể chú ý vào các token lớn hơn và có ý nghĩa hơn
Trên máy chủ suy luận, một phần đáng kể bộ nhớ nằm trong KV cache, và để tích lũy embedding thông qua attention thì cần liên hệ nhiều token hơn rất nhiều với nhau, trong khi mỗi token lại có “ý nghĩa” yếu hơn. Một ngày nào đó có thể sẽ chạm tới điểm này. Cuối cùng, ta sẽ cần các LLM đa phương thức hiểu được hình ảnh và âm thanh tới mức pixel và tần số, và có lẽ văn bản rốt cuộc cũng sẽ muốn như vậy
Ký tự không phải là thành phần cấu tạo nghĩa của từ; nói chung âm tiết mới đảm nhận vai trò đó
Ít nhất tôi nghĩ thông thường là vậy. Cách tiếp cận này có vẻ sẽ cho chất lượng cao hơn so với bảng chữ cái La Mã. Tôi tự hỏi liệu chỉ so sánh cách LLM xử lý tiếng Anh và tiếng Trung có đủ để kiểm tra điều đó không
Tôi nghĩ có hai vấn đề lớn. Thứ nhất, vì phải tạo nhiều đầu ra hơn theo tuần tự nên độ trễ sẽ tệ hơn
Thứ hai, các mô hình này, nói rất đại khái, biến token thành “nghĩa trung bình” ở lớp embedding, các lớp attention kết hợp ý nghĩa, còn các lớp feedforward khớp tổ hợp ý nghĩa hiện tại với một thứ gì đó giống như các nguyên mẫu hay prototype đã học. Khi đi từ mảnh từ xuống ký tự, tất cả những điều này trở nên rối hơn. Ví dụ, ngay từ “nghĩa trung bình” của “a” là gì đã mơ hồ, nên tôi cho rằng hiện vẫn chưa có đủ kỹ thuật để huấn luyện tốt mô hình dựa trên ký tự
Trong tạo nhạc bằng AI, kết quả tốt hơn nhiều khi dùng kích thước từ vựng lớn cỡ 10^6
Chỉ là suy đoán của người không rành, nhưng có lẽ vì transformer không phải là bộ nhận dạng mẫu đa dụng, mà chỉ bắt được các mẫu ở một mức độ hạt nhất định
Google chắc chắn có đội ngũ branding tốt hơn. Tôi thích những cái tên như Gemini, Gems
“ChatGPT” là một cái tên khá thô và phức tạp, còn OpenAI tạo cảm giác như một tổ chức vô diện. Tất nhiên điều đó có thể thay đổi, nhưng ở thời điểm này có vẻ đã khá muộn. Khi ra thị trường, họ chắc hẳn có đủ tiền để sáng tạo hơn
- “ChatGPT” là một cái tên kiểu như “Google”. Tôi không nghĩ “Gemini” có thể thay thế được nó
- OpenAI rất cần tư vấn marketing
  “GPT4o” thật đấy à? Thậm chí “GPT4 Omni” còn dễ nói chuyện hơn, và đó cũng là ý nghĩa của chữ “o”. Họ đang đánh giá thấp nghiêm trọng số lượng người dùng phổ thông
Trên benchmark NYT Connections, Gemini 1.5 Flash đạt 15,3 điểm
GPT-4 turbo(gpt-4-0125-preview) 31.0, GPT-4o 30.7, GPT-4 turbo(gpt-4-turbo-2024-04-09) 29.7, GPT-4 turbo(gpt-4-1106-preview) 28.8, Claude 3 Opus 27.3, GPT-4(0613) 26.1, Llama 3 Instruct 70B 24.0, Gemini Pro 1.5 19.9, Mistral Large 17.7, Gemini 1.5 Flash 15.3, Mistral Medium 15.0, Gemini Pro 1.0 14.2, Llama 3 Instruct 8B 12.3, Mixtral-8x22B Instruct 12.2
- Trong danh sách đó có quá nhiều mô hình OpenAI hiệu năng cao nhưng tên thì tệ
Không có nhiều thông tin. Họ bán nó như một lựa chọn nhanh và rẻ, nhưng không có benchmark tốc độ suy luận và cũng không so sánh với các mô hình không phải Gemini
Theo https://ai.google.dev/pricing, có vẻ nó được định giá rẻ hơn gpt3.5-turbo một chút, nhưng thực tế so sánh ra sao thì không biết
Nếu Gemini Flash chỉ là Gemini nhanh hơn, thì câu trả lời tệ đến nhanh hơn cũng chẳng tốt hơn
Tôi đã dùng song song Gemini Pro và ChatGPT 4 trong vài tháng cho lập trình thực tế, kiến trúc hệ thống, và thỉnh thoảng là câu hỏi chung; ChatGPT hữu ích hơn ít nhất 80%. Gemini hoặc sai, hoặc lan man dài dòng trước khi đi đến câu trả lời hữu ích, đến mức không đáng dùng. Thứ tôi cần không phải là nhanh hơn. Có thể giờ nó đã “thông minh” hơn, tức là hữu ích hơn, nhưng chưa biết
- Có lẽ nếu định nghĩa sự thông minh là làm được nhiều việc hơn với ít tài nguyên hơn, thì đây có thể được xem là dấu hiệu cho thấy nó có thứ gì đó trong không gian tiềm ẩn có khả năng mở rộng