Google DeepMind công bố Gemini 2.0, mô hình AI mới cho kỷ nguyên tác tử

(blog.google)

2 điểm bởi GN⁺ 2024-12-12 | 1 bình luận | Chia sẻ qua WhatsApp

Gemini 1.0 đã tạo ra bước đột phá với vai trò là mô hình đa phương thức có thể xử lý thông tin trên văn bản, video, hình ảnh, âm thanh và mã
Gemini 2.0 tiếp tục thúc đẩy tầm nhìn này, phát triển thành mô hình tác tử có thể hiểu thế giới, lập kế hoạch nhiều bước và thực hiện tác vụ
Gemini 2.0 sẽ được tích hợp vào các sản phẩm chủ lực như Google Search, mang lại khả năng xử lý cả những chủ đề phức tạp và các câu hỏi nhiều bước

Các đặc điểm chính của Gemini 2.0 Flash

Dựa trên thành công của 1.5 Flash, cung cấp hiệu năng được cải thiện hơn nữa và thời gian phản hồi nhanh
Nhanh gấp 2 lần 1.5 Pro và đạt hiệu năng vượt trội hơn trên các benchmark chính
Hỗ trợ không chỉ đầu vào đa phương thức như hình ảnh, video, âm thanh mà còn cả tạo hình ảnh trộn với văn bản và tổng hợp giọng nói đa ngôn ngữ
Có thể gọi công cụ một cách native như Google Search, thực thi mã và hàm tùy chỉnh
Trước mắt được mở cho nhà phát triển và các tester đáng tin cậy, dự kiến sẽ phát hành rộng rãi hơn vào đầu năm sau

Giới thiệu các dự án nghiên cứu

Project Astra : trợ lý AI đa dụng với khả năng bộ nhớ được nâng cao
- Cải thiện các tính năng như hội thoại đa ngôn ngữ, tận dụng Google Search/Lens/Maps và bộ nhớ phiên khoảng 10 phút
- Đang tiếp tục phát triển thông qua việc thu thập phản hồi từ các tester đáng tin cậy trên thiết bị Android
Project Mariner : nguyên mẫu nghiên cứu có thể tương tác với trình duyệt và hỗ trợ các tác vụ phức tạp
- Đạt thành tích cao 83.5% trên benchmark WebVoyager
- Tích hợp biện pháp an toàn yêu cầu xác nhận trước khi người dùng phê duyệt tác vụ cuối cùng
Jules : tác tử lập trình dùng AI được tích hợp vào quy trình làm việc GitHub
- Hỗ trợ nhà phát triển trong quá trình giải quyết issue và thực thi kế hoạch

Các lĩnh vực ứng dụng của tác tử AI

Đang hợp tác với nhà phát triển game Supercell để khám phá việc ứng dụng tác tử AI trong game
Đang tiến hành các thử nghiệm áp dụng khả năng suy luận không gian của Gemini 2.0 trong lĩnh vực robot

An toàn và phát triển có trách nhiệm

Áp dụng cách tiếp cận theo từng giai đoạn và mang tính khám phá trong phát triển công nghệ mới
Tự động tạo phương án phát hiện và giảm thiểu rủi ro thông qua cách tiếp cận red team được hỗ trợ bởi AI
Trong Project Mariner, đã triển khai tính năng bảo vệ người dùng trước các nỗ lực tiêm prompt độc hại
Cung cấp các tính năng kiểm soát và xóa phiên nhằm bảo vệ quyền riêng tư của người dùng

Kế hoạch sắp tới

Dự kiến mở rộng các tính năng của Gemini 2.0 sang ứng dụng Gemini và các sản phẩm khác của Google
Sẽ đặt an toàn và trách nhiệm lên ưu tiên hàng đầu trong quá trình tiến tới AGI

1 bình luận

GN⁺ 2024-12-12

Ý kiến trên Hacker News

Plugin llm-gemini mới hỗ trợ mô hình Gemini 2.0 Flash. Chia sẻ cách sử dụng trong terminal
- Mô hình Gemini có khả năng viết và chạy mã Python
- Không thể gọi mạng, nhưng đã thử nhiều cách tiếp cận khác nhau
- Thể hiện hiệu năng xuất sắc trong việc mô tả hình ảnh
Các tập đoàn lớn chậm xoay trục, nhưng một khi đã xác định hướng đi thì có thể làm được những điều mà công ty nhỏ không thể
- Google có rất nhiều nhân tài trong lĩnh vực này và đang đạt được kết quả tốt
- Khả năng sản phẩm hóa và marketing các mô hình LLM vẫn còn là dấu hỏi, nhưng hiệu năng thì rất mạnh
Vượt Gemini 1.5 Pro trong phần lớn benchmark
- Google DeepMind đang thích nghi với kỷ nguyên LLM
- Trực tiếp kiểm soát phần cứng thông qua TPU
SDK mới đã được công bố. Có vẻ như tuân theo các thông lệ tốt hiện đại
- Trước đây đã cung cấp endpoint tương thích OpenAI, nhưng chưa rõ có được hỗ trợ dài hạn hay không
- Khuyến nghị cấu hình cụm Kubernetes và bucket GCP
Vui vì bản phát hành mới của Google có thể dùng ngay lập tức
- Gemini Flash 2.0 vượt Gemini Pro 1.5 trong các bài toán Advent of Code
- Flash 2.0 sửa các lỗi biên dịch
Từ "agentic" tạo cảm giác khó chịu
- Những từ như "versatile", "multifaceted", "autonomous" có vẻ phù hợp hơn
Mô hình Gemini 2 hỗ trợ tạo âm thanh và hình ảnh
- Tính năng tạo ảnh dự kiến sẽ được cung cấp rộng rãi vào tháng 1
- Các tác vụ computer vision sẽ có thể thực hiện thông qua LLM
Gemini 2 đang vượt 4o trên Chatbot Arena
Cho rằng từ "agentic" là không phù hợp
- Phần lớn chỉ là pipeline gồm system prompt và công cụ
Truy cập Gemini 2.0 Flash qua Google AI Studio trên trình duyệt Safari của iPhone
- Xác định chính xác những gì camera nhìn thấy
- Có thể đọc văn bản tiếng Anh và tiếng Nhật
- Nhận diện nốt piano bằng hình ảnh, nhưng không thể chỉ bằng âm thanh

Google DeepMind công bố Gemini 2.0, mô hình AI mới cho kỷ nguyên tác tử

Các đặc điểm chính của Gemini 2.0 Flash

Giới thiệu các dự án nghiên cứu

Các lĩnh vực ứng dụng của tác tử AI

An toàn và phát triển có trách nhiệm

Kế hoạch sắp tới

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News