Ra mắt Gemini 2.0

(developers.googleblog.com)

3 điểm bởi lemonmint 2024-12-12 | 1 bình luận | Chia sẻ qua WhatsApp

Gemini 2.0: Mô hình AI thế hệ tiếp theo dành cho nhà phát triển

Đây là mô hình AI tiên tiến do Google phát triển, hỗ trợ các nhà phát triển xây dựng tương lai của AI.
Kể từ khi Gemini 1.0 ra mắt, hàng triệu nhà phát triển đã sử dụng Gemini bằng 109 ngôn ngữ thông qua Google AI Studio và Vertex AI.
Với Gemini 2.0 Flash Experimental, giờ đây có thể phát triển các ứng dụng hấp dẫn và tương tác hơn, đồng thời cung cấp một coding agent mới có thể thực hiện công việc thay cho nhà phát triển.

Gemini 2.0 Flash

Đây là mô hình được xây dựng dựa trên thành công của Gemini 1.5 Flash, mang lại hiệu năng mạnh mẽ trong khi nhanh gấp 2 lần so với 1.5 Pro.
Cung cấp các khả năng đầu ra đa phương thức mới và khả năng sử dụng công cụ gốc.
Giới thiệu Multimodal Live API, cho phép xây dựng các ứng dụng động thông qua streaming âm thanh và video theo thời gian thực.
Nhà phát triển có thể thử nghiệm và khám phá Gemini 2.0 Flash đang ở giai đoạn thử nghiệm trong Google AI Studio và Vertex AI, với kế hoạch phát hành chính thức vào đầu năm sau.

Tính năng chính:

Hiệu năng được nâng cao:
- Mạnh hơn Gemini 1.5 Pro trong khi vẫn duy trì tốc độ và hiệu quả của dòng Flash.
- Hiệu năng về đa phương thức, văn bản, mã, video, hiểu biết không gian và suy luận đều được cải thiện.
- Đặc biệt, nhờ khả năng hiểu không gian tốt hơn, độ chính xác khi tạo bounding box cho các vật thể nhỏ trong ảnh phức tạp đã được nâng lên.
Phương thức đầu ra mới:
- Có thể tạo phản hồi hợp nhất bao gồm văn bản, âm thanh và hình ảnh chỉ với một lần gọi API.
- Áp dụng watermark vô hình SynthID cho toàn bộ đầu ra hình ảnh và âm thanh nhằm giảm các vấn đề về thông tin sai lệch và gán nhầm nguồn gốc.
- Đầu ra âm thanh native đa ngôn ngữ: Có thể tinh chỉnh đầu ra chuyển văn bản thành giọng nói bằng cách chọn 8 giọng nói chất lượng cao cùng nhiều ngôn ngữ và giọng điệu khác nhau.
- Đầu ra hình ảnh native: Có thể tạo ảnh và hỗ trợ chỉnh sửa hội thoại nhiều lượt, giúp cải thiện hình ảnh dựa trên đầu ra trước đó. Tính năng này hữu ích để tạo nội dung đa phương thức như công thức nấu ăn bằng cách kết hợp văn bản và hình ảnh.
Sử dụng công cụ gốc:
- Có khả năng sử dụng công cụ, một chức năng nền tảng để xây dựng trải nghiệm agent.
- Có thể gọi sẵn các công cụ như Google Search và thực thi mã, đồng thời cũng có thể dùng tính năng gọi hàm tùy chỉnh để sử dụng chức năng của bên thứ ba.
- Khi dùng Google Search như một công cụ, mô hình có thể cung cấp câu trả lời sát thực tế và toàn diện hơn, đồng thời tăng lưu lượng truy cập cho các nhà xuất bản.
- Có thể chạy song song nhiều lượt tìm kiếm để đồng thời tìm thông tin liên quan từ nhiều nguồn, qua đó nâng cao độ chính xác.
Multimodal Live API:
- Có thể xây dựng các ứng dụng đa phương thức thời gian thực bằng cách sử dụng đầu vào streaming âm thanh và video từ camera hoặc màn hình.
- Hỗ trợ các mẫu hội thoại tự nhiên như ngắt lời và phát hiện hoạt động giọng nói.
- Có thể tích hợp nhiều công cụ để giải quyết các trường hợp sử dụng phức tạp chỉ với một lần gọi API.

Tiến bộ trong hỗ trợ lập trình bằng AI

Hỗ trợ lập trình bằng AI đang nhanh chóng tiến hóa từ việc chỉ tìm kiếm mã sang các trợ lý dựa trên AI được tích hợp ngay trong workflow của nhà phát triển.
Coding agent sử dụng Gemini 2.0 có thể thực hiện công việc thay cho nhà phát triển.
2.0 Flash được trang bị công cụ thực thi mã đã đạt tỷ lệ thành công 51,8% trên SWE-bench Verified, bộ đánh giá kiểm tra hiệu năng agent trong các tác vụ kỹ thuật phần mềm thực tế.

Jules: AI code agent

Đây là một AI code agent thử nghiệm xử lý các tác vụ lập trình Python và Javascript.
Tích hợp với workflow GitHub, hoạt động bất đồng bộ và xử lý sửa lỗi cũng như các công việc tốn thời gian khác.
Jules lập kế hoạch nhiều bước toàn diện để giải quyết vấn đề, chỉnh sửa hiệu quả nhiều tệp và chuẩn bị pull request để áp dụng trực tiếp các thay đổi lên GitHub.

Ưu điểm của Jules:

Nâng cao năng suất: Tăng hiệu quả bằng cách giao các vấn đề và tác vụ lập trình cho Jules thông qua lập trình bất đồng bộ.
Theo dõi tiến độ: Có thể nắm bắt thông tin qua cập nhật thời gian thực và ưu tiên các công việc cần chú ý.
Quyền kiểm soát của nhà phát triển: Có thể xem lại kế hoạch do Jules tạo ra, đưa ra phản hồi hoặc yêu cầu điều chỉnh. Bạn cũng có thể xem lại mã do Jules viết và hợp nhất vào dự án.
Hiện đang được cung cấp cho một nhóm tester đáng tin cậy và dự kiến sẽ mở cho các nhà phát triển khác vào đầu năm 2025.

Data Science Agent trong Colab

Google cung cấp một data science agent thử nghiệm tại labs.google/code, nơi bạn có thể tải bộ dữ liệu lên và nhận insight chỉ trong vài phút.
Cùng khả năng agent đó sẽ được tích hợp vào Colab và sử dụng Gemini 2.0.
Nếu mô tả mục tiêu phân tích bằng chỉ dẫn ngôn ngữ tự nhiên, hệ thống sẽ tự động tạo notebook để tăng tốc nghiên cứu và phân tích dữ liệu.
Quyền truy cập sớm được cung cấp thông qua chương trình tester đáng tin cậy, và dự kiến sẽ phát hành rộng rãi hơn cho người dùng Colab trong nửa đầu năm 2025.

Hỗ trợ nhà phát triển

Các mô hình Gemini 2.0 giúp nhà phát triển xây dựng ứng dụng AI mạnh mẽ nhanh hơn và dễ dàng hơn.
Google có kế hoạch tích hợp Gemini 2.0 vào các nền tảng như Android Studio, Chrome DevTools và Firebase.
Gemini 2.0 Flash sẽ có mặt trong Gemini Code Assist để tăng cường hỗ trợ lập trình trên các IDE phổ biến như Visual Studio Code, IntelliJ và PyCharm.

1 bình luận

lemonmint 2024-12-12

Có vẻ như hiện đã có thể sử dụng trên Google AI Studio và Vertex AI.

Hiệu năng của mô hình và độ trễ của giọng nói live E2E thực sự rất ấn tượng.