- Gemini 3 Pro là mô hình AI mới nhất do Google công bố, cung cấp khả năng suy luận và hiệu năng lập trình được cải thiện so với phiên bản trước
- Hỗ trợ môi trường phát triển kiểu tác nhân, có thể sử dụng trên nhiều nền tảng như Google AI Studio, Vertex AI và Antigravity
- Với tính năng 'vibe coding' tạo ứng dụng chỉ bằng ngôn ngữ tự nhiên, có thể xây dựng ứng dụng hoàn chỉnh chỉ với một prompt duy nhất
- Hiệu năng hiểu đa phương thức, suy luận thị giác, không gian và video được tăng cường, mở rộng khả năng ứng dụng cho hình ảnh phức tạp, video và các tác vụ UI
- Được tích hợp xuyên suốt toàn bộ quy trình làm việc của nhà phát triển, dần trở thành tiêu chuẩn mới cho phát triển phần mềm dựa trên AI
Tổng quan về Gemini 3 Pro
- Gemini 3 Pro là mô hình thông minh nhất của Google, vượt qua phiên bản trước trên các benchmark AI quan trọng
- So với 2.5 Pro, hiệu năng lập trình và khả năng xử lý tác vụ zero-shot được cải thiện
- Tích hợp tự nhiên với quy trình làm việc kiểu tác nhân và các môi trường lập trình hiện có, mở ra các trường hợp sử dụng mới
- Chính sách giá là 2 USD cho mỗi 1 triệu token đầu vào và 12 USD cho mỗi 1 triệu token đầu ra (áp dụng cho prompt dưới 200k token)
- Có thể dùng bản preview qua Google AI Studio và Vertex AI, một số tính năng được cung cấp miễn phí
Lập trình tác nhân (Agentic Coding)
- Gemini 3 Pro đạt 54,2% trên Terminal-Bench 2.0, chứng minh khả năng sử dụng công cụ dựa trên terminal
- Tích hợp với Google Antigravity, Gemini CLI, Android Studio, Cursor, GitHub, JetBrains, Manus, Cline và nhiều công cụ khác
- Cline triển khai tính năng tạo mã tự động trong IDE bằng Gemini 3
- Mô hình cũng tăng cường khả năng duy trì ngữ cảnh trong các công việc mã dài hạn như refactor nhiều tệp, debug, triển khai tính năng
Nền tảng Google Antigravity
- Google Antigravity là nền tảng phát triển kiểu tác nhân dựa trên Gemini 3, nơi nhà phát triển quản lý nhiều tác nhân để thực hiện công việc
- Cung cấp môi trường cộng tác tác nhân thông minh hoạt động tự chủ trên editor, terminal và trình duyệt
- Nhà phát triển đóng vai trò người thiết kế, còn các tác nhân thực hiện triển khai tính năng, lặp UI, sửa lỗi, nghiên cứu, tạo báo cáo
- Có thể tải miễn phí bản public preview cho MacOS, Windows, Linux
Gemini API
- Thông qua công cụ bash phía client, mô hình có thể đề xuất lệnh shell và tự động hóa các tác vụ hệ thống
- Công cụ bash phía server hỗ trợ tạo mã đa ngôn ngữ và tạo mẫu bảo mật
- Có thể kết hợp Grounding dựa trên Google Search và tính năng URL context với đầu ra có cấu trúc
- Sau khi thu thập và trích xuất dữ liệu, có thể tận dụng cho các tác vụ tác nhân tiếp theo
Vibe Coding
- Gemini 3 Pro cung cấp tính năng vibe coding tạo ứng dụng chỉ bằng ngôn ngữ tự nhiên
- Nhờ khả năng hiểu chỉ dẫn phức tạp và sử dụng công cụ tốt hơn, có thể tạo ứng dụng tương tác hoàn chỉnh chỉ với một prompt
- Ghi nhận 1487 Elo trên bảng xếp hạng WebDev Arena
- Tăng cường hiệu năng quy trình UI/frontend trên nền tảng phát triển ứng dụng full-stack của Emergent
- Trong Google AI Studio, có thể tạo game hoặc ứng dụng từ ghi chú giọng nói hay bản phác thảo
- “Build mode” tự động kết nối mô hình và API để hỗ trợ thêm nhanh tính năng AI
Hiểu đa phương thức (Multimodal Understanding)
- Gemini 3 đạt hiệu năng cao nhất trên MMMU-Pro và Video MMMU
- Thiết lập chuẩn mới cho suy luận hình ảnh và video phức tạp
- Cửa sổ ngữ cảnh 1 triệu token giúp tăng hiệu quả phát triển ứng dụng đa phương thức
- Có thể tinh chỉnh chi tiết media resolution để kiểm soát độ trễ và chi phí
Suy luận thị giác (Visual Reasoning)
- Không chỉ dừng ở OCR đơn giản mà còn thực hiện hiểu và suy luận tài liệu
- Cung cấp ứng dụng demo chuyển đổi trực tiếp đầu vào hình ảnh thành trải nghiệm web tương tác
Suy luận không gian (Spatial Reasoning)
- Cải thiện khả năng hiểu không gian như pointing, dự đoán quỹ đạo, tiến trình tác vụ
- Có thể ứng dụng trong xe tự hành, XR, robotics và nhiều lĩnh vực khác
- Tăng hiệu năng trong môi trường desktop và mobile với khả năng hiểu màn hình và nhận biết hành vi người dùng
- Suy ra ý định người dùng dựa trên chuyển động chuột và chú thích
Suy luận video (Video Reasoning)
- Hiểu video tốc độ khung hình cao giúp nắm bắt chi tiết ngay cả trong những cảnh chuyển động nhanh
- Ghi nhớ ngữ cảnh dài hạn cho phép xây dựng mạch nội dung và trích xuất chi tiết từ video kéo dài nhiều giờ
- Trong môi trường Agent Opus, tốc độ tăng 32%, đồng thời cải thiện độ chính xác và độ tin cậy khi thực hiện lệnh phức tạp
Tích hợp và ứng dụng cho nhà phát triển
- Có thể tích hợp ngay vào ứng dụng qua Gemini API
- Bổ sung các tham số mới như thinking level, media resolution, thought signatures
- Hỗ trợ kiến trúc kiểu tác nhân trong Gemini CLI, ứng dụng Android, Google Antigravity và nhiều môi trường khác
- Có thể tạo ứng dụng bằng một prompt duy nhất với “Build mode” của Google AI Studio
- Tính năng “I’m feeling lucky” hỗ trợ tự động hóa việc hiện thực mã sáng tạo
Kết luận
- Gemini 3 Pro là bước ngoặt của môi trường phát triển lấy AI làm trung tâm, tích hợp vào quy trình hiện có và mở ra cách phát triển mới
- Google đang cung cấp cho nhà phát triển những công cụ để mở rộng giới hạn của điều có thể làm với AI
- Đây là tín hiệu cho sự khởi đầu của kỷ nguyên Gemini 3, với kỳ vọng nhà phát triển sẽ tận dụng nó để tạo ra những đổi mới mới
2 bình luận
Tích hợp cả tính năng vibe coding nữa!! haha
Ý kiến trên Hacker News