Gemini 3 cho nhà phát triển: Khả năng suy luận và tác nhân mới

(blog.google)

5 điểm bởi GN⁺ 2025-11-19 | 2 bình luận | Chia sẻ qua WhatsApp

Gemini 3 Pro là mô hình AI mới nhất do Google công bố, cung cấp khả năng suy luận và hiệu năng lập trình được cải thiện so với phiên bản trước
Hỗ trợ môi trường phát triển kiểu tác nhân, có thể sử dụng trên nhiều nền tảng như Google AI Studio, Vertex AI và Antigravity
Với tính năng 'vibe coding' tạo ứng dụng chỉ bằng ngôn ngữ tự nhiên, có thể xây dựng ứng dụng hoàn chỉnh chỉ với một prompt duy nhất
Hiệu năng hiểu đa phương thức, suy luận thị giác, không gian và video được tăng cường, mở rộng khả năng ứng dụng cho hình ảnh phức tạp, video và các tác vụ UI
Được tích hợp xuyên suốt toàn bộ quy trình làm việc của nhà phát triển, dần trở thành tiêu chuẩn mới cho phát triển phần mềm dựa trên AI

Tổng quan về Gemini 3 Pro

Gemini 3 Pro là mô hình thông minh nhất của Google, vượt qua phiên bản trước trên các benchmark AI quan trọng
- So với 2.5 Pro, hiệu năng lập trình và khả năng xử lý tác vụ zero-shot được cải thiện
Tích hợp tự nhiên với quy trình làm việc kiểu tác nhân và các môi trường lập trình hiện có, mở ra các trường hợp sử dụng mới
Chính sách giá là 2 USD cho mỗi 1 triệu token đầu vào và 12 USD cho mỗi 1 triệu token đầu ra (áp dụng cho prompt dưới 200k token)
Có thể dùng bản preview qua Google AI Studio và Vertex AI, một số tính năng được cung cấp miễn phí

Lập trình tác nhân (Agentic Coding)

Gemini 3 Pro đạt 54,2% trên Terminal-Bench 2.0, chứng minh khả năng sử dụng công cụ dựa trên terminal
Tích hợp với Google Antigravity, Gemini CLI, Android Studio, Cursor, GitHub, JetBrains, Manus, Cline và nhiều công cụ khác
- Cline triển khai tính năng tạo mã tự động trong IDE bằng Gemini 3
Mô hình cũng tăng cường khả năng duy trì ngữ cảnh trong các công việc mã dài hạn như refactor nhiều tệp, debug, triển khai tính năng

Nền tảng Google Antigravity

Google Antigravity là nền tảng phát triển kiểu tác nhân dựa trên Gemini 3, nơi nhà phát triển quản lý nhiều tác nhân để thực hiện công việc
- Cung cấp môi trường cộng tác tác nhân thông minh hoạt động tự chủ trên editor, terminal và trình duyệt
Nhà phát triển đóng vai trò người thiết kế, còn các tác nhân thực hiện triển khai tính năng, lặp UI, sửa lỗi, nghiên cứu, tạo báo cáo
Có thể tải miễn phí bản public preview cho MacOS, Windows, Linux

Gemini API

Thông qua công cụ bash phía client, mô hình có thể đề xuất lệnh shell và tự động hóa các tác vụ hệ thống
Công cụ bash phía server hỗ trợ tạo mã đa ngôn ngữ và tạo mẫu bảo mật
Có thể kết hợp Grounding dựa trên Google Search và tính năng URL context với đầu ra có cấu trúc
- Sau khi thu thập và trích xuất dữ liệu, có thể tận dụng cho các tác vụ tác nhân tiếp theo

Vibe Coding

Gemini 3 Pro cung cấp tính năng vibe coding tạo ứng dụng chỉ bằng ngôn ngữ tự nhiên
- Nhờ khả năng hiểu chỉ dẫn phức tạp và sử dụng công cụ tốt hơn, có thể tạo ứng dụng tương tác hoàn chỉnh chỉ với một prompt
Ghi nhận 1487 Elo trên bảng xếp hạng WebDev Arena
Tăng cường hiệu năng quy trình UI/frontend trên nền tảng phát triển ứng dụng full-stack của Emergent
Trong Google AI Studio, có thể tạo game hoặc ứng dụng từ ghi chú giọng nói hay bản phác thảo
- “Build mode” tự động kết nối mô hình và API để hỗ trợ thêm nhanh tính năng AI

Hiểu đa phương thức (Multimodal Understanding)

Gemini 3 đạt hiệu năng cao nhất trên MMMU-Pro và Video MMMU
- Thiết lập chuẩn mới cho suy luận hình ảnh và video phức tạp
Cửa sổ ngữ cảnh 1 triệu token giúp tăng hiệu quả phát triển ứng dụng đa phương thức
Có thể tinh chỉnh chi tiết media resolution để kiểm soát độ trễ và chi phí

Suy luận thị giác (Visual Reasoning)

Không chỉ dừng ở OCR đơn giản mà còn thực hiện hiểu và suy luận tài liệu
Cung cấp ứng dụng demo chuyển đổi trực tiếp đầu vào hình ảnh thành trải nghiệm web tương tác

Suy luận không gian (Spatial Reasoning)

Cải thiện khả năng hiểu không gian như pointing, dự đoán quỹ đạo, tiến trình tác vụ
- Có thể ứng dụng trong xe tự hành, XR, robotics và nhiều lĩnh vực khác
Tăng hiệu năng trong môi trường desktop và mobile với khả năng hiểu màn hình và nhận biết hành vi người dùng
- Suy ra ý định người dùng dựa trên chuyển động chuột và chú thích

Suy luận video (Video Reasoning)

Hiểu video tốc độ khung hình cao giúp nắm bắt chi tiết ngay cả trong những cảnh chuyển động nhanh
Ghi nhớ ngữ cảnh dài hạn cho phép xây dựng mạch nội dung và trích xuất chi tiết từ video kéo dài nhiều giờ
Trong môi trường Agent Opus, tốc độ tăng 32%, đồng thời cải thiện độ chính xác và độ tin cậy khi thực hiện lệnh phức tạp

Tích hợp và ứng dụng cho nhà phát triển

Có thể tích hợp ngay vào ứng dụng qua Gemini API
- Bổ sung các tham số mới như thinking level, media resolution, thought signatures
Hỗ trợ kiến trúc kiểu tác nhân trong Gemini CLI, ứng dụng Android, Google Antigravity và nhiều môi trường khác
Có thể tạo ứng dụng bằng một prompt duy nhất với “Build mode” của Google AI Studio
- Tính năng “I’m feeling lucky” hỗ trợ tự động hóa việc hiện thực mã sáng tạo

Kết luận

Gemini 3 Pro là bước ngoặt của môi trường phát triển lấy AI làm trung tâm, tích hợp vào quy trình hiện có và mở ra cách phát triển mới
Google đang cung cấp cho nhà phát triển những công cụ để mở rộng giới hạn của điều có thể làm với AI
Đây là tín hiệu cho sự khởi đầu của kỷ nguyên Gemini 3, với kỳ vọng nhà phát triển sẽ tận dụng nó để tạo ra những đổi mới mới

2 bình luận

iolothebard 2025-11-26

Tích hợp cả tính năng vibe coding nữa!! haha

GN⁺ 2025-11-19

Ý kiến trên Hacker News

Bình luận đã được gộp vào Gemini 3 dành cho nhà phát triển: các tính năng suy luận và tác tử mới

Gemini 3 cho nhà phát triển: Khả năng suy luận và tác nhân mới

Tổng quan về Gemini 3 Pro

Lập trình tác nhân (Agentic Coding)

Nền tảng Google Antigravity

Gemini API

Vibe Coding

Hiểu đa phương thức (Multimodal Understanding)

Suy luận thị giác (Visual Reasoning)

Suy luận không gian (Spatial Reasoning)

Suy luận video (Video Reasoning)

Tích hợp và ứng dụng cho nhà phát triển

Kết luận

Bài viết liên quan

2 bình luận

Ý kiến trên Hacker News