Công bố API Gemini Deep Research Agent
(x.com/GoogleAIStudio)Google đã công bố Gemini Deep Research Agent dưới dạng API. Deep Research là tính năng trong đó AI tự lập kế hoạch tìm kiếm cho câu hỏi người dùng đưa ra, duyệt, so sánh và tổng hợp nhiều trang web để tự động tạo ra một báo cáo dài có đính kèm nguồn tham chiếu. Trước đây tính năng này chỉ dùng được trong giao diện web Google AI Studio, nhưng lần này thông qua một giao diện bất đồng bộ mới tên là Interactions API, nhà phát triển đã có thể tích hợp trực tiếp vào ứng dụng của mình. Khác với lệnh gọi generate_content hiện có, tác vụ này chạy nền trong vài phút, nên sau khi gửi yêu cầu, cần định kỳ kiểm tra trạng thái hoàn tất bằng polling hoặc nhận tiến độ qua streaming.
Các model được cung cấp
deep-research-preview-04-2026: tập trung vào tốc độ và hiệu quả. Phù hợp để streaming thời gian thực lên UI phía client.deep-research-max-preview-04-2026: theo đuổi mức độ bao quát tối đa. Mạnh ở thu thập ngữ cảnh và tổng hợp tự động.
Tóm tắt tính năng chính
- Lập kế hoạch cộng tác (Collaborative Planning) : thay vì chạy nghiên cứu ngay, agent trước tiên đề xuất một bản kế hoạch. Sau khi người dùng xem xét, chỉnh sửa và phê duyệt, hệ thống mới bắt đầu thực thi đầy đủ.
- Tự động tạo biểu đồ và infographic : nếu bật tùy chọn
visualization="auto", agent sẽ tự tạo biểu đồ và đồ thị rồi trả về dưới dạng ảnh mã hóa base64. - Tích hợp máy chủ MCP : hỗ trợ Model Context Protocol (tiêu chuẩn mở để kết nối công cụ bên ngoài với LLM), cho phép gắn các công cụ từ dịch vụ bên ngoài như dữ liệu tài chính vào agent.
- Bộ công cụ mở rộng : mặc định có Google Search, đọc nội dung URL và thực thi mã. Có thể tùy chọn bổ sung tìm kiếm tệp (trên tài liệu đã tải lên) và máy chủ MCP.
- Đầu vào đa phương thức : ngoài văn bản, có thể truyền kèm hình ảnh, PDF và tệp âm thanh làm ngữ cảnh nghiên cứu.
- Streaming thời gian thực và tóm tắt suy luận : có thể nhận tiến độ nghiên cứu theo thời gian thực qua streaming, và nếu bật
thinking_summaries="auto"thì cũng có thể xem phần tóm tắt của quá trình suy luận trung gian của agent.
Các ví dụ mã chính
Đây là cách dùng cơ bản nhất. Khởi động tác vụ bất đồng bộ bằng background=True và polling trạng thái hoàn tất mỗi 10 giây.
import time
from google import genai
client = genai.Client()
interaction = client.interactions.create(
input="Research the history of Google TPUs.",
agent="deep-research-preview-04-2026",
background=True,
)
while True:
interaction = client.interactions.get(interaction.id)
if interaction.status == "completed":
print(interaction.outputs[-1].text)
break
elif interaction.status == "failed":
print(f"Research failed: {interaction.error}")
break
time.sleep(10)
Đây là luồng lập kế hoạch cộng tác. Trước tiên nhận riêng kế hoạch bằng collaborative_planning=True, đưa phản hồi, rồi cuối cùng phải chuyển sang False thì nghiên cứu thực sự mới bắt đầu. Cần lưu ý rằng nếu chỉ gửi văn bản như "go ahead" mà không đổi cờ này thì báo cáo sẽ không được tạo.
# Bước 1: yêu cầu kế hoạch
plan = client.interactions.create(
agent="deep-research-preview-04-2026",
input="Research Google TPUs vs competitor hardware.",
agent_config={"type": "deep-research", "collaborative_planning": True},
background=True,
)
while (result := client.interactions.get(id=plan.id)).status != "completed":
time.sleep(5)
print(result.outputs[-1].text) # In ra bản kế hoạch
# Bước 2: chỉnh sửa kế hoạch (tiếp tục hội thoại bằng previous_interaction_id)
refined = client.interactions.create(
agent="deep-research-preview-04-2026",
input="Add a section comparing power efficiency.",
agent_config={"type": "deep-research", "collaborative_planning": True},
previous_interaction_id=plan.id,
background=True,
)
while (result := client.interactions.get(id=refined.id)).status != "completed":
time.sleep(5)
print(result.outputs[-1].text) # Bản kế hoạch đã chỉnh sửa
# Bước 3: phê duyệt rồi thực thi (bắt buộc chuyển collaborative_planning=False)
report = client.interactions.create(
agent="deep-research-preview-04-2026",
input="Plan looks good!",
agent_config={"type": "deep-research", "collaborative_planning": False},
previous_interaction_id=refined.id,
background=True,
)
while (result := client.interactions.get(id=report.id)).status != "completed":
time.sleep(5)
print(result.outputs[-1].text) # Báo cáo cuối cùng
Đây là ví dụ tạo biểu đồ và đầu vào đa phương thức. Nên bật tùy chọn trực quan hóa, nhưng nếu nêu rõ trong prompt muốn loại biểu đồ nào thì sẽ cho kết quả tốt hơn.
# Nghiên cứu có kèm biểu đồ
interaction = client.interactions.create(
agent="deep-research-preview-04-2026",
input="Analyze global semiconductor market trends. Include charts showing market share changes.",
agent_config={"type": "deep-research", "visualization": "auto"},
background=True,
)
# Nghiên cứu đa phương thức truyền một bài báo PDF làm ngữ cảnh
interaction = client.interactions.create(
agent="deep-research-preview-04-2026",
input=[
{"type": "text", "text": "What has been the impact of this research paper?"},
{"type": "document", "uri": "https://arxiv.org/pdf/1706.03762", "mime_type": "application/pdf"},
],
background=True,
)
Đây là ví dụ kết nối máy chủ MCP để cung cấp dữ liệu tài chính bên ngoài cho agent. Cũng có thể giới hạn các công cụ agent được phép gọi bằng allowed_tools.
interaction = client.interactions.create(
agent="deep-research-preview-04-2026",
input="Research how recent geopolitical events influenced USD interest rates",
tools=[
{
"type": "mcp_server",
"name": "Finance Data Provider",
"url": "https://finance.example.com/mcp",
"headers": {"Authorization": "Bearer my-token"},
}
],
background=True,
)
Điểm khác biệt
- Điểm nổi bật là thay vì chỉ là RAG đơn giản (retrieval-augmented generation, kỹ thuật tìm tài liệu ngoài rồi đưa vào LLM) hay một lượt hỏi đáp duy nhất, nó tự động hóa cả quy trình nghiên cứu dài hơi gồm lập kế hoạch - tìm kiếm - tổng hợp chỉ bằng một API. Đặc biệt, lập kế hoạch cộng tác thể hiện rõ triết lý thiết kế: "agent tự xử lý, nhưng con người quyết định phương hướng".
- Có thể kết hợp tìm kiếm web công khai và tìm kiếm tài liệu riêng tư chỉ bằng cấu hình công cụ, mở ra khả năng ứng dụng cho nghiên cứu dựa trên tài liệu nội bộ doanh nghiệp.
Hàm ý
- Khi agent nghiên cứu AI đã được hạ xuống cấp độ API, giờ đây có thể tích hợp trực tiếp tính năng "deep research" vào ứng dụng mà không cần framework agent riêng. Tuy vậy, cấu trúc API bất đồng bộ theo kiểu polling đòi hỏi các nhà phát triển đã quen với các lệnh gọi LLM đồng bộ phải thay đổi mô hình thiết kế, và việc xử lý độ trễ phản hồi tính bằng phút ở cấp độ UX có lẽ sẽ là bài toán then chốt khi triển khai thực tế.
Chưa có bình luận nào.