2 điểm bởi GN⁺ 2024-12-12 | 1 bình luận | Chia sẻ qua WhatsApp
  • Gemini 1.0 đã tạo ra bước đột phá với vai trò là mô hình đa phương thức có thể xử lý thông tin trên văn bản, video, hình ảnh, âm thanh và mã
  • Gemini 2.0 tiếp tục thúc đẩy tầm nhìn này, phát triển thành mô hình tác tử có thể hiểu thế giới, lập kế hoạch nhiều bước và thực hiện tác vụ
  • Gemini 2.0 sẽ được tích hợp vào các sản phẩm chủ lực như Google Search, mang lại khả năng xử lý cả những chủ đề phức tạp và các câu hỏi nhiều bước

Các đặc điểm chính của Gemini 2.0 Flash

  • Dựa trên thành công của 1.5 Flash, cung cấp hiệu năng được cải thiện hơn nữa và thời gian phản hồi nhanh
  • Nhanh gấp 2 lần 1.5 Pro và đạt hiệu năng vượt trội hơn trên các benchmark chính
  • Hỗ trợ không chỉ đầu vào đa phương thức như hình ảnh, video, âm thanh mà còn cả tạo hình ảnh trộn với văn bản và tổng hợp giọng nói đa ngôn ngữ
  • Có thể gọi công cụ một cách native như Google Search, thực thi mã và hàm tùy chỉnh
  • Trước mắt được mở cho nhà phát triển và các tester đáng tin cậy, dự kiến sẽ phát hành rộng rãi hơn vào đầu năm sau

Giới thiệu các dự án nghiên cứu

  • Project Astra : trợ lý AI đa dụng với khả năng bộ nhớ được nâng cao
    • Cải thiện các tính năng như hội thoại đa ngôn ngữ, tận dụng Google Search/Lens/Maps và bộ nhớ phiên khoảng 10 phút
    • Đang tiếp tục phát triển thông qua việc thu thập phản hồi từ các tester đáng tin cậy trên thiết bị Android
  • Project Mariner : nguyên mẫu nghiên cứu có thể tương tác với trình duyệt và hỗ trợ các tác vụ phức tạp
    • Đạt thành tích cao 83.5% trên benchmark WebVoyager
    • Tích hợp biện pháp an toàn yêu cầu xác nhận trước khi người dùng phê duyệt tác vụ cuối cùng
  • Jules : tác tử lập trình dùng AI được tích hợp vào quy trình làm việc GitHub
    • Hỗ trợ nhà phát triển trong quá trình giải quyết issue và thực thi kế hoạch

Các lĩnh vực ứng dụng của tác tử AI

  • Đang hợp tác với nhà phát triển game Supercell để khám phá việc ứng dụng tác tử AI trong game
  • Đang tiến hành các thử nghiệm áp dụng khả năng suy luận không gian của Gemini 2.0 trong lĩnh vực robot

An toàn và phát triển có trách nhiệm

  • Áp dụng cách tiếp cận theo từng giai đoạn và mang tính khám phá trong phát triển công nghệ mới
  • Tự động tạo phương án phát hiện và giảm thiểu rủi ro thông qua cách tiếp cận red team được hỗ trợ bởi AI
  • Trong Project Mariner, đã triển khai tính năng bảo vệ người dùng trước các nỗ lực tiêm prompt độc hại
  • Cung cấp các tính năng kiểm soát và xóa phiên nhằm bảo vệ quyền riêng tư của người dùng

Kế hoạch sắp tới

  • Dự kiến mở rộng các tính năng của Gemini 2.0 sang ứng dụng Gemini và các sản phẩm khác của Google
  • Sẽ đặt an toàn và trách nhiệm lên ưu tiên hàng đầu trong quá trình tiến tới AGI

1 bình luận

 
GN⁺ 2024-12-12
Ý kiến trên Hacker News
  • Plugin llm-gemini mới hỗ trợ mô hình Gemini 2.0 Flash. Chia sẻ cách sử dụng trong terminal

    • Mô hình Gemini có khả năng viết và chạy mã Python
    • Không thể gọi mạng, nhưng đã thử nhiều cách tiếp cận khác nhau
    • Thể hiện hiệu năng xuất sắc trong việc mô tả hình ảnh
  • Các tập đoàn lớn chậm xoay trục, nhưng một khi đã xác định hướng đi thì có thể làm được những điều mà công ty nhỏ không thể

    • Google có rất nhiều nhân tài trong lĩnh vực này và đang đạt được kết quả tốt
    • Khả năng sản phẩm hóa và marketing các mô hình LLM vẫn còn là dấu hỏi, nhưng hiệu năng thì rất mạnh
  • Vượt Gemini 1.5 Pro trong phần lớn benchmark

    • Google DeepMind đang thích nghi với kỷ nguyên LLM
    • Trực tiếp kiểm soát phần cứng thông qua TPU
  • SDK mới đã được công bố. Có vẻ như tuân theo các thông lệ tốt hiện đại

    • Trước đây đã cung cấp endpoint tương thích OpenAI, nhưng chưa rõ có được hỗ trợ dài hạn hay không
    • Khuyến nghị cấu hình cụm Kubernetes và bucket GCP
  • Vui vì bản phát hành mới của Google có thể dùng ngay lập tức

    • Gemini Flash 2.0 vượt Gemini Pro 1.5 trong các bài toán Advent of Code
    • Flash 2.0 sửa các lỗi biên dịch
  • Từ "agentic" tạo cảm giác khó chịu

    • Những từ như "versatile", "multifaceted", "autonomous" có vẻ phù hợp hơn
  • Mô hình Gemini 2 hỗ trợ tạo âm thanh và hình ảnh

    • Tính năng tạo ảnh dự kiến sẽ được cung cấp rộng rãi vào tháng 1
    • Các tác vụ computer vision sẽ có thể thực hiện thông qua LLM
  • Gemini 2 đang vượt 4o trên Chatbot Arena

  • Cho rằng từ "agentic" là không phù hợp

    • Phần lớn chỉ là pipeline gồm system prompt và công cụ
  • Truy cập Gemini 2.0 Flash qua Google AI Studio trên trình duyệt Safari của iPhone

    • Xác định chính xác những gì camera nhìn thấy
    • Có thể đọc văn bản tiếng Anh và tiếng Nhật
    • Nhận diện nốt piano bằng hình ảnh, nhưng không thể chỉ bằng âm thanh