2 điểm bởi GN⁺ 2025-11-19 | 1 bình luận | Chia sẻ qua WhatsApp
  • Gemini 3 Promô hình suy luận đa phương thức thế hệ tiếp theo của Google, có cấu trúc hiệu năng cao để xử lý nhiều loại đầu vào như văn bản, hình ảnh, âm thanh, video và mã nguồn
  • Sử dụng kiến trúc Transformer dựa trên Sparse Mixture-of-Experts (MoE) để đồng thời cải thiện hiệu quả và hiệu năng
  • Dữ liệu huấn luyện bao gồm tài liệu web, mã nguồn, hình ảnh, âm thanh, video, dữ liệu người dùng, dữ liệu tổng hợp và trải qua các bước lọc an toàn và loại bỏ trùng lặp
  • Mô hình được huấn luyện bằng TPU và JAX·ML Pathways, đồng thời được cung cấp qua nhiều kênh như Google Cloud, Vertex AI, Gemini API
  • Đã vượt qua đánh giá an toàn và thẩm định theo Frontier Safety Framework, đồng thời đạt được cải thiện về khả năng suy luận, độ an toàn và giọng điệu so với Gemini 2.5 Pro

Tổng quan mô hình

  • Gemini 3 Pro là thế hệ mới nhất của dòng Gemini, đồng thời là mô hình cao cấp nhất của Google hỗ trợ suy luận phức tạp và hiểu đa phương thức
    • Có thể hiểu nhiều nguồn thông tin như văn bản, âm thanh, hình ảnh, video và kho mã nguồn
    • Hỗ trợ tối đa 1 triệu token đầu vào và 64K token đầu ra
  • Áp dụng cấu trúc Sparse Mixture-of-Experts (MoE), chỉ kích hoạt một phần tham số chuyên gia cho mỗi token đầu vào nhằm nâng cao hiệu quả tính toán
  • Đây là kiến trúc đã được cải thiện cả hiệu năng lẫn hiệu quả so với thế hệ trước

Dữ liệu huấn luyện

  • Dữ liệu tiền huấn luyện bao gồm nhiều miền khác nhau như tài liệu web công khai, mã nguồn, hình ảnh, âm thanh và video
  • Dữ liệu hậu huấn luyện gồm các cặp chỉ thị-phản hồi đã được xác minh, mức độ ưu tiên của con người và dữ liệu sử dụng công cụ
  • Nguồn dữ liệu
    • Bộ dữ liệu công khai, dữ liệu crawl và dữ liệu có giấy phép thương mại
    • Dữ liệu người dùng từ các dịch vụ của Google (được thu thập theo điều khoản, chính sách và quyền kiểm soát của người dùng)
    • Bao gồm dữ liệu do nội bộ Google tạo ra và dữ liệu tổng hợp bằng AI
  • Quy trình tiền xử lý
    • Thực hiện loại bỏ trùng lặp, tuân thủ robots.txt, lọc an toàn và lọc chất lượng
    • Loại bỏ nội dung độc hại như nội dung khiêu dâm, bạo lực, tài liệu lạm dụng tình dục trẻ em (CSAM)

Triển khai và tính bền vững

  • Phần cứng: sử dụng TPU của Google
    • Tăng tốc độ huấn luyện nhờ xử lý tính toán quy mô lớn và bộ nhớ băng thông cao
    • Đảm bảo khả năng mở rộng và hiệu quả thông qua huấn luyện phân tán với TPU Pod
    • Phù hợp với mục tiêu bền vững của Google
  • Phần mềm: huấn luyện dựa trên JAXML Pathways

Kênh phân phối

  • Gemini 3 Pro được cung cấp thông qua các nền tảng sau
    • Gemini App, Google Cloud / Vertex AI, Google AI Studio, Gemini API, Google AI Mode, Google Antigravity
  • Được cung cấp dưới dạng API, không yêu cầu phần cứng hay phần mềm riêng biệt
  • Việc sử dụng tuân theo điều khoản dịch vụ và các điều khoản bổ sung của từng nền tảng

Đánh giá và hiệu năng

  • Phạm vi đánh giá: suy luận, năng lực đa phương thức, sử dụng công cụ, hiệu năng đa ngôn ngữ, xử lý ngữ cảnh dài
  • Kết quả: Gemini 3 Pro cho thấy cải thiện hiệu năng tổng thể so với Gemini 2.5 Pro
    • Đặc biệt cải thiện mạnh ở khả năng suy luận và xử lý đa phương thức
  • Có thể xem kết quả benchmark chi tiết tại deepmind.com/models/evals/gemini-3-pro

Mục đích sử dụng và giới hạn

  • Các lĩnh vực ứng dụng chính:
    • Giải quyết vấn đề phức tạp, công việc sáng tạo, lập kế hoạch chiến lược, cải tiến theo từng bước
    • hiệu năng dạng agent, lập trình nâng cao, hiểu ngữ cảnh dài, phát triển thuật toán
  • Giới hạn:
    • Tồn tại các giới hạn chung của mô hình quy mô lớn (ví dụ: ảo giác)
    • Có thể xảy ra độ trễ hoặc timeout không thường xuyên
    • Mốc cắt kiến thức: tháng 1 năm 2025
  • Các cách sử dụng không được phép:
    • Hành vi bất hợp pháp hoặc nguy hiểm, xâm phạm bảo mật, nội dung tình dục, bạo lực, thù ghét, tạo thông tin sai lệch, v.v.
    • Áp dụng chính sách cấm Generative AI của Google

Đạo đức và an toàn nội dung

  • Quy trình phát triển: phối hợp với các nhóm an toàn, bảo mật và trách nhiệm nội bộ để tiến hành đánh giá và kiểm thử red team
  • Các loại đánh giá
    • Giám sát liên tục thông qua đánh giá tự động và đánh giá của con người
    • Human Red Teaming bởi các nhóm chuyên gia bên ngoài
    • Kiểm tra an toàn quy mô lớn bằng Automated Red Teaming
    • Thực hiện rà soát đạo đức và an toàn trước khi phát hành
  • Chính sách an toàn:
    1. Chặn nội dung liên quan đến lạm dụng và bóc lột tình dục trẻ em
    2. Chặn phát ngôn thù ghét
    3. Chặn nội dung cổ xúy tự sát hoặc hành vi nguy hiểm
    4. Chặn quấy rối và kích động bạo lực
    5. Chặn nội dung khiêu dâm lộ liễu
    6. Chặn lời khuyên y tế đi ngược đồng thuận khoa học

Kết quả đánh giá an toàn

  • Kết quả đánh giá tự động (so với Gemini 2.5 Pro)
    • Text-to-Text Safety: -10.4%
    • Multilingual Safety: +0.2% (thay đổi không đáng kể)
    • Image-to-Text Safety: +3.1% (thay đổi không đáng kể)
    • Tone: +7.9%
    • Unjustified Refusals: +3.7% (thay đổi không đáng kể)
  • Diễn giải: nhìn chung giọng điệu và độ an toàn được cải thiện, tỷ lệ từ chối không chính đáng giảm
  • Kết quả Human Red Teaming:
    • Đáp ứng tiêu chuẩn an toàn trẻ em, với hiệu năng an toàn tương đương hoặc tốt hơn so với Gemini 2.5 Pro
    • Không có vấn đề nghiêm trọng ngay cả trong các bài kiểm thử mở rộng vượt ra ngoài phạm vi chính sách

Rủi ro và giảm thiểu

  • Các rủi ro chính:
    • Lỗ hổng trước jailbreak (đã được cải thiện nhưng chưa giải quyết hoàn toàn)
    • Khả năng suy giảm chất lượng trong hội thoại nhiều lượt
  • Biện pháp giảm thiểu:
    • Lọc dữ liệu, tiền huấn luyện có điều kiện, tinh chỉnh có giám sát, học tăng cường dựa trên phản hồi của con người và phản biện
    • Áp dụng chính sách an toàn và bộ lọc ở cấp độ sản phẩm

Đánh giá Frontier Safety

  • Được thẩm định theo tiêu chuẩn Google DeepMind Frontier Safety Framework (tháng 9 năm 2025)
  • Kết quả: không đạt bất kỳ Critical Capability Level (CCL) nào
    • CBRN: chưa đủ để nâng cao năng lực của tác nhân đe dọa
    • An ninh mạng: giải được một số tác vụ (11/12), chưa giải được các tác vụ độ khó cao (0/13)
    • Thao túng gây hại: không có mức tăng đáng kể so với mô hình trước
    • R&D học máy: cải thiện so với Gemini 2.5 nhưng chưa đạt ngưỡng cảnh báo
    • Rủi ro phát hiện sai, phán đoán sai và thao túng: duy trì ở mức thấp
  • Kết luận: chưa chạm ngưỡng rủi ro theo tiêu chuẩn Frontier Safety, bảo đảm an toàn

Tóm tắt tổng hợp

  • Gemini 3 Pro là mô hình đa phương thức hiệu năng cao nhất của Google, với khả năng suy luận, độ an toàn và hiệu quả đều được nâng cao
  • Huấn luyện trên TPU và kiến trúc MoE giúp tối ưu xử lý dữ liệu quy mô lớn
  • Tăng cường hệ thống thẩm định đạo đức và an toàn, đáp ứng tiêu chuẩn Frontier Safety Framework
  • Cải thiện toàn diện so với Gemini 2.5 Pro, được đánh giá là mô hình AI an toàn và có khả năng mở rộng trong môi trường sử dụng thực tế

1 bình luận

 
GN⁺ 2025-11-19
Ý kiến Hacker News
  • Bình luận gốc đã được chuyển sang chuỗi này
    Kết lại bằng lời cảm ơn vì đã giúp sắp xếp gọn gàng