Gemini AI

(deepmind.google)

2 điểm bởi GN⁺ 2023-12-07 | 1 bình luận | Chia sẻ qua WhatsApp

Sự xuất hiện của kỷ nguyên Gemini

Gemini được xây dựng dựa trên khả năng đa phương thức bao trùm văn bản, hình ảnh, video, âm thanh và mã.
Phiên bản đầu tiên của Gemini được giới thiệu là mô hình AI có năng lực mạnh nhất cho đến nay.
Đây là mô hình đầu tiên vượt qua các chuyên gia con người, cho thấy hiệu năng cao trên MMLU, bài kiểm tra đánh giá kiến thức và năng lực giải quyết vấn đề của các mô hình AI.

Benchmark năng lực văn bản

Gemini Ultra ghi nhận hiệu năng cao trên nhiều benchmark khác nhau như MMLU tổng quát, Big-Bench Hard đòi hỏi suy luận phức tạp, và DROP đánh giá khả năng đọc hiểu.
Mô hình cũng cho kết quả xuất sắc trong suy luận thường thức hằng ngày, giải toán và tạo mã Python.
Có thể xem chi tiết hiệu năng theo các phương pháp khác trong báo cáo kỹ thuật.

Benchmark năng lực đa phương thức

Trong các lĩnh vực hình ảnh, video và âm thanh, Gemini cũng vượt qua mức hiệu năng tốt nhất trước đó.
Gemini Ultra cho thấy hiệu năng cao trong việc giải quyết nhiều bài toán học thuật ở cấp đại học, hiểu hình ảnh tự nhiên và hiểu tài liệu.
Trong lĩnh vực âm thanh, Gemini Pro vượt các mô hình cạnh tranh về dịch tiếng nói tự động và nhận dạng.

Ứng dụng của Gemini Pro trong Bard

Khi trải nghiệm Gemini Pro trong Bard, người dùng có thể khám phá những cách mới để sáng tạo, lập kế hoạch và brainstorming.

Ý kiến của GN⁺

Điểm quan trọng nhất của bài viết này là mô hình AI Gemini sở hữu khả năng đa phương thức có thể hiểu và xử lý nhiều dạng dữ liệu khác nhau như văn bản, hình ảnh, video, âm thanh và mã, đồng thời thể hiện hiệu năng vượt qua chuyên gia con người trên nhiều benchmark.
Đây là tin tức đáng chú ý vì bước tiến này cho thấy sự phát triển của công nghệ AI và được kỳ vọng sẽ mở rộng mạnh mẽ khả năng ứng dụng AI trong nhiều lĩnh vực như sáng tạo, lập kế hoạch và học tập trong tương lai.

1 bình luận

GN⁺ 2023-12-07

Ý kiến trên Hacker News

Bài blog liên quan: cung cấp liên kết tới bài viết blog về công nghệ AI mới của Google là Gemini và liên kết tới thảo luận trên Hacker News. Gemini Ultra vẫn chưa được phát hành và còn phải chờ vài tháng nữa.
Bard w/ Gemini Pro không thể sử dụng tại châu Âu và không phải là đa phương thức. Không có số liệu thống kê công khai về Gemini Pro, nhưng có thông tin ẩn trong tài liệu kỹ thuật.
Có ý kiến cho rằng đây là màn quảng bá bị thổi phồng vì hôm nay chưa có sản phẩm nào cạnh tranh với GPT-4 được ra mắt. Sẽ tốt hơn nếu phát hành một sản phẩm có thể dùng ở hầu hết các quốc gia và có các chỉ số được quảng bá như đã nêu.
Hiệu năng ấn tượng của Gemini AI: khi được hỏi về một tính năng bất khả thi trong TypeScript, nó đã trả lời chính xác là không thể và cung cấp liên kết tới issue GitHub liên quan. GPT-4 thường không tạo liên kết tốt khi không ở chế độ duyệt web. Ngoài ra, nó còn nhận ra Pixi.js v8, hiện vẫn đang ở bản beta, nhanh hơn GPT-4 và giải thích chính xác các tính năng chính.
Giải thích cho những người đang bối rối về các phiên bản Gemini: thứ chủ yếu được bàn tới là Gemini Ultra, mẫu được cho là vượt GPT-4. Còn phiên bản có thể dùng qua Bard là Gemini Pro.
So sánh hiệu năng benchmark giữa Gemini Ultra, Gemini Pro và GPT-4 theo báo cáo kỹ thuật. Có cung cấp so sánh điểm số trên nhiều bộ dữ liệu khác nhau.
Cung cấp liên kết tới video demo Gemini AI.
Quan sát về những phát biểu chính của Sundar Pichai trong video: tạo cảm giác Google muốn nhấn mạnh rằng họ đã làm AI từ rất lâu. Vì mô hình hiện đại nhất đang được công khai lại là do OpenAI tạo ra, nên cách nhấn mạnh này có phần không phù hợp. Có ý kiến cho rằng chiến lược tốt hơn là trực tiếp chứng minh bằng sản phẩm thực tế.
Thông tin rằng có thể tích hợp các mô hình Gemini vào ứng dụng thông qua Google AI Studio và Google Cloud Vertex AI. Có vẻ sẽ khả dụng từ ngày 13 tháng 12.
Lo ngại về vấn đề khó xác định liệu dữ liệu kiểm thử trong benchmark có phải là một phần của dữ liệu huấn luyện hay không. Đưa ra ví dụ như GPT-4 mắc lỗi với bài toán toán học nhưng lại đạt điểm cao trên GSM8k.
Nhiều ý kiến khác nhau về việc chỉ vừa đủ vượt GPT-4. Có kỳ vọng rằng nếu cạnh tranh trở nên khốc liệt hơn thì mọi người đều sẽ được hưởng lợi. Đồng thời cũng có phàn nàn về việc công bố trước và cho rằng cần chờ đến khi thực sự có thể sử dụng được.
Cung cấp liên kết tới cuộc thảo luận về mô hình Gemini trên Codeforces (nền tảng lập trình thi đấu). Bày tỏ nghi ngờ về tuyên bố rằng nó đã giải được bài toán mức 3200 mà không có rò rỉ dữ liệu.
Kỳ vọng rất lớn vào Gemini Nano. Trong thread về Pixel 8, đã có ý kiến rằng việc dùng web API chỉ là giải pháp tạm thời và sau này có thể được thay bằng mô hình chạy trên thiết bị; đây có thể là khởi đầu cho điều đó.

Gemini AI

Sự xuất hiện của kỷ nguyên Gemini

Benchmark năng lực văn bản

Benchmark năng lực đa phương thức

Ứng dụng của Gemini Pro trong Bard

Ý kiến của GN⁺

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News