Gemini AI
(deepmind.google)Sự xuất hiện của kỷ nguyên Gemini
- Gemini được xây dựng dựa trên khả năng đa phương thức bao trùm văn bản, hình ảnh, video, âm thanh và mã.
- Phiên bản đầu tiên của Gemini được giới thiệu là mô hình AI có năng lực mạnh nhất cho đến nay.
- Đây là mô hình đầu tiên vượt qua các chuyên gia con người, cho thấy hiệu năng cao trên MMLU, bài kiểm tra đánh giá kiến thức và năng lực giải quyết vấn đề của các mô hình AI.
Benchmark năng lực văn bản
- Gemini Ultra ghi nhận hiệu năng cao trên nhiều benchmark khác nhau như MMLU tổng quát, Big-Bench Hard đòi hỏi suy luận phức tạp, và DROP đánh giá khả năng đọc hiểu.
- Mô hình cũng cho kết quả xuất sắc trong suy luận thường thức hằng ngày, giải toán và tạo mã Python.
- Có thể xem chi tiết hiệu năng theo các phương pháp khác trong báo cáo kỹ thuật.
Benchmark năng lực đa phương thức
- Trong các lĩnh vực hình ảnh, video và âm thanh, Gemini cũng vượt qua mức hiệu năng tốt nhất trước đó.
- Gemini Ultra cho thấy hiệu năng cao trong việc giải quyết nhiều bài toán học thuật ở cấp đại học, hiểu hình ảnh tự nhiên và hiểu tài liệu.
- Trong lĩnh vực âm thanh, Gemini Pro vượt các mô hình cạnh tranh về dịch tiếng nói tự động và nhận dạng.
Ứng dụng của Gemini Pro trong Bard
- Khi trải nghiệm Gemini Pro trong Bard, người dùng có thể khám phá những cách mới để sáng tạo, lập kế hoạch và brainstorming.
Ý kiến của GN⁺
- Điểm quan trọng nhất của bài viết này là mô hình AI Gemini sở hữu khả năng đa phương thức có thể hiểu và xử lý nhiều dạng dữ liệu khác nhau như văn bản, hình ảnh, video, âm thanh và mã, đồng thời thể hiện hiệu năng vượt qua chuyên gia con người trên nhiều benchmark.
- Đây là tin tức đáng chú ý vì bước tiến này cho thấy sự phát triển của công nghệ AI và được kỳ vọng sẽ mở rộng mạnh mẽ khả năng ứng dụng AI trong nhiều lĩnh vực như sáng tạo, lập kế hoạch và học tập trong tương lai.
1 bình luận
Ý kiến trên Hacker News