Mô hình thế hệ tiếp theo của Google: Gemini 1.5
(blog.google)- Tuần trước, Google đã ra mắt Gemini 1.0 Ultra, mô hình có năng lực nhất của mình, đánh dấu một bước tiến quan trọng giúp các sản phẩm của Google trở nên hữu ích hơn
- Các nhà phát triển và khách hàng đám mây hiện có thể bắt đầu xây dựng với 1.0 Ultra thông qua Gemini API trong AI Studio và Vertex AI
- Các nhóm đang thúc đẩy ranh giới tiên phong của mô hình với an toàn là trọng tâm đang đạt tiến bộ nhanh chóng và đã sẵn sàng giới thiệu thế hệ tiếp theo, Gemini 1.5
- Gemini 1.5 cho thấy những cải tiến đáng kể trên nhiều phương diện, và 1.5 Pro đạt chất lượng tương đương 1.0 Ultra trong khi sử dụng ít tài nguyên tính toán hơn
- Thế hệ mới mang lại bước đột phá trong khả năng hiểu ngữ cảnh dài xuyên suốt nhiều modality, tăng mạnh lượng thông tin mà mô hình có thể xử lý và vận hành ổn định tới 1 triệu token
Giới thiệu Gemini 1.5
- Những tiến bộ mới trong lĩnh vực AI có tiềm năng giúp AI trở nên hữu ích hơn cho hàng tỷ người trong những thập kỷ tới
- Kể từ khi giới thiệu Gemini 1.0, Google đã tiếp tục thử nghiệm, tinh chỉnh và cải thiện các tính năng
- Gemini 1.5 mang lại hiệu năng được nâng cao rõ rệt, đồng thời thể hiện sự thay đổi trong cách tiếp cận dựa trên các đổi mới về nghiên cứu và kỹ thuật
- Sử dụng kiến trúc Mixture-of-Experts (MoE) mới để giúp việc huấn luyện và phục vụ mô hình hiệu quả hơn
- Gemini 1.5 Pro là một mô hình đa phương thức cỡ trung, được tối ưu cho nhiều loại tác vụ khác nhau và đạt mức hiệu năng tương đương 1.0 Ultra, mô hình lớn nhất từ trước đến nay của Google
- Gemini 1.5 Pro cung cấp cửa sổ ngữ cảnh tiêu chuẩn 128.000 token, nhưng các nhà phát triển và khách hàng doanh nghiệp có thể thử cửa sổ ngữ cảnh lên tới 1 triệu token thông qua AI Studio và Vertex AI
Kiến trúc hiệu quả
- Gemini 1.5 được xây dựng dựa trên các nghiên cứu tiên phong về kiến trúc Transformer và MoE
- Transformer truyền thống hoạt động như một mạng nơ-ron lớn duy nhất, trong khi mô hình MoE được chia thành các mạng nơ-ron "chuyên gia" nhỏ hơn
- Tùy theo loại đầu vào, mô hình MoE học cách chỉ kích hoạt có chọn lọc những tuyến chuyên gia phù hợp nhất trong mạng nơ-ron
- Sự chuyên biệt này giúp cải thiện mạnh mẽ hiệu quả của mô hình
Ngữ cảnh lớn hơn, khả năng hữu ích hơn
- "Cửa sổ ngữ cảnh" của mô hình AI được cấu thành từ các token dùng để xử lý thông tin
- Cửa sổ ngữ cảnh của mô hình càng lớn thì càng có thể xử lý nhiều thông tin hơn trong một lần, giúp đầu ra nhất quán, liên quan và hữu ích hơn
- Nhờ những đổi mới trong học máy, dung lượng cửa sổ ngữ cảnh của 1.5 Pro đã được mở rộng vượt xa mức 32.000 token ban đầu của Gemini 1.0
- Giờ đây, 1.5 Pro có thể xử lý lượng thông tin khổng lồ trong một lần, và trong nghiên cứu đã được thử nghiệm thành công tới 10 triệu token
Cải thiện hiệu năng
- Khi được kiểm thử trên một bảng đánh giá toàn diện bao gồm văn bản, mã, hình ảnh, âm thanh và video, 1.5 Pro vượt qua 1.0 Pro ở 87% các benchmark được dùng để phát triển mô hình ngôn ngữ lớn (LLMs)
- 1.5 Pro vẫn duy trì mức hiệu năng cao dù cửa sổ ngữ cảnh đã tăng lên
Kiểm thử đạo đức và an toàn trên diện rộng
- Theo các nguyên tắc AI và chính sách an toàn nghiêm ngặt, Google bảo đảm mô hình phải trải qua các bài kiểm thử đạo đức và an toàn trên diện rộng
- Kể từ khi ra mắt 1.0 Ultra, đội ngũ đã liên tục tinh chỉnh mô hình để bảo đảm an toàn cho việc phát hành rộng rãi hơn
- Trước khi phát hành 1.5 Pro, Google đã thực hiện các đánh giá diện rộng ở nhiều lĩnh vực như an toàn nội dung và tác hại về tính đại diện, đồng thời sẽ tiếp tục mở rộng các bài kiểm thử này
Xây dựng và thử nghiệm với các mô hình Gemini
- Google đặt mục tiêu cung cấp thế hệ mô hình Gemini mới một cách có trách nhiệm cho hàng tỷ người trên toàn thế giới, cùng cộng đồng nhà phát triển và doanh nghiệp
- Bắt đầu từ hôm nay, Google cung cấp bản xem trước giới hạn của 1.5 Pro cho các nhà phát triển và khách hàng doanh nghiệp thông qua AI Studio và Vertex AI
- Khi mô hình sẵn sàng cho đợt phát hành rộng hơn, Google sẽ giới thiệu 1.5 Pro với cửa sổ ngữ cảnh tiêu chuẩn 128.000 token
- Những người thử nghiệm ban đầu có thể dùng thử miễn phí cửa sổ ngữ cảnh 1 triệu token trong thời gian thử nghiệm, nhưng tính năng thử nghiệm này có thể làm tăng độ trễ
Ý kiến của GN⁺
- Điểm quan trọng nhất của Gemini 1.5 là tăng mạnh lượng thông tin mà mô hình AI có thể xử lý, từ đó có thể thực hiện những tác vụ phức tạp và đa dạng hơn
- Mô hình này đưa sự phát triển của AI lên một tầm cao mới và sẽ giúp các nhà phát triển cũng như doanh nghiệp xây dựng những mô hình và ứng dụng hữu ích hơn
- Đây là một ví dụ cho thấy nghiên cứu và đổi mới của Google đang định hình tương lai của công nghệ AI như thế nào, đồng thời mang lại góc nhìn thú vị về cách AI có thể được tích hợp vào cuộc sống hằng ngày trong tương lai
3 bình luận
Trong số các AI tôi đang dùng ngay lúc này, tôi dùng GPT-4 nhiều nhất, và có vẻ công nghệ AI sẽ dần được tích hợp vào đời sống thực tế nhiều hơn.
Có vẻ Google đang khá rén nên cứ liên tục tung tin trước cả khi phát hành xem cái nào tốt hơn, trong khi bản Ultra thì đến giờ vẫn chưa hỗ trợ đa ngôn ngữ ra hồn, mức độ còn như OpenAI cách đây 1 năm khi vẫn còn cần Prompt Genie.
Ý kiến trên Hacker News
Tóm tắt bình luận về whitepaper:
Thông tin thú vị trong báo cáo kỹ thuật:
Hiệu năng đáng chú ý trong báo cáo kỹ thuật:
Năng lực mới của các mô hình ngôn ngữ lớn:
Thiếu niềm tin vào Google:
Nghi ngờ về Demis Hassabis:
Tính đột phá của 10M token:
Trải nghiệm tiêu cực với Gemini:
Khác biệt giữa Pro và Ultra:
Tính đột phá của kích thước context window: