Mô hình thế hệ tiếp theo của Google: Gemini 1.5

(blog.google)

9 điểm bởi GN⁺ 2024-02-16 | 3 bình luận | Chia sẻ qua WhatsApp

Tuần trước, Google đã ra mắt Gemini 1.0 Ultra, mô hình có năng lực nhất của mình, đánh dấu một bước tiến quan trọng giúp các sản phẩm của Google trở nên hữu ích hơn
Các nhà phát triển và khách hàng đám mây hiện có thể bắt đầu xây dựng với 1.0 Ultra thông qua Gemini API trong AI Studio và Vertex AI
Các nhóm đang thúc đẩy ranh giới tiên phong của mô hình với an toàn là trọng tâm đang đạt tiến bộ nhanh chóng và đã sẵn sàng giới thiệu thế hệ tiếp theo, Gemini 1.5
Gemini 1.5 cho thấy những cải tiến đáng kể trên nhiều phương diện, và 1.5 Pro đạt chất lượng tương đương 1.0 Ultra trong khi sử dụng ít tài nguyên tính toán hơn
Thế hệ mới mang lại bước đột phá trong khả năng hiểu ngữ cảnh dài xuyên suốt nhiều modality, tăng mạnh lượng thông tin mà mô hình có thể xử lý và vận hành ổn định tới 1 triệu token

Giới thiệu Gemini 1.5

Những tiến bộ mới trong lĩnh vực AI có tiềm năng giúp AI trở nên hữu ích hơn cho hàng tỷ người trong những thập kỷ tới
Kể từ khi giới thiệu Gemini 1.0, Google đã tiếp tục thử nghiệm, tinh chỉnh và cải thiện các tính năng
Gemini 1.5 mang lại hiệu năng được nâng cao rõ rệt, đồng thời thể hiện sự thay đổi trong cách tiếp cận dựa trên các đổi mới về nghiên cứu và kỹ thuật
Sử dụng kiến trúc Mixture-of-Experts (MoE) mới để giúp việc huấn luyện và phục vụ mô hình hiệu quả hơn
Gemini 1.5 Pro là một mô hình đa phương thức cỡ trung, được tối ưu cho nhiều loại tác vụ khác nhau và đạt mức hiệu năng tương đương 1.0 Ultra, mô hình lớn nhất từ trước đến nay của Google
Gemini 1.5 Pro cung cấp cửa sổ ngữ cảnh tiêu chuẩn 128.000 token, nhưng các nhà phát triển và khách hàng doanh nghiệp có thể thử cửa sổ ngữ cảnh lên tới 1 triệu token thông qua AI Studio và Vertex AI

Kiến trúc hiệu quả

Gemini 1.5 được xây dựng dựa trên các nghiên cứu tiên phong về kiến trúc Transformer và MoE
Transformer truyền thống hoạt động như một mạng nơ-ron lớn duy nhất, trong khi mô hình MoE được chia thành các mạng nơ-ron "chuyên gia" nhỏ hơn
Tùy theo loại đầu vào, mô hình MoE học cách chỉ kích hoạt có chọn lọc những tuyến chuyên gia phù hợp nhất trong mạng nơ-ron
Sự chuyên biệt này giúp cải thiện mạnh mẽ hiệu quả của mô hình

Ngữ cảnh lớn hơn, khả năng hữu ích hơn

"Cửa sổ ngữ cảnh" của mô hình AI được cấu thành từ các token dùng để xử lý thông tin
Cửa sổ ngữ cảnh của mô hình càng lớn thì càng có thể xử lý nhiều thông tin hơn trong một lần, giúp đầu ra nhất quán, liên quan và hữu ích hơn
Nhờ những đổi mới trong học máy, dung lượng cửa sổ ngữ cảnh của 1.5 Pro đã được mở rộng vượt xa mức 32.000 token ban đầu của Gemini 1.0
Giờ đây, 1.5 Pro có thể xử lý lượng thông tin khổng lồ trong một lần, và trong nghiên cứu đã được thử nghiệm thành công tới 10 triệu token

Cải thiện hiệu năng

Khi được kiểm thử trên một bảng đánh giá toàn diện bao gồm văn bản, mã, hình ảnh, âm thanh và video, 1.5 Pro vượt qua 1.0 Pro ở 87% các benchmark được dùng để phát triển mô hình ngôn ngữ lớn (LLMs)
1.5 Pro vẫn duy trì mức hiệu năng cao dù cửa sổ ngữ cảnh đã tăng lên

Kiểm thử đạo đức và an toàn trên diện rộng

Theo các nguyên tắc AI và chính sách an toàn nghiêm ngặt, Google bảo đảm mô hình phải trải qua các bài kiểm thử đạo đức và an toàn trên diện rộng
Kể từ khi ra mắt 1.0 Ultra, đội ngũ đã liên tục tinh chỉnh mô hình để bảo đảm an toàn cho việc phát hành rộng rãi hơn
Trước khi phát hành 1.5 Pro, Google đã thực hiện các đánh giá diện rộng ở nhiều lĩnh vực như an toàn nội dung và tác hại về tính đại diện, đồng thời sẽ tiếp tục mở rộng các bài kiểm thử này

Xây dựng và thử nghiệm với các mô hình Gemini

Google đặt mục tiêu cung cấp thế hệ mô hình Gemini mới một cách có trách nhiệm cho hàng tỷ người trên toàn thế giới, cùng cộng đồng nhà phát triển và doanh nghiệp
Bắt đầu từ hôm nay, Google cung cấp bản xem trước giới hạn của 1.5 Pro cho các nhà phát triển và khách hàng doanh nghiệp thông qua AI Studio và Vertex AI
Khi mô hình sẵn sàng cho đợt phát hành rộng hơn, Google sẽ giới thiệu 1.5 Pro với cửa sổ ngữ cảnh tiêu chuẩn 128.000 token
Những người thử nghiệm ban đầu có thể dùng thử miễn phí cửa sổ ngữ cảnh 1 triệu token trong thời gian thử nghiệm, nhưng tính năng thử nghiệm này có thể làm tăng độ trễ

Ý kiến của GN⁺

Điểm quan trọng nhất của Gemini 1.5 là tăng mạnh lượng thông tin mà mô hình AI có thể xử lý, từ đó có thể thực hiện những tác vụ phức tạp và đa dạng hơn
Mô hình này đưa sự phát triển của AI lên một tầm cao mới và sẽ giúp các nhà phát triển cũng như doanh nghiệp xây dựng những mô hình và ứng dụng hữu ích hơn
Đây là một ví dụ cho thấy nghiên cứu và đổi mới của Google đang định hình tương lai của công nghệ AI như thế nào, đồng thời mang lại góc nhìn thú vị về cách AI có thể được tích hợp vào cuộc sống hằng ngày trong tương lai

3 bình luận

yoo04233 2024-02-17

Trong số các AI tôi đang dùng ngay lúc này, tôi dùng GPT-4 nhiều nhất, và có vẻ công nghệ AI sẽ dần được tích hợp vào đời sống thực tế nhiều hơn.

riskatcher 2024-02-16

Có vẻ Google đang khá rén nên cứ liên tục tung tin trước cả khi phát hành xem cái nào tốt hơn, trong khi bản Ultra thì đến giờ vẫn chưa hỗ trợ đa ngôn ngữ ra hồn, mức độ còn như OpenAI cách đây 1 năm khi vẫn còn cần Prompt Genie.

GN⁺ 2024-02-16

Ý kiến trên Hacker News

Tóm tắt bình luận về whitepaper:
- Thiếu giải thích về cách đạt ngữ cảnh 10M token: Whitepaper không đề cập cách đạt tới ngữ cảnh 10M token.
- Giảm độ phức tạp của stack RAG: Khả năng ngữ cảnh 10M gần như ngay lập tức loại bỏ phần lớn độ phức tạp của stack RAG, từ đó đơn giản hóa đáng kể nhiều trường hợp sử dụng.
- Sự vượt trội của 1.5 Pro: Có vẻ khá rõ rằng 1.5 Pro nhìn chung tốt hơn GPT-4, và điều này khiến nó trở thành ứng viên thú vị như một leader mới trong vai trò LLM-as-judge.
- Năng lực cao của 1.5 Ultra: 1.5 Ultra có vẻ rất mạnh, và 1.5 Pro cũng đã rất mạnh rồi. Nó đạt điểm cao trong nhiều bài kiểm tra, và có ý kiến chỉ ra rằng các bài test cho điểm thấp phần lớn cuối cùng lại là các trường hợp âm tính giả.
- Tiềm năng của 1.5 Pro: 1.5 Pro nên đặt ra chuẩn mực cho các tác vụ workflow. 1.0 Ultra rất mạnh nhưng hơi chậm. Các mô hình mở sử dụng nó có vẻ sẽ được cải thiện chất lượng đáng kể.
- Xem lại các bài test coding: Đã đến lúc thử lại các bài kiểm tra coding yêu cầu viết mô-đun mới.
- Thắc mắc về cách đạt ngữ cảnh 10M: Từ các bài test "needle" âm thanh và video cho thấy khả năng hồi tưởng hoàn hảo trên 10M token, có suy đoán rằng hẳn phải tồn tại một dạng nào đó như nén, chứ không chỉ là một vector siêu dài duy nhất.
Thông tin thú vị trong báo cáo kỹ thuật:
- Vấn đề rò rỉ dữ liệu của benchmark HumanEval: HumanEval là benchmark đánh giá mã nguồn mở tiêu chuẩn của ngành, nhưng không dễ kiểm soát rò rỉ ngẫu nhiên từ các trang web và kho mã nguồn mở. Phân tích rò rỉ dữ liệu kiểm thử của Gemini 1.0 Ultra cho thấy việc tiếp tục pre-training trên một tập dữ liệu chỉ chứa đúng một epoch của tập test split của HumanEval đã làm điểm số tăng mạnh từ 74.4% lên 89.0%. Mức tăng này vẫn duy trì ngay cả khi các ví dụ xuất hiện ở các định dạng khác như JSON và HTML. Họ kêu gọi các nhà nghiên cứu giảm thiểu rủi ro rò rỉ bằng cách luôn duy trì một tập nhỏ các hàm kiểm thử thật sự được giữ lại, do chính họ tự viết, tại chỗ khi đánh giá năng lực coding của các mô hình này. Benchmark Natural2Code được tạo ra để lấp khoảng trống này; nó theo cùng định dạng với HumanEval nhưng có prompt và bộ test khác.
Hiệu năng đáng chú ý trong báo cáo kỹ thuật:
- Khả năng ngữ cảnh dài của Gemini 1.5 Pro: Nghiên cứu về khả năng ngữ cảnh dài của Gemini 1.5 Pro phát hiện sự cải thiện liên tục trong dự đoán token kế tiếp và khả năng truy xuất gần như hoàn hảo (>99%) ít nhất tới 10M token.
Năng lực mới của các mô hình ngôn ngữ lớn:
- Dịch ngôn ngữ Kalamang: Khi được cung cấp một tài liệu ngữ pháp cho ngôn ngữ Kalamang, vốn có dưới 200 người dùng trên toàn thế giới, mô hình đã học cách dịch từ tiếng Anh sang Kalamang ở mức độ tương đương với người học từ cùng nội dung đó.
Thiếu niềm tin vào Google:
- Nghi ngờ về các công bố của Google: Vì video biên tập mang tính marketing đã phát hành trước đây không cho thấy sản phẩm thực tế, nên nếu không có biểu mẫu nhập liệu có thể kiểm thử ngay lập tức thì họ không tin những gì Google đưa ra.
Nghi ngờ về Demis Hassabis:
- Cái nhìn hoài nghi về chiến lược quảng bá trong quá khứ: Có quan điểm hoài nghi về cách Demis Hassabis làm truyền thông từ thời phát triển game trước đây. "Infinite Polygons" từng trở thành trò đùa trong ngành, còn game Republic của ông bị xem là một thất bại thiếu hấp dẫn.
Tính đột phá của 10M token:
- Tương quan giữa kích thước prompt và chất lượng: 10M token là yếu tố thay đổi cuộc chơi; nếu không có sự suy giảm đáng kể nào giữa kích thước prompt và chất lượng thì đây sẽ là bước đột phá rất lớn. Người ta sẽ bắt đầu nghĩ về chính prompt như một dạng runtime thay vì chỉ là đầu vào tĩnh.
Trải nghiệm tiêu cực với Gemini:
- Hiệu năng kém của Gemini: Sau khi thử Gemini, có người thấy hiệu năng rất thất vọng. Nó cho kết quả kém hơn nhiều so với ChatGPT hay llama chạy cục bộ. Họ không tin tưởng chiến lược AI của Google và cho rằng mọi nhân tài thực sự giỏi đều đã chuyển sang OpenAI hoặc Anthropic.
Khác biệt giữa Pro và Ultra:
- Kích thước context window: Các context window hiện nay từ hơn 100k token tới một triệu đang mở ra những khả năng rất thú vị. RAG có thể trở nên cực kỳ mạnh với lượng thông tin như vậy.
Tính đột phá của kích thước context window:
- Giải quyết bài toán token đầu vào: Nếu thực sự hoạt động đúng như quảng bá, nó sẽ thay thế nhu cầu dùng RAG hoặc fine-tuning cho các phân tích chuyên biệt. Có người rất tò mò họ đã giải quyết bài toán nhồi token đầu vào như thế nào.