Trải nghiệm sau một tuần dùng Gemini Pro 1.5 - thực sự tuyệt vời

xguru · 2024-02-26T11:16:01+09:00

Gemini Pro 1.5, LLM beta kín mới của Google, cho thấy hiệu năng được cải thiện vượt trội so với các mô hình trước đây Gemini 1.5 Pro có thể đọc toàn bộ một cuốn tiểu thuyết và giải thích chi tiết về một cảnh được giấu ở giữa đọc toàn bộ codebase và gợi ý nơi thêm tính năng mới cùng mã ví dụ đọc toàn bộ các đoạn highlight khi đọc sách trong Readwise và chọn ra những đoạn phù hợp để viết bài luận Có thể xử lý tối đa 1 triệu token chỉ với một prompt So với các mô hình khác, cửa sổ ngữ cảnh của Gemini Pro 1.5 lớn hơn rất nhiều (GPT-4 Turbo là 128000, tức nhỏ hơn khoảng 8 lần) Ngay cả khi dùng cửa sổ ngữ cảnh lớn, mô hình vẫn xử lý prompt quy mô lớn rất xuất sắc Trong khi các mô hình khác suy giảm hiệu năng khi kích thước prompt tăng lên, Gemini không gặp vấn đề đó Lưu ý Gemini Pro 1.5 hiện vẫn là beta kín và hiệu năng có thể thay đổi khi phát hành công khai Gemini Pro 1.5 có tốc độ xử lý chậm, đặc biệt là với các yêu cầu quy mô lớn. OpenAI vẫn còn phần phải đuổi kịp, và khả năng truy xuất thông tin vẫn rất quan trọng

(every.to)

10 điểm bởi xguru 2024-02-26 | 3 bình luận | Chia sẻ qua WhatsApp

Gemini Pro 1.5, LLM beta kín mới của Google, cho thấy hiệu năng được cải thiện vượt trội so với các mô hình trước đây
Gemini 1.5 Pro có thể
- đọc toàn bộ một cuốn tiểu thuyết và giải thích chi tiết về một cảnh được giấu ở giữa
- đọc toàn bộ codebase và gợi ý nơi thêm tính năng mới cùng mã ví dụ
- đọc toàn bộ các đoạn highlight khi đọc sách trong Readwise và chọn ra những đoạn phù hợp để viết bài luận
Có thể xử lý tối đa 1 triệu token chỉ với một prompt
- So với các mô hình khác, cửa sổ ngữ cảnh của Gemini Pro 1.5 lớn hơn rất nhiều (GPT-4 Turbo là 128000, tức nhỏ hơn khoảng 8 lần)
- Ngay cả khi dùng cửa sổ ngữ cảnh lớn, mô hình vẫn xử lý prompt quy mô lớn rất xuất sắc
- Trong khi các mô hình khác suy giảm hiệu năng khi kích thước prompt tăng lên, Gemini không gặp vấn đề đó
Lưu ý
- Gemini Pro 1.5 hiện vẫn là beta kín và hiệu năng có thể thay đổi khi phát hành công khai
- Gemini Pro 1.5 có tốc độ xử lý chậm, đặc biệt là với các yêu cầu quy mô lớn.
- OpenAI vẫn còn phần phải đuổi kịp, và khả năng truy xuất thông tin vẫn rất quan trọng

3 bình luận

dahada 2024-03-20

Tôi đã thử dán một cuốn tiểu thuyết vào và trò chuyện, nhưng chỉ cần xuất hiện một chút diễn đạt hơi nhạy cảm là nó đã từ chối xử lý. Ngay cả khi hạ mức bộ lọc xuống, vẫn có những tiểu thuyết mà nó không xử lý được. Có vẻ như họ đã chọn tính an toàn thay vì khả năng mở rộng.

ajh508 2024-02-27

Từ trước đến giờ mỗi khi có gì mới ra mắt thì ai cũng làm ầm lên, nhưng có vẻ vẫn chưa có gì thật sự vượt được OpenAI.. Cá nhân mình thì mong một LLM thay toàn bộ backbone bằng Mamba sớm xuất hiện.

xguru 2024-02-26

Ý kiến trên Hacker News

Tôi thích ý tưởng đưa toàn bộ văn bản của một cuốn sách cho AI. Nhiều khi đang đọc tiểu thuyết mà tôi không nhớ một nhân vật là ai; sẽ thật tuyệt nếu trên máy đọc sách, tôi có thể bôi đậm tên đó và hệ thống biết rằng tôi đang đọc đến trang 85 của Neuromancer, rồi trả lời không tiết lộ tình tiết. Hoặc có những cuốn giáo trình có thể giúp đỡ và đưa gợi ý như một người bạn học tốt khi tôi bị mắc ở một bài toán.
Với chính trị bản sắc của Google, liệu có thể chắc chắn họ sẽ không thay đổi sự thật trong sách không? Khi đưa cho nó một cuốn sách bị xem là có vấn đề, nó có điều chỉnh nội dung không? Vì lý do đó, với tôi nó hoàn toàn vô dụng.
Một bài viết nêu ra các ví dụ chính xác, sự cân bằng và những điểm cần lưu ý mà tôi muốn đọc về chủ đề này, đồng thời công khai lợi ích liên quan của tác giả (ví dụ: là nhà đầu tư vào LlamaIndex)
Điều tôi mong chờ nhất là việc kết hợp điều này với RAG thay vì vứt bỏ RAG, để sử dụng một cửa sổ ngữ cảnh khổng lồ. Nếu có thể phân tích toàn bộ cuốn sách để xác định các phần liên quan rồi đưa cả cuốn sách vào cửa sổ ngữ cảnh, thì điều đó cũng có nghĩa là có thể đưa các phần liên quan từ cả thư viện tài liệu tham khảo vào cửa sổ ngữ cảnh, và điều đó rất hứa hẹn
Sau khi một số người đã có quyền truy cập vài ngày, kết luận là đây thực sự là một bước tiến về cửa sổ ngữ cảnh xét theo khả năng tận dụng chứ không chỉ độ dài. Nó tận dụng tốt hơn nhiều so với các mô hình khác. Đáng tiếc là họ không chia sẻ điều đó được thực hiện như thế nào.
Làm vậy chẳng phải sẽ cực kỳ tốn kém sao? Nhồi GPT-4 đến mức tối đa đã tốn $1.28 cho chỉ một lần tương tác rồi! Gemini có rẻ hơn nhiều không?
Ở NSA hẳn họ đang xoa tay trước những khả năng mà công nghệ này sẽ mở ra. Nó có thể được dùng để truy vấn lượng dữ liệu mà họ đã cất công lưu trữ suốt nhiều năm
Nó đọc toàn bộ codebase, đề xuất nên thêm tính năng mới ở đâu, thậm chí còn đưa ra cả mã mẫu. Tôi hy vọng đây sẽ không giống như phát minh ra ô tô đã xóa sổ xe ngựa, mà giống như phát minh ra máy đánh trống không hề xóa sổ các tay trống.
Các mô hình này khi phát hành công khai thường vận hành khác đi (và tệ hơn), và không ai biết Gemini sẽ ra sao khi chạy ở quy mô của Google. Tôi thực sự hy vọng Google rút kinh nghiệm từ danh tiếng ngày càng đi xuống của ChatGPT và tìm ra cách để mô hình có thể duy trì hiệu năng tốt nhất. Dù là giới hạn quyền truy cập, tăng giá, hay cả hai, tôi vẫn muốn được trải nghiệm mô hình này với chất lượng cao khi nó được phát hành.

Trải nghiệm sau một tuần dùng Gemini Pro 1.5 - thực sự tuyệt vời

Bài viết liên quan

3 bình luận

Ý kiến trên Hacker News