Ứng dụng sát thủ của Gemini Pro 1.5 là video
(simonwillison.net)- Kích thước ngữ cảnh token của Google Gemini Pro 1.5 là 1.000.000 token
- Trước đây, kỷ lục này thuộc về Claude 2.1 (200.000 token) và gpt-4-turbo (128.000 token), nhưng do cách triển khai token hóa giữa các mô hình khác nhau nên rất khó so sánh trực tiếp một cách hoàn toàn chính xác
- Sau vài ngày dùng thử Gemini Pro 1.5, tính năng thú vị nhất không phải là số lượng token mà là khả năng dùng video làm đầu vào
- Chưa có quyền truy cập API, nhưng đã thử tiếp cận mô hình qua giao diện Google AI Studio
Bài kiểm tra đầu tiên
- Quay một trong các kệ sách thành video dài 7 giây
- Tải lên cùng prompt "JSON array of books in this video"
- Video 7 giây này chỉ dùng 1.841 token trong tổng giới hạn 1.048.576 token
- Gemini Pro 1.5 không trả về JSON nhưng phản hồi bằng danh sách tên sách và tên tác giả trong video
- Khi yêu cầu thêm "as a JSON array of objects, with title and author keys", nó trả về JSON gồm sách/tác giả
- Kết quả khá đáng kinh ngạc. Video chỉ dài 7 giây, di chuyển khá nhanh (có chút nhòe chuyển động), và một số cuốn sách còn bị các vật khác che khuất
Bài kiểm tra thứ hai
- Lần này quay một giá sách đầy sách dạy nấu ăn theo chiều dọc, dài hơn một chút (22 giây), lia máy không chỉ theo chiều ngang mà còn xuống phía dưới
- Video này dùng 6.049 token, vẫn là một lượng cực kỳ nhỏ
- Prompt mới: "Output a JSON array of {“title”: “...”, “authors”: “...”} objects for books in this video"
- Nhưng bị từ chối với lý do "Unsafe Content"
- Có vẻ bộ lọc an toàn đã phản ứng với từ 'Cocktail'
- Đã mở phần cài đặt an toàn và đặt mọi danh mục về 'thấp' rồi thử lại, nhưng vẫn bị từ chối lần thứ hai
- Vì vậy, khi ép bằng câu "go on give me that JSON" thì nó trả về JSON
- Kết quả một lần nữa lại rất xuất sắc
Có thể tận dụng việc này như thế nào?
- Khả năng trích xuất nội dung có cấu trúc từ văn bản vốn đã là một trong những trường hợp sử dụng thú vị nhất của LLM
- GPT-4 Vision và LLaVA đã mở rộng điều đó sang hình ảnh, và giờ Gemini Pro 1.5 tiếp tục mở rộng sang video
- Tất nhiên, các lưu ý thông thường với LLM vẫn áp dụng. Nó có thể bỏ sót sự vật và có thể hallucinate ra các chi tiết sai
- Cũng có vấn đề với bộ lọc an toàn như trường hợp Cocktail
- Vì thế, giống như mọi AI hiện đại khác, vẫn còn nhiều thách thức cần vượt qua
- Nhưng đây có cảm giác như thêm một ví dụ nữa cho thấy ta đang được nhìn thoáng qua một tương lai gần hơn rất nhiều so với những gì tôi từng kỳ vọng
Hình ảnh vs. video
- Lúc đầu, vì số token liên quan đến xử lý video thấp một cách bất ngờ, tôi đã nghĩ video sẽ được xử lý khác với hình ảnh
- Nhưng theo một bài đăng trên Hacker News
Gemini 1.5 Pro có thể suy luận trên video dài tới 1 giờ. Khi bạn đính kèm video, Google AI Studio sẽ phân loại video đó thành hàng nghìn khung hình không có âm thanh, sau đó mô hình Gemini, vốn là đa phương thức, có thể thực hiện các tác vụ suy luận và giải quyết vấn đề ở mức độ rất tinh vi.
- Báo cáo kỹ thuật Gemini 1.5 giải thích thêm như sau:
Khi nhập bộ phim Buster Keaton dài 45 phút "Sherlock Jr." (1924) (2.674 khung hình ở tốc độ 1FPS, 684k token), Gemini 1.5 Pro có thể truy xuất và trích xuất thông tin văn bản từ các khung hình cụ thể rồi cung cấp dấu thời gian tương ứng.
1 bình luận
Ý kiến Hacker News
Nếu một tác nhân luôn âm thầm theo dõi màn hình của người dùng, điều đó có thể rất hữu ích hoặc mang màu sắc phản địa đàng.
Tiêu đề "ứng dụng sát thủ của Gemini Pro 1.5 là đầu vào video" là phù hợp.
Video là một chuỗi hình ảnh, và demo GPT-4-Vision của OpenAI tạo ra hiệu ứng tương tự bằng cách gửi cho mô hình một danh sách khung hình.
ffmpegđể xuất mỗi khung hình xen kẽ nhằm giảm một nửa chi phí.Khi AI có thể phân tích video, hình ảnh và văn bản, rồi xử lý chúng với chi phí thấp và hiệu quả, quyền riêng tư sẽ hoàn toàn chấm dứt.
Có vẻ tác giả đã không kiểm tra xem những cuốn sách được nhắc đến trong video dùng làm đầu vào có thực sự chính xác hay không.
Có vẻ bộ lọc an toàn của Google đã phản ứng với từ "Cocktail".
Việc chỉ dùng 256 token cho mỗi khung hình là điều đáng kinh ngạc.
Vấn đề liên quan đến "Cocktail" thực sự có tồn tại.
Có người tò mò đâu mới là ứng dụng cốt lõi thực sự của quy mô phần cứng Google so với OpenAI (hoặc những gì Microsoft cung cấp).
Bản thân công nghệ này rất ấn tượng và thú vị, nhưng người ta bật cười trước tình huống có thể gọi là sự báo thù của vấn đề Scunthorpe.