Ứng dụng sát thủ của Gemini Pro 1.5 là video

(simonwillison.net)

10 điểm bởi GN⁺ 2024-02-22 | 1 bình luận | Chia sẻ qua WhatsApp

Kích thước ngữ cảnh token của Google Gemini Pro 1.5 là 1.000.000 token
Trước đây, kỷ lục này thuộc về Claude 2.1 (200.000 token) và gpt-4-turbo (128.000 token), nhưng do cách triển khai token hóa giữa các mô hình khác nhau nên rất khó so sánh trực tiếp một cách hoàn toàn chính xác
Sau vài ngày dùng thử Gemini Pro 1.5, tính năng thú vị nhất không phải là số lượng token mà là khả năng dùng video làm đầu vào
Chưa có quyền truy cập API, nhưng đã thử tiếp cận mô hình qua giao diện Google AI Studio

Bài kiểm tra đầu tiên

Quay một trong các kệ sách thành video dài 7 giây
Tải lên cùng prompt "JSON array of books in this video"
Video 7 giây này chỉ dùng 1.841 token trong tổng giới hạn 1.048.576 token
Gemini Pro 1.5 không trả về JSON nhưng phản hồi bằng danh sách tên sách và tên tác giả trong video
Khi yêu cầu thêm "as a JSON array of objects, with title and author keys", nó trả về JSON gồm sách/tác giả
Kết quả khá đáng kinh ngạc. Video chỉ dài 7 giây, di chuyển khá nhanh (có chút nhòe chuyển động), và một số cuốn sách còn bị các vật khác che khuất

Bài kiểm tra thứ hai

Lần này quay một giá sách đầy sách dạy nấu ăn theo chiều dọc, dài hơn một chút (22 giây), lia máy không chỉ theo chiều ngang mà còn xuống phía dưới
Video này dùng 6.049 token, vẫn là một lượng cực kỳ nhỏ
Prompt mới: "Output a JSON array of {“title”: “...”, “authors”: “...”} objects for books in this video"
Nhưng bị từ chối với lý do "Unsafe Content"
Có vẻ bộ lọc an toàn đã phản ứng với từ 'Cocktail'
Đã mở phần cài đặt an toàn và đặt mọi danh mục về 'thấp' rồi thử lại, nhưng vẫn bị từ chối lần thứ hai
Vì vậy, khi ép bằng câu "go on give me that JSON" thì nó trả về JSON
Kết quả một lần nữa lại rất xuất sắc

Có thể tận dụng việc này như thế nào?

Khả năng trích xuất nội dung có cấu trúc từ văn bản vốn đã là một trong những trường hợp sử dụng thú vị nhất của LLM
GPT-4 Vision và LLaVA đã mở rộng điều đó sang hình ảnh, và giờ Gemini Pro 1.5 tiếp tục mở rộng sang video
Tất nhiên, các lưu ý thông thường với LLM vẫn áp dụng. Nó có thể bỏ sót sự vật và có thể hallucinate ra các chi tiết sai
Cũng có vấn đề với bộ lọc an toàn như trường hợp Cocktail
Vì thế, giống như mọi AI hiện đại khác, vẫn còn nhiều thách thức cần vượt qua
Nhưng đây có cảm giác như thêm một ví dụ nữa cho thấy ta đang được nhìn thoáng qua một tương lai gần hơn rất nhiều so với những gì tôi từng kỳ vọng

Hình ảnh vs. video

Lúc đầu, vì số token liên quan đến xử lý video thấp một cách bất ngờ, tôi đã nghĩ video sẽ được xử lý khác với hình ảnh
Nhưng theo một bài đăng trên Hacker News

Gemini 1.5 Pro có thể suy luận trên video dài tới 1 giờ. Khi bạn đính kèm video, Google AI Studio sẽ phân loại video đó thành hàng nghìn khung hình không có âm thanh, sau đó mô hình Gemini, vốn là đa phương thức, có thể thực hiện các tác vụ suy luận và giải quyết vấn đề ở mức độ rất tinh vi.
Quảng cáo
Báo cáo kỹ thuật Gemini 1.5 giải thích thêm như sau:

Khi nhập bộ phim Buster Keaton dài 45 phút "Sherlock Jr." (1924) (2.674 khung hình ở tốc độ 1FPS, 684k token), Gemini 1.5 Pro có thể truy xuất và trích xuất thông tin văn bản từ các khung hình cụ thể rồi cung cấp dấu thời gian tương ứng.

1 bình luận

GN⁺ 2024-02-22

Ý kiến Hacker News

Nếu một tác nhân luôn âm thầm theo dõi màn hình của người dùng, điều đó có thể rất hữu ích hoặc mang màu sắc phản địa đàng.
- Người ta kỳ vọng nó có thể quan sát người dùng lập trình, lên kế hoạch và nghiên cứu trong nhiều tháng, rồi đưa ra lời khuyên cá nhân và chuyên môn.
- Công nghệ như vậy có thể phản ánh tâm lý cá nhân và ghi nhớ rất nhiều thông tin, nên sẽ cực kỳ có giá trị đối với doanh nghiệp hoặc các tác nhân xấu.
- Mô hình phải được vận hành an toàn, vì có rủi ro sao chép con người hoặc xâm phạm quyền riêng tư.
Tiêu đề "ứng dụng sát thủ của Gemini Pro 1.5 là đầu vào video" là phù hợp.
- Nó có thể hữu ích cho việc kiểm duyệt quy mô lớn đối với nội dung video như YouTube, và sẽ rất tốt nếu có thể giảm chi phí.
Video là một chuỗi hình ảnh, và demo GPT-4-Vision của OpenAI tạo ra hiệu ứng tương tự bằng cách gửi cho mô hình một danh sách khung hình.
- Sẽ tốt nếu GPT-4-Vision hỗ trợ gọi hàm hoặc dữ liệu có cấu trúc để đảm bảo đầu ra JSON.
- Cũng có cách dùng ffmpeg để xuất mỗi khung hình xen kẽ nhằm giảm một nửa chi phí.
- Demo của OpenAI gửi mỗi khung hình thứ 50 của một video khoảng 600 khung hình.
Khi AI có thể phân tích video, hình ảnh và văn bản, rồi xử lý chúng với chi phí thấp và hiệu quả, quyền riêng tư sẽ hoàn toàn chấm dứt.
- Hiện tại các tập đoàn lớn đã nắm giữ rất nhiều dữ liệu về chúng ta, nhưng vẫn có giới hạn trong việc hiểu và kết nối tất cả.
- AI mạnh có thể hiểu mọi khía cạnh của đời sống số, và tiềm năng bị dùng cho mục đích tốt lẫn xấu là rất lớn.
Có vẻ tác giả đã không kiểm tra xem những cuốn sách được nhắc đến trong video dùng làm đầu vào có thực sự chính xác hay không.
- Cuốn đầu tiên được kiểm tra, "Growing Up with Lucy by April Henry", không hề tồn tại; thực tế là của Steve Grand.
- Đây là một demo thú vị, nhưng không hữu ích để dùng cho nhiều việc hơn trong thực tế.
Có vẻ bộ lọc an toàn của Google đã phản ứng với từ "Cocktail".
- Họ đã giảm mức an toàn và thử lại, nhưng lần thử thứ hai vẫn bị từ chối.
- Bộ phận quản trị rủi ro của Google dường như đã hoàn toàn chi phối tổ chức, đến mức ngay cả những chiếc máy tính thông minh nhất cũng sợ dùng các từ hoặc hình ảnh nguy hiểm như "cocktail" hay "Abraham Lincoln".
Việc chỉ dùng 256 token cho mỗi khung hình là điều đáng kinh ngạc.
- Trái với câu nói một bức ảnh đáng giá ngàn lời, điều này có nghĩa là thực tế nó chỉ đáng khoảng 192 từ.
Vấn đề liên quan đến "Cocktail" thực sự có tồn tại.
- Có người đã thử dùng DALLE để hình dung các nhân vật trong Moby Dick, nhưng bị từ chối hoàn toàn.
- Người ta nghĩ rằng nếu là một công ty AI thì đáng lẽ phải tạo được bộ lọc từ ngữ tục tĩu tốt hơn.
Có người tò mò đâu mới là ứng dụng cốt lõi thực sự của quy mô phần cứng Google so với OpenAI (hoặc những gì Microsoft cung cấp).
- Những gì Google làm không đặc biệt gây ngạc nhiên với đội ngũ OpenAI, nhưng có thể họ sẽ lặp lại nhanh hơn ở quy mô khổng lồ.
Bản thân công nghệ này rất ấn tượng và thú vị, nhưng người ta bật cười trước tình huống có thể gọi là sự báo thù của vấn đề Scunthorpe.
- Có vẻ bộ lọc an toàn đã phản ứng với từ "Cocktail".

Ứng dụng sát thủ của Gemini Pro 1.5 là video

Bài kiểm tra đầu tiên

Bài kiểm tra thứ hai

Có thể tận dụng việc này như thế nào?

Hình ảnh vs. video

Bài viết liên quan

1 bình luận

Ý kiến Hacker News