2 điểm bởi GN⁺ 2023-12-12 | 1 bình luận | Chia sẻ qua WhatsApp

Bản remake demo Google Gemini giả bằng GPT-4, lần này là thật

  • Một dự án remake bản demo Google Gemini giả bằng GPT-4.
  • Có cung cấp bản demo thực sự hoạt động, và có thể xem mã liên quan trong kho GitHub.
  • Dự án được tạo bởi Greg Technology.

Ý kiến của GN⁺

  • Điểm quan trọng nhất của bài này là sự tồn tại của một dự án đã dùng GPT-4 để biến bản demo giả trong quá khứ thành một triển khai thực sự.
  • Đây là một ví dụ thú vị cho thấy quá trình tiến bộ của công nghệ AI tạo ra những kết quả đổi mới có thể dùng được trong thực tế.

1 bình luận

 
GN⁺ 2023-12-12
Ý kiến trên Hacker News
  • "Phép màu" của bản demo Gemini giả là nó khiến người xem có cảm giác LLM liên tục nhận đầu vào âm thanh và video, nhận biết khi nào người dùng kết thúc hội thoại hoặc vẽ xong, rồi phản hồi đúng thời điểm.
  • Kết quả xem xét mã nguồn cho thấy bản demo chụp ảnh màn hình từ luồng video mỗi 800ms, đợi đến khi người dùng hoàn thành bức vẽ rồi gửi ba ảnh chụp màn hình cuối cùng. Điều này chứng minh rằng tương tác với LLM theo cách như vậy sẽ cho cảm giác không tự nhiên nếu không có đầu vào âm thanh-video liên tục.
  • Không thể hiểu vì sao các công ty lại nói dối theo kiểu này. Họ thực sự có thể mất rất nhiều; kiểu quảng bá phóng đại như vậy có thể hữu ích trong ngắn hạn, nhưng không có lợi về lâu dài.
  • Tin chắc rằng Google DeepMind thực ra không hề có LLM tiên tiến hàng đầu. Khi ChatGPT ra mắt, Google nói họ không công bố mô hình tốt hơn vì lý do an toàn AI, nhưng thực tế không phải vậy.
  • GPT-4V rất ấn tượng, và ai quan tâm đến thị giác máy tính hay đa phương thức nên thử LLaVA. Cá nhân tôi đã dùng biến thể 7B q5_k và thấy cực kỳ ấn tượng.
  • Có thể tạo một bản demo tương tự bằng GPT-4V. Nếu Google tiếp thị một cách trung thực thì mọi người hẳn đã ấn tượng đúng mức, nhưng thay vào đó họ làm một video tiếp thị dễ gây hiểu lầm cho công chúng và khiến các chuyên gia kỹ thuật thất vọng.
  • Tôi đã thực sự định thử ứng dụng dịch hội thoại AI của Google, nhưng nó hoàn toàn không thể dùng cho hội thoại thực tế. Trong bản demo thì nó trông tự nhiên, nhưng thực tế tôi xác nhận là nó không hoạt động.
  • Tôi nghĩ việc chỉ dùng ảnh JPEG làm giao diện duy nhất với GPT-4 là khá lãng phí. Mắt người nhận biết sự khác biệt giữa các khung hình hơn là chính từng "khung hình" riêng lẻ. Một mô hình có trạng thái nội bộ hoạt động bằng key frame và delta như codec video có thể sẽ là bước tiến lớn tiếp theo trong xử lý video thời gian thực.
  • Tin chắc rằng Google DeepMind thực ra không hề có mô hình ngôn ngữ tiên tiến hàng đầu. Vào thời điểm ChatGPT ra mắt, Google nói họ không công bố mô hình tốt hơn vì lý do an toàn AI, nhưng thực tế không phải vậy.
  • Độ trễ của bản demo này có thể được bỏ qua vì nó đi qua API. Suy luận trên hạ tầng cục bộ gần như tức thời, nên nếu có thể truy cập hạ tầng đó thì bản demo này sẽ vượt trội hơn mọi thứ khác.
  • Việc chọn cái tên Sagittarius khá thú vị vì trong các chòm sao, nó nằm ở vị trí đối diện hoàn toàn với Gemini.