Show HN: Tái dựng bản demo Google Gemini giả bằng GPT-4, lần này là thật

(sagittarius.greg.technology)

2 điểm bởi GN⁺ 2023-12-12 | 1 bình luận | Chia sẻ qua WhatsApp

Bản remake demo Google Gemini giả bằng GPT-4, lần này là thật

Một dự án remake bản demo Google Gemini giả bằng GPT-4.
Có cung cấp bản demo thực sự hoạt động, và có thể xem mã liên quan trong kho GitHub.
Dự án được tạo bởi Greg Technology.

Ý kiến của GN⁺

Điểm quan trọng nhất của bài này là sự tồn tại của một dự án đã dùng GPT-4 để biến bản demo giả trong quá khứ thành một triển khai thực sự.
Đây là một ví dụ thú vị cho thấy quá trình tiến bộ của công nghệ AI tạo ra những kết quả đổi mới có thể dùng được trong thực tế.

1 bình luận

GN⁺ 2023-12-12

Các ý kiến trên Hacker News

Phần trông như phép thuật trong bản demo Gemini giả nằm ở chỗ nó khiến người xem tưởng rằng LLM liên tục nhận đầu vào âm thanh và video, rồi biết khi nào nên chen vào trả lời
Nó có vẻ như đợi người dùng vẽ xong, hoặc chen vào ngay trước khi họ vẽ xong; thậm chí giữa lúc đang trả lời, khi người dùng tô con vịt thành màu xanh, nó còn nói rằng trông giống một con vịt xanh
Khi người dùng chỉ đồng ý thôi, nó cũng có vẻ biết rằng không cần phản hồi
Xem mã nguồn thì thấy bản demo chụp ảnh màn hình mỗi 800ms từ luồng video, đợi đến khi người dùng nói xong rồi gửi 3 ảnh màn hình cuối cùng
Bản demo này tự thân vẫn ấn tượng, nhưng cũng cho thấy việc tương tác với LLM theo cách này sẽ thiếu tự nhiên đến mức nào khi không có đầu vào âm thanh·video liên tục
Về mặt kỹ thuật thì đây là thứ đã khả thi một thời gian rồi, nhưng có lý do vì sao chưa ai đem nó ra quảng bá như một sản phẩm
- Bản demo này được làm trong 2–3 giờ, dùng kỹ thuật “đợi đến khi kết quả đọc chính tả được chốt”
  Cách này an toàn hơn vì bản ghi lời nói ổn định hơn, nhưng chậm
  Trong một demo khác, https://www.youtube.com/watch?v=fxS7OKh_4vc, họ liên tục đưa kết quả ghi lời nói “đang diễn ra” vào GPT, và nó thật sự nhanh, rất tốt
  Tuy vậy, để xử lý nhiều yếu tố thời điểm như lời nói thực của con người, thời gian chuyển giọng nói thành văn bản, việc gửi yêu cầu tới GPT, và đồng bộ sao cho GPT trả lời đúng với vị trí trong lời nói và suy nghĩ của người dùng tại thời điểm đó, vẫn cần thêm nhiều công việc
  Dù vậy, hội thoại thời gian thực, liên tục rõ ràng là điểm cốt lõi, và tôi nghĩ sẽ thật tốt nếu GPT được cung cấp qua WebSocket
- Là người khiếm thính, tôi đã xem các demo nhận dạng giọng nói thời gian thực suốt 20–30 năm, và tất cả đều trông rất ổn trong demo
  Nhưng khi dùng hằng ngày, chỉ cần sai 1 trong 10 từ thôi thì theo thời gian nó cũng tích tụ thành mức cực kỳ bực bội
- Tôi cũng đã nói chuyện với một người bạn về LLM đa phương thức nhận đầu vào dạng luồng liên tục
  Ví dụ như nó đang nghe bạn luyện guitar, rồi đến một đoạn nhất định thì nói: “Tốt, quay lại đoạn đó và luyện lại nào”
  Khi có một luồng token liên tục đi vào còn đầu ra chỉ thỉnh thoảng mới cần, cách dự đoán token tiếp theo thông thường có vẻ không thật sự phù hợp
  Tôi tò mò trong tài liệu nghiên cứu người ta gọi kiểu đầu vào này là gì, và đã có những nghiên cứu nào về nó
- Trong những trường hợp như vậy, tôi nghĩ trọng tâm có thể là huấn luyện với thứ gì đó như token tạm dừng
  Cũng có thể là không nhất thiết cần đến nó
  Nếu hướng dẫn GPT-4 xuất ra thứ như .... mỗi khi nó cho rằng nên chờ trước khi phản hồi, thì có thể không cần phải đợi đến khi người dùng nói xong, khiến trải nghiệm mượt hơn nhiều
- Tôi từng muốn gắn chatbot GPT-4 vào trò chuyện nhóm để nó phản ứng với những gì mọi người nói, nhưng việc phán đoán khi nào nên nói và khi nào nên để mọi người tự trò chuyện với nhau quá khó, nên cuối cùng tôi đã bỏ cuộc
Tôi không hiểu vì sao các công ty lại nói dối như vậy
Không rõ họ có thể đạt được lợi ích lớn đến mức nào, trong khi có vẻ lại mất nhiều hơn
Điều còn lạ hơn là các công cụ này vốn đã cực kỳ ấn tượng ngay cả khi không thổi phồng
Là một nhà nghiên cứu học máy, tôi thấy có rất nhiều thành tựu tuyệt vời, nhưng gần như mọi thứ, từ bài báo đến sản phẩm, đều bị thổi phồng quá mức
Ngắn hạn thì có thể có lợi cho một số người, nhưng dường như nó đã tạo ra một cuộc đua xuống đáy không tốt cho tất cả
Đặc biệt, với một công ty như Google mà chơi trò ngắn hạn thì không phải lựa chọn khôn ngoan; hoặc cũng có thể tôi đã hiểu hoàn toàn sai môi trường mà chúng ta đang sống
Nhìn vào thảo luận trong luồng này[0], có vẻ cũng có nhiều người suy đồi về đạo đức đến mức thậm chí không nhận ra việc mình đang làm là lừa dối, và đó là một vấn đề khác còn tệ hơn nhiều
[0] https://news.ycombinator.com/item?id=38559582
- Cùng ngày video được tung ra, CEO nhắn rằng công nghệ mới của Google tốt hơn GPT-4 rất nhiều và chúng tôi cũng phải dùng ngay
  Tôi trả lời rằng tôi hoài nghi các bản demo, nhưng cũng như mọi tiến bộ trong lĩnh vực này, khi nó được phát hành thì tôi sẽ tự dùng thử
- Việc “một công ty như Google chơi trò ngắn hạn là không khôn ngoan” có thể là vấn đề chủ–đại diện
  Các đại diện, tức nhân viên và ban lãnh đạo, tối ưu cho lợi ích sự nghiệp ngắn hạn của họ, chứ không trung thành với cổ đông Google
  Vì họ có thể rời công ty sau 3 năm, tổn hại danh tiếng của Google có thể không quá quan trọng với họ
  Trong khi đó, cổ đông muốn tối ưu cho các yếu tố dài hạn như danh tiếng
  Người ta cố căn chỉnh điều này bằng quản trị tốt và đãi ngộ vesting gắn với giá cổ phiếu, nhưng một mức độ lệch pha nào đó vẫn sẽ tiếp diễn
  Ở điểm này, văn hóa căn chỉnh giống như sùng bái sứ mệnh có thể tạo ra giá trị
  Nếu thuyết phục được nhân viên thật sự tin vào sứ mệnh, hoặc tuyển những người như vậy, sự căn chỉnh sẽ đi kèm
- Nếu thắc mắc vì sao các công ty làm vậy, chỉ cần nhìn tiêu đề của Business Today là đủ
  “Google Gemini Outperforms Most Human Experts & GPT-4 I Artificial intelligence I Google’s DeepMind”
  Tất cả đều là marketing
  Cùng lý do với việc Satya công khai đăng rằng nếu vụ OpenAI không suôn sẻ thì sama và những người khác sẽ gia nhập đội mới của MSFT để tiếp tục công việc
- Sau bản demo, giá cổ phiếu Google không phản ứng ngay nhưng đã tăng khoảng 5%, rồi sau khi tin về việc dàn dựng xuất hiện thì trả lại khoảng 1%
- Vụ này hơn bao giờ hết tạo cảm giác rằng Google giờ được điều hành bởi nhân sự kinh doanh phi kỹ thuật, chứ không phải những người hiểu công nghệ
  Những người biết dù chỉ một chút về cách công nghệ này hoạt động — tức những người nhiều khả năng tham gia vào quá trình quyết định có dùng công nghệ này và các sản phẩm khác của Google hay không — có thể nhận ra ngay sự dàn dựng
  Nhiều người trong số đó cũng thuộc kiểu sẽ phản ứng rất tiêu cực với hành vi lừa dối như vậy
Điều tôi muốn nói khi Gemini ra mắt chính là bản demo này
Mọi ồn ào đó đều không cần thiết
GPT-4V thực sự rất mạnh, và nếu ai quan tâm đến thị giác máy tính hay đa phương thức thì tôi cũng khuyên nên nghiêm túc thử LLaVA (https://github.com/haotian-liu/LLaVA)
Vài ngày gần đây tôi đã dùng thử biến thể 7B q5_k, khá ấn tượng, đủ tốt để có thể làm cả ứng dụng demo cho công ty hoặc proof of concept
Tuy nhiên trước hết cần kiểm tra giấy phép, nếu không thì tôi định chỉ dùng làm demo nội bộ để truyền đạt ý chính
- Tôi đang dùng llava qua https://github.com/Mozilla-Ocho/llamafile, và trên hệ thống mới thì có thể chạy ở bất cứ đâu
- Cập nhật cho những ai thắc mắc về việc sử dụng thương mại LLaVA: giấy phép là Apache 2.0, nên có thể dùng thương mại miễn là ghi nguồn: https://github.com/haotian-liu/LLaVA/blob/main/LICENSE
Đây là việc hoàn toàn có thể làm được bằng GPT-4V
Nói đúng nghĩa là chỉ cần chụp screenshot rồi đưa hình ảnh và văn bản vào theo dạng chat, tức là theo kiểu interleaved
Gần đây tôi đã làm một thứ tương tự ở hackathon (https://x.com/swyx/status/1722662234680340823)
Điều kỳ lạ là Google cũng có thể làm như vậy, và khi đó mọi người đã có thể trầm trồ một cách đúng mực, nhưng thay vào đó họ lại làm một video marketing gây hiểu lầm cho công chúng phổ thông
Nhờ vậy mà đám nerd bực bội còn lại phải gánh phần việc bẩn thỉu là giải thích rằng “công nghệ này chưa làm được như những gì bạn thấy trên TV”, khiến trông như thể đó là lỗi của chúng tôi
Tôi cũng tò mò chi phí để chạy thứ này là bao nhiêu
- Trong lúc phát triển và demo thứ này, tôi đã gửi 77 yêu cầu tới GPT-vision API, và số tiền bị tính là 0,47 đô la
  Khá hợp lý
Giờ thì tôi tin chắc rằng Google DeepMind thực ra chẳng có gì trong mảng LLM tối tân, chỉ là phô trương mà thôi
Tôi nhớ khi ChatGPT ra mắt, Google nói họ có một mô hình tốt hơn nhiều nhưng không công bố vì an toàn AI
Sau đó họ tung PaLM và PaLM 2, nói rằng đã đến lúc công bố để đánh bại ChatGPT, nhưng đó không phải là những mô hình tốt
Rồi tiếp đến họ thổi phồng Gemini, và nếu Gemini Ultra là thứ tốt nhất họ có thì khó mà tin rằng họ còn mô hình nào tốt hơn
Một năm trước tôi còn nghĩ Google có mô hình tốt nhất nhưng chỉ là không công bố, sau đó thì tôi kỳ vọng rằng với hạ tầng, dữ liệu và nhân tài, họ có thể tạo ra mô hình tốt nhất
Nhưng hóa ra thứ họ thực sự có chẳng là gì cả
Gần đây tôi đã thử dùng thực tế ứng dụng dịch hội thoại bằng AI mà Google từng công bố trước đây và sau đó đã qua nhiều bản cập nhật, lặp lại
Nó hoàn toàn không thể dùng được cho hội thoại thực tế
Tôi đã kỳ vọng vì có một tình huống mà nó có thể thật sự hữu ích, và tôi nhớ trong demo cũ nó trông cực kỳ tự nhiên, nhưng trước đó chưa từng tự mình dùng thử
Bây giờ dùng rồi xem lại demo gốc, tôi chắc chắn 100% rằng toàn bộ hoặc một phần đã bị dàn dựng
Không đời nào nó đã từng hoạt động thực sự như vậy
Nếu họ còn không làm tử tế được dịch hội thoại thời gian thực, thứ hữu ích hơn nhiều so với vẽ một con vịt bằng hình ảnh, thì AI mới lần này cũng rất đáng nghi
Trông hoàn toàn giống cùng một tình huống, và tôi không hiểu phải trơ trẽn đến mức nào mới dàn dựng toàn bộ chuyện như thế này
- Ứng dụng đó tên là gì nhỉ?
Hơi tách khỏi bản demo ấn tượng này một chút, việc giao diện chỉ cho đưa ảnh JPEG vào GPT-4 có cảm giác khá lãng phí
Mắt người xử lý sự khác biệt giữa các khung hình nhiều hơn là bản thân từng ảnh
Tôi nghĩ bước tiến lớn tiếp theo để cho phép xử lý video thời gian thực độ phân giải cao có thể là để trạng thái nội bộ của mô hình xử lý keyframe và delta, giống các codec video như MPEG
- Khi Google nói về tính đa phương thức của Gemini, họ đưa “video” vào danh sách các chế độ
  Hoàn toàn có khả năng họ không thực sự nói đến video, mà là các khung hình như trong demo này
  Trong phạm vi tôi thấy thì họ không giải thích chi tiết ở đâu cả
Việc chọn tên Sagittarius thật buồn cười
Nó nằm đúng phía đối diện Gemini trong hoàng đạo
- Từng có suy đoán rằng Facebook đặt tên đồng tiền mã hóa không có thực chất của họ là Libra, sau đó là “Diem”, như một cú đáp trả cặp song sinh Winklevoss, đối thủ lâu năm, vì họ đã lập sàn giao dịch tiền mã hóa tên Gemini
  Không rõ về mặt chiêm tinh thì nó dí dỏm đến mức nào
Nhìn vào mã thì có vẻ chuyển giọng nói thành văn bản và chuyển văn bản thành giọng nói dùng các tính năng tích hợp sẵn của trình duyệt
Tôi cứ hay quên là có những tính năng như vậy
Vì cái này đi qua API nên độ trễ là điều có thể hiểu được
Nếu suy luận trên hạ tầng cục bộ thì gần như tức thì, nên nếu người này chỉ cần có quyền truy cập thì bản demo này đã áp đảo những thứ khác

Show HN: Tái dựng bản demo Google Gemini giả bằng GPT-4, lần này là thật

Bản remake demo Google Gemini giả bằng GPT-4, lần này là thật

Ý kiến của GN⁺

Bài viết liên quan

1 bình luận

Các ý kiến trên Hacker News