Flipbook - website được phát trực tiếp trực tiếp từ mô hình
(flipbook.page)- Bằng tạo sinh theo yêu cầu theo thời gian thực, mọi trang đều được tạo thành hình ảnh, và khi nhấp vào một đối tượng trong ảnh thì một màn hình mới để khám phá sâu hơn sẽ được tạo ra
- Màn hình không có HTML hay trường nhập liệu, mà hoạt động như một giao diện lấy pixel làm trung tâm nơi ngay cả văn bản cũng được mô hình hình ảnh render trực tiếp bằng pixel
- Thông tin trên trang được tạo bằng cách kết hợp agentic web search với tri thức thế giới của mô hình hình ảnh, và có ghi rằng độ chính xác tương tự mức có thể kỳ vọng từ ChatGPT, Gemini, Claude
- Tính năng live video stream sẽ tạo hoạt ảnh cho các hình ảnh khám phá và làm chuyển cảnh mượt hơn, nhưng hiện vẫn khó dự đoán và tiêu tốn nhiều tài nguyên nên được ẩn sau một nút bật/tắt
- Hiện tại nó gần với một công cụ khám phá·học tập mang tính thử nghiệm, nhưng khi độ chính xác và hiệu năng của các mô hình hình ảnh·video tăng lên, nó có thể mở rộng thành một môi trường bao gồm nhiều dữ liệu thực tế hơn, khả năng tương tác, thực hiện công việc và cả lưu trữ dữ liệu
Tổng quan
- Đây là một trình duyệt thị giác vô hạn hoạt động bằng tạo sinh theo yêu cầu theo thời gian thực, tạo mọi trang mà người dùng đi tới dưới dạng hình ảnh
- Trên màn hình không có HTML, mã, liên kết cụ thể hay trường nhập liệu, và khi nhấp vào một đối tượng trong ảnh thì một hình ảnh mới để khám phá sâu hơn đối tượng đó sẽ được tạo ra
- Nó tái cấu trúc web không phải như tập hợp tài liệu và phần tử UI, mà thành một giao diện lấy pixel làm trung tâm được tạo trên màn hình
Cách hoạt động và hướng mở rộng
- Toàn bộ văn bản trên màn hình cũng được mô hình hình ảnh render trực tiếp bằng pixel, không đặt thêm lớp phủ văn bản riêng lên trên ảnh
- Vì vậy đôi khi văn bản có thể không hoàn chỉnh hoặc xuất hiện sai vị trí, và bài viết cho biết điều này có thể cải thiện khi mô hình tốt hơn
- Thông tin trong ảnh được tạo bằng cách kết hợp agentic web search với tri thức thế giới nội tại của mô hình hình ảnh
- Dù đôi lúc có thể không chính xác, nó được giới thiệu như một điểm khởi đầu hữu ích thường dựa trên dữ liệu thực tế trực tuyến
- Có ghi rằng độ chính xác về mặt sự thật tương tự mức có thể kỳ vọng khi dùng ChatGPT, Gemini, Claude
- Thay vì màn hình chủ yếu gồm văn bản và các khối màu, mục tiêu là một trải nghiệm điện toán truyền tải thông tin bằng biểu đạt thị giác phong phú
- Tác giả cho rằng chỉ với mã và quy tắc cố định thì khó truyền đạt những ý tưởng phức tạp và tinh tế, nên nhấn mạnh hướng chọn cách biểu đạt hiệu quả nhất tùy theo ngữ cảnh, như một từ, minh họa, hay render chân thực
- live video stream là tính năng thử nghiệm biến hình ảnh tĩnh thành luồng video liên tục hơn, tạo hoạt ảnh cho từng hình ảnh khám phá và làm chuyển tiếp giữa chúng mượt hơn
- Hiện tại cách hoạt động còn khá khó dự đoán và cũng tiêu tốn nhiều tài nguyên, nên được đặt sau một nút bật/tắt
- Có ghi rằng hiện nay hệ thống dùng kết hợp một mô hình tạo video tùy biến được tối ưu hóa cao với hai hệ thống tạo ảnh, và trong tương lai dự định hợp nhất thành một hệ thống duy nhất
- Hiện được thiết kế như một công cụ khám phá·học tập mang tính thử nghiệm, nhưng khi độ chính xác và hiệu năng của mô hình hình ảnh·video tăng lên, nó có thể mở rộng thành các trang bao gồm nhiều dữ liệu thực tế hơn, có thể tương tác, trực tiếp thực hiện công việc và lưu trữ dữ liệu riêng
- Ví dụ được nêu là từ mức nghiên cứu chuyến đi tiếp theo rồi đặt chỗ ở nơi khác, có thể chuyển sang mức xử lý toàn bộ quy trình ngay trong Flipbook
- Có ghi rằng những tác vụ hiện còn cần ứng dụng và website riêng, về sau có thể được xử lý nhiều hơn bên trong một môi trường trông và hoạt động như Flipbook
- Trên các trình duyệt không hỗ trợ video nhúng thì nội dung sẽ không phát được
- Bản demo sử dụng video được tạo sẵn và đã được chỉnh sửa để tăng tốc độ
3 bình luận
Chỉ xem phần giới thiệu và video thôi cũng khiến tôi muốn thử một lần.. nhưng họ bảo phải chờ 3 tiếng. Có vẻ đang có rất đông người đổ vào.
https://x.com/DongwooKim/status/2047499005580738657
Tôi đã thử xoay quanh Namsan ở Seoul, và thấy nó rất xinh xắn, rất ổn.
Ý kiến trên Hacker News
Cái này thực sự đáng kinh ngạc. Tôi tải lên một sơ đồ hệ thống thủy canh nhặt được ở đâu đó,
rồi nó tạo riêng các sơ đồ chất lượng cao cho những phần chi tiết như đường ống, cấp dinh dưỡng, dây điện
Không hoàn toàn chính xác, nhưng tôi rất thích chính ý tưởng này
Tôi bảo nó tạo sơ đồ thông số mô-men siết hệ thống treo của ô tô, mà đây lại là chủ đề tôi khá quen nên có thể kiểm tra được.
Nó vẽ gần như đúng hết, cả các giá trị mô-men cũng chính xác
Tôi còn có thể bấm vào từng bộ phận để phóng to hơn và xem thêm thông số
Đây là bản demo ấn tượng nhất tôi thấy trong một thời gian dài, cảm giác như một cẩm nang sửa chữa Haynes sống động
Nó chỉ đúng ở mức biết cần có tấm pin mặt trời, bộ điều khiển sạc, pin và tải, còn cách đi dây thì vô lý
Hễ đi vào chi tiết như cấu hình bộ điều khiển sạc là sụp đổ hoàn toàn
Chắc chắn không thể dùng làm thông tin để dựa vào trong thực tế, nhưng xem cho vui thì thú vị và cách triển khai rất ấn tượng
nhưng kết quả chỉ là một cái chòi bình thường có gắn thêm cánh cửa tái sử dụng
Chẳng thấy xe đạp sẽ để ở đâu, và nó chỉ đưa ra một cấu trúc không hề giống hình dạng hoàn thiện ngoài đời
Giống hệt các bản demo AI khác: bề ngoài thì có vẻ thuyết phục, nhưng hệ thống về căn bản không hiểu mình đang làm gì
Tôi bảo nó gắn nhãn các bộ phận trong khoang động cơ Jeep Wrangler JK, ban đầu nó cho ra một sơ đồ trông khá ổn
Nhưng bình dầu phanh lại nằm bên phía đối diện, chỗ đó còn bị gắn nhãn là bình nước làm mát phụ, trong khi bình nước phụ thật có được vẽ ra nhưng không có nhãn
Vị trí ắc quy cũng sai, phần trên lưới tản nhiệt trước lại bị ghi là nắp lọc dầu, và vị trí châm dầu cũng sai
Một nửa ắc quy bị gắn nhãn thành hộp cầu chì, trong khi hộp cầu chì thật ở phía đối diện được vẽ đúng chỗ nhưng lại không có nhãn
Bình nước rửa kính chắn gió còn xuất hiện thành hai cái dính liền nhau
Khi bấm vào cái bình nước làm mát bị gắn nhãn sai, nó chuyển sang trang khác, lần này thì vị trí đúng nhưng hình dáng cái bình lại hoàn toàn khác, còn nắp két nước thì đặt trên đỉnh bình
Trong thực tế nó phải nằm trên két nước
Người biết về xe sẽ soi ra lỗi ở mọi chỗ, nhưng với người không biết thì nó trông khá đáng tin, đúng kiểu câu chuyện của LLM
Văn bản cũng chỉ thoáng nhìn ban đầu là có vẻ đúng, còn khi bấm vào xem sâu hơn thì gần như sai hết
Trông thì ngầu, nhưng việc AI cứ sai tới mức này làm tôi có cảm giác như lần đầu thấy lại kể từ năm 2023
"your mom"thì nó tạo ra một dòng thời gian xã hội - lịch sử của tình mẫu tử với một cái nhau thai chồng lên trênCái này thì tôi duyệt
Đây là một dự án ngầu thật, nhưng tôi lúc nào cũng tự hỏi họ lấy đâu ra tài nguyên và tiền bạc để làm thứ như thế này rồi chạy thành dịch vụ công khai
Chắc либо họ có GPU riêng, либо dùng API GPT/Gemini với suy luận được doanh nghiệp trợ giá,
nhưng với một người sống tằn tiện thì tôi vẫn khó mà hình dung nổi
Tôi hoàn toàn không ngờ nó lại bùng nổ đến mức này
Có người đổ tiền vào game, hội họa, đồ gỗ,
có người lại dùng phần ngân sách giải trí còn dư từ mức lương cỡ FAANG vào một dự án nghệ thuật GenAI thay vì rượu bia hay thể thao
Có thể đó không phải gu của bạn, nhưng trong ngân sách của ai cũng thường có ít nhất một khoản mà người khác nhìn vào sẽ thấy là xa xỉ
Ở đây người ta gọi đó là immigrant mentality, không phải theo nghĩa miệt thị mà gần với kiểu tiết kiệm đặc trưng của những người phải bắt đầu lại cuộc đời từ đầu
Với lại nó quá chậm nên cuối cùng tôi cũng không đợi
Không phải trách người tạo ra nó, chỉ là nó thực sự quá chậm
Lúc đầu tôi tưởng đây không phải sơ đồ mà là chính trang web được tạo theo thời gian thực
Tôi luôn thấy hứng thú với viễn cảnh ứng dụng được tạo ra ngay tại chỗ theo nhu cầu người dùng,
nên tò mò không biết đã có ví dụ nào thực sự làm được như vậy chưa
Tôi nhận được thiết lập Mac Neo, 2 chip quantum M4, solid state battery, graphene connector
https://flipbook.page/n/942776fea47c4274a9a4589134924ef5
Nó cho ra Sneed's Feed and Seed. Còn ghi thêm là Formerly Chuck's
https://flipbook.page/n/4a5e1797903b478c876a35e64c6c57fe
Nếu nó làm đúng được chỗ này thì tôi đã thực sự phải trầm trồ
Có vẻ nó không nằm trong dữ liệu huấn luyện của nó
https://flipbook.page/n/d739a0bbc3664ba2aad331c90fef7406
Ý tưởng thì thú vị, nhưng hiện tại gần như mọi thứ đều đang thất bại
Chắc là vì HN hug of death
Nó hiện
Gemini generateContent request failedcùng với 429 RESOURCE_EXHAUSTED,rồi báo rằng đã vượt hạn ngạch hiện tại và yêu cầu kiểm tra gói cước cùng thông tin thanh toán
Kèm theo đó còn hiển thị liên kết đến thông tin giới hạn chi tiết
Demo trên trang chính hiển thị Paris Travel Overview / Visiting Notre Dame,
nên tôi thử với vài thành phố và địa điểm mà tôi từng đến thật
Bản thân các điểm quan tâm đôi lúc xác định đúng, nhưng quan hệ vị trí trong không gian giữa chúng thì hoàn toàn hỗn loạn
Hoàn toàn không gần với thực tế
Đây có vẻ là một sản phẩm khá đắt đỏ để phải hứng một cú HN hug of death
Các video mẫu đăng trên tweet trông thực sự rất ngầu
Nhưng hiện giờ nó không hoạt động tốt, nên tôi định chờ bớt lưu lượng rồi vài ngày nữa quay lại thử