Bản demo AI của Meta

(aidemos.meta.com)

1 điểm bởi GN⁺ 2025-02-10 | 1 bình luận | Chia sẻ qua WhatsApp

Meta tập hợp các thử nghiệm AI mới nhất và các bản demo công nghệ vào một nơi, cho phép người dùng dùng thử công cụ mới sớm hơn
Nội dung xoay quanh những ý tưởng nơi nghiên cứu, sáng tạo và công nghệ giao thoa, bao gồm các thử nghiệm từ FAIR và các nhóm nghiên cứu khác trong Meta
Các bản demo được chia thành công cụ dựa trên mô hình mới nhất, công cụ liên quan đến Segment Anything, demo nhẹ mang tính vui nhộn và demo công nghệ tập trung vào thành quả nghiên cứu
Người dùng có thể thử nghiệm các công cụ AI mới đồng thời đóng góp cho quá trình phát triển công nghệ AI
Một số công nghệ có khả năng sẽ được tích hợp vào sản phẩm của Meta trong tương lai, nên đây là nơi để xem trước các tính năng đang ở giai đoạn thử nghiệm

Không gian khám phá các thử nghiệm AI của Meta

AI Demos tập hợp và giới thiệu các thử nghiệm AI mới nhất cùng các bản demo công nghệ do Meta tạo ra
Bao gồm các bản demo do FAIR và các nhóm nghiên cứu khác của Meta phát triển
Người dùng có thể truy cập sớm để trực tiếp thử nghiệm các công cụ AI mới

Cấu trúc bản demo

Featured Experiments
- Có thể xem các công cụ vận hành bằng những khả năng của mô hình mới nhất
Featured Segment Anything tools
- Các công cụ liên quan đến Segment Anything được gom thành một danh mục riêng
Playful Ideas
- Bao gồm các demo nhẹ dành cho sáng tạo và vui chơi
Technical Explorations
- Bao gồm các bản demo công nghệ thể hiện những thành quả nghiên cứu mới
- Việc thử nghiệm của người dùng có thể đóng góp cho quá trình phát triển công nghệ AI, và một số công nghệ có thể được tích hợp vào các sản phẩm của Meta trong tương lai

1 bình luận

GN⁺ 2025-02-10

Ý kiến trên Hacker News

Đây là một bộ công cụ demo, và Segment Anything 2 có thể tạo các đoạn cắt video và hiệu ứng hình ảnh chỉ với vài cú nhấp chuột
Seamless Translation cho bạn nghe giọng của chính mình nói bằng ngôn ngữ khác, Animated Drawings làm các bản phác thảo vẽ tay trở nên sống động bằng hoạt ảnh, còn Audiobox cho phép tạo câu chuyện âm thanh bằng giọng nói và âm thanh do AI tạo ra
- Có thông báo rằng “demo nghiên cứu này không mở cho cư dân Illinois hoặc Texas, hoặc những người truy cập từ các bang đó”
  Không thể truy cập ở Illinois hoặc Texas, có lẽ do phần chuyển đổi giọng nói vướng luật liên quan đến AI
  Mong các nhà lập pháp cũng nhìn thấy những trường hợp sử dụng có ích và sửa luật để nhắm vào hành vi lạm dụng, thay vì chặn thô bạo toàn bộ AI tạo sinh
Seamless Translation khá đáng kinh ngạc
Tôi nói tiếng Anh và tiếng Tây Ban Nha, nên đã ghi âm một câu tiếng Anh rồi nghe đầu ra tiếng Tây Ban Nha; nó khá gần với tiếng Tây Ban Nha của tôi
Tất nhiên tiếng Tây Ban Nha của tôi có nhiều cách diễn đạt kiểu Castilian hơn, nhưng tôi cũng không kỳ vọng nó biết được điều đó
- Bài kiểm tra thật sự có lẽ là để một người bạn quê ở Mendoza, Argentina dùng thử
  Tôi là người song ngữ mà đến giờ vẫn không hiểu anh ấy nói gì, và cũng không chắc một nửa lời anh ấy nói có phải là từ thật hay không
- Tôi đã thử, nhưng nghe hoàn toàn không giống giọng tôi; chỉ như một giọng nam “chung chung” nào đó đang dịch những gì tôi nói sang tiếng Đức
  Vợ tôi nói “không ổn, chẳng giống giọng anh chút nào”, vậy là đủ rồi
- Điểm mấu chốt là giọng nói có thực sự nghe giống chính mình hay không, còn với tôi thì hoàn toàn không giống
- Việc công nghệ dịch thuật “đã tới ngưỡng chưa” thì vẫn còn gây tranh luận, nhưng có vẻ đến một lúc nào đó nó sẽ được xem là đủ tốt cho hầu hết các mục đích thực tế và về cơ bản xóa bỏ rào cản ngôn ngữ
  Khi đó chắc chắn nó cũng sẽ bắt đầu ảnh hưởng ở mức nào đó đến ngôn ngữ nói, nên vừa đáng sợ vừa thú vị
- Thật tiếc là ví dụ được cung cấp quá tệ và nghe như robot
  Nó làm tôi mất hứng muốn tự thử, nhưng có lẽ tôi sẽ cân nhắc lại
Tôi thắc mắc liệu họ cố ý viết liền thành Aidemos như tiêu đề HN, hay đúng ra là AI Demos
- Vì HN tự động chỉnh lại chữ hoa/thường của tiêu đề được gửi lên, có vẻ ban đầu có thể đã được gửi với tiêu đề “AIDemos by Meta”
Demo Seamless Translation rất tuyệt
Giọng đã dịch cũng ở mức có thể coi là giọng thật của tôi, và nếu có thể làm được việc này theo thời gian thực thì chắc sẽ rất khủng
- Đã có thể rồi
  Kyutai tuần trước đã công bố demo dịch giọng nói thời gian thực chạy ngay trên thiết bị, hiện chỉ hoạt động cho dịch Pháp→Anh trên iPhone 16 Pro: https://x.com/neilzegh/status/1887498102455869775
  Họ cũng đã công khai mã suy luận và trọng số, có thể xem trên GitHub: https://github.com/kyutai-labs/hibiki
Tôi không rõ Meta đang nhắm tới điều gì với AI
Có vẻ họ nghiên cứu rất nhiều, nhưng mục tiêu cuối cùng là gì thì khá mơ hồ; với Google hay MSFT thì còn hiểu được, còn Meta thì chưa thật sự thuyết phục
- Có vẻ Meta cho rằng nơi tạo ra tiền ở cuối cuộc đua AI không phải là trung tâm dữ liệu hay mô hình, mà là hệ sinh thái khép kín và dữ liệu độc quyền
  Khi mô hình và trung tâm dữ liệu còn là điểm hạn chế, họ sẽ làm mọi thứ có thể để không ai có thể làm lung lay Meta
  Điều này giống như việc Google khiến tầng ứng dụng của web khó kiếm tiền, nhằm ngăn các hệ sinh thái khép kín chặn đứng tìm kiếm
  Khi sau cuộc cạnh tranh, mô hình và phần cứng trở thành hàng hóa phổ thông, Meta sẽ có hồ sơ tâm lý hoàn chỉnh ở cấp độ cá nhân và nhóm, có thể nghiên cứu chúng và cung cấp nội dung với độ chính xác cực cao
  Đối thủ thật sự có thể là những ứng dụng kiểu ‘her’ kéo mọi người ra khỏi mạng xã hội và đưa họ vào các thế giới biệt lập của riêng mình; ở một khía cạnh nào đó, Discord là một thế giới thay thế cho hệ sinh thái Meta. Đó là vì nó gồm các cộng đồng nhỏ, chỉ tham gia qua lời mời, với mức độ tập trung cực cao
- https://gwern.net/complement
  Mô hình lớn trong kinh doanh công nghệ mà Joel Spolsky nói đến năm 2002 là biến hàng hóa bổ trợ thành hàng hóa phổ thông
  Thay vì tích hợp dọc, chiến lược này là nắm giữ một tầng trong một sản phẩm gồm nhiều tầng thiết yếu, rồi thúc đẩy cạnh tranh ở các tầng trên và dưới để không cho đối thủ độc quyền cạnh tranh xuất hiện; đồng thời kéo giá ở những phần khác của stack xuống tới chi phí biên, hạ giá tổng thể và tăng nhu cầu
  Dù sản phẩm ban đầu có giá trị và có thể thu tiền đến đâu, nếu nó làm tăng lợi nhuận ở nơi khác thì việc biến nó thành miễn phí có thể còn giá trị hơn
  Ví dụ kinh điển là độc quyền hệ điều hành của Microsoft đã biến phần cứng PC thành hàng hóa phổ thông, bất lợi cho IBM nhưng có lợi cho MS
  Mô hình này cũng giải thích vì sao các công ty công nghệ lớn lại nhảy vào những lĩnh vực nhìn bề ngoài có vẻ không liên quan hoặc tự gây hại cho mình. Tỷ lệ đóng góp mã nguồn mở cao của các công ty Internet, hay trường hợp Google — một công ty quảng cáo — tham gia sản xuất smartphone, phát triển trình duyệt web, phần mềm thống kê, mạng cáp quang, WiFi đô thị, đấu giá phổ tần không dây và DNS, đều có thể được xem là hành động phủ đầu để biến các công ty khác trong stack thành hàng hóa phổ thông, hoặc là phòng thủ để bản thân không bị làm như vậy
- Tôi cũng từng thắc mắc, nhưng hiện giờ phần lớn trông giống giai đoạn thăm dò
  Giống như trước đây họ từng đụng một chút đến crypto, rồi thử nghiệm “metaverse” mà giờ gần như đã kết thúc. Tất nhiên, ngay cả việc thăm dò như vậy đôi khi cũng tốn một lượng tiền khổng lồ
  Các demo này đúng là cho thấy AI có thể dùng vào đâu, nhưng liệu điều đó có đủ quan trọng để thật sự thay đổi cục diện kinh doanh của Meta hay không, và có phải là điều tốt cho người dùng phổ thông hay không, thì vẫn còn bỏ ngỏ
  UI cũ kỹ và tệ hại của Facebook và Instagram gần như không thay đổi suốt hơn 10 năm; dù là công ty có 70 nghìn nhân viên, dạo này họ dường như tập trung nhồi quảng cáo ngày càng hung hăng hơn là cải thiện tính hữu dụng
  Ngay cả nếu mảng kinh doanh vẫn tiếp tục là Facebook 20 năm tuổi cũ kỹ đầy lỗi và ứng dụng Instagram hơn 10 năm tuổi, thì nếu họ đóng góp cho sự phát triển của các mô hình mã nguồn mở như từng làm với React, nhìn chung tôi vẫn cho là có lợi
- Sau khi ‘metaverse’ thất bại, có thể họ đang rất nóng lòng đổ tiền vào một nơi khác có khả năng trở thành The Future(TM) tiếp theo
  Ngay cả nếu cho rằng LLM ít có khả năng là làn sóng lớn tiếp theo, thì với Meta điều này vẫn khá hợp lý. Họ có rất nhiều tiền và doanh thu, nên có thể chọn chiến lược nhảy lên từng trào lưu mới; nếu một trong số đó là thật thì họ không bị tụt lại, còn nếu không thì vẫn chịu được
  Tôi nghi rằng lý do phần lớn Big Tech quan tâm đến LLM rốt cuộc cũng gần với quản trị rủi ro
- Diễn giải lại điều tôi nghe từ một người có liên quan, mục đích AI của Meta là cải thiện nhắm mục tiêu quảng cáo
  Bao gồm phân loại và phân cụm tốt hơn, “gợi ý” tốt hơn cho nhà quảng cáo, cả yếu tố hình ảnh, câu chữ và video
  Những demo kiểu này là tác dụng phụ hoặc gần với một dạng “greenwashing”. Cốt lõi và cũng là mảng kinh doanh duy nhất của Meta là quảng cáo, còn mọi cách kiếm tiền khác đều đã thất bại
Demo Segment Anything khá ấn tượng, tôi tò mò không biết nó đã được tích hợp vào sản phẩm thực tế nào chưa
Tôi có chỉnh sửa vài video đơn giản cho bạn bè như một thú vui, và nó trông có vẻ khá hữu ích
[0] https://sam2.metademolab.com/
- Photoroom [0] xuất thân từ Y Combinator, và sản phẩm về bản chất gần như là SAM được tinh chỉnh rất nhiều cộng với trải nghiệm người dùng tốt
  Tôi không biết họ có thật sự dùng nó hay không, nhưng nếu chưa thì tôi nghĩ họ nên dùng
  [0] https://www.photoroom.com/
- SwarmUI, một frontend cho các mô hình tạo ảnh, đã tích hợp SAM2 để có thể nhanh chóng tạo mask cho một phần hình ảnh trong các tác vụ như inpainting
  Rất tốt
- Có lẽ nó đã được dùng rồi, nhưng tôi không nghĩ nó sẽ được quảng bá theo kiểu đó
Bổ sung cho những ai tò mò: Meta FAIR từng là viết tắt của “Facebook Artificial Intelligence Research”, sau đó được đổi tên thành “Meta AI”[1]
[1]: https://en.wikipedia.org/wiki/Meta_AI
Danh sách này chưa phải là tất cả
Ví dụ còn thiếu demo Meta Motivo, một mô hình điều khiển humanoid: https://metamotivo.metademolab.com/
Meta hiểu sâu tác động từ sự khác biệt giữa GPT-3 và ChatGPT
Mô hình là điểm xuất phát, còn trải nghiệm người dùng khiến người ta làm gì với mô hình đó mới là thứ bộc lộ trí thông minh
Điều này đặc biệt rõ ở các mô hình thị giác: nói rằng SAM2 “có thể nhìn thấy bất cứ thứ gì” thì chỉ ở mức thú vị, nhưng khi bấm vào một quả bóng đá và thấy nó được theo dõi mượt mà xuyên suốt video ngay cả khi bị che khuất thì thật đáng kinh ngạc
Hiển thị thông báo “Hiện tại không thể sử dụng trang web này tại khu vực của bạn”
- Do quy định về AI khác nhau giữa các thị trường quốc tế và một số bang của Mỹ, các công ty phải xử lý sản phẩm AI rất thận trọng
  Vì vậy, các mô hình tiên tiến nhất thường được cung cấp muộn ở một số khu vực nhất định
  Việc kiểm tra và lập tài liệu tuân thủ cho từng bản demo nhỏ có giá trị thấp so với chi phí bỏ ra, nên có lẽ họ đã đặt để chỉ cho phép ở Mỹ và một số khu vực
- Ngay cả ở Mỹ cũng thấy thông báo này
- Tôi thấy thông báo này khi ở trong Mỹ, nhưng khi đặt VPN sang LA thì có thể vượt qua được
  Chắc vì các kỹ sư Meta ở đó chăng ¯_(ツ)_/¯
  Sau khi truy cập được thì có dòng sau:
  “Bản demo nghiên cứu này không mở cho cư dân Illinois hoặc Texas, hoặc những người truy cập từ các bang đó”
  Tôi đang ở Texas

Bản demo AI của Meta

Không gian khám phá các thử nghiệm AI của Meta

Cấu trúc bản demo

Featured Experiments

Featured Segment Anything tools

Playful Ideas

Technical Explorations

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News