Meta FAIR công bố 9 nghiên cứu, mô hình và bộ dữ liệu mới

(ai.meta.com)

1 điểm bởi GN⁺ 2024-12-14 | 1 bình luận | Chia sẻ qua WhatsApp

Meta FAIR đã công bố 9 sản phẩm phục vụ nghiên cứu trí tuệ máy nâng cao, bao gồm agent, độ vững chắc và an toàn, cũng như kiến trúc mô hình, dưới dạng mã, mô hình, bộ dữ liệu và demo
Các hạng mục công bố chính gồm Meta Motivo cho điều khiển humanoid ảo, Meta Video Seal cho watermark video, codebase Flow Matching, Explore Theory-of-Mind, Large Concept Model, v.v.
Meta Motivo sử dụng dữ liệu chuyển động không nhãn và một thuật toán mới để đặt trạng thái, chuyển động và phần thưởng vào cùng một không gian tiềm ẩn, từ đó thực hiện các tác vụ điều khiển toàn thân mà không cần huấn luyện hay lập kế hoạch bổ sung
Meta Video Seal chèn watermark vô hình và thông điệp ẩn tùy chọn vào video, đồng thời được thiết kế để chịu được các chỉnh sửa thông thường như làm mờ, cắt khung và nén khi chia sẻ trực tuyến
Nhà nghiên cứu có thể tải về các sản phẩm đã công bố để thử nghiệm, tích hợp và mở rộng; Meta nhấn mạnh khoa học mở có thể tái lập và hệ sinh thái mở

Phạm vi công bố của Meta FAIR

Meta FAIR công bố nghiên cứu, mã, mô hình, bộ dữ liệu mới nhất cho cộng đồng nghiên cứu
Đợt công bố này tập trung vào ba trục
- Xây dựng agent có năng lực hơn
- Độ vững chắc và an toàn
- Đổi mới kiến trúc giúp mô hình học thông tin mới hiệu quả hơn và mở rộng vượt qua các giới hạn hiện tại
Tổng cộng 9 dự án và sản phẩm có thể được tải xuống và sử dụng ngay
Hướng đi là thúc đẩy nghiên cứu lặp lại thông qua công bố nghiên cứu ở giai đoạn sớm và tiến bộ AI một cách có trách nhiệm

Meta Motivo: mô hình nền tảng hành vi để điều khiển humanoid ảo

Meta Motivo là mô hình dựa trên hành vi, điều khiển chuyển động của agent humanoid ảo có hiện thân để thực hiện các tác vụ phức tạp
Học tăng cường không giám sát hiện nay thường cần các bộ dữ liệu tương tác đã được tinh chỉnh, hoặc dựa vào các hàm mất mát không giám sát có thể tạo ra chính sách không khớp tốt với tác vụ mục tiêu
Meta Motivo được huấn luyện bằng một thuật toán mới tận dụng bộ dữ liệu chuyển động không nhãn
- Học một biểu diễn nhúng trạng thái, chuyển động và phần thưởng vào cùng một không gian tiềm ẩn
- Giải quyết các tác vụ điều khiển toàn thân như theo dõi chuyển động, đạt tư thế mục tiêu và tối ưu hóa phần thưởng mà không cần huấn luyện hay lập kế hoạch bổ sung
Hiệu năng có thể cạnh tranh với các phương pháp chuyên biệt theo tác vụ, và vượt trội hơn các baseline học tăng cường không giám sát mới nhất cũng như các baseline dựa trên mô hình
Thể hiện độ vững chắc cao trước các thay đổi môi trường chưa được huấn luyện như trọng lực, gió và nhiễu loạn trực tiếp
Nghiên cứu này có thể dẫn tới các agent có hiện thân hoàn chỉnh trong Metaverse, NPC sống động hơn, dân chủ hóa hoạt hình nhân vật và các trải nghiệm nhập vai mới
Đọc bài báo
Dùng thử demo
Tải mã và mô hình

Meta Video Seal: watermark video mã nguồn mở

Meta Video Seal là framework mới nhất cho watermark video dựa trên mạng nơ-ron
Chèn watermark không nhìn thấy vào video và tùy chọn có thể kèm cả thông điệp ẩn
Watermark đã chèn có thể được trích xuất sau này để xác minh nguồn gốc của video
Được thiết kế để có khả năng chống chịu trước các quá trình chỉnh sửa và chia sẻ video thông thường
- Làm mờ
- Cắt khung
- Các thuật toán nén thường dùng khi chia sẻ nội dung trực tuyến
Mô hình Video Seal được phát hành theo giấy phép cho phép rộng rãi, kèm theo bài báo, mã huấn luyện, mã suy luận và demo
Các sản phẩm liên quan đến watermark cũng được công bố cùng lúc
- Meta Omni Seal Bench: leaderboard về watermark mạng nơ-ron trên nhiều modality
- Meta Watermark Anything: được phát hành lại theo giấy phép cho phép rộng rãi
- Workshop watermark tại ICLR 2025
Watermark Anything, Video Seal và Audio Seal được cung cấp ở trạng thái có thể tải xuống và tích hợp
Đọc bài báo
Dùng thử demo
Tải mã và mô hình Video Seal
Tải mã và mô hình Watermark Anything
Xem leaderboard Omni Seal Bench

Hướng dẫn và codebase Flow Matching

Flow Matching là một mô hình sinh được sử dụng trên nhiều modality như hình ảnh, video, âm thanh, âm nhạc và các cấu trúc 3D như protein
Trong nội bộ Meta, nó thay thế các phương pháp diffusion hiện có trong nhiều ứng dụng sinh
- Meta Movie Gen
- Meta Audiobox
- Meta Melody Flow
Trong ngành có các ví dụ như Stable-Diffusion-3, Flux, Fold-Flow và Physical Intelligence Pi_0
Flow Matching là một framework AI sinh đơn giản nhưng linh hoạt, giúp cải thiện hiệu năng và hiệu quả, đồng thời dễ tổng quát hóa sang dữ liệu phức tạp
Các hạng mục công bố bao gồm bài báo, triển khai lõi Flow Matching liên tục và rời rạc, cùng các script huấn luyện mới nhất
Đọc bài báo
Tải mã

Explore Theory-of-Mind: tạo dữ liệu suy luận thuyết tâm trí

Meta Explore Theory-of-Mind là framework tạo dữ liệu đối kháng có hướng dẫn bằng chương trình cho suy luận thuyết tâm trí
Các bộ dữ liệu Theory-of-Mind hiện có có hạn chế là chỉ tập trung vào đánh giá và chỉ bao phủ phạm vi tương tác hẹp
Framework này tạo ra dữ liệu suy luận ToM đa dạng, khó và có khả năng mở rộng, có thể dùng cho cả huấn luyện lẫn đánh giá
Có thể tạo ra các câu chuyện vững chắc và đáng tin cậy để kiểm tra giới hạn của mô hình ngôn ngữ lớn
Khi fine-tune Llama-3.1 7B, nó đạt mức tăng 27 điểm độ chính xác trên benchmark ToMi thường dùng
Phạm vi ứng dụng bao gồm tạo bộ dữ liệu để cải thiện LLM, tăng cường kịch bản hướng mục tiêu, thu thập bộ dữ liệu tương tác và benchmark đánh giá hiệu năng LLM
Đọc bài báo
Tải mã
Tải bộ dữ liệu

Large Concept Model: dự đoán khái niệm thay vì token

Large Concept Model(LCM) là một mô hình học khác cho language modeling
Các mô hình ngôn ngữ chủ đạo hiện nay thường hoạt động ở cấp token và không suy luận một cách tường minh theo dạng phân cấp
Cốt lõi của LCM là tách suy luận khỏi biểu diễn ngôn ngữ
- Lấy cảm hứng từ cách con người khi thuyết trình có thể giữ cùng trình tự ý tưởng nhưng mỗi lần lại chọn từ ngữ khác nhau
LCM được huấn luyện để dự đoán khái niệm tiếp theo hoặc ý tưởng cấp cao tiếp theo, thay vì token tiếp theo
Khái niệm được biểu diễn dưới dạng toàn bộ câu trong không gian embedding đa phương thức, đa ngôn ngữ
Trong các tác vụ sinh thuần túy như tóm tắt, nó đạt hiệu năng tốt hơn hoặc tương đương các LLM gần đây, đồng thời cung cấp khả năng tổng quát hóa zero-shot mạnh trên các ngôn ngữ chưa từng thấy
Khi ngữ cảnh đầu vào dài hơn, hiệu quả tính toán cũng cao hơn
Đọc bài báo
Tải mã

Dynamic Byte Latent Transformer: mô hình cấp byte không dùng tokenizer

Dynamic Byte Latent Transformer là mô hình cấp byte phân cấp sử dụng cơ chế patching động
Các mô hình ngôn ngữ hiện có token hóa văn bản ở bước tiền xử lý theo heuristic; điều này hạn chế học end-to-end, khiến tối ưu hóa thực tế khó hơn và có thể làm giảm hiệu năng trên các chuỗi văn bản hiếm
Mô hình này hoạt động trên byte mà không cần heuristic token hóa
Cũng cải thiện hiệu quả xử lý chuỗi dài trong huấn luyện và suy luận
Trung bình vượt trội 7 điểm về độ vững chắc so với các mô hình dựa trên tokenizer
Có thế mạnh trong xử lý long-tail và các chuỗi hiếm của ký hiệu chưa từng thấy
Cách tiếp cận này có thể giúp thúc đẩy suy luận trong các lĩnh vực như ngôn ngữ ít tài nguyên, lập trình và tính xác thực
Đọc bài báo
Tải mã

Meta Memory Layers: mở rộng bộ nhớ thưa cho thông tin sự thật

Meta Memory Layers at Scale là phương pháp cải thiện tính xác thực trên các benchmark sự thật phổ biến bằng cách mở rộng memory layer
Bộ nhớ tham số là kho lưu trữ thông tin sự thật được lưu trong trọng số mạng nơ-ron trong quá trình tiền huấn luyện, góp phần giúp LLM hiểu các khái niệm phức tạp và sắc thái ngôn ngữ
Khi các phương pháp scaling hiện có tiến gần tới giới hạn mở rộng hiệu quả, cần có kiến trúc mới để học thông tin hiệu quả hơn
Memory Layers thêm tham số bổ sung vào mô hình thông qua cơ chế tra cứu khóa-giá trị có thể học, mà không làm tăng FLOPs
Memory layer kích hoạt thưa bổ trợ cho các feedforward layer dày đặc tốn nhiều tính toán, cung cấp dung lượng chuyên dụng để lưu trữ và truy xuất thông tin với chi phí thấp
Các mô hình ngôn ngữ gắn memory layer cải tiến đạt kết quả tốt hơn những mô hình sau trên các tác vụ downstream
- Mô hình dense có ngân sách tính toán lớn hơn hơn 2 lần
- Mô hình MoE được khớp về lượng tính toán và tham số
Trái với quan niệm phổ biến rằng kiến trúc bộ nhớ thưa khó mở rộng cạnh tranh, phương pháp này đã mở rộng hiệu quả tới 128B tham số và mô hình nền 8B, đồng thời cho thấy cải thiện so với mức tính toán tương đương trên các benchmark sự thật phổ biến
Đọc bài báo
Tải mã

Image Diversity Modeling và EvalGIM

FAIR tiến hành nghiên cứu nhằm hiểu quá trình phát triển an toàn của mô hình sinh ảnh và tạo ra phương pháp mới
Mô hình sinh ảnh được phát triển trong quá trình nghiên cứu dựa trên các nghiên cứu trước đó về kiến trúc mô hình sinh và hàm mất mát
Mô hình này ưu tiên tạo ra hình ảnh đại diện cho thế giới vật lý trong khi vẫn duy trì chất lượng hình ảnh có thể cạnh tranh với các mô hình mới nhất
Chuyên gia bên ngoài có thể dùng mô hình để nghiên cứu các lĩnh vực có thể cải thiện tính an toàn và trách nhiệm trong toàn bộ hoạt động mô hình hóa đa dạng hình ảnh
Một bộ công cụ đánh giá tổng hợp cho mô hình sinh văn bản-thành-hình ảnh cũng sẽ được mở nguồn
- Tăng tính dễ dùng và khả năng tái lập của benchmarking sinh ảnh
- Thúc đẩy các kết quả có thể diễn giải, hữu ích cho nghiên cứu văn bản-thành-hình ảnh có trách nhiệm
Đọc bài báo
Tải mã

Meta CLIP 1.2: encoder thị giác-ngôn ngữ và tuyển chọn dữ liệu

Meta CLIP 1.2 là bản phát hành phục vụ phát triển encoder thị giác-ngôn ngữ hiệu năng cao
Meta đã phát triển các thuật toán tuyển chọn và căn chỉnh dữ liệu hình ảnh-văn bản quy mô lớn một cách hiệu quả, giúp mô hình học tri thức của con người về thế giới
Các bộ dữ liệu quy mô lớn, chất lượng cao và đa dạng là thiết yếu để xây dựng mô hình nền tảng học về thế giới
Meta CLIP là công việc của Meta nhằm xây dựng các bộ dữ liệu và mô hình nền tảng như vậy
Để có các mô hình nền tảng encoder thị giác-ngôn ngữ chất lượng cao và an toàn, Meta phát triển các thuật toán tuyển chọn và căn chỉnh dữ liệu, đồng thời áp dụng các biện pháp bảo vệ tính toàn vẹn và quyền riêng tư
Các hạng mục công bố có thể được nhà nghiên cứu và nhà phát triển dùng để thúc đẩy hiểu biết thị giác-ngôn ngữ
- Thuật toán dữ liệu
- Công thức huấn luyện
- Mô hình nền tảng được huấn luyện trên bộ dữ liệu đã tuyển chọn
Ví dụ sử dụng gồm encoding thị giác cho MLLM, embedding đa phương thức cho tìm kiếm, phân loại zero-shot và điểm khởi đầu cho nghiên cứu chất lượng dữ liệu
Thuật toán và phương pháp huấn luyện cũng có thể được dùng để tạo từ đầu các bộ dữ liệu giống CLIP quy mô lớn, chất lượng cao
Đọc bài báo
Tải bộ dữ liệu
Tải mã
Tải mô hình

1 bình luận

GN⁺ 2024-12-14

Ý kiến trên Hacker News

Ở đây có thật sự rất nhiều nội dung thú vị, đặc biệt các ý tưởng liên quan đến LLM rất đáng chú ý
Mô hình khái niệm lớn xử lý và dự đoán khái niệm thay vì token, Dynamic Byte Latent Transformer như một phương án thay thế ở cấp byte cho token hóa tiêu chuẩn, và tầng bộ nhớ thưa mở rộng phân cấp bộ nhớ key-value mà không làm tăng yêu cầu tính toán đều được giới thiệu như những cách riêng để cải thiện chất lượng hoặc hiệu quả
Tò mò không biết nếu kết hợp tất cả các phương pháp này thì chất lượng và hiệu quả sẽ tăng đến mức nào, và có lẽ đó có thể là Llama 4
- Mong Llama 4 hoặc 5 sẽ có kiến trúc khác
  Các bản Llama đã công bố đến nay có cấu trúc suy luận gần như tương tự nhau, chủ yếu chỉ là pipeline huấn luyện được cải thiện
  Nhược điểm là llamacpp có thể không chạy được mô hình mới, thậm chí cần viết lại lớn, kéo theo nhu cầu về các chương trình C, C++, Go, Rust mới
- Không biết có cách nào trình bày loại nội dung này tốt hơn không
  Tôi đang làm các tài liệu hoặc demo tương tự; nếu là trang tài liệu thì có thể cấu trúc đồng nhất từng phần theo tiêu đề, nội dung, liên kết mã và liên kết bài báo
  Nhưng bản thân trang này là bài blog nên có lẽ năm sau sẽ khó tìm lại
  Có ví dụ nào khác về việc các công ty sắp xếp tốt các tóm tắt kỹ thuật và vẫn giúp tìm được chúng trên trang chủ không?
- Việc Meta rốt cuộc trở thành tổ chức AI mở lớn nhất cũng hơi mỉa mai
  Tất nhiên không phải “mã nguồn mở”, nhưng họ vẫn mở để có thể sử dụng và công bố nghiên cứu công khai
Thật sự rất tuyệt
Chơi thử demo đầu tiên rất vui, giống như một trò chơi mà ai khiến mô hình moonwalk được thì thắng
Nỗ lực tốt nhất của tôi có lẽ là khoảng (body_speed_forward < -0.3) * (head_height > 1.0) * (stay_still > 0.2) * (body_speed_vertical < 0.1) * (stay_upright > 0.9)
https://i.imgur.com/O5hGMo5.gif
Và “Meta Explore Theory of Mind” còn thú vị hơn
Khoảng một tháng trước cũng có một thread bàn về các khái niệm như “niềm tin” và việc cập nhật mô hình thế giới tương ứng
https://news.ycombinator.com/item?id=42035985
Hy vọng Dynamic Byte Latent Transformer sẽ thành công
Mong tokenizer sớm biến mất
Đây là cấu trúc phân cấp, nhưng điểm thú vị là chỉ có hai tầng; việc xếp thêm nhiều tầng hơn có vẻ là hướng tự nhiên cho nghiên cứu tiếp theo
- Tôi là tác giả :)
  Tôi nghĩ đó là một hướng nghiên cứu tốt
  Tuy nhiên làm tất cả cùng lúc thì hơi nhiều, và cũng phải cẩn trọng về cách phân bổ ngân sách FLOP trên toàn bộ các tầng
  Với hai tầng, có thể làm một bên hiệu quả về FLOP như bộ mã hóa byte/cục bộ, còn bên kia dùng nhiều FLOP như bộ mã hóa patch/toàn cục
  Cũng cần tìm cách gom các patch thành đơn vị lớn hơn, nhưng có rất nhiều hướng có thể tiếp nối từ đây
Nếu nghĩ về bối cảnh kinh doanh khiến Meta làm việc này, họ có tới 70 tỷ USD tiền mặt nên việc trả hàng trăm triệu USD cho các chuyên gia AI trông chỉ như tiền lẻ
- Có thể hình dung một thay đổi căn bản trong thế giới nghiên cứu AI
  AI có thể đột nhiên tăng mạnh năng suất lập trình viên, hoặc trở nên rất giỏi trong phát hiện lỗ hổng, hoặc chat AI trở thành một loại hình giải trí lớn mới, hoặc ảnh AI trở thành nội dung được chia sẻ rộng rãi trên Instagram
  Nếu bất kỳ điều nào trong số này xảy ra, Facebook có thể muốn tiếp cận và tùy biến mô hình tối tân cho nhà phát triển nội bộ, công cụ, hoặc nhúng trong ứng dụng
  Nhưng nếu cách duy nhất để tiếp cận là ký hợp đồng 7–9 chữ số với một bên bán mô hình như OpenAI thì sẽ rất tệ
  Tệ hơn nữa, một đối thủ lớn trong mảng quảng cáo có thể bắt đầu cung cấp các công cụ AI mạnh để giúp nhà quảng cáo điều chỉnh nội dung sáng tạo theo nhiều định dạng
  Khi đó Facebook sẽ tụt hậu nghiêm trọng, vừa phải trả hàng triệu USD cho các công ty như OpenAI vừa mất hàng tỷ USD thị phần quảng cáo mỗi quý
  Nếu kịch bản tệ nhất này xảy ra thì Facebook sẽ trông rất ngớ ngẩn; chỉ cần một trong các khả năng này có xác suất xảy ra thì khoản đầu tư đã hợp lý
  Hiệu ứng mã nguồn mở hoặc biến Meta thành nơi làm việc hấp dẫn chỉ là phần thưởng chiến lược bổ sung
- Có thể nhìn theo kiểu “phổ cập hóa hàng hóa bổ trợ”
  Nếu OpenAI cực kỳ thành công và trở thành lựa chọn duy nhất, họ có thể đòi địa tô độc quyền rất lớn từ mọi bên sử dụng dịch vụ đó
  Vì vậy, đối với các công ty khác hoặc bất kỳ ai muốn dùng AI, việc hệ sinh thái AI có nhiều đối thủ để giữ giá thấp là có lợi
- Muốn thu hút đủ các nhà nghiên cứu hàng đầu thì buộc phải cho phép công bố bài báo
- Chính các chuyên gia AI đó ngay từ đầu đã đóng vai trò cốt lõi giúp Meta kiếm được 70 tỷ USD
- Tôi nghĩ những người trả lời trước giờ đều ngây thơ và sai
  Facebook bán không gian quảng cáo trên nhiều ứng dụng, và để không gian quảng cáo đó có giá trị thì mọi người phải ở trong ứng dụng
  Muốn mọi người ở trong ứng dụng thì cần nội dung để thu hút họ
  Vì vậy rất đơn giản: hãy khiến bất kỳ ai, cá nhân hay công ty, có thể tạo nội dung hàng loạt với chi phí thấp và chia sẻ chúng lên ứng dụng
Gần đây tôi có dịp nghe bài trình bày của Ross Taylor, cựu nhân sự Meta, tại meetup AI Engineer London
Video đầy đủ của bài trình bày cũng đã được đăng
https://www.youtube.com/watch?v=S5l5OvJ01ws
Tôi đã bỏ lỡ việc Meta đã làm nhiều đến thế nào về suy luận và lý thuyết tâm trí
- Video hay
  Nó giúp đặt o1 vào đúng bối cảnh
  Với tốc độ công bố nhanh như thế này của OpenAI, Google và Meta, có lẽ tiếp theo sẽ đến lượt Anthropic
Mỗi khi cần làm sạch văn bản, tôi lại tự hỏi tại sao không đơn giản huấn luyện một autoencoder khử nhiễu ở cấp byte để xử lý thay thế
- Ý tưởng thú vị
  Trong thị giác, nó nắm bắt hiệu quả cả ngữ cảnh toàn cục lẫn cục bộ, nên tôi luôn tò mò liệu có nên thử U-Net hoặc hourglass net trên dữ liệu văn bản không, nhưng chưa tự làm thử
Ai có thể giải thích việc tự nguyện đưa watermark vào video AI giúp AI an toàn hơn như thế nào không?
- Bên cung cấp dịch vụ tạo video AI có thể cho phép gắn watermark lên tất cả video do họ tạo ra
  Vì vậy ý định không phải là tự nguyện, mà là áp dụng ở cấp dịch vụ
  Cuối cùng có thể chỉ còn lại những dịch vụ không tuân theo quy tắc hiện tại của Big Tech
  Ví dụ như Grok/X.ai: chất lượng kém hơn, nhưng mọi người vẫn dùng Grok/X.ai để tạo ảnh ủng hộ Trump
  https://arstechnica.com/information-technology/2024/08/musks...
- Ở thời điểm hiện tại, chi phí huấn luyện mô hình là bao nhiêu?
  Có vẻ trong vài năm tới nó sẽ ở mức các quốc gia lớn hoặc phần lớn giới tài phiệt có thể gánh được, và có khi đã như vậy rồi
  Vì thế có lẽ thực tế nhất là mọi người nên hiểu watermarking là chuyện tự nguyện
  Hiện giờ tôi cho rằng hình ảnh và video, với tư cách bằng chứng cho một sự thật cụ thể nào đó, còn chẳng đáng giá bằng chính các bit của chúng
Những nội dung này thú vị đến mức khó tin
Mọi người đều đang nói chúng hấp dẫn thế nào, đặc biệt là LCM và tokenizer không token hóa, nhưng nếu có ai đã theo dõi thì tôi muốn hỏi
Tại sao họ dùng thuật ngữ “advanced machine intelligence”?
Suy nghĩ đầu tiên của tôi là liệu có phải để xoa dịu hoặc đánh lạc hướng những người theo thuyết tận thế không, nhưng cũng có thể chỉ là tôi quá tự ý thức mà thôi
- Thuật ngữ này xuất phát từ bài báo năm 2022 của Yann LeCun
  AMI là thuật ngữ được dùng để phân biệt với AGI
  Tuy nhiên trong vài năm qua, chữ A đã thay đổi tùy theo ngữ cảnh: autonomous, advanced, augmented
  [1] https://openreview.net/pdf?id=BZ5a1r-kVsf
- Có vẻ LeCun không thích thuật ngữ AGI
- Tôi đang chờ đến ngày những thứ này được gọi là Minds :)
- Có vẻ đây là phản ứng trước một khảo sát thị trường gần đây cho thấy công chúng nói chung xem những thứ gắn nhãn “AI” là khá giống lừa đảo và khó tin cậy
Meta chắc chắn đã cải thiện về hình ảnh, và đang giúp AI trở thành một công nghệ không có hào lũy
- Meta không bán IaaS hay PaaS, nhưng nếu AI nằm trong tay nhiều người chơi hơn chứ không chỉ Google và OpenAI, mức độ phù hợp của Meta sẽ tăng lên
  Khi AI được phổ cập, nhiều loại hình kinh doanh sẽ xuất hiện, và các doanh nghiệp đó sẽ tiếp cận khách hàng thông qua nền tảng của Meta
- Dù có làm được bao nhiêu điều tốt với LLM đi nữa, họ vẫn đang hủy hoại xã hội bằng Facebook
- Nếu vẫn tiếp tục phạm nguyên tội, thì đó không phải là sự cứu rỗi
Cảm giác như đang học khoảng 10 kiến trúc mới cùng một lúc

Meta FAIR công bố 9 nghiên cứu, mô hình và bộ dữ liệu mới

Phạm vi công bố của Meta FAIR

Meta Motivo: mô hình nền tảng hành vi để điều khiển humanoid ảo

Meta Video Seal: watermark video mã nguồn mở

Hướng dẫn và codebase Flow Matching

Explore Theory-of-Mind: tạo dữ liệu suy luận thuyết tâm trí

Large Concept Model: dự đoán khái niệm thay vì token

Dynamic Byte Latent Transformer: mô hình cấp byte không dùng tokenizer

Meta Memory Layers: mở rộng bộ nhớ thưa cho thông tin sự thật

Image Diversity Modeling và EvalGIM

Meta CLIP 1.2: encoder thị giác-ngôn ngữ và tuyển chọn dữ liệu

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News