3 điểm bởi xguru 2024-06-21 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  • Meta Fundamental AI Research (FAIR) đã công bố các kết quả nghiên cứu mới
  • Bao gồm 6 kết quả nghiên cứu tập trung vào các chủ đề cốt lõi: đổi mới, sáng tạo, hiệu quả và trách nhiệm

Meta Chameleon

  • Mô hình kiến trúc hợp nhất có thể nhận đầu vào là văn bản và hình ảnh, rồi xuất ra tổ hợp của văn bản và hình ảnh
    • Xử lý văn bản và hình ảnh bằng Tokenization thay vì huấn luyện dựa trên Diffusion, nên có thể áp dụng cách tiếp cận thống nhất và giúp việc thiết kế, bảo trì, mở rộng dễ dàng hơn
    • Đã công bố các thành phần chính của mô hình Chameleon 7B và 34B theo giấy phép chỉ dành cho nghiên cứu
    • Mô hình tạo ảnh hiện vẫn chưa được công bố

Multi-Token Prediction

  • Đề xuất một cách tiếp cận mới dự đoán nhiều từ cùng lúc, thay vì cách truyền thống là dự đoán từng từ một
    • Hiệu năng mô hình và hiệu quả huấn luyện được cải thiện, tốc độ cũng nhanh hơn
    • Công bố mô hình được tiền huấn luyện cho hoàn thành mã theo giấy phép phi thương mại/chỉ dành cho nghiên cứu

JASCO (Joint Audio and Symbolic Conditioning for Temporally Controlled Text-to-Music Generation)

  • Mô hình tạo nhạc từ văn bản, chuyển prompt văn bản thành các đoạn nhạc
    • Có thể nhận nhiều loại đầu vào như hợp âm hoặc nhịp để kiểm soát tốt hơn đầu ra âm nhạc được tạo ra
    • Áp dụng Information bottleneck layer và temporal blurring để trích xuất thông tin liên quan đến điều khiển cụ thể
    • Kết quả đánh giá cho thấy chất lượng tạo sinh tương tự mô hình chuẩn, nhưng cho phép mức độ điều khiển đa dạng hơn nhiều
    • Đã công bố bài báo nghiên cứu và trang mẫu, mã suy luận và mô hình tiền huấn luyện cũng sẽ được công bố sau

AudioSeal

  • Kỹ thuật watermark âm thanh để phát hiện giọng nói do AI tạo ra
    • Có thể xác định chính xác phần do AI tạo trong các đoạn âm thanh dài hơn
    • Dùng phương pháp phát hiện cục bộ thay vì thuật toán giải mã phức tạp hiện có, giúp tăng tốc độ và hiệu quả
    • Được công bố theo giấy phép thương mại, là một phần của nghiên cứu nhằm ngăn chặn việc lạm dụng các công cụ AI tạo sinh

Hỗ trợ công bố bộ dữ liệu PRISM

  • Việc nhận phản hồi từ nhiều người khác nhau là rất quan trọng để cải thiện LLM
    • Cộng đồng nghiên cứu đã đặt câu hỏi về phương pháp, lĩnh vực và mục tiêu của quá trình thu thập phản hồi
    • Meta hỗ trợ công bố bộ dữ liệu PRISM, ánh xạ thông tin nhân khẩu học xã hội và sở thích của 1.500 người tham gia đa dạng đến từ 75 quốc gia
    • Bộ dữ liệu ánh xạ sở thích của từng người và phản hồi chi tiết cho 8.011 cuộc hội thoại thời gian thực với 21 LLM
    • Meta kỳ vọng điều này sẽ khuyến khích sự tham gia rộng rãi hơn vào phát triển AI và thúc đẩy cách tiếp cận thiết kế công nghệ mang tính bao trùm

Đo lường và cải thiện chênh lệch địa lý của hệ thống tạo ảnh từ văn bản

  • Điều quan trọng là các mô hình text-to-image phải hoạt động tốt với mọi người và phản ánh sự đa dạng về địa lý, văn hóa trên thế giới
    • Phát triển một chỉ số tự động có tên "DIG In" để đánh giá các chênh lệch địa lý tiềm ẩn
    • Thu thập hơn 65.000 chú thích và hơn 20 phản hồi khảo sát để nghiên cứu cách con người nhận biết biểu đạt địa lý
    • Phát hiện rằng con người nhận biết biểu đạt địa lý thông qua các thành phần cụ thể trong ảnh hơn là toàn bộ bức ảnh
    • Từ đó khám phá cách cải thiện tính đa dạng của đầu ra từ các mô hình text-to-image
    • Giới thiệu Contextualized Vendi Score guidance để tăng tính đa dạng biểu đạt của các mẫu được tạo ra, đồng thời vẫn duy trì chất lượng ảnh và độ nhất quán giữa prompt với nội dung tạo sinh

Chưa có bình luận nào.

Chưa có bình luận nào.