[2024/01/22 ~ 01/28] Các bài báo ML nổi bật trong tuần (Top ML Papers of the Week)
(discuss.pytorch.kr)Tổng quan
-
Chúng tôi đã tự động dịch bài viết về các bài báo ML được DAIR.AI công bố hằng tuần.
-
Nhìn vào các bài báo được chọn trong tuần này, có thể thấy sự quan tâm nổi bật dành cho các lĩnh vực như mô hình ngôn ngữ lớn (Large Language Models, LLMs), mô hình đa phương thức (Multimodal Models) và mô hình ngôn ngữ thị giác (Visual Language Models). Các bài như "Knowledge Fusion of LLMs", "Resource-efficient LLMs & Multimodal Models" và "Red Teaming Visual Language Models" phản ánh những xu hướng chính này, đồng thời trình bày các nghiên cứu và phát triển về mô hình dung lượng lớn cùng hiệu quả của chúng, học đa phương thức và việc nâng cao năng lực xử lý dữ liệu thị giác.
-
Xu hướng này xuất hiện trong bối cảnh tầm quan trọng của khả năng hiểu và xử lý dữ liệu phức hợp ngày càng tăng trong công nghệ trí tuệ nhân tạo những năm gần đây, đặc biệt ở các lĩnh vực xử lý ngôn ngữ tự nhiên (Natural Language Processing, NLP) và thị giác máy tính (Computer Vision). Các mô hình ngôn ngữ lớn đang đạt hiệu năng cao trong nhiều tác vụ hiểu ngôn ngữ khác nhau, còn các mô hình đa phương thức đang trở thành yếu tố thiết yếu trong các nghiên cứu hướng tới sự thấu hiểu giống con người bằng cách kết hợp nhiều loại dữ liệu khác nhau (văn bản, hình ảnh, âm thanh, v.v.). Bên cạnh đó, các mô hình ngôn ngữ thị giác cho phép tiếp cận bằng ngôn ngữ đối với hình ảnh và nội dung trực quan, từ đó đóng vai trò quan trọng trong việc xây dựng các hệ thống AI phong phú và có tính tương tác hơn.
-
Xu hướng được nhận diện qua tiêu đề và phần giới thiệu như vậy cho thấy ngày càng có nhiều nghiên cứu không chỉ nhằm cải thiện hiệu năng của các mô hình AI tiên tiến mà còn hướng đến việc thiết lập các chuẩn mực mới về năng suất và hiệu quả. Những bài báo đề cập đến việc cải thiện hiệu quả sử dụng tài nguyên của các mô hình quy mô lớn phản ánh dòng chảy nghiên cứu hiện tại theo đuổi sự phát triển AI bền vững ở góc độ tiêu thụ năng lượng và chi phí tính toán. Đây cũng là điểm nhấn cho thấy nỗ lực của cả giới học thuật lẫn công nghiệp trong việc giải quyết những vấn đề nhất thiết phải được xử lý để AI có thể được áp dụng rộng rãi hơn trong thực tế công nghiệp và xã hội.
Phân tích độ sâu cho mọi thứ: Khai phá sức mạnh của dữ liệu quy mô lớn không gán nhãn / Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data
Giới thiệu bài báo
- Một giải pháp ước lượng độ sâu đơn ảnh mạnh mẽ có thể xử lý mọi hình ảnh trong mọi tình huống, tự động gán nhãn cho dữ liệu quy mô lớn không gán nhãn (tối đa 62 triệu mẫu) để giảm lỗi khái quát hóa, đề xuất các chiến lược hiệu quả để tận dụng sức mạnh của dữ liệu không gán nhãn quy mô lớn, và ngoài năng lực khái quát hóa còn thiết lập kỹ thuật hiện đại nhất mới thông qua tinh chỉnh, thậm chí hiện thực hóa cả một ControlNet điều kiện theo độ sâu được cải thiện.
A robust monocular depth estimation solution that can deal with any images under any circumstance; automatically annotates large-scale unlabeled data (~62m) which helps to reduce generalization error; proposes effective strategies to leverage the power of the large-scale unlabeled data; besides generalization ability, it established new state-of-the-art through fine-tuning and even results in an enhanced depth-conditioned controlnet.
Tóm tắt bài báo (Abstract)
- Nghiên cứu này giới thiệu Depth Anything, một giải pháp cực kỳ thực dụng cho bài toán ước lượng độ sâu đơn ảnh mạnh mẽ. Thay vì theo đuổi các mô-đun kỹ thuật mới, nghiên cứu hướng tới việc xây dựng một foundation model đơn giản nhưng mạnh mẽ, có thể xử lý mọi hình ảnh trong mọi hoàn cảnh. Để làm được điều đó, nhóm nghiên cứu mở rộng tập dữ liệu bằng cách thiết kế một công cụ dữ liệu để thu thập và tự động gán nhãn cho dữ liệu quy mô lớn không gán nhãn (khoảng 62 triệu mẫu), từ đó mở rộng đáng kể độ bao phủ của dữ liệu và có thể giảm lỗi khái quát hóa. Nghiên cứu khảo sát hai chiến lược đơn giản nhưng hiệu quả giúp việc mở rộng dữ liệu trở nên đầy hứa hẹn. Thứ nhất, một mục tiêu tối ưu hóa khó hơn được tạo ra bằng cách tận dụng các công cụ tăng cường dữ liệu. Điều này buộc mô hình phải chủ động tìm kiếm thêm tri thức thị giác và học được các biểu diễn vững chắc. Thứ hai, một cơ chế giám sát phụ trợ được phát triển để buộc mô hình kế thừa các prior ngữ nghĩa phong phú từ các encoder đã được tiền huấn luyện. Nhóm nghiên cứu đánh giá rộng rãi năng lực zero-shot của mô hình, bao gồm trên sáu bộ dữ liệu công khai và các bức ảnh chụp ngẫu nhiên. Kết quả cho thấy khả năng khái quát hóa ấn tượng. Ngoài ra, thông qua tinh chỉnh với thông tin độ sâu metric từ NYUv2 và KITTI, mô hình đã thiết lập các SOTA mới. Mô hình độ sâu tốt hơn cũng dẫn đến một ControlNet điều kiện theo độ sâu tốt hơn. Có thể xem thêm chi tiết tại https://github.com/LiheYoung/Depth-Anything.
This work presents Depth Anything, a highly practical solution for robust monocular depth estimation. Without pursuing novel technical modules, we aim to build a simple yet powerful foundation model dealing with any images under any circumstances. To this end, we scale up the dataset by designing a data engine to collect and automatically annotate large-scale unlabeled data (~62M), which significantly enlarges the data coverage and thus is able to reduce the generalization error. We investigate two simple yet effective strategies that make data scaling-up promising. First, a more challenging optimization target is created by leveraging data augmentation tools. It compels the model to actively seek extra visual knowledge and acquire robust representations. Second, an auxiliary supervision is developed to enforce the model to inherit rich semantic priors from pre-trained encoders. We evaluate its zero-shot capabilities extensively, including six public datasets and randomly captured photos. It demonstrates impressive generalization ability. Further, through fine-tuning it with metric depth information from NYUv2 and KITTI, new SOTAs are set. Our better depth model also results in a better depth-conditioned ControlNet. Our models are released at https://github.com/LiheYoung/Depth-Anything.
Liên kết bài báo
https://arxiv.org/abs/2401.10891v1
Đọc thêm
https://x.com/_akhaliq/status/1749284669936275463
Hợp nhất tri thức của các mô hình ngôn ngữ lớn / Knowledge Fusion of Large Language Models
Giới thiệu bài báo
- Đề xuất FuseLLM với ý tưởng cốt lõi là ngoại hóa tri thức từ nhiều tổ chức học tập và chuyển giao năng lực của chúng sang một tổ chức học tập mục tiêu; tận dụng các phân phối sinh của các tổ chức học tập nguồn để ngoại hóa cả tri thức tập thể lẫn thế mạnh riêng của từng bên và chuyển chúng sang tổ chức học tập mục tiêu thông qua huấn luyện liên tục; phát hiện rằng FuseLLM có thể cải thiện hiệu năng của mô hình mục tiêu trên nhiều năng lực như suy luận, kiến thức thường thức và sinh mã.
> Proposes fusellm with the core idea of externalizing knowledge from multiple llms and transferring their capabilities to a target llm; leverages the generative distributions of source llms to externalize both their collective knowledge and individual strengths and transfer them to the target llm through continual training; finds that the fusellm can improve the performance of the target model across a range of capabilities such as reasoning, common sense, and code generation.
Tóm tắt bài báo (Abstract)
- Việc huấn luyện các mô hình ngôn ngữ lớn (LLM) từ đầu có thể tạo ra những mô hình với chức năng và thế mạnh riêng biệt, nhưng đi kèm chi phí đáng kể và có thể dẫn đến sự trùng lặp năng lực. Một hướng tiếp cận khác vừa tiết kiệm chi phí vừa hấp dẫn là hợp nhất các LLM đã được huấn luyện sẵn thành một mô hình mạnh hơn. Tuy nhiên, do kiến trúc của các LLM này rất đa dạng, việc trộn trực tiếp trọng số là không thực tế. Trong bài báo này, tác giả giới thiệu khái niệm hợp nhất tri thức cho LLM, nhằm kết hợp năng lực của các LLM hiện có và chuyển chúng vào một LLM duy nhất. Bằng cách tận dụng các phân phối sinh của các LLM nguồn, tác giả ngoại hóa tri thức tập thể và các thế mạnh độc đáo của chúng, từ đó có thể nâng cao năng lực của mô hình mục tiêu vượt qua từng LLM nguồn riêng lẻ. Unity xác thực phương pháp này bằng ba LLM phổ biến có kiến trúc khác nhau là Llama-2, MPT và OpenLLaMA trên nhiều benchmark và tác vụ khác nhau. Kết quả xác nhận rằng việc hợp nhất LLM có thể cải thiện hiệu năng của mô hình mục tiêu trên nhiều năng lực như suy luận, kiến thức thường thức và sinh mã. Mã nguồn, trọng số mô hình và dữ liệu được công khai tại \url{https://github.com/fanqiwan/FuseLLM}.
> While training large language models (LLMs) from scratch can generate models with distinct functionalities and strengths, it comes at significant costs and may result in redundant capabilities. Alternatively, a cost-effective and compelling approach is to merge existing pre-trained LLMs into a more potent model. However, due to the varying architectures of these LLMs, directly blending their weights is impractical. In this paper, we introduce the notion of knowledge fusion for LLMs, aimed at combining the capabilities of existing LLMs and transferring them into a single LLM. By leveraging the generative distributions of source LLMs, we externalize their collective knowledge and unique strengths, thereby potentially elevating the capabilities of the target model beyond those of any individual source LLM. We validate our approach using three popular LLMs with different architectures--Llama-2, MPT, and OpenLLaMA--across various benchmarks and tasks. Our findings confirm that the fusion of LLMs can improve the performance of the target model across a range of capabilities such as reasoning, commonsense, and code generation. Our code, model weights, and data are public at \url{https://github.com/fanqiwan/FuseLLM}.
Liên kết bài báo
https://arxiv.org/abs/2401.10491
Đọc thêm
https://github.com/fanqiwan/FuseLLM
https://x.com/omarsar0/status/1749267663900057620
MambaByte: Mô hình không gian trạng thái chọn lọc không cần token / MambaByte: Token-free Selective State Space Model
Giới thiệu bài báo
- Điều chỉnh Mamba SSM để học trực tiếp từ byte thô. Byte dẫn đến các chuỗi dài hơn mà các transformer tự hồi quy không thể mở rộng tốt. Công trình này báo cáo những lợi ích rất lớn liên quan đến suy luận nhanh hơn và thậm chí còn vượt trội hơn các transformer dùng subword.
> Adapts mamba ssm to learn directly from raw bytes; bytes lead to longer sequences which autoregressive transformers will scale poorly on; this work reports huge benefits related to faster inference and even outperforms subword transformers.
Tóm tắt bài báo (Abstract)
- Các mô hình ngôn ngữ không dùng token học trực tiếp từ byte thô và loại bỏ độ chệch của việc token hóa subword. Tuy nhiên, việc làm việc ở cấp byte tạo ra các chuỗi dài hơn đáng kể, và các Transformer tự hồi quy tiêu chuẩn mở rộng rất kém trong bối cảnh này. Chúng tôi thử nghiệm MambaByte, một biến thể không dùng token của mô hình không gian trạng thái Mamba, được huấn luyện tự hồi quy trên các chuỗi byte. Kết quả thực nghiệm cho thấy hiệu quả tính toán của MambaByte vượt trội so với các mô hình mức byte khác. Chúng tôi cũng nhận thấy MambaByte có khả năng cạnh tranh và thậm chí vượt qua các Transformer subword tiên tiến nhất. Hơn nữa, nhờ khả năng mở rộng tuyến tính theo độ dài, MambaByte có lợi thế suy luận nhanh hơn so với Transformer. Những phát hiện này khẳng định tính khả thi của MambaByte trong việc hiện thực hóa mô hình hóa ngôn ngữ không cần token.
> Token-free language models learn directly from raw bytes and remove the bias of subword tokenization. Operating on bytes, however, results in significantly longer sequences, and standard autoregressive Transformers scale poorly in such settings. We experiment with MambaByte, a token-free adaptation of the Mamba state space model, trained autoregressively on byte sequences. Our experiments indicate the computational efficiency of MambaByte compared to other byte-level models. We also find MambaByte to be competitive with and even outperform state-of-the-art subword Transformers. Furthermore, owing to linear scaling in length, MambaByte benefits from fast inference compared to Transformers. Our findings establish the viability of MambaByte in enabling token-free language modeling.
Liên kết bài báo
https://arxiv.org/abs/2401.13660
Đọc thêm
https://x.com/omarsar0/status/1750366964759859633
Diffuse to Choose: Làm giàu inpainting có điều kiện theo ảnh trong các mô hình latent diffusion cho Virtual Try-All / Diffuse to Choose: Enriching Image Conditioned Inpainting in Latent Diffusion Models for Virtual Try-All
Giới thiệu bài báo
- Một mô hình inpainting có điều kiện theo ảnh dựa trên diffusion, cân bằng giữa suy luận nhanh và độ trung thực cao, đồng thời cho phép thao tác ngữ nghĩa chính xác trong nội dung cảnh cho trước; vượt trội hơn các phương pháp zero-shot diffusion inpainting hiện có và thậm chí cả các thuật toán cá nhân hóa diffusion few-shot như dreampaint.
> A diffusion-based image-conditioned inpainting model to balance fast inference with high-fidelity while enabling accurate semantic manipulations in a given scene content; outperforms existing zero-shot diffusion inpainting methods and even few-shot diffusion personalization algorithms such as dreampaint.
Tóm tắt bài báo (Abstract)
- Khi mua sắm trực tuyến tăng trưởng, khả năng để người mua hình dung sản phẩm một cách ảo trong chính bối cảnh của họ — một hiện tượng mà nhóm tác giả gọi là "Virtual Try-All" — đã trở nên rất quan trọng. Các mô hình diffusion gần đây vốn đã bao hàm một world model, khiến chúng phù hợp với tác vụ này trong bối cảnh inpainting. Tuy nhiên, các mô hình diffusion có điều kiện theo ảnh truyền thống thường không nắm bắt được những chi tiết tinh vi của sản phẩm. Ngược lại, các mô hình dựa trên cá nhân hóa như DreamPaint bảo toàn tốt chi tiết của món hàng nhưng không được tối ưu cho các ứng dụng thời gian thực. Unity giới thiệu "Diffuse to Choose", một mô hình inpainting có điều kiện theo ảnh dựa trên diffusion mới, có khả năng cân bằng hiệu quả giữa suy luận nhanh và việc giữ lại các chi tiết có độ trung thực cao của vật tham chiếu, đồng thời vẫn đảm bảo thao tác ngữ nghĩa chính xác trong nội dung cảnh đã cho. Cách tiếp cận của Unity dựa trên việc tích hợp trực tiếp các đặc trưng chi tiết từ ảnh tham chiếu vào các latent feature map của mô hình diffusion chính, đồng thời áp dụng perceptual loss để bảo toàn tốt hơn chi tiết của vật tham chiếu. Unity đã tiến hành thử nghiệm trên diện rộng với cả bộ dữ liệu nội bộ và các bộ dữ liệu công khai, và cho thấy Diffuse to Choose vượt trội hơn các phương pháp zero-shot diffusion inpainting hiện có cũng như các thuật toán cá nhân hóa diffusion few-shot như DreamPaint.
> As online shopping is growing, the ability for buyers to virtually visualize products in their settings-a phenomenon we define as "Virtual Try-All"-has become crucial. Recent diffusion models inherently contain a world model, rendering them suitable for this task within an inpainting context. However, traditional image-conditioned diffusion models often fail to capture the fine-grained details of products. In contrast, personalization-driven models such as DreamPaint are good at preserving the item's details but they are not optimized for real-time applications. We present "Diffuse to Choose," a novel diffusion-based image-conditioned inpainting model that efficiently balances fast inference with the retention of high-fidelity details in a given reference item while ensuring accurate semantic manipulations in the given scene content. Our approach is based on incorporating fine-grained features from the reference image directly into the latent feature maps of the main diffusion model, alongside with a perceptual loss to further preserve the reference item's details. We conduct extensive testing on both in-house and publicly available datasets, and show that Diffuse to Choose is superior to existing zero-shot diffusion inpainting methods as well as few-shot diffusion personalization algorithms like DreamPaint.
Liên kết bài báo
https://arxiv.org/abs/2401.13795
Đọc thêm
https://x.com/_akhaliq/status/1750737690553692570
WARM: Về những lợi ích của các mô hình phần thưởng trung bình theo trọng số / WARM: On the Benefits of Weight Averaged Reward Models
Giới thiệu bài báo
- Giới thiệu các mô hình phần thưởng trung bình theo trọng số (WARM), trong đó nhiều reward model được fine-tune rồi lấy trung bình trong không gian trọng số; cách lấy trung bình theo trọng số này cải thiện hiệu quả so với ensembling theo dự đoán truyền thống, đồng thời nâng cao chất lượng và mức độ căn chỉnh của các dự đoán từ LLM.
> Introduces weighted averaged rewards models (warm) that involve fine-tuning multiple rewards models and then averaging them in the weight space; average weighting improves efficiency compared to traditional prediction ensembling; it improves the quality and alignment of llm predictions.
Tóm tắt bài báo (Abstract)
- Việc căn chỉnh mô hình ngôn ngữ lớn (LLM) theo sở thích của con người thông qua học tăng cường (RLHF) có thể dẫn đến reward hacking, tức là LLM khai thác các lỗi của mô hình phần thưởng (RM) để đạt mức thưởng có vẻ cao mà không thực sự hoàn thành mục tiêu cốt lõi. Unity xác định hai thách thức chính khi thiết kế RM nhằm giảm thiểu reward hacking, đó là sự dịch chuyển phân phối trong quá trình RL và sự không nhất quán trong sở thích của con người. Để giải quyết vấn đề này, nhóm đề xuất Weight Averaged Reward Models (WARM), trước tiên fine-tune nhiều RM rồi lấy trung bình trong không gian trọng số. Chiến lược này dựa trên quan sát rằng các trọng số sau fine-tune vẫn được kết nối tuyến tính về mode khi cùng chia sẻ một giai đoạn pre-training. Bằng cách lấy trung bình trọng số, WARM cải thiện hiệu quả so với phương pháp ensemble dự đoán truyền thống, đồng thời nâng cao độ tin cậy trước sự dịch chuyển phân phối và độ bền vững trước sự không nhất quán trong sở thích. Kết quả thí nghiệm trên các tác vụ tóm tắt, sử dụng phương pháp best-of-N và RL, cho thấy WARM cải thiện chất lượng tổng thể và mức độ căn chỉnh của dự đoán từ LLM; chẳng hạn, policy RL được fine-tune bằng WARM đạt tỷ lệ thắng 79,4% so với policy RL được fine-tune bằng một RM đơn lẻ.
> Aligning large language models (LLMs) with human preferences through reinforcement learning (RLHF) can lead to reward hacking, where LLMs exploit failures in the reward model (RM) to achieve seemingly high rewards without meeting the underlying objectives. We identify two primary challenges when designing RMs to mitigate reward hacking: distribution shifts during the RL process and inconsistencies in human preferences. As a solution, we propose Weight Averaged Reward Models (WARM), first fine-tuning multiple RMs, then averaging them in the weight space. This strategy follows the observation that fine-tuned weights remain linearly mode connected when sharing the same pre-training. By averaging weights, WARM improves efficiency compared to the traditional ensembling of predictions, while improving reliability under distribution shifts and robustness to preference inconsistencies. Our experiments on summarization tasks, using best-of-N and RL methods, shows that WARM improves the overall quality and alignment of LLM predictions; for example, a policy RL fine-tuned with WARM has a 79.4% win rate against a policy RL fine-tuned with a single RM.
Liên kết bài báo
https://arxiv.org/abs/2401.12187
Đọc thêm
https://x.com/ramealexandre/status/1749719471806157304
Khảo sát về LLM và mô hình nền tảng đa phương thức tiết kiệm tài nguyên / A Survey of Resource-efficient LLM and Multimodal Foundation Models
Giới thiệu bài báo
- Một khảo sát về ML tiết kiệm tài nguyên và các mô hình nền tảng đa phương thức, cung cấp phân tích toàn diện và các insight về nghiên cứu hiệu quả ML, bao gồm kiến trúc, thuật toán, cũng như thiết kế và triển khai hệ thống thực tế.
> A survey of resource-efficient llms and multimodal foundations models; provides a comprehensive analysis and insights into ml efficiency research, including architectures, algorithms, and practical system designs and implementations.
Tóm tắt(Abstract)
- Các mô hình nền tảng quy mô lớn, bao gồm mô hình ngôn ngữ lớn (LLM), vision transformer (ViT), diffusion và các mô hình đa phương thức dựa trên LLM, đang tạo ra cuộc cách mạng cho toàn bộ vòng đời machine learning, từ huấn luyện đến triển khai. Tuy nhiên, những bước tiến lớn về tính đa dụng và hiệu năng mà các mô hình này mang lại cũng đi kèm chi phí phần cứng rất đáng kể. Để hỗ trợ sự phát triển của các mô hình lớn này theo cách có thể mở rộng và bền vững với môi trường, đã có sự tập trung đáng kể vào việc phát triển các chiến lược tiết kiệm tài nguyên. Bài khảo sát này đi sâu vào tầm quan trọng then chốt của hướng nghiên cứu đó, xem xét cả khía cạnh thuật toán lẫn hệ thống. Nó cung cấp phân tích toàn diện và những insight giá trị được tổng hợp từ các tài liệu hiện có, bao quát nhiều chủ đề từ kiến trúc mô hình tiên tiến, thuật toán huấn luyện/phục vụ, đến thiết kế và triển khai hệ thống thực tế. Mục tiêu của khảo sát là mang lại cái nhìn tổng quan về cách các hướng tiếp cận hiện nay đang giải quyết các thách thức tài nguyên do các mô hình nền tảng quy mô lớn đặt ra, đồng thời có thể truyền cảm hứng cho các đột phá trong tương lai ở lĩnh vực này.
> Large foundation models, including large language models (LLMs), vision transformers (ViTs), diffusion, and LLM-based multimodal models, are revolutionizing the entire machine learning lifecycle, from training to deployment. However, the substantial advancements in versatility and performance these models offer come at a significant cost in terms of hardware resources. To support the growth of these large models in a scalable and environmentally sustainable way, there has been a considerable focus on developing resource-efficient strategies. This survey delves into the critical importance of such research, examining both algorithmic and systemic aspects. It offers a comprehensive analysis and valuable insights gleaned from existing literature, encompassing a broad array of topics from cutting-edge model architectures and training/serving algorithms to practical system designs and implementations. The goal of this survey is to provide an overarching understanding of how current approaches are tackling the resource challenges posed by large foundation models and to potentially inspire future breakthroughs in this field.
Liên kết bài báo
https://arxiv.org/abs/2401.08092v1
Đọc thêm
https://x.com/omarsar0/status/1749208653926654010
Red Teaming các mô hình ngôn ngữ-thị giác / Red Teaming Visual Language Models
Giới thiệu bài báo
- Trước tiên, bài báo giới thiệu một bộ dữ liệu red teaming gồm 10 tác vụ con (ví dụ: đánh lạc hướng bằng hình ảnh, jailbreak đa phương thức, công bằng khuôn mặt, v.v.); phát hiện rằng 10 VLM (Vision-Language Models) mã nguồn mở nổi tiếng gặp khó khăn với red teaming ở các mức độ khác nhau và có khoảng cách hiệu năng lên tới 31% so với gpt-4v; đồng thời áp dụng căn chỉnh red teaming cho llava-v1.5 cùng với SFT (Supervised Fine-tuning) bằng bộ dữ liệu red teaming được đề xuất, qua đó cải thiện hiệu năng mô hình thêm 10% trên tập kiểm tra.
> First presents a red teaming dataset of 10 subtasks (e.g., image misleading, multi-modal jailbreaking, face fairness, etc); finds that 10 prominent open-sourced vlms struggle with the red teaming in different degrees and have up to 31% performance gap with gpt-4v; also applies red teaming alignment to llava-v1.5 with sft using the proposed red teaming dataset, which improves model performance by 10% in the test set.
Tóm tắt bài báo(Abstract)
- VLM (mô hình thị giác-ngôn ngữ) mở rộng năng lực của LLM (mô hình ngôn ngữ lớn) để tiếp nhận đầu vào đa phương thức. Vì đã được xác minh rằng LLM có thể bị dẫn dụ tạo ra nội dung gây hại hoặc không chính xác thông qua các trường hợp kiểm thử cụ thể (được gọi là Red Teaming), nên việc VLM hoạt động như thế nào trong các kịch bản tương tự, đặc biệt khi kết hợp đầu vào văn bản và hình ảnh, vẫn còn là một câu hỏi. Để khám phá vấn đề này, bài báo giới thiệu RTVLM, một bộ dữ liệu red teaming mới bao gồm 10 tác vụ con (ví dụ: đánh lạc hướng bằng hình ảnh, jailbreak đa phương thức, công bằng khuôn mặt, v.v.) thuộc 4 khía cạnh chính (độ trung thực, quyền riêng tư, an toàn, công bằng). RTVLM của Criteo là bộ dữ liệu red teaming đầu tiên dùng để benchmark các VLM hiện tại theo 4 khía cạnh này. Phân tích chi tiết cho thấy 10 VLM mã nguồn mở nổi tiếng gặp khó khăn với red teaming ở các mức độ khác nhau và có khoảng cách hiệu năng lên tới 31% so với GPT-4V. Ngoài ra, khi đơn giản áp dụng căn chỉnh red teaming cho LLaVA-v1.5 bằng giám sát tinh chỉnh (SFT) sử dụng RTVLM, hiệu năng của mô hình được tăng cường thêm 10% trên tập kiểm tra RTVLM, 13% trên MM-Hal, và không suy giảm đáng kể trên MM-Bench, vượt qua các mô hình dựa trên LLaVA khác dùng dữ liệu căn chỉnh thông thường. Điều này cho thấy các VLM mã nguồn mở hiện nay vẫn còn thiếu căn chỉnh red teaming. Mã nguồn và bộ dữ liệu sẽ được mở mã nguồn.
> VLMs (Vision-Language Models) extend the capabilities of LLMs (Large Language Models) to accept multimodal inputs. Since it has been verified that LLMs can be induced to generate harmful or inaccurate content through specific test cases (termed as Red Teaming), how VLMs perform in similar scenarios, especially with their combination of textual and visual inputs, remains a question. To explore this problem, we present a novel red teaming dataset RTVLM, which encompasses 10 subtasks (e.g., image misleading, multi-modal jail-breaking, face fairness, etc) under 4 primary aspects (faithfulness, privacy, safety, fairness). Our RTVLM is the first red-teaming dataset to benchmark current VLMs in terms of these 4 different aspects. Detailed analysis shows that 10 prominent open-sourced VLMs struggle with the red teaming in different degrees and have up to 31% performance gap with GPT-4V. Additionally, we simply apply red teaming alignment to LLaVA-v1.5 with Supervised Fine-tuning (SFT) using RTVLM, and this bolsters the models' performance with 10% in RTVLM test set, 13% in MM-Hal, and without noticeable decline in MM-Bench, overpassing other LLaVA-based models with regular alignment data. This reveals that current open-sourced VLMs still lack red teaming alignment. Our code and datasets will be open-source.
Liên kết bài báo
https://arxiv.org/abs/2401.12915
Đọc thêm
https://x.com/omarsar0/status/1750170361843384790
Lumiere: Mô hình diffusion không-thời gian cho tạo sinh video / Lumiere: A Space-Time Diffusion Model for Video Generation
Giới thiệu bài báo
- Mô hình diffusion không-thời gian text-to-video để tổng hợp video có chuyển động chân thực và nhất quán; giới thiệu kiến trúc space-time u-net để tạo toàn bộ độ dài thời gian của video cùng lúc chỉ trong một lượt; đạt kết quả tạo sinh text-to-video ở mức tiên tiến nhất và hỗ trợ nhiều tác vụ sáng tạo nội dung cũng như ứng dụng chỉnh sửa video, bao gồm image-to-video, video inpainting và tạo sinh phong cách hóa.
> A text-to-video space-time diffusion model for synthesizing videos with realistic and coherent motion; introduces a space-time u-net architecture to generate the entire temporal duration of a video at once via a single pass; achieves state-of-the-art text-to-video generation results and supports a wide range of content creation tasks and video editing applications, including image-to-video, video inpainting, and stylized generation.
Tóm tắt bài báo(Abstract)
- Giới thiệu Lumiere, một mô hình khuếch tán văn bản-sang-video được thiết kế để tổng hợp video thể hiện chuyển động chân thực, đa dạng và nhất quán — một bài toán cốt lõi của tổng hợp video. Để làm được điều này, Unity đã giới thiệu kiến trúc U-Net không-thời gian, tạo ra toàn bộ chiều dài thời gian của video trong một lần duy nhất qua mô hình. Điều này trái ngược với các mô hình video hiện có, vốn tổng hợp các keyframe cách xa nhau rồi mới thực hiện siêu phân giải theo thời gian — một cách tiếp cận vốn dĩ khó đảm bảo tính nhất quán thời gian trên toàn cục. Bằng cách triển khai cả downsampling và upsampling theo không gian lẫn (quan trọng là) theo thời gian, đồng thời tận dụng mô hình khuếch tán văn bản-sang-hình ảnh đã được huấn luyện trước, mô hình này học cách trực tiếp tạo ra video độ phân giải thấp với tốc độ khung hình đầy đủ bằng cách xử lý ở nhiều thang không-thời gian khác nhau. Nghiên cứu trình diễn kết quả tạo sinh text-to-video ở mức tiên tiến nhất, đồng thời cho thấy thiết kế này dễ dàng hỗ trợ nhiều tác vụ sáng tạo nội dung và ứng dụng chỉnh sửa video như image-to-video, video inpainting và tạo sinh theo phong cách hóa.
> We introduce Lumiere -- a text-to-video diffusion model designed for synthesizing videos that portray realistic, diverse and coherent motion -- a pivotal challenge in video synthesis. To this end, we introduce a Space-Time U-Net architecture that generates the entire temporal duration of the video at once, through a single pass in the model. This is in contrast to existing video models which synthesize distant keyframes followed by temporal super-resolution -- an approach that inherently makes global temporal consistency difficult to achieve. By deploying both spatial and (importantly) temporal down- and up-sampling and leveraging a pre-trained text-to-image diffusion model, our model learns to directly generate a full-frame-rate, low-resolution video by processing it in multiple space-time scales. We demonstrate state-of-the-art text-to-video generation results, and show that our design easily facilitates a wide range of content creation tasks and video editing applications, including image-to-video, video inpainting, and stylized generation.
Liên kết bài báo
https://arxiv.org/abs/2401.12945
Đọc thêm
https://discuss.pytorch.kr/t/lumiere-google/3357
https://x.com/GoogleAI/status/1751003814931689487
Medusa: Khung tăng tốc suy luận LLM đơn giản với nhiều đầu giải mã / Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads
Giới thiệu bài báo
- Một khung đơn giản để tăng tốc suy luận LLM bằng cách sử dụng nhiều đầu giải mã dự đoán song song nhiều token kế tiếp; việc song song hóa giúp giảm đáng kể số bước giải mã; hệ thống có thể đạt mức tăng tốc hơn 2,2 lần mà không làm giảm chất lượng sinh, trong khi Medusa-2 tiếp tục nâng mức tăng tốc lên 2,3–3,6 lần.
> A simple framework for llm inference acceleration using multiple decoding heads that predict multiple subsequent tokens in parallel; parallelization substantially reduces the number of decoding steps; it can achieve over 2.2x speedup without compromising generation quality, while medusa-2 further improves the speedup to 2.3-3.6x.
Tóm tắt bài báo (Abstract)
- Quá trình suy luận của mô hình ngôn ngữ lớn (LLM) thường bị giới hạn vì quá trình giải mã tự hồi quy không có khả năng xử lý song song, khiến phần lớn phép toán bị ràng buộc bởi băng thông bộ nhớ của bộ tăng tốc. Để giải quyết vấn đề này, các phương pháp như speculative decoding đã được đề xuất, nhưng việc triển khai gặp khó khăn do phải có và duy trì một mô hình nháp riêng biệt. Trong bài báo này, tác giả giới thiệu Medusa, một phương pháp hiệu quả giúp tăng cường suy luận LLM bằng cách bổ sung thêm các đầu giải mã để dự đoán song song nhiều token tiếp theo. Medusa sử dụng cơ chế attention dựa trên cây để xây dựng nhiều phương án tiếp diễn và xác minh chúng đồng thời ở mỗi bước giải mã. Nhờ tận dụng xử lý song song, Medusa chỉ tạo ra overhead tối thiểu về độ trễ của từng bước, đồng thời giảm đáng kể số bước giải mã cần thiết. Để đáp ứng nhu cầu của nhiều trường hợp sử dụng khác nhau, Medusa có hai mức quy trình fine-tuning: Medusa-1: Medusa được fine-tuning trực tiếp trên backbone LLM đã được đóng băng, cho phép tăng tốc suy luận mà không bị mất mát. Medusa-2: Medusa được fine-tuning cùng với backbone LLM, giúp cải thiện độ chính xác dự đoán của các đầu Medusa và tăng tốc độ hơn nữa, nhưng cần một công thức huấn luyện đặc biệt để bảo toàn năng lực của mô hình backbone. Ngoài ra, tác giả còn đề xuất một số phần mở rộng nhằm cải thiện hoặc mở rộng tính hữu dụng của Medusa, bao gồm self-distillation để xử lý các tình huống không có dữ liệu huấn luyện và một cơ chế chấp nhận thông dụng nhằm tăng tỷ lệ chấp nhận trong khi vẫn duy trì chất lượng sinh. Medusa được đánh giá trên các mô hình có kích thước và quy trình huấn luyện khác nhau. Kết quả thực nghiệm cho thấy Medusa-1 có thể đạt mức tăng tốc hơn 2,2 lần mà không làm giảm chất lượng sinh, trong khi Medusa-2 tiếp tục nâng mức tăng tốc lên 2,3–3,6 lần.
> The inference process in Large Language Models (LLMs) is often limited due to the absence of parallelism in the auto-regressive decoding process, resulting in most operations being restricted by the memory bandwidth of accelerators. While methods such as speculative decoding have been suggested to address this issue, their implementation is impeded by the challenges associated with acquiring and maintaining a separate draft model. In this paper, we present Medusa, an efficient method that augments LLM inference by adding extra decoding heads to predict multiple subsequent tokens in parallel. Using a tree-based attention mechanism, Medusa constructs multiple candidate continuations and verifies them simultaneously in each decoding step. By leveraging parallel processing, Medusa introduces only minimal overhead in terms of single-step latency while substantially reducing the number of decoding steps required. We present two levels of fine-tuning procedures for Medusa to meet the needs of different use cases: Medusa-1: Medusa is directly fine-tuned on top of a frozen backbone LLM, enabling lossless inference acceleration. Medusa-2: Medusa is fine-tuned together with the backbone LLM, enabling better prediction accuracy of Medusa heads and higher speedup but needing a special training recipe that preserves the backbone model's capabilities. Moreover, we propose several extensions that improve or expand the utility of Medusa, including a self-distillation to handle situations where no training data is available and a typical acceptance scheme to boost the acceptance rate while maintaining generation quality. We evaluate Medusa on models of various sizes and training procedures. Our experiments demonstrate that Medusa-1 can achieve over 2.2x speedup without compromising generation quality, while Medusa-2 further improves the speedup to 2.3-3.6x.
Liên kết bài báo
https://arxiv.org/abs/2401.10774v1
Đọc thêm
https://discuss.pytorch.kr/t/…
https://x.com/jiayq/status/1749461664393810350
AgentBoard: Ban đánh giá phân tích dành cho các tác nhân LLM đa lượt / AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents
Giới thiệu bài báo
- Thông qua một benchmark toàn diện đi kèm framework đánh giá mã nguồn mở, nghiên cứu thực hiện đánh giá mang tính phân tích để đo lường năng lực và giới hạn của các tác nhân LM, đồng thời làm rõ hành vi của tác nhân, từ đó giúp xây dựng các tác nhân LM mạnh mẽ và vững chắc hơn.
> A comprehensive benchmark with an open-source evaluation framework to perform analytical evaluation of llm agents; helps to assess the capabilities and limitations of llm agents and demystifies agent behaviors which leads to building stronger and robust llm agents.
Tóm tắt bài báo (Abstract)
- Việc đánh giá các mô hình ngôn ngữ lớn (LLM) như những tác tử đa dụng là điều thiết yếu để hiểu năng lực của chúng và giúp tích hợp chúng dễ dàng vào các ứng dụng thực tế. Tuy nhiên, quá trình đánh giá đi kèm với nhiều khó khăn đáng kể. Đặc biệt, trở ngại lớn nhất là việc benchmark hiệu năng tác tử trên nhiều kịch bản khác nhau trong một framework thống nhất, nhất là khi cần duy trì các môi trường chỉ quan sát được một phần và bảo đảm các tương tác nhiều lượt. Hơn nữa, các framework đánh giá hiện nay phần lớn tập trung vào tỷ lệ thành công cuối cùng, nên hầu như không làm lộ ra insight trong suốt quá trình và không cung cấp được sự hiểu biết sâu về năng lực của mô hình. Để giải quyết những vấn đề này, Unity đã giới thiệu AgentBoard, một benchmark toàn diện mang tính tiên phong cùng framework đánh giá mã nguồn mở đi kèm, được thiết kế riêng cho việc đánh giá phân tích các tác tử LLM. AgentBoard cung cấp bộ công cụ đánh giá toàn diện cho phép đánh giá tác tử dễ dàng để phân tích đa chiều, thông qua chỉ số tiến độ chi tiết có thể nắm bắt các bước tiến dần dần và trực quan hóa tương tác. Điều này không chỉ giúp làm rõ năng lực và giới hạn của các tác tử LLM mà còn nâng cao khả năng diễn giải hiệu năng của chúng. Cuối cùng, AgentBoard đóng vai trò là một bước tiến quan trọng trong việc giải mã hành vi tác tử và thúc đẩy phát triển các tác tử LLM mạnh mẽ hơn.
> Evaluating large language models (LLMs) as general-purpose agents is essential for understanding their capabilities and facilitating their integration into practical applications. However, the evaluation process presents substantial challenges. A primary obstacle is the benchmarking of agent performance across diverse scenarios within a unified framework, especially in maintaining partially-observable environments and ensuring multi-round interactions. Moreover, current evaluation frameworks mostly focus on the final success rate, revealing few insights during the process and failing to provide a deep understanding of the model abilities. To address these challenges, we introduce AgentBoard, a pioneering comprehensive benchmark and accompanied open-source evaluation framework tailored to analytical evaluation of LLM agents. AgentBoard offers a fine-grained progress rate metric that captures incremental advancements as well as a comprehensive evaluation toolkit that features easy assessment of agents for multi-faceted analysis through interactive visualization. This not only sheds light on the capabilities and limitations of LLM agents but also propels the interpretability of their performance to the forefront. Ultimately, AgentBoard serves as a significant step towards demystifying agent behaviors and accelerating the development of stronger LLM agents.
Liên kết bài báo
https://arxiv.org/abs/2401.13178v1
Đọc thêm
https://x.com/ma_chang_nlp/status/1750369056539218082
Bản gốc
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-5c8
⚠️Quảng cáo⚠️: Bạn thấy bài viết này do Cộng đồng người dùng PyTorch Hàn Quốc tổng hợp có hữu ích không? Nếu đăng ký thành viên, bạn sẽ nhận được các bài viết nổi bật qua email! (Mặc định là Weekly nhưng cũng có thể đổi sang Daily.)
Chưa có bình luận nào.