04] Các bài báo ML nổi bật trong tuần (Top ML Papers of the Week)

(discuss.pytorch.kr)

1 điểm bởi ninebow 2024-02-05 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Tổng quan

Đây là bản dịch tự động bài viết về các bài báo ML được DAIR.AI công bố hằng tuần.
Xét xu hướng của các bài báo được chọn trong tuần này, có thể thấy nổi bật là các nghiên cứu về mô hình ngôn ngữ lớn (Large Language Models, LLMs) và các biến thể của chúng. Dựa trên tiêu đề các bài như "OLMo", "Advances in Multimodal LLMs", "Corrective RAG", "LLMs for Mathematical Reasoning", "Compression Algorithms for LLMs", "MoE-LLaVA", "Rephrasing the Web", "Redefining Retrieval in RAG", "Hallucination in LVLMs", "SliceGPT", có thể nhận thấy các nghiên cứu tập trung vào việc cải thiện hiệu năng của mô hình ngôn ngữ, mở rộng ứng dụng và tăng hiệu quả đang diễn ra rất sôi nổi.
Xu hướng nghiên cứu này có thể được hiểu là kết quả phản ánh những nỗ lực liên tục của cả giới học thuật lẫn công nghiệp nhằm vượt qua giới hạn của công nghệ xử lý ngôn ngữ và giải quyết các vấn đề ngày càng phức tạp hơn. Gần đây, LLMs đã vượt ra ngoài xử lý văn bản đơn thuần để mở rộng sang nhiều lĩnh vực như suy luận toán học phức tạp, xử lý dữ liệu đa phương thức, truy xuất và tái cấu trúc thông tin tinh vi hơn. Ngoài ra, do kích thước lớn và độ phức tạp cao của các mô hình này, những kỹ thuật như nén mô hình đang trở thành yếu tố cốt lõi giúp triển khai và sử dụng mô hình hiệu quả hơn trong môi trường thực tế. Xu hướng hiện nay là các kỹ thuật này ngày càng được coi trọng trong những trường hợp cần vận hành mô hình quy mô lớn với nguồn lực tương đối hạn chế.
Bên cạnh đó, các nghiên cứu về 'Multimodal LLMs' và 'MoE-LLaVA' cho thấy sự phát triển của các phương thức xử lý tích hợp nhiều dạng dữ liệu ngoài văn bản (ví dụ: hình ảnh, âm thanh, v.v.), qua đó mở ra khả năng để các hệ thống trí tuệ nhân tạo hiểu và khai thác thông tin của thế giới thực phong phú hơn. Với vai trò là các kỹ thuật nhằm nâng cao khả năng diễn giải và độ tin cậy của mô hình, 'Corrective RAG' và 'Redefining Retrieval in RAG' có thể được xem là những nỗ lực cải thiện quá trình suy luận của mô hình và độ chính xác của kết quả đầu ra; còn 'Hallucination in LVLMs' và 'Rephrasing the Web' là những nghiên cứu tiêu biểu hướng tới nâng cao chất lượng nội dung do mô hình tạo ra. Tất cả các xu hướng này đều được đánh giá là tín hiệu báo trước sự xuất hiện của các hệ thống trí tuệ nhân tạo ngày càng thông minh và tinh vi hơn trong tương lai gần.

OLMo: Tăng tốc khoa học về mô hình ngôn ngữ / OLMo: Accelerating the Science of Language Models

Giới thiệu bài báo

Giới thiệu OLMo, một mô hình ngôn ngữ mở với 7 tỷ tham số, bao gồm mã huấn luyện mở, dữ liệu mở, toàn bộ trọng số mô hình, mã đánh giá và mã tinh chỉnh; mô hình này cho thấy hiệu năng mạnh mẽ trên nhiều tác vụ sinh; ngoài ra còn có phiên bản nhỏ hơn là olmo 1b.

Introduces open language model (olmo), a 7b parameter model; it includes open training code, open data, full model weights, evaluation code, and fine-tuning code; it shows strong performance on many generative tasks; there is also a smaller version of it, olmo 1b.

Tóm tắt bài báo (Abstract)

Các mô hình ngôn ngữ (LM) đã trở nên phổ biến rộng rãi trong cả nghiên cứu NLP lẫn các sản phẩm thương mại. Khi tầm quan trọng thương mại của mô hình ngôn ngữ tăng vọt, những mô hình mạnh nhất lại trở nên khép kín, bị đặt sau các giao diện độc quyền, và các chi tiết quan trọng về dữ liệu huấn luyện, kiến trúc cũng như quá trình phát triển không được công bố. Xét đến tầm quan trọng của những chi tiết này trong việc nghiên cứu các mô hình một cách khoa học, bao gồm cả thiên lệch và các rủi ro tiềm ẩn của chúng, chúng tôi tin rằng cộng đồng nghiên cứu cần được tiếp cận với những LM mạnh mẽ và thực sự mở. Nhằm mục đích đó, báo cáo kỹ thuật này trình bày chi tiết bản phát hành đầu tiên của OLMo, một mô hình ngôn ngữ mở thực sự, tiên tiến hàng đầu và là một framework để xây dựng cũng như nghiên cứu khoa học về mô hình ngôn ngữ. Khác với phần lớn các nỗ lực trước đây chỉ công bố trọng số mô hình và mã suy luận, chúng tôi phát hành OLMo cùng toàn bộ framework, bao gồm dữ liệu huấn luyện và mã huấn luyện lẫn đánh giá. Chúng tôi hy vọng bản phát hành này sẽ trao quyền và củng cố cộng đồng nghiên cứu mở, đồng thời khơi nguồn cho một làn sóng đổi mới mới.

Language models (LMs) have become ubiquitous in both NLP research and in commercial product offerings. As their commercial importance has surged, the most powerful models have become closed off, gated behind proprietary interfaces, with important details of their training data, architectures, and development undisclosed. Given the importance of these details in scientifically studying these models, including their biases and potential risks, we believe it is essential for the research community to have access to powerful, truly open LMs. To this end, this technical report details the first release of OLMo, a state-of-the-art, truly Open Language Model and its framework to build and study the science of language modeling. Unlike most prior efforts that have only released model weights and inference code, we release OLMo and the whole framework, including training data and training and evaluation code. We hope this release will empower and strengthen the open research community and inspire a new wave of innovation.

Liên kết bài báo

https://arxiv.org/abs/2402.00838

Đọc thêm

https://x.com/omarsar0/status/1753080417530318872

MM-LLM: Những tiến bộ gần đây của mô hình ngôn ngữ lớn đa phương thức / MM-LLMs: Recent Advances in MultiModal Large Language Models

Giới thiệu bài báo

Đây là một bài khảo sát toàn diện trình bày các công thức thiết kế cho kiến trúc mô hình và pipeline huấn luyện xoay quanh các mô hình ngôn ngữ lớn đa phương thức.

A comprehensive survey outlining design formulations for model architecture and training pipeline around multimodal large language models.

Quảng cáo

Tóm tắt bài báo (Abstract)

Trong một năm qua, các mô hình ngôn ngữ lớn đa phương thức (MM-LLM) đã đạt được nhiều bước tiến đáng kể, như tăng cường các LLM có sẵn để hỗ trợ đầu vào hoặc đầu ra đa phương thức thông qua các chiến lược huấn luyện tiết kiệm chi phí. Kết quả là, các mô hình này không chỉ bảo toàn năng lực suy luận và ra quyết định vốn có của LLM mà còn có thể hỗ trợ nhiều tác vụ đa phương thức khác nhau. Bài báo này cung cấp một khảo sát toàn diện nhằm thúc đẩy nghiên cứu sâu hơn về MM-LLM. Cụ thể, trước tiên tác giả trình bày các công thức thiết kế tổng quát cho kiến trúc mô hình và pipeline huấn luyện. Sau đó, bài báo giới thiệu ngắn gọn 26 MM-LLM hiện có, cùng những MM-LLM được đặc trưng bởi các công thức cụ thể của từng mô hình. Ngoài ra, bài báo xem xét hiệu năng của MM-LLM trên các benchmark chủ đạo và tóm tắt các công thức huấn luyện quan trọng để nâng cao hiệu quả của MM-LLM. Cuối cùng, nhóm tác giả khám phá các hướng đi đầy hứa hẹn cho MM-LLM, đồng thời vận hành một website theo dõi theo thời gian thực các xu hướng phát triển mới nhất trong lĩnh vực này. Hy vọng khảo sát này có thể đóng góp cho sự phát triển liên tục của lĩnh vực MM-LLM.

In the past year, MultiModal Large Language Models (MM-LLMs) have undergone substantial advancements, augmenting off-the-shelf LLMs to support MM inputs or outputs via cost-effective training strategies. The resulting models not only preserve the inherent reasoning and decision-making capabilities of LLMs but also empower a diverse range of MM tasks. In this paper, we provide a comprehensive survey aimed at facilitating further research of MM-LLMs. Specifically, we first outline general design formulations for model architecture and training pipeline. Subsequently, we provide brief introductions of $26$ existing MM-LLMs, each characterized by its specific formulations. Additionally, we review the performance of MM-LLMs on mainstream benchmarks and summarize key training recipes to enhance the potency of MM-LLMs. Lastly, we explore promising directions for MM-LLMs while concurrently maintaining a real-time tracking website for the latest developments in the field. We hope that this survey contributes to the ongoing advancement of the MM-LLMs domain.

Liên kết bài báo

https://arxiv.org/abs/2401.13601

Đọc thêm

https://x.com/omarsar0/status/1751705689964089616

CRAG: Sinh tăng cường truy xuất có hiệu chỉnh / Corrective Retrieval Augmented Generation

Giới thiệu bài báo

Để cải thiện độ vững chắc của quá trình sinh trong hệ thống RAG, bài báo đề xuất Corrective Retrieval Augmented Generation (CRAG). Ý tưởng cốt lõi là triển khai một thành phần tự hiệu chỉnh cho bộ truy xuất và cải thiện mức độ tận dụng các tài liệu đã truy xuất để phục vụ sinh tăng cường; bộ đánh giá truy xuất sẽ đánh giá chất lượng tổng thể của các tài liệu đã truy xuất khi có truy vấn đầu vào; việc sử dụng tìm kiếm web và các thao tác tận dụng tri thức được tối ưu hóa có thể cải thiện khả năng tự hiệu chỉnh tự động cũng như hiệu quả sử dụng các tài liệu đã truy xuất.

Proposes corrective retrieval augmented generation (CRAG) to improve the robustness of generation in a rag system; the core idea is to implement a self-correct component for the retriever and improve the utilization of retrieved documents for augmenting generation; the retrieval evaluator helps to assess the overall quality of retrieved documents given a query; using web search and optimized knowledge utilization operations can improve automatic self-correction and efficient utilization of retrieved documents.

Tóm tắt bài báo (Abstract)

Các mô hình ngôn ngữ lớn (LLM) tất yếu xuất hiện hiện tượng hallucination vì không thể bảo đảm độ chính xác của văn bản được tạo ra chỉ bằng tri thức tham số mà chúng chứa đựng. Retrieval-augmented generation (RAG) là một cách thực tiễn để bổ trợ cho LLM, nhưng vì phụ thuộc rất nhiều vào mức độ liên quan của các tài liệu được truy xuất nên làm dấy lên lo ngại về cách mô hình sẽ hoạt động khi việc truy xuất bị sai. Để giải quyết điều này, chúng tôi đề xuất Corrective Retrieval Augmented Generation (CRAG) nhằm cải thiện độ vững chắc của quá trình tạo sinh. Cụ thể, một bộ đánh giá truy xuất nhẹ được thiết kế để đánh giá chất lượng tổng thể của các tài liệu truy xuất cho một truy vấn và trả về mức độ tin cậy, dựa trên đó có thể kích hoạt các hành động truy xuất tri thức khác nhau. Vì việc truy xuất từ các kho ngữ liệu tĩnh và hạn chế chỉ có thể trả về những tài liệu chưa tối ưu, tìm kiếm web quy mô lớn được sử dụng như một phần mở rộng để tăng cường kết quả truy xuất. Ngoài ra, một thuật toán phân rã rồi tái cấu trúc cũng được thiết kế cho các tài liệu truy xuất nhằm chọn lọc tập trung vào thông tin cốt lõi và lọc bỏ thông tin không liên quan. CRAG có tính plug-and-play và có thể kết hợp liền mạch với nhiều cách tiếp cận dựa trên RAG khác nhau. Kết quả thực nghiệm trên 4 bộ dữ liệu bao gồm cả tác vụ tạo sinh ngắn và dài cho thấy CRAG có thể cải thiện đáng kể hiệu năng của các cách tiếp cận dựa trên RAG.

Large language models (LLMs) inevitably exhibit hallucinations since the accuracy of generated texts cannot be secured solely by the parametric knowledge they encapsulate. Although retrieval-augmented generation (RAG) is a practicable complement to LLMs, it relies heavily on the relevance of retrieved documents, raising concerns about how the model behaves if retrieval goes wrong. To this end, we propose the Corrective Retrieval Augmented Generation (CRAG) to improve the robustness of generation. Specifically, a lightweight retrieval evaluator is designed to assess the overall quality of retrieved documents for a query, returning a confidence degree based on which different knowledge retrieval actions can be triggered. Since retrieval from static and limited corpora can only return sub-optimal documents, large-scale web searches are utilized as an extension for augmenting the retrieval results. Besides, a decompose-then-recompose algorithm is designed for retrieved documents to selectively focus on key information and filter out irrelevant information in them. CRAG is plug-and-play and can be seamlessly coupled with various RAG-based approaches. Experiments on four datasets covering short- and long-form generation tasks show that CRAG can significantly improve the performance of RAG-based approaches.

Link bài báo

https://arxiv.org/abs/2401.15884

Đọc thêm

https://x.com/omarsar0/status/1752173216942944556

Mô hình ngôn ngữ lớn cho suy luận toán học: Tiến triển và thách thức / Large Language Models for Mathematical Reasoning: Progresses and Challenges

Giới thiệu bài báo

Giới thiệu tổng quan về các phát triển nghiên cứu của machine learning cho suy luận toán học, đồng thời thảo luận về những tiến bộ, năng lực, hạn chế và ứng dụng nhằm truyền cảm hứng cho nghiên cứu đang tiếp diễn về machine learning dành cho suy luận toán học.

Introduces an overview of research developments in llms for mathematical reasoning; discusses advancements, capabilities, limitations, and applications to inspire ongoing research on llms for mathematics.
Quảng cáo

Tóm tắt bài báo (Abstract)

Suy luận toán học đóng vai trò là nền tảng cốt lõi để đánh giá các năng lực nhận thức cơ bản của trí tuệ con người. Gần đây, đã có sự gia tăng đáng chú ý trong việc phát triển các mô hình ngôn ngữ lớn (LLM) hướng tới giải tự động các bài toán toán học. Tuy nhiên, bối cảnh các loại bài toán toán học là vô cùng rộng lớn và đa dạng, với các kỹ thuật hướng LLM được đánh giá trên nhiều bộ dữ liệu và thiết lập khác nhau. Sự đa dạng này khiến việc nhận diện những tiến bộ và trở ngại thực sự trong lĩnh vực đang phát triển nhanh chóng này trở nên khó khăn. Bài khảo sát này cố gắng giải quyết bốn khía cạnh then chốt: i) khám phá toàn diện các bài toán toán học đa dạng và các bộ dữ liệu tương ứng đã được nghiên cứu; ii) khảo sát phổ các kỹ thuật hướng LLM đã được đề xuất cho việc giải toán; iii) tổng quan về các yếu tố và mối quan ngại ảnh hưởng đến LLM trong việc giải toán; và iv) làm rõ những thách thức còn tồn tại trong lĩnh vực này. Theo hiểu biết của chúng tôi, bài khảo sát này là một trong những nghiên cứu chuyên sâu đầu tiên về bức tranh toàn cảnh của LLM trong lĩnh vực toán học, mang lại góc nhìn tổng thể về hiện trạng, thành tựu và các thách thức tương lai của lĩnh vực đang tiến hóa nhanh này.

Mathematical reasoning serves as a cornerstone for assessing the fundamental cognitive capabilities of human intelligence. In recent times, there has been a notable surge in the development of Large Language Models (LLMs) geared towards the automated resolution of mathematical problems. However, the landscape of mathematical problem types is vast and varied, with LLM-oriented techniques undergoing evaluation across diverse datasets and settings. This diversity makes it challenging to discern the true advancements and obstacles within this burgeoning field. This survey endeavors to address four pivotal dimensions: i) a comprehensive exploration of the various mathematical problems and their corresponding datasets that have been investigated; ii) an examination of the spectrum of LLM-oriented techniques that have been proposed for mathematical problem-solving; iii) an overview of factors and concerns affecting LLMs in solving math; and iv) an elucidation of the persisting challenges within this domain. To the best of our knowledge, this survey stands as one of the first extensive examinations of the landscape of LLMs in the realm of mathematics, providing a holistic perspective on the current state, accomplishments, and future challenges in this rapidly evolving field.

Link bài báo

https://arxiv.org/abs/2402.00157

Đọc thêm

https://x.com/omarsar0/status/1753424518171738194

Khảo sát toàn diện về các thuật toán nén cho mô hình ngôn ngữ / A Comprehensive Survey of Compression Algorithms for Language Models

Giới thiệu bài báo

Đề cập đến các thuật toán nén như pruning, quantization, knowledge distillation, low-rank approximation, parameter sharing và thiết kế kiến trúc hiệu quả.

Covers compression algorithms like pruning, quantization, knowledge distillation, low-rank approximation, parameter sharing, and efficient architecture design.

Tóm tắt bài báo (Abstract)

Làm thế nào để nén mô hình ngôn ngữ mà không làm giảm độ chính xác? Số lượng thuật toán nén cho mô hình ngôn ngữ đang tăng rất nhanh nhằm tận dụng những tiến bộ đáng kể của các mô hình ngôn ngữ gần đây mà không phải chịu các tác dụng phụ do kích thước khổng lồ của chúng gây ra, chẳng hạn như lượng phát thải carbon gia tăng và chi phí bảo trì đắt đỏ. Trong khi nhiều thuật toán nén đã cho thấy bước tiến ấn tượng trong việc nén mô hình ngôn ngữ, trớ trêu thay, việc nắm bắt các xu hướng mới nổi và xác định các khái niệm nền tảng bên dưới chúng lại trở nên khó khăn do số lượng thuật toán quá lớn. Trong bài báo này, tác giả khảo sát và tóm lược nhiều thuật toán nén khác nhau, bao gồm pruning, quantization, knowledge distillation, low-rank approximation, parameter sharing và thiết kế kiến trúc hiệu quả. Không chỉ tổng hợp xu hướng chung của các thuật toán nén đa dạng, bài báo còn lựa chọn các thuật toán tiêu biểu và cung cấp phân tích chuyên sâu về chúng. Tác giả thảo luận về giá trị của từng nhóm thuật toán nén, cũng như các đặc tính mong muốn của những thuật toán nén chi phí thấp đang tạo ra tác động lớn cùng với sự xuất hiện của các mô hình ngôn ngữ lớn. Cuối cùng, dựa trên kết quả khảo sát, bài báo giới thiệu các chủ đề nghiên cứu đầy hứa hẹn trong tương lai.

How can we compress language models without sacrificing accuracy? The number of compression algorithms for language models is rapidly growing to benefit from remarkable advances of recent language models without side effects due to the gigantic size of language models, such as increased carbon emissions and expensive maintenance fees. While numerous compression algorithms have shown remarkable progress in compressing language models, it ironically becomes challenging to capture emerging trends and identify the fundamental concepts underlying them due to the excessive number of algorithms. In this paper, we survey and summarize diverse compression algorithms including pruning, quantization, knowledge distillation, low-rank approximation, parameter sharing, and efficient architecture design. We not only summarize the overall trend of diverse compression algorithms but also select representative algorithms and provide in-depth analyses of them. We discuss the value of each category of compression algorithms, and the desired properties of low-cost compression algorithms which have a significant impact due to the emergence of large language models. Finally, we introduce promising future research topics based on our survey results.

Liên kết bài báo

https://arxiv.org/abs/2401.15347

Đọc thêm

https://x.com/omarsar0/status/1752746770377974072

MoE-LLaVA: Tổ hợp chuyên gia cho các mô hình thị giác-ngôn ngữ quy mô lớn / MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

Giới thiệu bài báo

Sử dụng tinh chỉnh mixture of experts cho các mô hình thị giác-ngôn ngữ quy mô lớn để xây dựng một mô hình thưa với số lượng tham số giảm mạnh nhưng vẫn giữ chi phí tính toán ổn định; cách tiếp cận này cũng giúp giải quyết sự suy giảm hiệu năng liên quan đến học đa phương thức và tính thưa của mô hình.

Employs mixture of experts tuning for large vision-language models which constructs a sparse model with a substantial reduction in parameters with a constant computational cost; this approach also helps to address performance degradation associated with multi-modal learning and model sparsity.

Tóm tắt bài báo (Abstract)

Đối với các mô hình thị giác-ngôn ngữ quy mô lớn (LVLM), việc mở rộng mô hình có thể cải thiện hiệu năng một cách hiệu quả. Tuy nhiên, khi mở rộng số lượng tham số của mô hình, chi phí huấn luyện và suy luận tăng lên đáng kể vì mọi tham số của mô hình đều được kích hoạt cho mỗi token trong quá trình tính toán. Nghiên cứu này đề xuất MoE-tuning như một chiến lược huấn luyện mới cho LVLM, có thể xây dựng một mô hình thưa với số lượng tham số cực lớn nhưng chi phí tính toán không đổi, đồng thời giải quyết hiệu quả sự suy giảm hiệu năng thường đi kèm với học đa phương thức và tính thưa của mô hình. Ngoài ra, nhóm tác giả giới thiệu framework MoE-LLaVA, một kiến trúc LVLM thưa dựa trên MoE. Framework này chỉ kích hoạt top-k expert thông qua router trong quá trình triển khai, còn các expert còn lại được giữ ở trạng thái không hoạt động. Các thí nghiệm diện rộng của Unity cho thấy năng lực vượt trội của MoE-LLaVA trong hiểu thị giác và tiềm năng giảm hiện tượng hallucination trong đầu ra của mô hình. Đáng chú ý, chỉ với 3 tỷ tham số được kích hoạt thưa, MoE-LLaVA đạt hiệu năng tương đương LLaVA-1.5-7B trên nhiều bộ dữ liệu hiểu thị giác khác nhau, thậm chí còn vượt LLaVA-1.5-13B trên benchmark về object hallucination. Thông qua MoE-LLaVA, Unity kỳ vọng thiết lập một baseline cho LVLM thưa và cung cấp những insight giá trị cho các nghiên cứu tương lai nhằm phát triển các hệ thống học đa phương thức hiệu quả và hữu hiệu hơn. Mã nguồn được công bố tại \url{https://github.com/PKU-YuanGroup/MoE-LLaVA}.

For Large Vision-Language Models (LVLMs), scaling the model can effectively improve performance. However, expanding model parameters significantly increases the training and inferring costs, as all model parameters are activated for each token in the calculation. In this work, we propose a novel training strategy MoE-tuning for LVLMs, which can constructing a sparse model with an outrageous number of parameter but a constant computational cost, and effectively addresses the performance degradation typically associated with multi-modal learning and model sparsity. Furthermore, we present the MoE-LLaVA framework, a MoE-based sparse LVLM architecture. This framework uniquely activates only the top-k experts through routers during deployment, keeping the remaining experts inactive. Our extensive experiments highlight the excellent capabilities of MoE-LLaVA in visual understanding and its potential to reduce hallucinations in model outputs. Remarkably, with just 3 billion sparsely activated parameters, MoE-LLaVA demonstrates performance comparable to the LLaVA-1.5-7B on various visual understanding datasets and even surpasses the LLaVA-1.5-13B in object hallucination benchmarks. Through MoE-LLaVA, we aim to establish a baseline for sparse LVLMs and provide valuable insights for future research in developing more efficient and effective multi-modal learning systems. Code is released at \url{https://github.com/PKU-YuanGroup/MoE-LLaVA}.

Liên kết bài báo

https://arxiv.org/abs/2401.15947

Đọc thêm

https://github.com/PKU-YuanGroup/MoE-LLaVA

https://x.com/LinBin46984/status/1753403875531375003

Viết lại web: Công thức cho mô hình hóa ngôn ngữ hiệu quả về tính toán và dữ liệu / Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling

Giới thiệu bài báo

Sử dụng một mô hình đã được tinh chỉnh theo chỉ dẫn có sẵn, được nhắc để diễn đạt lại các tài liệu web theo những phong cách và định dạng cụ thể như “giống Wikipedia” hoặc “định dạng hỏi-đáp”, nhằm đồng tiền huấn luyện các LLM trên cả bản diễn đạt lại thực và tổng hợp; cách này tăng tốc tiền huấn luyện lên khoảng 3 lần, cải thiện perplexity và nâng cao độ chính xác của hỏi đáp zero-shot trên nhiều tác vụ.

Uses an off-the-shelf instruction-tuned model prompted to paraphrase web documents in specific styles and formats such as “like wikipedia” or “question-answer format” to jointly pre-train llms on real and synthetic rephrases; it speeds up pre-training by ~3x, improves perplexity, and improves zero-shot question answering accuracy on many tasks.

Tóm tắt bài báo (Abstract)

Các mô hình ngôn ngữ lớn thường được huấn luyện trên các tập dữ liệu web scrape khổng lồ vốn thiếu cấu trúc, nhiều nhiễu và diễn đạt kém. Theo các quy luật mở rộng hiện nay, việc học từ loại dữ liệu này đòi hỏi cả tài nguyên tính toán lẫn dữ liệu dồi dào, và nhu cầu đó tăng theo kích thước của mô hình đang được huấn luyện. Điều này trở nên không khả thi do chi phí và thời gian tiền huấn luyện quá lớn, cùng với tình trạng khan hiếm ngày càng tăng của dữ liệu chất lượng cao trên web. Trong nghiên cứu này, nhóm tác giả đề xuất Web Rephrase Augmented Pre-training ($\textbf{WRAP}$), sử dụng một mô hình instruction-tuned có sẵn được nhắc để diễn giải lại các tài liệu trên web theo các phong cách cụ thể như “giống Wikipedia” hoặc “định dạng hỏi-đáp”, nhằm đồng tiền huấn luyện LLM trên cả bản diễn giải thật và tổng hợp. Trước hết, họ cho thấy việc dùng WRAP trên bộ dữ liệu C4 vốn có nhiều nhiễu tự nhiên giúp tăng tốc tiền huấn luyện khoảng $\sim3x$. Với cùng ngân sách tính toán tiền huấn luyện, phương pháp này cải thiện perplexity hơn 10% trung bình trên nhiều tập con khác nhau của Pile, đồng thời tăng độ chính xác trả lời câu hỏi zero-shot hơn 2% trên 13 tác vụ. Thứ hai, họ khảo sát tác động của phong cách diễn giải lại đối với hiệu năng mô hình, từ đó cung cấp góc nhìn về cách thành phần của dữ liệu huấn luyện có thể ảnh hưởng đến hiệu năng của LLM trong các thiết lập OOD. Những cải thiện này được cho là đến từ việc dữ liệu tổng hợp đã được diễn giải lại có tính hữu ích cao hơn dữ liệu thực đơn thuần vì nó (i) bao gồm sự đa dạng về phong cách phản ánh sát hơn phong cách đánh giá downstream, và (ii) có “chất lượng” cao hơn dữ liệu web scrape.

Large language models are trained on massive scrapes of the web, which are often unstructured, noisy, and poorly phrased. Current scaling laws show that learning from such data requires an abundance of both compute and data, which grows with the size of the model being trained. This is infeasible both because of the large compute costs and duration associated with pre-training, and the impending scarcity of high-quality data on the web. In this work, we propose Web Rephrase Augmented Pre-training ($\textbf{WRAP}$) that uses an off-the-shelf instruction-tuned model prompted to paraphrase documents on the web in specific styles such as "like Wikipedia" or in "question-answer format" to jointly pre-train LLMs on real and synthetic rephrases. First, we show that using WRAP on the C4 dataset, which is naturally noisy, speeds up pre-training by $\sim3x$. At the same pre-training compute budget, it improves perplexity by more than 10% on average across different subsets of the Pile, and improves zero-shot question answer accuracy across 13 tasks by more than 2%. Second, we investigate the impact of the re-phrasing style on the performance of the model, offering insights into how the composition of the training data can impact the performance of LLMs in OOD settings. Our gains are attributed to the fact that re-phrased synthetic data has higher utility than just real data because it (i) incorporates style diversity that closely reflects downstream evaluation style, and (ii) has higher 'quality' than web-scraped data.

Quảng cáo

Link bài báo

https://arxiv.org/abs/2401.16380

Đọc thêm

https://x.com/pratyushmaini/status/1752337225097076809

Sức mạnh của nhiễu: Định nghĩa lại truy hồi cho các hệ thống RAG / The Power of Noise: Redefining Retrieval for RAG Systems

Giới thiệu bài báo

Nghiên cứu này tập trung vào các thành phần cần thiết để cải thiện thành phần truy hồi của một hệ thống RAG; xác nhận rằng vị trí của thông tin liên quan nên được đặt gần truy vấn, nếu không mô hình sẽ gặp khó khăn trong việc chú ý tới thông tin đó; điều đáng ngạc nhiên là các tài liệu liên quan không nhất thiết dẫn đến cải thiện hiệu năng cho hệ thống RAG; và bất ngờ hơn nữa, các tài liệu không liên quan và nhiều nhiễu cũng có thể giúp tăng độ chính xác nếu được đặt đúng cách.

a study that focuses on the components needed to improve the retrieval component of a rag system; confirms that the position of relevant information should be placed near the query, the model will struggle to attend to the information if this is not the case; surprisingly, it finds that related documents don't necessarily lead to improved performance for the rag system; even more unexpectedly, irrelevant and noisy documents can help drive up accuracy if placed correctly.

Tóm tắt(Abstract)

Hệ thống Retrieval-Augmented Generation (RAG) là một bước tiến lớn so với các mô hình ngôn ngữ lớn (LLM) truyền thống. Hệ thống RAG cải thiện khả năng sinh bằng cách tích hợp dữ liệu bên ngoài được truy xuất qua giai đoạn Information Retrieval (IR), qua đó khắc phục những hạn chế của LLM tiêu chuẩn vốn bị giới hạn bởi tri thức đã tiền huấn luyện và cửa sổ ngữ cảnh hữu hạn. Phần lớn nghiên cứu trong lĩnh vực này chủ yếu tập trung vào khía cạnh sinh của LLM trong các hệ thống RAG. Nghiên cứu này lấp đầy khoảng trống đó bằng cách phân tích một cách kỹ lưỡng và phản biện ảnh hưởng của các thành phần IR đối với hệ thống RAG. Bài báo phân tích những đặc tính mà một bộ truy xuất cần có để xây dựng prompt hiệu quả cho RAG, tập trung vào loại tài liệu cần được truy xuất. Nghiên cứu đánh giá nhiều yếu tố khác nhau như mức độ liên quan giữa tài liệu và prompt, vị trí của tài liệu, và số lượng tài liệu được đưa vào ngữ cảnh. Kết quả cho thấy, trái với giả định ban đầu rằng việc đưa vào các tài liệu ít liên quan sẽ làm giảm chất lượng, điều này bất ngờ có thể nâng độ chính xác lên hơn 30%. Những kết quả này nhấn mạnh nhu cầu phát triển các chiến lược chuyên biệt để tích hợp truy xuất với các mô hình sinh ngôn ngữ, qua đó đặt nền tảng cho các nghiên cứu trong tương lai ở lĩnh vực này.

Retrieval-Augmented Generation (RAG) systems represent a significant advancement over traditional Large Language Models (LLMs). RAG systems enhance their generation ability by incorporating external data retrieved through an Information Retrieval (IR) phase, overcoming the limitations of standard LLMs, which are restricted to their pre-trained knowledge and limited context window. Most research in this area has predominantly concentrated on the generative aspect of LLMs within RAG systems. Our study fills this gap by thoroughly and critically analyzing the influence of IR components on RAG systems. This paper analyzes which characteristics a retriever should possess for an effective RAG's prompt formulation, focusing on the type of documents that should be retrieved. We evaluate various elements, such as the relevance of the documents to the prompt, their position, and the number included in the context. Our findings reveal, among other insights, that including irrelevant documents can unexpectedly enhance performance by more than 30% in accuracy, contradicting our initial assumption of diminished quality. These results underscore the need for developing specialized strategies to integrate retrieval with language generation models, thereby laying the groundwork for future research in this field.

Link bài báo

https://arxiv.org/abs/2401.14887

Đọc thêm

https://x.com/omarsar0/status/1751803310267314509

Bài báo khảo sát về hiện tượng ảo giác trong các mô hình thị giác-ngôn ngữ quy mô lớn / A Survey on Hallucination in Large Vision-Language Models

Giới thiệu bài báo

Thảo luận về vấn đề ảo giác trong các mô hình thị giác-ngôn ngữ quy mô lớn (LVLM; Large Vision-Language Model) và các kỹ thuật để giảm thiểu hiện tượng này; giới thiệu các phương pháp đánh giá và benchmark cho hiện tượng ảo giác của LVLM; đồng thời cung cấp các gợi ý và phân tích hữu ích về nguyên nhân gây ra ảo giác ở LVLM cũng như những cách tiềm năng để giảm thiểu nó.

Discusses hallucination issues and techniques to mitigate hallucination in large vision-language models (lvlm); it introduces lvlm hallucination evaluation methods and benchmarks; provides tips and a good analysis of the causes of lvlm hallucinations and potential ways to mitigate them.

Tóm tắt bài báo (Abstract)

Sự phát triển gần đây của các mô hình thị giác-ngôn ngữ quy mô lớn (LVLM) đang ngày càng thu hút nhiều sự chú ý trong bối cảnh AI nhờ tiềm năng ứng dụng thực tiễn của chúng. Tuy nhiên, “ảo giác”, hay cụ thể hơn là sự không khớp giữa nội dung hình ảnh mang tính sự thật và phần văn bản được sinh ra tương ứng, đang đặt ra một thách thức đáng kể đối với việc ứng dụng LVLM. Trong bài khảo sát toàn diện này, tác giả phân tích hiện tượng ảo giác liên quan đến LVLM nhằm xây dựng một cái nhìn tổng quan và thúc đẩy các hướng giảm thiểu trong tương lai. Khảo sát bắt đầu bằng việc làm rõ khái niệm ảo giác trong LVLM, trình bày nhiều biểu hiện khác nhau của hiện tượng này và nhấn mạnh những thách thức riêng vốn có trong ảo giác của LVLM. Tiếp theo, bài viết phác thảo các benchmark và phương pháp được thiết kế riêng để đánh giá những dạng ảo giác đặc thù của LVLM. Ngoài ra, bài viết đi sâu điều tra các nguyên nhân gốc rễ của hiện tượng này, bao gồm các insight từ dữ liệu huấn luyện và các thành phần của mô hình. Bài viết cũng rà soát một cách phản biện các phương pháp hiện có nhằm giảm thiểu ảo giác. Cuối cùng, khảo sát kết thúc bằng việc thảo luận các câu hỏi còn bỏ ngỏ và những định hướng tương lai liên quan đến hiện tượng ảo giác trong LVLM.

Recent development of Large Vision-Language Models (LVLMs) has attracted growing attention within the AI landscape for its practical implementation potential. However, ``hallucination'', or more specifically, the misalignment between factual visual content and corresponding textual generation, poses a significant challenge of utilizing LVLMs. In this comprehensive survey, we dissect LVLM-related hallucinations in an attempt to establish an overview and facilitate future mitigation. Our scrutiny starts with a clarification of the concept of hallucinations in LVLMs, presenting a variety of hallucination symptoms and highlighting the unique challenges inherent in LVLM hallucinations. Subsequently, we outline the benchmarks and methodologies tailored specifically for evaluating hallucinations unique to LVLMs. Additionally, we delve into an investigation of the root causes of these hallucinations, encompassing insights from the training data and model components. We also critically review existing methods for mitigating hallucinations. The open questions and future directions pertaining to hallucinations within LVLMs are discussed to conclude this survey.
Quảng cáo

Link bài báo

https://arxiv.org/abs/2402.00253

Đọc thêm

https://x.com/omarsar0/status/1753449211931079101

SliceGPT: Nén mô hình ngôn ngữ lớn bằng cách xóa hàng và cột / SliceGPT: Compress Large Language Models by Deleting Rows and Columns

Giới thiệu bài báo

Đây là một kỹ thuật nén LLM mới đề xuất cơ chế thưa hóa sau huấn luyện, thay thế mỗi ma trận trọng số bằng một ma trận dày nhỏ hơn; giúp giảm chiều embedding của mạng và có thể loại bỏ tới 20% tham số mô hình trên các mô hình Llama2-70B và Phi-2 trong khi vẫn giữ lại phần lớn hiệu năng zero-shot của mô hình dày.

A new llm compression technique that proposes a post-training sparsification scheme that replaces each weight matrix with a smaller dense matrix; helps reduce the embedding dimension of the network and can remove up to 20% of model parameters for llama2-70b and phi-2 models while retaining most of the zero-shot performance of the dense models.

Tóm tắt bài báo (Abstract)

Các mô hình ngôn ngữ lớn đã trở thành nền tảng của xử lý ngôn ngữ tự nhiên, nhưng việc sử dụng chúng đi kèm chi phí đáng kể về tài nguyên tính toán và bộ nhớ. Thưa hóa mang lại một giải pháp để giảm bớt các ràng buộc tài nguyên này, và các nghiên cứu gần đây cho thấy các mô hình đã huấn luyện có thể được thưa hóa hậu kỳ. Các kỹ thuật thưa hóa hiện có gặp thách thức vì cần thêm các cấu trúc dữ liệu bổ sung và chỉ mang lại mức tăng tốc hạn chế trên phần cứng hiện tại. Trong bài báo này, nhóm tác giả giới thiệu SliceGPT, một phương pháp thưa hóa sau huấn luyện mới thay thế mỗi ma trận trọng số bằng một ma trận nhỏ hơn (nhưng dày), từ đó giảm chiều embedding của mạng. Thông qua thực nghiệm diện rộng, nhóm cho thấy SliceGPT có thể loại bỏ tới 25% tham số mô hình (bao gồm cả embedding) đối với các mô hình LLAMA2-70B, OPT 66B và Phi-2, trong khi vẫn duy trì lần lượt 99%, 99% và 90% hiệu năng tác vụ zero-shot của mô hình dày. Các mô hình đã được cắt lát này chạy trên ít GPU hơn và chạy nhanh hơn mà không cần thêm tối ưu hóa mã nguồn nào: trên GPU tiêu dùng 24GB, tổng lượng tính toán cho suy luận với LLAMA2-70B được giảm xuống còn 64% so với mô hình dày; trên GPU A100 40GB, con số này giảm còn 66%. Nhóm tác giả đưa ra một góc nhìn mới về tính bất biến tính toán trong các mạng transformer, điều cho phép SliceGPT hoạt động, và hy vọng điều này sẽ mở ra cũng như truyền cảm hứng cho các hướng đi tương lai nhằm giảm nhu cầu bộ nhớ và tính toán của các mô hình tiền huấn luyện. Mã nguồn có tại: https://github.com/microsoft/TransformerCompression

Large language models have become the cornerstone of natural language processing, but their use comes with substantial costs in terms of compute and memory resources. Sparsification provides a solution to alleviate these resource constraints, and recent works have shown that trained models can be sparsified post-hoc. Existing sparsification techniques face challenges as they need additional data structures and offer constrained speedup with current hardware. In this paper we present SliceGPT, a new post-training sparsification scheme which replaces each weight matrix with a smaller (dense) matrix, reducing the embedding dimension of the network. Through extensive experimentation, we show that SliceGPT can remove up to 25% of the model parameters (including embeddings) for LLAMA2-70B, OPT 66B and Phi-2 models while maintaining 99%, 99% and 90% zero-shot task performance of the dense model respectively. Our sliced models run on fewer GPUs and run faster without any additional code optimization: on 24GB consumer GPUs we reduce the total compute for inference on LLAMA2-70B to 64% of that of the dense model; on 40GB A100 GPUs we reduce it to 66%. We offer a new insight, computational invariance in transformer networks, which enables SliceGPT and we hope it will inspire and enable future avenues to reduce memory and computation demands for pre-trained models. Code is available at: https://github.com/microsoft/TransformerCompression

⚠️Quảng cáo⚠️: Bạn thấy bài viết này do Cộng đồng người dùng PyTorch Hàn Quốc tổng hợp có hữu ích không? Nếu đăng ký làm thành viên, bạn sẽ nhận được các bài viết nổi bật qua email! (Mặc định là Weekly, nhưng cũng có thể chuyển sang Daily.)

[2024/01/29 ~ 02/04] Các bài báo ML nổi bật trong tuần (Top ML Papers of the Week)

Tổng quan

OLMo: Tăng tốc khoa học về mô hình ngôn ngữ / OLMo: Accelerating the Science of Language Models

Giới thiệu bài báo

Tóm tắt bài báo (Abstract)

Liên kết bài báo

Đọc thêm

MM-LLM: Những tiến bộ gần đây của mô hình ngôn ngữ lớn đa phương thức / MM-LLMs: Recent Advances in MultiModal Large Language Models

Giới thiệu bài báo

Tóm tắt bài báo (Abstract)

Liên kết bài báo

Đọc thêm

CRAG: Sinh tăng cường truy xuất có hiệu chỉnh / Corrective Retrieval Augmented Generation

Giới thiệu bài báo

Tóm tắt bài báo (Abstract)

Link bài báo

Đọc thêm

Mô hình ngôn ngữ lớn cho suy luận toán học: Tiến triển và thách thức / Large Language Models for Mathematical Reasoning: Progresses and Challenges

Giới thiệu bài báo

Tóm tắt bài báo (Abstract)

Link bài báo

Đọc thêm

Khảo sát toàn diện về các thuật toán nén cho mô hình ngôn ngữ / A Comprehensive Survey of Compression Algorithms for Language Models

Giới thiệu bài báo

Tóm tắt bài báo (Abstract)

Liên kết bài báo

Đọc thêm

MoE-LLaVA: Tổ hợp chuyên gia cho các mô hình thị giác-ngôn ngữ quy mô lớn / MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

Giới thiệu bài báo

Tóm tắt bài báo (Abstract)

Liên kết bài báo

Đọc thêm

Viết lại web: Công thức cho mô hình hóa ngôn ngữ hiệu quả về tính toán và dữ liệu / Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling

Giới thiệu bài báo

Tóm tắt bài báo (Abstract)

Link bài báo

Đọc thêm

Sức mạnh của nhiễu: Định nghĩa lại truy hồi cho các hệ thống RAG / The Power of Noise: Redefining Retrieval for RAG Systems

Giới thiệu bài báo

Tóm tắt(Abstract)

Link bài báo

Đọc thêm

Bài báo khảo sát về hiện tượng ảo giác trong các mô hình thị giác-ngôn ngữ quy mô lớn / A Survey on Hallucination in Large Vision-Language Models

Giới thiệu bài báo

Tóm tắt bài báo (Abstract)

Link bài báo

Đọc thêm

SliceGPT: Nén mô hình ngôn ngữ lớn bằng cách xóa hàng và cột / SliceGPT: Compress Large Language Models by Deleting Rows and Columns

Giới thiệu bài báo

Tóm tắt bài báo (Abstract)

Liên kết bài báo

Đọc thêm

Bản gốc

Bài viết liên quan

Chưa có bình luận nào.