[2023/11/06 ~ 11/12] Các bài báo ML nổi bật trong tuần (Top ML Papers of the Week)
(discuss.pytorch.kr)Tổng quan
-
Đây là bản dịch tự động bài viết về các bài báo ML được DAIR.AI công bố hằng tuần.
-
Nhìn vào các bài báo được chọn trong tuần này, có thể thấy xuất hiện nhiều nghiên cứu về mô hình Transformer và mô hình ngôn ngữ lớn (Large Language Models, LLM).
-
Các tiêu đề như 'Simplifying Transformer Blocks', 'Understanding In-Context Learning Abilities in Transformers', 'S-LoRA' dường như tập trung vào việc đào sâu hiểu biết về cấu trúc và cơ chế học của mô hình Transformer.
-
'Hallucination in LLMs', 'On the Road with GPT-4V(ision)', 'GPT4All' đề cập đến hiệu năng và các trường hợp ứng dụng của các mô hình ngôn ngữ lớn như GPT, cho thấy xu hướng nhấn mạnh mạnh mẽ vào sự phát triển và ứng dụng của mô hình ngôn ngữ lớn.
Khảo sát về hiện tượng ảo giác trong mô hình ngôn ngữ lớn: Nguyên lý, phân loại, thách thức và các câu hỏi bỏ ngỏ / A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions
Giới thiệu bài báo
- Một bài báo khảo sát toàn diện về hiện tượng ảo giác của LLM (hơn 50 trang), cung cấp thông tin về các nguyên lý, phân loại, thách thức và các câu hỏi mở liên quan đến vấn đề ảo giác trong LLM. #survey-paper #hallucination
> A comprehensive survey (50+ pages) on hallucination in llms; provides information about principles, taxonomy, challenges, and open questions related to the issue of hallucination in llms.
Tóm tắt bài báo
- Sự xuất hiện của các mô hình ngôn ngữ lớn (LLM) đã đánh dấu một bước đột phá quan trọng trong xử lý ngôn ngữ tự nhiên (NLP), dẫn đến những tiến bộ đáng kể trong việc hiểu và tạo sinh văn bản. Tuy nhiên, song hành với những bước tiến đó, LLM cũng bộc lộ xu hướng nghiêm trọng là tạo ra ảo giác, dẫn đến nội dung không nhất quán với sự thật trong thế giới thực hoặc với đầu vào của người dùng. Hiện tượng này đặt ra những thách thức lớn đối với việc triển khai trong thực tế và làm dấy lên lo ngại về độ tin cậy của LLM trong các bối cảnh thực tế, từ đó thu hút ngày càng nhiều sự quan tâm đến việc phát hiện và giảm thiểu các ảo giác này. Trong bài khảo sát này, chúng tôi hướng tới việc cung cấp một cái nhìn tổng quan kỹ lưỡng và chuyên sâu về những tiến triển gần đây trong lĩnh vực ảo giác của LLM. Trước hết, bài viết bắt đầu với một hệ thống phân loại mới cho ảo giác trong LLM, sau đó đi sâu vào các yếu tố góp phần gây ra ảo giác. Tiếp theo, bài viết trình bày cái nhìn tổng quan toàn diện về các phương pháp phát hiện ảo giác và các benchmark. Ngoài ra, các cách tiếp cận tiêu biểu được thiết kế để giảm thiểu ảo giác cũng được giới thiệu tương ứng. Cuối cùng, bài viết phân tích những thách thức phản ánh các giới hạn hiện tại và hình thành các câu hỏi bỏ ngỏ, nhằm phác thảo các hướng đi cho nghiên cứu tương lai về ảo giác trong LLM.
> The emergence of large language models (LLMs) has marked a significant breakthrough in natural language processing (NLP), leading to remarkable advancements in text understanding and generation. Nevertheless, alongside these strides, LLMs exhibit a critical tendency to produce hallucinations, resulting in content that is inconsistent with real-world facts or user inputs. This phenomenon poses substantial challenges to their practical deployment and raises concerns over the reliability of LLMs in real-world scenarios, which attracts increasing attention to detect and mitigate these hallucinations. In this survey, we aim to provide a thorough and in-depth overview of recent advances in the field of LLM hallucinations. We begin with an innovative taxonomy of LLM hallucinations, then delve into the factors contributing to hallucinations. Subsequently, we present a comprehensive overview of hallucination detection methods and benchmarks. Additionally, representative approaches designed to mitigate hallucinations are introduced accordingly. Finally, we analyze the challenges that highlight the current limitations and formulate open questions, aiming to delineate pathways for future research on hallucinations in LLMs.
Liên kết bài báo
https://arxiv.org/abs/2311.05232
Đọc thêm
https://x.com/omarsar0/status/1722985251129966705
Đơn giản hóa các khối Transformer / Simplifying Transformer Blocks
Giới thiệu bài báo
- Khám phá việc đơn giản hóa khối Transformer và phát hiện rằng có thể loại bỏ nhiều thành phần của khối mà không làm mất tốc độ huấn luyện; sử dụng các kiến trúc khác nhau như mô hình chỉ gồm decoder tự hồi quy và mô hình chỉ gồm encoder kiểu BERT, các khối được đơn giản hóa có thể mô phỏng tốc độ huấn luyện theo mỗi lần cập nhật và hiệu năng của Transformer tiêu chuẩn, thậm chí còn đạt thông lượng huấn luyện nhanh hơn 15% với số tham số ít hơn (15%).
> Explores simplifying the transformer block and finds that many block components can be removed with no loss of training speed; using different architectures like autoregressive decoder-only and bert encoder-only models, the simplified blocks emulate per-update training speed and performance of standard transformers, and even achieve 15% faster training throughput with fewer parameters (15%).
Tóm tắt bài báo
- Một công thức thiết kế đơn giản cho Transformer sâu là ghép các khối xây dựng giống hệt nhau. Nhưng các khối transformer tiêu chuẩn lại không hề đơn giản, khi đan xen các khối con attention và MLP với các kết nối skip và các lớp chuẩn hóa theo những cách sắp xếp rất chính xác. Sự phức tạp này dẫn đến các kiến trúc mong manh, nơi những thay đổi tưởng như nhỏ cũng có thể làm giảm đáng kể tốc độ huấn luyện hoặc khiến mô hình không thể huấn luyện được. Trong nghiên cứu này, chúng tôi đặt câu hỏi: khối transformer tiêu chuẩn có thể được đơn giản hóa đến mức nào? Bằng cách kết hợp lý thuyết lan truyền tín hiệu và các quan sát thực nghiệm, nghiên cứu đưa ra động lực cho những điều chỉnh cho phép loại bỏ nhiều thành phần của khối mà không làm mất tốc độ huấn luyện, bao gồm kết nối skip, tham số projection hoặc value, các khối con tuần tự và các lớp chuẩn hóa. Trong các thí nghiệm trên cả mô hình tự hồi quy chỉ gồm decoder và mô hình BERT chỉ gồm encoder, các transformer được đơn giản hóa đã mô phỏng tốc độ huấn luyện và hiệu năng theo từng lần cập nhật của transformer tiêu chuẩn, đồng thời đạt thông lượng huấn luyện nhanh hơn 15% và sử dụng ít tham số hơn 15%.
> A simple design recipe for deep Transformers is to compose identical building blocks. But standard transformer blocks are far from simple, interweaving attention and MLP sub-blocks with skip connections & normalisation layers in precise arrangements. This complexity leads to brittle architectures, where seemingly minor changes can significantly reduce training speed, or render models untrainable. In this work, we ask to what extent the standard transformer block can be simplified? Combining signal propagation theory and empirical observations, we motivate modifications that allow many block components to be removed with no loss of training speed, including skip connections, projection or value parameters, sequential sub-blocks and normalisation layers. In experiments on both autoregressive decoder-only and BERT encoder-only models, our simplified transformers emulate the per-update training speed and performance of standard transformers, while enjoying 15% faster training throughput, and using 15% fewer parameters.
Link bài báo
https://arxiv.org/abs/2311.01906
Đọc thêm
https://x.com/maksym_andr/status/1722235666724192688
Hỗn hợp dữ liệu tiền huấn luyện cho phép khả năng lựa chọn mô hình trong phạm vi hẹp ở các mô hình Transformer / Pretraining Data Mixtures Enable Narrow Model Selection Capabilities in Transformer Models
Giới thiệu bài báo
- Nghiên cứu xem các transformer có thể kết nối hỗn hợp dữ liệu tiền huấn luyện hiệu quả đến mức nào để nhận diện và học các tác vụ mới trong ngữ cảnh, cả bên trong lẫn bên ngoài phân phối tiền huấn luyện; trong các chế độ được khảo sát, bằng chứng cho thấy hành vi học trong ngữ cảnh của mô hình có thể khái quát vượt ra ngoài dữ liệu tiền huấn luyện là khá hạn chế.
> Investigates how effectively transformers can bridge between pretraining data mixture to identify and learn new tasks in-context which are both inside and outside the pretraining distribution; in the regimes studied, there is limited evidence that the models’ in-context learning behavior is capable of generalizing beyond their pretraining data.
Tóm tắt bài báo
- Các mô hình Transformer, đặc biệt là các mô hình ngôn ngữ lớn (LLM), sở hữu khả năng đáng chú ý là thực hiện học trong ngữ cảnh (ICL) — tức thực hiện các tác vụ mới khi được cung cấp các ví dụ đầu vào-đầu ra chưa từng thấy mà không cần huấn luyện mô hình một cách tường minh. Trong nghiên cứu này, chúng tôi xem xét việc các transformer có thể kết nối hỗn hợp dữ liệu tiền huấn luyện của chúng, vốn bao gồm nhiều họ tác vụ riêng biệt, hiệu quả đến mức nào để nhận diện và học các tác vụ mới trong ngữ cảnh, cả bên trong lẫn bên ngoài phân phối tiền huấn luyện. Dựa trên các nghiên cứu trước đó, chúng tôi khảo sát câu hỏi này trong một bối cảnh có kiểm soát, nơi nghiên cứu các mô hình transformer được huấn luyện trên các chuỗi cặp $(x, f(x))$ thay vì ngôn ngữ tự nhiên. Kết quả thực nghiệm cho thấy transformer thể hiện khả năng lựa chọn mô hình không giám sát gần như tối ưu: trước hết nhận diện các họ tác vụ khác nhau trong ngữ cảnh, rồi học trong ngữ cảnh bên trong các họ đó khi các họ tác vụ này được biểu diễn đầy đủ trong dữ liệu tiền huấn luyện. Tuy nhiên, khi được đưa ra các tác vụ hoặc hàm nằm ngoài miền của dữ liệu tiền huấn luyện, chúng tôi chỉ ra nhiều kiểu thất bại của transformer cũng như sự suy giảm khả năng khái quát hóa ngay cả với những tác vụ ngoại suy đơn giản. Tổng hợp lại, các kết quả này nhấn mạnh rằng năng lực ICL ấn tượng của các mô hình chuỗi dung lượng lớn có thể gắn chặt hơn với độ bao phủ của hỗn hợp dữ liệu tiền huấn luyện hơn là với các thiên kiến quy nạp tạo ra năng lực khái quát hóa mang tính nền tảng.
> Transformer models, notably large language models (LLMs), have the remarkable ability to perform in-context learning (ICL) -- to perform new tasks when prompted with unseen input-output examples without any explicit model training. In this work, we study how effectively transformers can bridge between their pretraining data mixture, comprised of multiple distinct task families, to identify and learn new tasks in-context which are both inside and outside the pretraining distribution. Building on previous work, we investigate this question in a controlled setting, where we study transformer models trained on sequences of $(x, f(x))$ pairs rather than natural language. Our empirical results show transformers demonstrate near-optimal unsupervised model selection capabilities, in their ability to first in-context identify different task families and in-context learn within them when the task families are well-represented in their pretraining data. However when presented with tasks or functions which are out-of-domain of their pretraining data, we demonstrate various failure modes of transformers and degradation of their generalization for even simple extrapolation tasks. Together our results highlight that the impressive ICL abilities of high-capacity sequence models may be more closely tied to the coverage of their pretraining data mixtures than inductive biases that create fundamental generalization capabilities.
Link bài báo
https://arxiv.org/abs/2311.00871
Đọc thêm
https://x.com/abacaj/status/1721223737729581437
Tạo nhạc đơn giản và có thể kiểm soát / Simple and Controllable Music Generation
Giới thiệu bài báo
- Đây là một
llmdựa trên transformer một giai đoạn, hoạt động trên nhiều luồng biểu diễn nhạc rời rạc đã được nén, có thể tạo ra các mẫu chất lượng cao (mono và stereo) đồng thời điều khiển theo mô tả văn bản hoặc đặc trưng giai điệu.
> A single-stage transformer-based llm that operates over several streams of compressed discrete music representation; it can generate high-quality samples (mono and stereo) while conditioning on textual description or melodic features.
Tóm tắt bài báo
- Bài báo giải quyết bài toán tạo nhạc có điều kiện. Nhóm tác giả giới thiệu MusicGen, một Language Model (LM) đơn hoạt động trên nhiều luồng biểu diễn nhạc rời rạc đã được nén, tức là các token. Khác với các nghiên cứu trước, MusicGen được cấu thành từ một transformer LM một giai đoạn cùng với các mẫu đan xen token hiệu quả, nhờ đó loại bỏ nhu cầu phải xếp tầng nhiều mô hình, chẳng hạn theo cấu trúc phân cấp hoặc upsampling. Theo cách tiếp cận này, nhóm tác giả trình bày cách MusicGen có thể tạo ra các mẫu chất lượng cao, cả mono lẫn stereo, trong khi được điều kiện hóa bằng mô tả văn bản hoặc đặc trưng giai điệu, cho phép kiểm soát tốt hơn đầu ra được tạo ra. Nhóm thực hiện đánh giá thực nghiệm trên diện rộng, bao gồm cả nghiên cứu tự động và nghiên cứu với con người, cho thấy cách tiếp cận được đề xuất vượt trội hơn các baseline được đánh giá trên một benchmark text-to-music tiêu chuẩn. Thông qua các nghiên cứu ablation, nhóm tác giả làm rõ tầm quan trọng của từng thành phần cấu thành MusicGen. Các mẫu nhạc, mã nguồn và mô hình có tại https://github.com/facebookresearch/audiocraft
> We tackle the task of conditional music generation. We introduce MusicGen, a single Language Model (LM) that operates over several streams of compressed discrete music representation, i.e., tokens. Unlike prior work, MusicGen is comprised of a single-stage transformer LM together with efficient token interleaving patterns, which eliminates the need for cascading several models, e.g., hierarchically or upsampling. Following this approach, we demonstrate how MusicGen can generate high-quality samples, both mono and stereo, while being conditioned on textual description or melodic features, allowing better controls over the generated output. We conduct extensive empirical evaluation, considering both automatic and human studies, showing the proposed approach is superior to the evaluated baselines on a standard text-to-music benchmark. Through ablation studies, we shed light over the importance of each of the components comprising MusicGen. Music samples, code, and models are available at https://github.com/facebookresearch/audiocraft
Liên kết bài báo
https://arxiv.org/abs/2306.05284
Đọc thêm
https://x.com/AIatMeta/status/1723043913638810025
Cập nhật luân phiên cho các mô hình transformer hiệu quả / Alternating Updates for Efficient Transformers
Giới thiệu bài báo
- Đây là một phương pháp cho phép tận dụng việc tăng quy mô và năng lực của các mô hình transformer mà không làm tăng chi phí tính toán; điều này đạt được bằng cách xử lý một khối con của biểu diễn đã được mở rộng ở mỗi tầng và sử dụng cơ chế dự đoán-và-hiệu chỉnh để cập nhật các khối bị vô hiệu hóa; nhờ đó có thể mở rộng biểu diễn học được trong khi chỉ làm tăng độ trễ ở mức không đáng kể.
> A method that makes it possible to take advantage of increasing scale and capacity in transformer models without increasing the computational cost; achieved by working on a subblock of the widened representation at each layer and using a predict-and-correct mechanism to update the inactivated blocks; it widens the learn representation while only incurring a negligible increase in latency.
Tóm tắt bài báo
- Việc quy mô của các mạng transformer sâu tăng lên sẽ cải thiện chất lượng và hiệu năng là điều đã được biết đến rõ. Tuy nhiên, sự gia tăng quy mô này thường đi kèm với mức tăng rất lớn về chi phí tính toán và độ trễ suy luận. Pure Storage giới thiệu Alternating Updates (AltUp), một phương pháp dễ triển khai để tăng năng lực của mô hình mà không mang gánh nặng tính toán. AltUp cho phép mở rộng biểu diễn đã học, tức embedding token, trong khi chỉ làm tăng độ trễ ở mức có thể xem như không đáng kể. AltUp đạt được điều này bằng cách xử lý một khối con của biểu diễn đã mở rộng ở mỗi lớp và sử dụng cơ chế dự đoán-và-hiệu chỉnh để cập nhật các khối đã bị vô hiệu hóa. Chúng tôi trình bày các mở rộng của AltUp, chẳng hạn khả năng áp dụng theo chiều chuỗi, và cho thấy AltUp có thể kết hợp hiệp đồng với các cách tiếp cận hiện có như mô hình Sparse Mixture-of-Experts để thu được các mô hình hiệu quả với năng lực còn cao hơn nữa. Các thí nghiệm của chúng tôi trên các mô hình transformer chuẩn và các tác vụ ngôn ngữ cho thấy hiệu quả nhất quán của AltUp trong nhiều kịch bản đa dạng. Đáng chú ý, trên các benchmark SuperGLUE và SQuAD, AltUp cho phép tăng tốc tới $87%$ so với các baseline dày đặc ở cùng mức độ chính xác.
> It has been well established that increasing scale in deep transformer networks leads to improved quality and performance. However, this increase in scale often comes with prohibitive increases in compute cost and inference latency. We introduce Alternating Updates (AltUp), a simple-to-implement method to increase a model's capacity without the computational burden. AltUp enables the widening of the learned representation, i.e., the token embedding, while only incurring a negligible increase in latency. AltUp achieves this by working on a subblock of the widened representation at each layer and using a predict-and-correct mechanism to update the inactivated blocks. We present extensions of AltUp, such as its applicability to the sequence dimension, and demonstrate how AltUp can be synergistically combined with existing approaches, such as Sparse Mixture-of-Experts models, to obtain efficient models with even higher capacity. Our experiments on benchmark transformer models and language tasks demonstrate the consistent effectiveness of AltUp on a diverse set of scenarios. Notably, on SuperGLUE and SQuAD benchmarks, AltUp enables up to $87%$ speedup relative to the dense baselines at the same accuracy.
Liên kết bài báo
https://arxiv.org/abs/2301.13310
Đọc thêm
https://x.com/GoogleAI/status/1722004366201418132
Diễn đạt lại và phản hồi: Để mô hình ngôn ngữ lớn tự đặt câu hỏi tốt hơn cho chính mình / Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves
Giới thiệu bài báo
- Một phương pháp prompting hiệu quả sử dụng các LLM để diễn đạt lại và mở rộng những câu hỏi do con người đặt ra nhằm cải thiện hiệu năng tổng thể; nó có thể cải thiện hiệu năng của nhiều mô hình khác nhau trên phạm vi rộng các tác vụ; cách tiếp cận này có thể kết hợp với chain-of-thought để tiếp tục nâng cao hiệu năng.
> An effective prompting method that uses llms to rephrase and expand questions posed by humans to improve overall performance; it can improve the performance of different models across a wide range of tasks; the approach can be combined with chain-of-thought to improve performance further.
Tóm tắt bài báo
- Sự hiểu nhầm không chỉ xảy ra trong giao tiếp giữa người với người mà còn giữa con người và các mô hình ngôn ngữ lớn (LLM). Những khác biệt như vậy có thể khiến LLM diễn giải những câu hỏi tưởng như không mơ hồ theo những cách ngoài dự kiến, từ đó đưa ra câu trả lời sai. Dù đã được thừa nhận rộng rãi rằng chất lượng của prompt, chẳng hạn như câu hỏi, có ảnh hưởng lớn đến chất lượng phản hồi mà LLM tạo ra, một phương pháp có hệ thống để soạn các câu hỏi mà LLM có thể hiểu tốt hơn vẫn còn chưa được phát triển đầy đủ. Trong bài báo này, chúng tôi giới thiệu một phương pháp mang tên
Rephrase and Respond(RaR), cho phép LLM diễn đạt lại và mở rộng các câu hỏi do con người đặt ra, đồng thời đưa ra câu trả lời chỉ trong một prompt. Cách tiếp cận này là một phương pháp prompting đơn giản nhưng hiệu quả để cải thiện hiệu năng. Chúng tôi cũng giới thiệu một biến thể hai bước của RaR, trong đó một LLM chuyên diễn đạt lại trước tiên sẽ viết lại câu hỏi, sau đó chuyển cả câu hỏi gốc lẫn câu hỏi đã được viết lại cho một LLM trả lời khác. Điều này giúp tận dụng hiệu quả các câu hỏi đã được diễn đạt lại do một LLM tạo ra trên một LLM khác. Kết quả thực nghiệm cho thấy phương pháp này cải thiện đáng kể hiệu năng của nhiều mô hình trên nhiều tác vụ khác nhau. Chúng tôi cũng đưa ra so sánh toàn diện giữa RaR và phương pháp Chain-of-Thought (CoT) phổ biến, cả về mặt lý thuyết lẫn thực nghiệm. Qua đó, chúng tôi cho thấy RaR có tính bổ sung cho CoT và có thể kết hợp với CoT để đạt hiệu quả tốt hơn nữa. Nghiên cứu của chúng tôi không chỉ góp phần nâng cao hiệu năng của LLM một cách hiệu quả và thiết thực mà còn làm sáng tỏ việc đánh giá công bằng năng lực của LLM. Dữ liệu và mã nguồn có tại https://github.com/uclaml/Rephrase-and-Respond.
> Misunderstandings arise not only in interpersonal communication but also between humans and Large Language Models (LLMs). Such discrepancies can make LLMs interpret seemingly unambiguous questions in unexpected ways, yielding incorrect responses. While it is widely acknowledged that the quality of a prompt, such as a question, significantly impacts the quality of the response provided by LLMs, a systematic method for crafting questions that LLMs can better comprehend is still underdeveloped. In this paper, we present a method named `Rephrase and Respond' (RaR), which allows LLMs to rephrase and expand questions posed by humans and provide responses in a single prompt. This approach serves as a simple yet effective prompting method for improving performance. We also introduce a two-step variant of RaR, where a rephrasing LLM first rephrases the question and then passes the original and rephrased questions together to a different responding LLM. This facilitates the effective utilization of rephrased questions generated by one LLM with another. Our experiments demonstrate that our methods significantly improve the performance of different models across a wide range to tasks. We further provide a comprehensive comparison between RaR and the popular Chain-of-Thought (CoT) methods, both theoretically and empirically. We show that RaR is complementary to CoT and can be combined with CoT to achieve even better performance. Our work not only contributes to enhancing LLM performance efficiently and effectively but also sheds light on a fair evaluation of LLM capabilities. Data and codes are available at https://github.com/uclaml/Rephrase-and-Respond.
Liên kết bài báo
https://arxiv.org/abs/2311.04205
Đọc thêm
https://x.com/QuanquanGu/status/1722364144379396513
Chạy trên đường cùng GPT-4V(ision): Những khám phá ban đầu về mô hình thị giác-ngôn ngữ trong lái xe tự động / On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving
Giới thiệu bài báo
- Đánh giá toàn diện mô hình thị giác-ngôn ngữ tiên tiến mới nhất, GPT-4V(ision), và việc áp dụng nó vào lái xe tự động; mô hình này cho thấy hiệu năng vượt trội trong việc hiểu cảnh và suy luận nhân quả so với các hệ thống tự hành hiện có.
> Provides an exhaustive evaluation of the latest state-of-the-art visual language model, gpt-4v(ision), and its application in autonomous driving; the model demonstrates superior performance in scene understanding and causal reasoning compared to existing autonomous systems.
Tóm tắt bài báo
- Việc hiện thực hóa công nghệ lái xe tự hành phụ thuộc vào sự tích hợp tinh vi giữa các hệ thống cảm nhận, ra quyết định và điều khiển. Các cách tiếp cận truyền thống, سواء dựa trên dữ liệu hay dựa trên luật, đều bị giới hạn bởi việc không thể nắm bắt những sắc thái của môi trường lái xe phức tạp và ý định của những người tham gia giao thông khác. Đây là một nút thắt lớn, đặc biệt trong việc phát triển khả năng suy luận theo lẽ thường và hiểu cảnh tinh tế cần thiết cho lái xe tự hành an toàn và đáng tin cậy. Sự xuất hiện của các mô hình thị giác-ngôn ngữ (VLM) đã mở ra một chân trời mới cho việc hiện thực hóa xe tự hành hoàn toàn. Báo cáo này cung cấp một đánh giá toàn diện về VLM tiên tiến mới nhất và việc áp dụng nó trong các kịch bản lái xe tự hành. Báo cáo xem xét khả năng của mô hình trong việc hiểu và suy luận về các cảnh lái xe, đưa ra quyết định và cuối cùng hành động như một người lái xe. Các bài kiểm thử toàn diện được thực hiện, từ nhận diện cảnh cơ bản đến suy luận nhân quả phức tạp và ra quyết định theo thời gian thực trong nhiều điều kiện khác nhau. Kết quả kiểm thử cho thấy 'tên mô hình' thể hiện hiệu năng vượt trội về hiểu cảnh và suy luận nhân quả so với các hệ thống lái xe tự hành hiện có. Điều này cho thấy tiềm năng xử lý các kịch bản ngoài phạm vi phân phối trong bối cảnh lái xe thực tế, nhận diện ý định và đưa ra các quyết định sáng suốt. Tuy nhiên, vẫn còn tồn tại các thách thức như nhận biết hướng, nhận diện đèn giao thông, grounding thị giác và các tác vụ suy luận không gian. Những hạn chế này nhấn mạnh sự cần thiết của nghiên cứu và phát triển thêm. Dự án hiện đã có trên GitHub để bất kỳ ai quan tâm đều có thể truy cập và sử dụng: URL{https://github.com/PJLab-ADG/GPT4V-AD-Exploration}
> The pursuit of autonomous driving technology hinges on the sophisticated integration of perception, decision-making, and control systems. Traditional approaches, both data-driven and rule-based, have been hindered by their inability to grasp the nuance of complex driving environments and the intentions of other road users. This has been a significant bottleneck, particularly in the development of common sense reasoning and nuanced scene understanding necessary for safe and reliable autonomous driving. The advent of Visual Language Models (VLM) represents a novel frontier in realizing fully autonomous vehicle driving. This report provides an exhaustive evaluation of the latest state-of-the-art VLM, \modelnamefull, and its application in autonomous driving scenarios. We explore the model's abilities to understand and reason about driving scenes, make decisions, and ultimately act in the capacity of a driver. Our comprehensive tests span from basic scene recognition to complex causal reasoning and real-time decision-making under varying conditions. Our findings reveal that \modelname demonstrates superior performance in scene understanding and causal reasoning compared to existing autonomous systems. It showcases the potential to handle out-of-distribution scenarios, recognize intentions, and make informed decisions in real driving contexts. However, challenges remain, particularly in direction discernment, traffic light recognition, vision grounding, and spatial reasoning tasks. These limitations underscore the need for further research and development. Project is now available on GitHub for interested parties to access and utilize: \url{https://github.com/PJLab-ADG/GPT4V-AD-Exploration}
Liên kết bài báo
https://arxiv.org/abs/2311.05332
Đọc thêm
https://x.com/arankomatsuzaki/status/1722795897359139057
GPT4All: Hệ sinh thái mô hình ngôn ngữ nén mã nguồn mở / GPT4All: An Ecosystem of Open Source Compressed Language Models
Giới thiệu bài báo
- Trình bày ngắn gọn các chi tiết kỹ thuật của họ mô hình GPT4All cùng với kho mã nguồn mở nhằm dân chủ hóa quyền truy cập vào LLM.
> Outlines technical details of the gpt4all model family along with the open-source repository that aims to democratize access to llms.
Tóm tắt bài báo
- Gần đây, các mô hình ngôn ngữ lớn (LLM) đã đạt được hiệu năng ở mức con người trên nhiều benchmark chuyên môn và học thuật. Tuy nhiên, khả năng tiếp cận các mô hình này lại tụt hậu so với hiệu năng của chúng. Các LLM tối tân đòi hỏi hạ tầng đắt đỏ; chỉ có thể được truy cập thông qua các giao diện web bị giới hạn tốc độ, khóa theo khu vực địa lý và bị kiểm duyệt; đồng thời thiếu mã nguồn và báo cáo kỹ thuật được công khai. Trong bài báo này, chúng tôi kể lại câu chuyện về GPT4All, một kho mã nguồn mở phổ biến nhằm dân chủ hóa quyền truy cập vào LLM. Chúng tôi phác thảo các chi tiết kỹ thuật của họ mô hình GPT4All ban đầu, cũng như sự phát triển của dự án GPT4All từ một mô hình đơn lẻ thành một hệ sinh thái mã nguồn mở hoàn chỉnh. Chúng tôi hy vọng bài báo này vừa đóng vai trò là một tổng quan kỹ thuật về các mô hình GPT4All nguyên bản, vừa là một nghiên cứu tình huống về sự tăng trưởng tiếp theo của hệ sinh thái mã nguồn mở GPT4All.
> Large language models (LLMs) have recently achieved human-level performance on a range of professional and academic benchmarks. The accessibility of these models has lagged behind their performance. State-of-the-art LLMs require costly infrastructure; are only accessible via rate-limited, geo-locked, and censored web interfaces; and lack publicly available code and technical reports. In this paper, we tell the story of GPT4All, a popular open source repository that aims to democratize access to LLMs. We outline the technical details of the original GPT4All model family, as well as the evolution of the GPT4All project from a single model into a fully fledged open source ecosystem. It is our hope that this paper acts as both a technical overview of the original GPT4All models as well as a case study on the subsequent growth of the GPT4All open source ecosystem.
Liên kết bài báo
https://arxiv.org/abs/2311.04931
Đọc thêm
https://x.com/_akhaliq/status/1722833378590793915
S-LoRA: Phục vụ hàng nghìn adapter LoRA đồng thời / S-LoRA: Serving Thousands of Concurrent LoRA Adapters
Giới thiệu bài báo
- Đây là một phương pháp cho phép phục vụ có khả năng mở rộng với nhiều adapter LoRA; lưu toàn bộ adapter trong bộ nhớ chính rồi đưa adapter của truy vấn đang chạy vào bộ nhớ GPU, đồng thời sử dụng chiến lược song song tensor mới cùng các kernel CUDA tùy biến được tối ưu hóa cao để xử lý batch không đồng nhất cho phép tính LoRA, cải thiện thông lượng gấp 4 lần so với các giải pháp khác và tăng số lượng adapter có thể phục vụ lên nhiều bậc độ lớn.
> An approach that enables the scalable serving of many lora adapters; it stores all adapters in main memory and fetches adapters of currently running queries to the gpu memory; employs novel tensor parallelism strategy and highly optimized custom cuda kernels for heterogenous batching of lora computation; improves throughput by 4x, when compared to other solutions, and increases the number of served adapters by several orders of magnitude.
Tóm tắt bài báo
- Việc triển khai mô hình ngôn ngữ lớn thường áp dụng mô hình "pretrain-then-finetune". LoRA (Low-Rank Adaptation), một phương pháp fine-tuning hiệu quả về tham số, thường được dùng để điều chỉnh một mô hình nền cho nhiều tác vụ khác nhau, từ đó tạo ra một tập hợp lớn các adapter LoRA bắt nguồn từ cùng một mô hình nền. Chúng tôi nhận thấy mô hình này mở ra nhiều cơ hội đáng kể cho suy luận theo lô trong quá trình phục vụ. Để tận dụng những cơ hội đó, chúng tôi giới thiệu S-LoRA, một hệ thống được thiết kế để phục vụ có khả năng mở rộng cho nhiều adapter LoRA. S-LoRA lưu toàn bộ adapter trong bộ nhớ chính và đưa các adapter được dùng bởi những truy vấn đang chạy vào bộ nhớ GPU. Để sử dụng hiệu quả bộ nhớ GPU và giảm phân mảnh, S-LoRA đề xuất Unified Paging. Unified Paging sử dụng một vùng nhớ hợp nhất để quản lý trọng số adapter động với các rank khác nhau và các tensor bộ nhớ đệm KV có độ dài chuỗi khác nhau. Ngoài ra, S-LoRA sử dụng một chiến lược song song tensor mới và các kernel CUDA tùy biến được tối ưu hóa cao để hỗ trợ xử lý batch không đồng nhất cho tính toán LoRA. Kết hợp lại, các đặc điểm này cho phép S-LoRA phục vụ hàng nghìn adapter LoRA trên một GPU đơn hoặc trên nhiều GPU với chi phí phụ trợ thấp. So với các thư viện hiện đại như HuggingFace PEFT hay vLLM (với hỗ trợ phục vụ LoRA theo cách đơn giản), S-LoRA có thể cải thiện thông lượng lên tới 4 lần và tăng số lượng adapter được phục vụ lên nhiều bậc độ lớn. Nhờ đó, S-LoRA cho phép phục vụ có khả năng mở rộng cho nhiều mô hình fine-tuning theo tác vụ và mang lại tiềm năng cho các dịch vụ fine-tuning tùy biến quy mô lớn. Mã nguồn có tại https://github.com/S-LoRA/S-LoRA
> The "pretrain-then-finetune" paradigm is commonly adopted in the deployment of large language models. Low-Rank Adaptation (LoRA), a parameter-efficient fine-tuning method, is often employed to adapt a base model to a multitude of tasks, resulting in a substantial collection of LoRA adapters derived from one base model. We observe that this paradigm presents significant opportunities for batched inference during serving. To capitalize on these opportunities, we present S-LoRA, a system designed for the scalable serving of many LoRA adapters. S-LoRA stores all adapters in the main memory and fetches the adapters used by the currently running queries to the GPU memory. To efficiently use the GPU memory and reduce fragmentation, S-LoRA proposes Unified Paging. Unified Paging uses a unified memory pool to manage dynamic adapter weights with different ranks and KV cache tensors with varying sequence lengths. Additionally, S-LoRA employs a novel tensor parallelism strategy and highly optimized custom CUDA kernels for heterogeneous batching of LoRA computation. Collectively, these features enable S-LoRA to serve thousands of LoRA adapters on a single GPU or across multiple GPUs with a small overhead. Compared to state-of-the-art libraries such as HuggingFace PEFT and vLLM (with naive support of LoRA serving), S-LoRA can improve the throughput by up to 4 times and increase the number of served adapters by several orders of magnitude. As a result, S-LoRA enables scalable serving of many task-specific fine-tuned models and offers the potential for large-scale customized fine-tuning services. The code is available at https://github.com/S-LoRA/S-LoRA
Liên kết bài báo
https://arxiv.org/abs/2311.03285v2
Đọc thêm
https://x.com/ai_database/status/1722190708797592013
FreshLLM: Làm mới mô hình ngôn ngữ lớn bằng tăng cường công cụ tìm kiếm / FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation
Giới thiệu bài báo
- Đề xuất FreshQA, một benchmark QA động để kiểm tra tính xác thực của văn bản do LLM tạo ra; đề xuất FreshPrompt, một phương pháp few-shot prompting đơn giản giúp cải thiện đáng kể hiệu năng của LLM trên FreshQA bằng cách tích hợp thông tin liên quan và mới nhất được truy xuất từ công cụ tìm kiếm vào prompt; và phát hiện rằng việc chỉ thị cho LLM tạo ra câu trả lời ngắn gọn, trực tiếp giúp giảm hallucination tốt hơn so với khuyến khích các câu trả lời dài dòng hơn.
> Proposes a dynamic qa benchmark (freshqa) to test the factuality of llm-generated text; proposes freshprompt, a simple few-shot prompting method that substantially boosts the performance of an llm on freshqa by incorporating relevant and up-to-date information retrieved from a search engine into the prompt; finds that instructing the llm to generate concise and direct answers helps reduce hallucination compared to encouraging more verbose answers.
Tóm tắt bài báo
- Phần lớn các mô hình ngôn ngữ lớn (LLM) chỉ được huấn luyện một lần và không được cập nhật, vì vậy chúng thiếu khả năng thích ứng động với thế giới luôn thay đổi không ngừng. Nghiên cứu này thực hiện một phân tích chi tiết về tính xác thực của văn bản do LLM tạo ra trong bối cảnh trả lời các câu hỏi kiểm tra tri thức thế giới hiện tại. Cụ thể, nghiên cứu giới thiệu FreshQA, một benchmark QA động mới bao quát nhiều loại câu hỏi và câu trả lời khác nhau, bao gồm các câu hỏi đòi hỏi tri thức thế giới thay đổi nhanh cũng như các câu hỏi có tiền đề sai cần được bác bỏ. Nghiên cứu benchmark nhiều LLM đa dạng, cả mã nguồn đóng lẫn mã nguồn mở, theo quy trình đánh giá hai chế độ cho phép đo lường cả độ chính xác lẫn tỷ lệ ảo giác. Thông qua đánh giá của con người với hơn 50 nghìn lượt chấm, nhóm nghiên cứu đã làm rõ các giới hạn của những mô hình này và chứng minh rằng vẫn còn rất nhiều dư địa để cải thiện. Chẳng hạn, họ phát hiện rằng mọi mô hình, bất kể quy mô, đều gặp khó khăn với các câu hỏi liên quan đến tri thức thay đổi nhanh và các câu hỏi chứa tiền đề sai. Dựa trên các kết quả này, nghiên cứu giới thiệu FreshPrompt, một phương pháp few-shot prompting đơn giản giúp cải thiện đáng kể hiệu năng của LLM trên FreshQA bằng cách tích hợp thông tin liên quan và cập nhật mới nhất được truy xuất từ công cụ tìm kiếm vào prompt. Kết quả thực nghiệm cho thấy FreshPrompt hoạt động tốt hơn cả các phương pháp prompting tăng cường bằng công cụ tìm kiếm cạnh tranh như Self-Ask (Press et al., 2022) lẫn các hệ thống thương mại như Perplexity.AI. Phân tích bổ sung về FreshPrompt cho thấy cả số lượng bằng chứng được truy xuất và thứ tự của chúng đều đóng vai trò quan trọng trong việc ảnh hưởng đến tính đúng đắn của câu trả lời do LLM tạo ra. Ngoài ra, việc chỉ thị cho LLM tạo ra các câu trả lời ngắn gọn và trực tiếp giúp giảm ảo giác tốt hơn so với việc khuyến khích các câu trả lời dài dòng. Để hỗ trợ các nghiên cứu trong tương lai, nhóm tác giả công bố FreshQA tại github.com/freshllms/freshqa và cam kết cập nhật định kỳ.
> Most large language models (LLMs) are trained once and never updated; thus, they lack the ability to dynamically adapt to our ever-changing world. In this work, we perform a detailed study of the factuality of LLM-generated text in the context of answering questions that test current world knowledge. Specifically, we introduce FreshQA, a novel dynamic QA benchmark encompassing a diverse range of question and answer types, including questions that require fast-changing world knowledge as well as questions with false premises that need to be debunked. We benchmark a diverse array of both closed and open-source LLMs under a two-mode evaluation procedure that allows us to measure both correctness and hallucination. Through human evaluations involving more than 50K judgments, we shed light on limitations of these models and demonstrate significant room for improvement: for instance, all models (regardless of model size) struggle on questions that involve fast-changing knowledge and false premises. Motivated by these results, we present FreshPrompt, a simple few-shot prompting method that substantially boosts the performance of an LLM on FreshQA by incorporating relevant and up-to-date information retrieved from a search engine into the prompt. Our experiments show that FreshPrompt outperforms both competing search engine-augmented prompting methods such as Self-Ask (Press et al., 2022) as well as commercial systems such as Perplexity.AI. Further analysis of FreshPrompt reveals that both the number of retrieved evidences and their order play a key role in influencing the correctness of LLM-generated answers. Additionally, instructing the LLM to generate concise and direct answers helps reduce hallucination compared to encouraging more verbose answers. To facilitate future work, we release FreshQA at github.com/freshllms/freshqa and commit to updating it at regular intervals.
Liên kết bài báo
https://arxiv.org/abs/2310.03214
Đọc thêm
https://x.com/_akhaliq/status/1710108355157487635
Bản gốc
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-fc8
Chưa có bình luận nào.