[2023/12/25 ~ 12/31] Các bài báo ML nổi bật trong tuần (Top ML Papers of the Week)
(discuss.pytorch.kr)Tổng quan
-
Chúng tôi đã thử tự động dịch bài viết về các bài báo ML được DAIR.AI công bố hằng tuần.
-
Xem qua các bài báo được chọn trong tuần này, có thể thấy nhìn chung xu hướng chủ đạo là các nghiên cứu xoay quanh các mô hình ngôn ngữ lớn (Large Language Models, LLMs) như GPT-4. Đặc biệt, các nghiên cứu này tập trung vào việc tận dụng API mới của GPT-4, khả năng hồi tưởng sự thật trong LLM, và cách biến LLM thành công cụ tìm kiếm tốt hơn với mật độ thông tin cao hơn. Ngoài ra còn có các chủ đề về giải toán dựa trên mô hình ngôn ngữ và cách những mô hình này có thể thực hiện suy luận.
-
Xu hướng này có thể xuất hiện vì LLM vẫn là một chủ đề nghiên cứu quan trọng trong lĩnh vực trí tuệ nhân tạo. Các mô hình như GPT-4 đang mở rộng khả năng ứng dụng trong nhiều lĩnh vực khác nhau nhờ năng lực hiểu và sinh ngôn ngữ vượt trội, và các nghiên cứu nhằm cải thiện năng lực này cũng như khai thác chúng theo những cách mới vẫn đang liên tục được tiến hành. Nghiên cứu về các phương pháp luận cụ thể để cải thiện hiệu năng thực tế và phân tích các trường hợp ứng dụng đang nổi lên như một lĩnh vực quan trọng, và các bài báo được chọn tuần này dường như phản ánh xu hướng đó.
-
Mặt khác, các nghiên cứu nhằm đánh giá và nâng cao mức độ hiểu biết cũng như khả năng suy luận của LLM dường như cũng là một chủ đề được quan tâm. Việc khám phá cách để các tác nhân thông minh có thể tương tác với con người một cách tự nhiên và hiệu quả hơn thông qua đó sẽ là một nhiệm vụ rất quan trọng trong lĩnh vực trí tuệ nhân tạo. Việc tìm hiểu khả năng cải thiện hiệu quả và ứng dụng trong đời sống thực nhờ vậy được dự đoán sẽ giữ vị trí quan trọng trong xu hướng nghiên cứu tương lai.
CogAgent: Mô hình ngôn ngữ thị giác cho tác nhân GUI / CogAgent: A Visual Language Model for GUI Agents
Giới thiệu bài báo
- Cung cấp một mô hình ngôn ngữ thị giác 18 tỷ tham số chuyên cho việc hiểu và điều hướng GUI, hỗ trợ đầu vào độ phân giải cao (1120x1120), thể hiện năng lực ở các tác vụ như hỏi đáp thị giác, visual grounding và tác nhân GUI, đồng thời đạt trình độ tiên tiến nhất trên 5 benchmark giàu văn bản và 4 benchmark VQA tổng quát.
Presents an 18 billion parameter visual language model specializing in gui understanding and navigation; supports high-resolution inputs (1120x1120) and shows abilities in tasks such as visual q&a, visual grounding, and gui agent; achieves state of the art on 5 text-rich and 4 general vqa benchmarks.
Tóm tắt bài báo (Abstract)
- Con người đang dành một lượng thời gian khổng lồ trên các thiết bị số thông qua giao diện người dùng đồ họa (GUI), chẳng hạn như màn hình máy tính hoặc điện thoại thông minh. Các mô hình ngôn ngữ lớn (LLM) như ChatGPT có thể hỗ trợ con người trong các tác vụ như viết email, nhưng lại gặp khó khăn trong việc hiểu và tương tác với GUI, từ đó hạn chế tiềm năng nâng cao mức độ tự động hóa. Trong bài báo này, nhóm tác giả giới thiệu CogAgent, một mô hình ngôn ngữ thị giác (VLM) 18 tỷ tham số chuyên về hiểu và điều hướng GUI. Bằng cách sử dụng cả bộ mã hóa hình ảnh độ phân giải thấp và độ phân giải cao, CogAgent hỗ trợ đầu vào ở độ phân giải 1120*1120, cho phép nhận diện các thành phần trang và văn bản rất nhỏ. Là một mô hình ngôn ngữ thị giác đa dụng, CogAgent đạt hiệu năng hàng đầu trên năm benchmark giàu văn bản và bốn benchmark VQA tổng quát, bao gồm VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet và POPE. CogAgent, chỉ sử dụng ảnh chụp màn hình làm đầu vào, vượt trội hơn các phương pháp dựa trên LLM sử dụng văn bản HTML được trích xuất trong cả tác vụ điều hướng GUI trên PC và Android -- Mind2Web và AITW, qua đó nâng trình độ hiện tại lên một mức mới. Mô hình và mã nguồn có tại https://github.com/THUDM/CogVLM .
People are spending an enormous amount of time on digital devices through graphical user interfaces (GUIs), e.g., computer or smartphone screens. Large language models (LLMs) such as ChatGPT can assist people in tasks like writing emails, but struggle to understand and interact with GUIs, thus limiting their potential to increase automation levels. In this paper, we introduce CogAgent, an 18-billion-parameter visual language model (VLM) specializing in GUI understanding and navigation. By utilizing both low-resolution and high-resolution image encoders, CogAgent supports input at a resolution of 1120*1120, enabling it to recognize tiny page elements and text. As a generalist visual language model, CogAgent achieves the state of the art on five text-rich and four general VQA benchmarks, including VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet, and POPE. CogAgent, using only screenshots as input, outperforms LLM-based methods that consume extracted HTML text on both PC and Android GUI navigation tasks -- Mind2Web and AITW, advancing the state of the art. The model and codes are available at https://github.com/THUDM/CogVLM .
Liên kết bài báo
https://arxiv.org/abs/2312.08914
Đọc thêm
https://x.com/cenyk1230/status/1739916469272789222
Từ Google Gemini đến OpenAI Q* (Q-Star): Khảo sát về sự tái định hình bối cảnh nghiên cứu trí tuệ nhân tạo (AI) tạo sinh / From Google Gemini to OpenAI Q* (Q-Star): A Survey of Reshaping the Generative Artificial Intelligence (AI) Research Landscape
Giới thiệu bài báo
- Báo cáo này khảo sát hơn 300 bài báo và tóm tắt những diễn biến nghiên cứu phát triển đáng chú ý trong lĩnh vực AI tạo sinh; báo cáo đề cập đến các thách thức tính toán, khả năng mở rộng, tác động trong thế giới thực và tiềm năng của AI tạo sinh trong việc thúc đẩy tiến bộ ở các lĩnh vực như y tế, tài chính và giáo dục.
Surveys 300+ papers and summarizes research developments to look at in the space of generative ai; it covers computational challenges, scalability, real-world implications, and the potential for gen ai to drive progress in fields like healthcare, finance, and education.
Tóm tắt bài báo (Abstract)
- Khảo sát toàn diện này đã khám phá bối cảnh đang phát triển của trí tuệ nhân tạo tạo sinh (AI), đặc biệt tập trung vào tác động mang tính chuyển đổi của Mixture of Experts (MoE), học đa phương thức và những bước tiến được suy đoán hướng tới Trí tuệ Nhân tạo Tổng quát (AGI). Báo cáo đã xem xét một cách phản biện hiện trạng và quỹ đạo tương lai của AI tạo sinh, đồng thời phân tích cách các đổi mới như Gemini của Google và dự án OpenAI Q* được kỳ vọng đang tái định hình các ưu tiên nghiên cứu và ứng dụng trên nhiều lĩnh vực, bao gồm cả phân tích tác động đối với hệ phân loại nghiên cứu AI tạo sinh. Báo cáo cũng đánh giá các thách thức tính toán, khả năng mở rộng và tác động trong thế giới thực của các công nghệ này, đồng thời nhấn mạnh tiềm năng thúc đẩy những bước tiến đáng kể trong các lĩnh vực như y tế, tài chính và giáo dục. Ngoài ra, báo cáo đề cập đến những thách thức học thuật mới nổi do sự gia tăng của cả các preprint về AI lẫn các preprint do AI tạo ra, đồng thời xem xét tác động của chúng đối với quy trình phản biện đồng cấp và truyền thông học thuật. Nghiên cứu nhấn mạnh tầm quan trọng của việc tích hợp các phương pháp đạo đức và lấy con người làm trung tâm trong phát triển AI, nhằm bảo đảm sự phù hợp với các chuẩn mực xã hội và phúc lợi, đồng thời phác thảo chiến lược nghiên cứu AI trong tương lai tập trung vào việc sử dụng MoE, tính đa phương thức và AGI trong AI tạo sinh một cách cân bằng và có trách nhiệm.
> This comprehensive survey explored the evolving landscape of generative Artificial Intelligence (AI), with a specific focus on the transformative impacts of Mixture of Experts (MoE), multimodal learning, and the speculated advancements towards Artificial General Intelligence (AGI). It critically examined the current state and future trajectory of generative Artificial Intelligence (AI), exploring how innovations like Google's Gemini and the anticipated OpenAI Q* project are reshaping research priorities and applications across various domains, including an impact analysis on the generative AI research taxonomy. It assessed the computational challenges, scalability, and real-world implications of these technologies while highlighting their potential in driving significant progress in fields like healthcare, finance, and education. It also addressed the emerging academic challenges posed by the proliferation of both AI-themed and AI-generated preprints, examining their impact on the peer-review process and scholarly communication. The study highlighted the importance of incorporating ethical and human-centric methods in AI development, ensuring alignment with societal norms and welfare, and outlined a strategy for future AI research that focuses on a balanced and conscientious use of MoE, multimodality, and AGI in generative AI.
Liên kết bài báo
https://arxiv.org/abs/2312.10868
Đọc thêm
https://x.com/omarsar0/status/1740119485011390558
PromptBench: thư viện hợp nhất để đánh giá các mô hình ngôn ngữ lớn / PromptBench: A Unified Library for Evaluation of Large Language Models
Giới thiệu bài báo
- Một thư viện hợp nhất hỗ trợ đánh giá và phân tích toàn diện các LLM; bao gồm các chức năng như xây dựng prompt, prompt engineering, nạp bộ dữ liệu và mô hình, tấn công prompt đối kháng, giao thức đánh giá động và các công cụ phân tích.
> A unified library that supports comprehensive evaluation and analysis of llms; it consists of functionalities for prompt construction, prompt engineering, dataset and model loading, adversarial prompt attack, dynamic evaluation protocols, and analysis tools.
Tóm tắt bài báo (Abstract)
- Việc đánh giá các mô hình ngôn ngữ lớn (LLM) là rất quan trọng để xác định hiệu năng của chúng và giảm thiểu các rủi ro bảo mật tiềm ẩn. Trong bài báo này, nhóm tác giả giới thiệu PromptBench, một thư viện hợp nhất để đánh giá LLM. Thư viện này gồm một số thành phần chính mà các nhà nghiên cứu có thể dễ dàng sử dụng và mở rộng: xây dựng prompt, prompt engineering, nạp bộ dữ liệu và mô hình, tấn công prompt đối kháng, giao thức đánh giá động và các công cụ phân tích. PromptBench được thiết kế như một codebase mở, tổng quát và linh hoạt phục vụ mục đích nghiên cứu, có thể thúc đẩy các nghiên cứu nguyên bản trong việc tạo benchmark mới, triển khai các ứng dụng downstream và thiết kế các giao thức đánh giá mới. Mã nguồn có tại https://github.com/microsoft/promptbench và sẽ tiếp tục được duy trì hỗ trợ.
> The evaluation of large language models (LLMs) is crucial to assess their performance and mitigate potential security risks. In this paper, we introduce PromptBench, a unified library to evaluate LLMs. It consists of several key components that are easily used and extended by researchers: prompt construction, prompt engineering, dataset and model loading, adversarial prompt attack, dynamic evaluation protocols, and analysis tools. PromptBench is designed to be an open, general, and flexible codebase for research purposes that can facilitate original study in creating new benchmarks, deploying downstream applications, and designing new evaluation protocols. The code is available at: https://github.com/microsoft/promptbench and will be continuously supported.
Liên kết bài báo
https://arxiv.org/abs/2312.07910v1
Đọc thêm
https://x.com/omarsar0/status/1739360426134028631
Khai thác các API GPT-4 mới / Exploiting Novel GPT-4 APIs
Giới thiệu bài báo
- Đã thực hiện red-teaming đối với ba tính năng được phơi bày trong API GPT-4 là fine-tuning, function calling và knowledge retrieval, từ đó rút ra các kết quả chính: 1) fine-tuning với chỉ 15 ví dụ có hại hoặc 100 ví dụ lành tính có thể loại bỏ các cơ chế bảo vệ cốt lõi của GPT-4, 2) GPT-4 Assistants có thể để lộ schema function calling và bị khiến thực thi các lệnh gọi hàm tùy ý, 3) knowledge retrieval có thể bị chiếm quyền bằng cách chèn chỉ thị vào các tài liệu truy xuất.
> Performs red-teaming on three functionalities exposed in the gpt-4 apis: fine-tuning, function calling, and knowledge retrieval; main findings: 1) fine-tuning on as few as 15 harmful examples or 100 benign examples can remove core safeguards from gpt-4, 2) gpt-4 assistants divulge the function call schema and can be made to execute arbitrary function calls, and 3) knowledge retrieval can be hijacked by injecting instructions into retrieval documents.
Tóm tắt bài báo (Abstract)
- Các cuộc tấn công vào mô hình ngôn ngữ thường giả định một trong hai mô hình đe dọa cực đoan: quyền truy cập white-box đầy đủ vào trọng số mô hình, hoặc quyền truy cập black-box chỉ giới hạn ở API sinh văn bản. Tuy nhiên, các API trong thực tế thường linh hoạt hơn nhiều so với chỉ sinh văn bản; các API này phơi bày quyền truy cập “gray-box”, từ đó dẫn đến các vector tấn công mới. Để khám phá điều này, chúng tôi đã thực hiện red-teaming với ba tính năng mới được phơi bày trong API GPT-4: fine-tuning, function calling và knowledge retrieval. Chúng tôi nhận thấy rằng fine-tuning một mô hình chỉ với 15 ví dụ có hại hoặc 100 ví dụ lành tính có thể loại bỏ các cơ chế bảo vệ cốt lõi của GPT-4, qua đó cho phép tạo ra nhiều đầu ra có hại. Ngoài ra, chúng tôi cũng phát hiện rằng GPT-4 Assistants dễ dàng để lộ schema function calling và có thể bị khiến thực thi các lệnh gọi hàm tùy ý. Cuối cùng, chúng tôi phát hiện rằng knowledge retrieval có thể bị chiếm quyền bằng cách chèn chỉ thị vào các tài liệu truy xuất. Những lỗ hổng này cho thấy rằng bất kỳ phần mở rộng nào đối với chức năng mà API phơi bày đều có thể tạo ra các lỗ hổng mới.
> Language model attacks typically assume one of two extreme threat models: full white-box access to model weights, or black-box access limited to a text generation API. However, real-world APIs are often more flexible than just text generation: these APIs expose ``gray-box'' access leading to new threat vectors. To explore this, we red-team three new functionalities exposed in the GPT-4 APIs: fine-tuning, function calling and knowledge retrieval. We find that fine-tuning a model on as few as 15 harmful examples or 100 benign examples can remove core safeguards from GPT-4, enabling a range of harmful outputs. Furthermore, we find that GPT-4 Assistants readily divulge the function call schema and can be made to execute arbitrary function calls. Finally, we find that knowledge retrieval can be hijacked by injecting instructions into retrieval documents. These vulnerabilities highlight that any additions to the functionality exposed by an API can create new vulnerabilities.
Liên kết bài báo
https://arxiv.org/abs/2312.14302
Đọc thêm
https://x.com/omarsar0/status/1739677995747450964
Truy hồi sự thật trong LLM / Fact Recalling in LLMs
Giới thiệu bài báo
- Nghiên cứu cách các tầng MLP hiện thực một bảng tra cứu cho việc truy hồi tri thức thực tế; mở rộng phạm vi nghiên cứu về cách các MLP đầu tiên trong Pythia 2.8b tra cứu môn thể thao mà nhiều vận động viên khác nhau chơi trong ba môn thể thao; đề xuất rằng các tầng MLP đầu đóng vai trò như một bảng tra cứu và khuyến nghị nên xem việc truy hồi tri thức thực tế trong mô hình như các embedding đa token.
> Investigates how mlp layers implement a lookup table for factual recall; scopes the study on how early mlps in pythia 2.8b look up which of 3 different sports various athletes play; suggests that early mlp layers act as a lookup table and recommends thinking about the recall of factual knowledge in the model as multi-token embeddings.
Liên kết bài báo
https://www.alignmentforum.org/s/hpWHhjvjn67LJ4xXX/p/iGuwZTHWb6DFY3sKB
Đọc thêm
https://x.com/NeelNanda5/status/1738559368361349122
Generative AI cho toán học: Phần I - MathPile: Kho ngữ liệu tiền huấn luyện cho toán học ở quy mô 1 tỷ token / Generative AI for Math: Part I -- MathPile: A Billion-Token-Scale Pretraining Corpus for Math
Giới thiệu bài báo
- Cung cấp một kho ngữ liệu đa dạng, chất lượng cao, tập trung vào toán học với khoảng 9,5 tỷ token để huấn luyện các foundation model.
> Presents a diverse and high-quality math-centric corpus comprising of ~9.5 billion tokens to train foundation models.
Tóm tắt bài báo (Abstract)
- Các kho ngữ liệu quy mô lớn, chất lượng cao là nền tảng cốt lõi để xây dựng foundation model. Trong công trình này, chúng tôi giới thiệu ${MathPile}$, một kho ngữ liệu đa dạng và chất lượng cao tập trung vào toán học, gồm khoảng 9,5 tỷ token. Trong suốt quá trình xây dựng, chúng tôi tuân thủ nguyên tắc
'ít hơn là nhiều hơn', với niềm tin vững chắc rằng chất lượng dữ liệu quan trọng hơn số lượng, ngay cả ở giai đoạn tiền huấn luyện. Những nỗ lực thu thập và xử lý dữ liệu tỉ mỉ của chúng tôi bao gồm một quy trình tiền xử lý phức tạp với các bước tiền lọc, nhận diện ngôn ngữ, làm sạch, lọc và loại bỏ trùng lặp, nhằm bảo đảm chất lượng cao cho kho ngữ liệu. Ngoài ra, chúng tôi đã thực hiện phát hiện ô nhiễm dữ liệu trên các tập kiểm thử benchmark downstream để loại bỏ các bản trùng lặp. Chúng tôi hy vọng ${MathPile}$ có thể giúp nâng cao năng lực suy luận toán học của các mô hình ngôn ngữ. Chúng tôi dự định sẽ mã nguồn mở các phiên bản khác nhau của $MathPile$ cùng với các script dùng để xử lý, nhằm thúc đẩy các phát triển trong tương lai ở lĩnh vực này.
> High-quality, large-scale corpora are the cornerstone of building foundation models. In this work, we introduce ${MathPile}$, a diverse and high-quality math-centric corpus comprising about 9.5 billion tokens. Throughout its creation, we adhered to the principle of{less is more}, firmly believing in the supremacy of data quality over quantity, even in the pre-training phase. Our meticulous data collection and processing efforts included a complex suite of preprocessing, prefiltering, language identification, cleaning, filtering, and deduplication, ensuring the high quality of our corpus. Furthermore, we performed data contamination detection on downstream benchmark test sets to eliminate duplicates. We hope our ${MathPile}$ can help to enhance the mathematical reasoning abilities of language models. We plan to open-source different versions of \mathpile with the scripts used for processing, to facilitate future developments in this field.
Liên kết bài báo
https://arxiv.org/abs/2312.17120
Đọc thêm
https://x.com/arankomatsuzaki/status/1740564961032556942
Chỉ cần các chỉ dẫn có nguyên tắc là đủ để đặt câu hỏi cho LLaMA-1/2, GPT-3.5/4 / Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4
Giới thiệu bài báo
- Giới thiệu 26 nguyên tắc chỉ dẫn được thiết kế để đơn giản hóa quy trình truy vấn và prompt các mô hình ngôn ngữ lớn; áp dụng các nguyên tắc này để tiến hành các thí nghiệm quy mô lớn trên llama-1/2 (7b, 13b, 70b), gpt-3.5/4 nhằm kiểm chứng hiệu quả của chúng đối với thiết kế chỉ dẫn và prompt.
> Introduces 26 guiding principles designed to streamline the process of querying and prompting large language models; applies these principles to conduct extensive experiments on llama-1/2 (7b, 13b and 70b), gpt-3.5/4 to verify their effectiveness on instructions and prompts design.
Tóm tắt bài báo(Abstract)
- Bài báo này giới thiệu 26 nguyên tắc cơ bản được thiết kế để đơn giản hóa quy trình truy vấn và prompt các mô hình ngôn ngữ lớn. Mục tiêu của chúng tôi là đơn giản hóa các khái niệm nền tảng trong việc xây dựng câu hỏi cho các mô hình ngôn ngữ lớn ở nhiều quy mô khác nhau, kiểm tra năng lực của chúng và nâng cao mức độ hiểu biết của người dùng về hành vi của các mô hình ngôn ngữ lớn ở các quy mô khác nhau khi được đưa vào các prompt khác nhau. Chúng tôi đã tiến hành các thí nghiệm mở rộng trên LLaMA-1/2 (7B, 13B, 70B), GPT-3.5/4 để xác minh hiệu quả của các nguyên tắc được đề xuất đối với thiết kế chỉ dẫn và prompt. Chúng tôi hy vọng công trình này có thể cung cấp hướng dẫn tốt hơn cho các nhà nghiên cứu đang làm việc về prompting cho các mô hình ngôn ngữ lớn. Trang dự án có tại https://github.com/VILA-Lab/ATLAS.
> This paper introduces 26 guiding principles designed to streamline the process of querying and prompting large language models. Our goal is to simplify the underlying concepts of formulating questions for various scales of large language models, examining their abilities, and enhancing user comprehension on the behaviors of different scales of large language models when feeding into different prompts. Extensive experiments are conducted on LLaMA-1/2 (7B, 13B and 70B), GPT-3.5/4 to verify the effectiveness of the proposed principles on instructions and prompts design. We hope that this work provides a better guide for researchers working on the prompting of large language models. Project page is available at https://github.com/VILA-Lab/ATLAS.
Liên kết bài báo
https://arxiv.org/abs/2312.16171v1
Đọc thêm
https://x.com/_akhaliq/status/1739857456161759455
Khảo sát về suy luận với foundation model / A Survey of Reasoning with Foundation Models
Giới thiệu bài báo
- Cung cấp một khảo sát toàn diện về các foundation model tiêu biểu cho suy luận, làm nổi bật những tiến bộ mới nhất trong nhiều tác vụ suy luận, phương pháp, benchmark và các hướng đi tiềm năng trong tương lai; đồng thời cũng thảo luận về cách những phát triển khác như học đa phương thức, tác tử tự trị và super alignment thúc đẩy và mở rộng nghiên cứu suy luận.
> Provides a comprehensive survey of seminal foundational models for reasoning, highlighting the latest advancements in various reasoning tasks, methods, benchmarks, and potential future directions; also discusses how other developments like multimodal learning, autonomous agents, and super alignment accelerate and extend reasoning research.
Tóm tắt bài báo(Abstract)
- Suy luận, một năng lực quan trọng để giải quyết các vấn đề phức tạp, đóng vai trò then chốt trong nhiều bối cảnh thực tế như đàm phán, chẩn đoán y khoa và điều tra tội phạm. Đây là một phương pháp luận nền tảng trong lĩnh vực Trí tuệ Nhân tạo Tổng quát (AGI). Cùng với sự phát triển liên tục của các foundation model, mối quan tâm đến việc khám phá năng lực của chúng trong các tác vụ suy luận ngày càng tăng. Bài báo này giới thiệu những foundation model quan trọng đã được đề xuất hoặc có thể áp dụng cho suy luận, đồng thời nhấn mạnh các tiến bộ mới nhất trong nhiều tác vụ, phương pháp và benchmark về suy luận. Sau đó, bài báo đi sâu vào các định hướng tương lai tiềm năng đằng sau sự xuất hiện của năng lực suy luận trong các foundation model. Bài báo cũng thảo luận về mức độ liên quan của học đa phương thức, tác nhân tự trị và super alignment trong bối cảnh suy luận. Thông qua việc bàn về các định hướng nghiên cứu tương lai này, nhóm tác giả hy vọng có thể truyền cảm hứng cho các nhà nghiên cứu khám phá lĩnh vực này, thúc đẩy những bước tiến hơn nữa trong suy luận với foundation model, và đóng góp vào sự phát triển của AGI.
> Reasoning, a crucial ability for complex problem-solving, plays a pivotal role in various real-world settings such as negotiation, medical diagnosis, and criminal investigation. It serves as a fundamental methodology in the field of Artificial General Intelligence (AGI). With the ongoing development of foundation models, there is a growing interest in exploring their abilities in reasoning tasks. In this paper, we introduce seminal foundation models proposed or adaptable for reasoning, highlighting the latest advancements in various reasoning tasks, methods, and benchmarks. We then delve into the potential future directions behind the emergence of reasoning abilities within foundation models. We also discuss the relevance of multimodal learning, autonomous agents, and super alignment in the context of reasoning. By discussing these future research directions, we hope to inspire researchers in their exploration of this field, stimulate further advancements in reasoning with foundation models, and contribute to the development of AGI.
Liên kết bài báo
https://arxiv.org/abs/2312.11562v4
Đọc thêm
https://x.com/omarsar0/status/1740729489661874632
Xây dựng các mô hình ngôn ngữ lớn trở thành nền tảng tốt hơn cho dense retrieval / Making Large Language Models A Better Foundation For Dense Retrieval
Giới thiệu bài báo
- Đề xuất LLaRA để điều chỉnh LLM cho dense retrieval. Phương pháp này gồm hai tác vụ tiền huấn luyện là EBAE (Embedding-Based Auto-Encoding) và EBAR (Embedding-Based Auto-Regression), lần lượt sử dụng text embedding của LLM để tái tạo token của câu đầu vào và dự đoán token của câu tiếp theo; llama-2-7b đã được cải thiện trên các benchmark như MSMARCO và BEIR.
> Proposes llara which adapts an llm for dense retrieval; it consists of two pretext tasks: ebae (embedding-based auto-encoding) and ebar (embedding-based auto-regression), where the text embeddings from llm are used to reconstruct the tokens for the input sentence and predict the tokens for the next sentence, respectively; a llama-2-7b was improved on benchmarks like msmarco and beir.
Tóm tắt(Abstract)
- Dense retrieval cần học các text embedding có tính phân biệt để biểu diễn mối quan hệ ngữ nghĩa giữa truy vấn và tài liệu. Việc sử dụng LLM (mô hình ngôn ngữ lớn) có thể mang lại lợi ích nhờ năng lực mạnh về hiểu ngữ nghĩa của chúng. Tuy nhiên, LLM được tiền huấn luyện bằng các tác vụ sinh văn bản, có cơ chế hoạt động hoàn toàn khác với việc biểu diễn văn bản dưới dạng embedding. Vì vậy, việc nghiên cứu cách điều chỉnh LLM một cách phù hợp để chúng có thể được khởi tạo hiệu quả như backbone encoder cho dense retrieval là điều thiết yếu. Bài báo này đề xuất một cách tiếp cận mới có tên LLaRA (LLM adapted for dense RetrievAl), hoạt động như một phương pháp điều chỉnh hậu kỳ cho LLM trong ứng dụng dense retrieval. LLaRA gồm hai tác vụ tiền đề: EBAE (Embedding-Based Auto-Encoding) và EBAR (Embedding-Based Auto-Regression), trong đó text embedding từ LLM được dùng để tái tạo token của câu đầu vào và dự đoán token của câu tiếp theo tương ứng. LLaRA cho thấy là một phương pháp đơn giản, gọn nhẹ và có hiệu quả rất cao. Phương pháp này được áp dụng để điều chỉnh LLaMA-2-7B (base) trên tập văn bản Wikipedia, qua đó cải thiện đáng kể hiệu năng sau fine-tune của mô hình trên nhiều benchmark dense retrieval khác nhau như MSMARCO và BEIR. Mô hình và mã nguồn sẽ được công khai tại kho BGE.
> Dense retrieval needs to learn discriminative text embeddings to represent the semantic relationship between query and document. It may benefit from the using of large language models (LLMs), given LLMs' strong capability on semantic understanding. However, the LLMs are pre-trained by text generation tasks, whose working pattern is completely different from representing texts as embeddings. As a result, it is imperative to study how to adapt LLMs properly so that they can be effectively initialized as the backbone encoder for dense retrieval. In this paper, we propose a novel approach, called LLaRA (LLM adapted for dense RetrievAl), which works as a post-hoc adaptation of LLM for the dense retrieval application. LLaRA consists of two pretext tasks: EBAE (Embedding-Based Auto-Encoding) and EBAR (Embedding-Based Auto-Regression), where the text embeddings from LLM are used to reconstruct the tokens for the input sentence and predict the tokens for the next sentence, respectively. LLaRA turns out to be simple, lightweight, and highly effective. It is applied to adapt LLaMA-2-7B (base) on the Wikipedia corpus, where it substantially improves the model's fine-tuned performances on a variety of dense retrieval benchmarks, like MSMARCO and BEIR. Our model and code will be made publicly available at BGE repository.
Liên kết bài báo
https://arxiv.org/abs/2312.15503v1
Gemini và GPT-4V: So sánh sơ bộ và kết hợp mô hình thị giác-ngôn ngữ thông qua các trường hợp định tính / Gemini vs GPT-4V: A Preliminary Comparison and Combination of Vision-Language Models Through Qualitative Cases
Giới thiệu bài báo
- Thông qua một số trường hợp định tính, bài báo tiến hành so sánh sơ bộ một cách toàn diện và thử kết hợp các mô hình thị giác-ngôn ngữ như Gemini và GPT-4V, qua đó nhận thấy GPT-4V cung cấp câu trả lời chính xác và ngắn gọn, trong khi Gemini nổi trội ở việc đưa ra câu trả lời chi tiết, mở rộng kèm hình ảnh và liên kết liên quan.
> Provides a comprehensive preliminary comparison and combination of vision-language models like gemini and gpt-4v through several qualitative cases; finds that gpt-4v is precise and succinct in responses, while gemini excels in providing detailed, expansive answers accompanied by relevant imagery and links.
Tóm tắt bài báo (Abstract)
- Lĩnh vực mô hình ngôn ngữ lớn đa phương thức (MLLM) đang phát triển rất nhanh hiện đang đi đầu trong việc tích hợp xử lý ngôn ngữ và thị giác vào trí tuệ nhân tạo. Bài báo này trình bày một nghiên cứu so sánh chuyên sâu về hai mô hình tiên phong: Gemini của Google và GPT-4V(ision) của OpenAI. Nghiên cứu đánh giá hai mô hình theo nhiều góc độ trên các khía cạnh chính như năng lực thị giác-ngôn ngữ, tương tác với con người, hiểu biết theo thời gian, cũng như đánh giá về chỉ số thông minh và chỉ số cảm xúc. Trọng tâm của phân tích là khám phá năng lực hiểu hình ảnh riêng biệt của từng mô hình. Nhóm tác giả đã thực hiện một loạt thí nghiệm có cấu trúc để đánh giá hiệu năng của chúng trong nhiều kịch bản ứng dụng công nghiệp khác nhau, từ đó đưa ra góc nhìn toàn diện về tính hữu ích trong thực tế. Không chỉ so sánh hiệu năng trực tiếp, nghiên cứu còn điều chỉnh prompt và kịch bản để bảo đảm phân tích cân bằng và công bằng. Kết quả cho thấy điểm mạnh và thị trường ngách riêng của cả hai mô hình. GPT-4V nổi bật nhờ các câu trả lời chính xác và súc tích, trong khi Gemini vượt trội trong việc cung cấp câu trả lời chi tiết, phong phú kèm hình ảnh và liên kết liên quan. Những hiểu biết này không chỉ làm sáng tỏ ưu thế so sánh giữa Gemini và GPT-4V mà còn nhấn mạnh bối cảnh đang tiến hóa của các mô hình nền tảng đa phương thức, mở đường cho các tiến bộ tiếp theo trong lĩnh vực này. Sau phần so sánh, nhóm tác giả đã thử kết hợp hai mô hình để đạt kết quả tốt hơn. Cuối cùng, nhóm tác giả bày tỏ lòng biết ơn sâu sắc tới các nhóm đứng sau GPT-4V và Gemini vì những đóng góp tiên phong cho lĩnh vực này. Đồng thời, nhóm cũng gửi lời cảm ơn tới phân tích định tính toàn diện được trình bày trong 'Dawn' của Yang và cộng sự. Công trình này, với bộ sưu tập phong phú các mẫu hình ảnh, prompt và kết quả liên quan đến GPT-4V, đã cung cấp nền tảng cho phân tích của nhóm.
> The rapidly evolving sector of Multi-modal Large Language Models (MLLMs) is at the forefront of integrating linguistic and visual processing in artificial intelligence. This paper presents an in-depth comparative study of two pioneering models: Google's Gemini and OpenAI's GPT-4V(ision). Our study involves a multi-faceted evaluation of both models across key dimensions such as Vision-Language Capability, Interaction with Humans, Temporal Understanding, and assessments in both Intelligence and Emotional Quotients. The core of our analysis delves into the distinct visual comprehension abilities of each model. We conducted a series of structured experiments to evaluate their performance in various industrial application scenarios, offering a comprehensive perspective on their practical utility. We not only involve direct performance comparisons but also include adjustments in prompts and scenarios to ensure a balanced and fair analysis. Our findings illuminate the unique strengths and niches of both models. GPT-4V distinguishes itself with its precision and succinctness in responses, while Gemini excels in providing detailed, expansive answers accompanied by relevant imagery and links. These understandings not only shed light on the comparative merits of Gemini and GPT-4V but also underscore the evolving landscape of multimodal foundation models, paving the way for future advancements in this area. After the comparison, we attempted to achieve better results by combining the two models. Finally, We would like to express our profound gratitude to the teams behind GPT-4V and Gemini for their pioneering contributions to the field. Our acknowledgments are also extended to the comprehensive qualitative analysis presented in 'Dawn' by Yang et al. This work, with its extensive collection of image samples, prompts, and GPT-4V-related results, provided a foundational basis for our analysis.
Liên kết bài báo
https://arxiv.org/abs/2312.15011v1
Đọc thêm
https://x.com/omarsar0/status/1741177994377330895
Bản gốc
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-1d3
Chưa có bình luận nào.