[2023/10/16 ~ 10/22] Các bài báo ML nổi bật trong tuần (Top ML Papers of the Week)
(discuss.pytorch.kr)Tổng quan
-
Tôi đã thử dịch tự động bài viết về các bài báo ML được DAIR.AI công bố hằng tuần.
-
Có thể chia các xu hướng chính của những bài báo được chọn trong tuần này thành hai nhóm lớn. Thứ nhất là các nghiên cứu về hệ thống hội thoại miền mở (open domain dialog system) và các nghiên cứu giúp trí tuệ nhân tạo có thể tự tạo ra lời giải thích hoặc tự từng bước giải quyết vấn đề.
-
Hệ thống hội thoại miền mở là công nghệ cho phép hệ thống AI trò chuyện tự nhiên với người dùng, và là chủ đề được đề cập trong các bài như "OpenAgents", "LLMs for Software Engineering", "Eliciting Human Preferences with LLMs". Những bài báo này nghiên cứu các phương pháp để hệ thống AI có thể tự học hỏi và phát triển thông qua tương tác với người dùng.
-
Ngoài ra, các nghiên cứu về việc AI tự tạo lời giải thích hoặc tự giải quyết vấn đề được đề cập trong các bài như "A Study of LLM-Generated Self-Explanations", "Self-RAG", "Retrieval-Augmentation for Long-form Question Answering". Mục tiêu chính của các bài báo này là làm cho quá trình AI giải bài toán hoặc tạo lời giải thích trở nên minh bạch để người dùng có thể hiểu được. Xu hướng này có vẻ là một diễn tiến tự nhiên nếu xét đến tầm quan trọng của các nghiên cứu nhằm biến AI thành công nghệ minh bạch hơn và có thể được sử dụng rộng rãi hơn.
Llemma: mô hình ngôn ngữ mở cho toán học / Llemma: An Open Language Model For Mathematics
Giới thiệu bài báo
- Mô hình Llemma dành cho toán học được tiếp tục huấn luyện từ Code Llama trên bộ dữ liệu Proof-Pile-2. Mô hình này cho kết quả tốt hơn các mô hình nền tảng mở và Minerva chưa phát hành trên các bài báo khoa học, dữ liệu web có chứa toán học, bộ dữ liệu có mã toán học và các benchmark toán học; đồng thời được phát hành kèm bộ dữ liệu và mã nguồn để tái lập thí nghiệm. #mathglm #
An llm for mathematics which is based on continued pretraining from code llama on the proof-pile-2 dataset; the dataset involves scientific paper, web data containing mathematics, and mathematical code; llemma outperforms open base models and the unreleased minerva on the math benchmark; the model is released, including dataset and code to replicate experiments.
Tóm tắt bài báo
- Chúng tôi giới thiệu Llemma, một mô hình ngôn ngữ lớn dành cho toán học. Chúng tôi tiếp tục tiền huấn luyện Code Llama trên Proof-Pile-2, một tập hợp gồm các bài báo khoa học, dữ liệu web có chứa toán học và mã toán học, để tạo ra Llemma. Trên benchmark MATH, Llemma vượt trội hơn tất cả các mô hình nền tảng mở đã biết, cũng như dòng mô hình Minerva chưa phát hành, khi so sánh ở cùng quy mô tham số. Hơn nữa, Llemma có khả năng sử dụng công cụ và chứng minh định lý hình thức mà không cần fine-tuning bổ sung. Chúng tôi công khai toàn bộ các artifact, bao gồm các mô hình 7 tỷ và 34 tỷ tham số, Proof-Pile-2 và mã nguồn để tái lập thí nghiệm của chúng tôi.
We present Llemma, a large language model for mathematics. We continue pretraining Code Llama on the Proof-Pile-2, a mixture of scientific papers, web data containing mathematics, and mathematical code, yielding Llemma. On the MATH benchmark Llemma outperforms all known open base models, as well as the unreleased Minerva model suite on an equi-parameter basis. Moreover, Llemma is capable of tool use and formal theorem proving without any further finetuning. We openly release all artifacts, including 7 billion and 34 billion parameter models, the Proof-Pile-2, and code to replicate our experiments.
Liên kết bài báo
https://arxiv.org/abs/2310.10631
Đọc thêm
https://x.com/zhangir_azerbay/status/1714098025956864031
Mô hình ngôn ngữ lớn cho kỹ thuật phần mềm: khảo sát và các vấn đề mở / Large Language Models for Software Engineering: Survey and Open Problems
Giới thiệu bài báo
- Bài khảo sát toàn diện về LLM cho kỹ thuật phần mềm, bao gồm các hướng nghiên cứu mở và các thách thức kỹ thuật
A comprehensive survey of llms for software engineering, including open research and technical challenges.
Tóm tắt bài báo
- Bài báo này cung cấp một khảo sát về lĩnh vực mới nổi là mô hình ngôn ngữ lớn (LLM) cho kỹ thuật phần mềm (SE). Bài báo cũng nêu ra các thách thức nghiên cứu mở trong việc áp dụng LLM vào các vấn đề kỹ thuật mà kỹ sư phần mềm phải đối mặt. Các đặc tính nổi sinh của LLM mang lại sự mới mẻ và sáng tạo cho toàn bộ phổ hoạt động kỹ thuật phần mềm, bao gồm viết mã, thiết kế, yêu cầu, sửa lỗi, refactoring, cải thiện hiệu năng, tài liệu hóa và phân tích. Tuy nhiên, chính những đặc tính mới này cũng tạo ra các thách thức kỹ thuật đáng kể; chúng ta cần các kỹ thuật có thể loại bỏ một cách đáng tin cậy những lời giải sai, chẳng hạn như hallucination. Khảo sát này cho thấy vai trò then chốt của các kỹ thuật lai ghép (SE truyền thống cộng với LLM) trong việc phát triển và triển khai SE dựa trên LLM sao cho đáng tin cậy, hiệu quả và hữu dụng.
This paper provides a survey of the emerging area of Large Language Models (LLMs) for Software Engineering (SE). It also sets out open research challenges for the application of LLMs to technical problems faced by software engineers. LLMs' emergent properties bring novelty and creativity with applications right across the spectrum of Software Engineering activities including coding, design, requirements, repair, refactoring, performance improvement, documentation and analytics. However, these very same emergent properties also pose significant technical challenges; we need techniques that can reliably weed out incorrect solutions, such as hallucinations. Our survey reveals the pivotal role that hybrid techniques (traditional SE plus LLMs) have to play in the development and deployment of reliable, efficient and effective LLM-based SE.
Liên kết bài báo
https://arxiv.org/abs/2310.03533
Đọc thêm
https://x.com/omarsar0/status/1713940983199506910
Self-RAG: học cách truy xuất, tạo sinh và phản biện thông qua tự phản tư / Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection
Giới thiệu bài báo
- Đề xuất một khung truy xuất tăng cường mới giúp cải thiện chất lượng và tính chính xác thực tế của LM thông qua truy xuất và tự phản tư; huấn luyện một LM có thể thích ứng truy xuất các đoạn văn khi cần, đồng thời tạo và phản tư về các đoạn văn và chính đầu ra do nó sinh ra bằng các token phản tư đặc biệt; mô hình này cho thấy hiệu năng vượt trội đáng kể so với các LLM sota (
ChatGPTvàLlama2-chattăng cường truy xuất) trên các tác vụ QA miền mở, suy luận và kiểm chứng sự thật, bao gồm cả cải thiện về tính xác thực. #rag
> Presents a new retrieval-augmented framework that enhances an lm’s quality and factuality through retrieval and self-reflection; trains an lm that adaptively retrieves passages on demand, and generates and reflects on the passages and its own generations using special reflection tokens; it significantly outperforms sota llms (chatgpt and retrieval-augmented llama2-chat) on open-domain qa, reasoning, and fact verification tasks, including factuality improvements.
Tóm tắt bài báo
- Mặc dù có những năng lực ấn tượng, các mô hình ngôn ngữ lớn (LLM) thường tạo ra các câu trả lời chứa sai lệch thực tế do chỉ dựa vào tri thức tham số mà chúng mã hóa. Retrieval-Augmented Generation (RAG), một cách tiếp cận tình thế nhằm tăng cường LM bằng việc truy xuất tri thức liên quan, giúp giảm bớt các vấn đề này. Tuy nhiên, việc truy xuất và tích hợp một số lượng cố định các đoạn văn được lấy về một cách thiếu chọn lọc, bất kể có thực sự cần truy xuất hay các đoạn văn đó có liên quan hay không, có thể làm giảm tính linh hoạt của LM hoặc dẫn đến việc tạo ra các phản hồi không hữu ích. Chúng tôi giới thiệu một khung mới có tên Self-Reflective Retrieval-Augmented Generation (Self-RAG), giúp nâng cao chất lượng và tính xác thực của LM thông qua truy xuất và tự phản tư. Khung của Facebook huấn luyện một LM đơn lẻ bất kỳ có thể thích ứng truy xuất các đoạn văn theo nhu cầu, đồng thời tạo và phản tư về các đoạn văn được truy xuất cũng như chính đầu ra của nó bằng các token đặc biệt gọi là token phản tư. Việc sinh ra các token phản tư giúp LM có thể được điều khiển trong giai đoạn suy luận, cho phép điều chỉnh hành vi để phù hợp với các yêu cầu tác vụ đa dạng. Các thí nghiệm cho thấy Self-RAG (tham số 7B và 13B) vượt trội đáng kể so với các LLM và mô hình tăng cường truy xuất tiên tiến nhất trên nhiều nhóm tác vụ khác nhau. Cụ thể, Self-RAG vượt qua
ChatGPTvàLlama2-chattăng cường truy xuất trên các tác vụ QA miền mở, suy luận và kiểm chứng sự thật, đồng thời cho thấy lợi thế đáng kể trong việc cải thiện tính xác thực và độ chính xác trích dẫn đối với các đầu ra dạng dài so với các mô hình này.
> Despite their remarkable capabilities, large language models (LLMs) often produce responses containing factual inaccuracies due to their sole reliance on the parametric knowledge they encapsulate. Retrieval-Augmented Generation (RAG), an ad hoc approach that augments LMs with retrieval of relevant knowledge, decreases such issues. However, indiscriminately retrieving and incorporating a fixed number of retrieved passages, regardless of whether retrieval is necessary, or passages are relevant, diminishes LM versatility or can lead to unhelpful response generation. We introduce a new framework called Self-Reflective Retrieval-Augmented Generation (Self-RAG) that enhances an LM's quality and factuality through retrieval and self-reflection. Our framework trains a single arbitrary LM that adaptively retrieves passages on-demand, and generates and reflects on retrieved passages and its own generations using special tokens, called reflection tokens. Generating reflection tokens makes the LM controllable during the inference phase, enabling it to tailor its behavior to diverse task requirements. Experiments show that Self-RAG (7B and 13B parameters) significantly outperforms state-of-the-art LLMs and retrieval-augmented models on a diverse set of tasks. Specifically, Self-RAG outperforms ChatGPT and retrieval-augmented Llama2-chat on Open-domain QA, reasoning and fact verification tasks, and it shows significant gains in improving factuality and citation accuracy for long-form generations relative to these models.
Liên kết bài báo
https://arxiv.org/abs/2310.11511
Đọc thêm
https://x.com/AkariAsai/status/1715110277077962937
Tìm hiểu truy xuất tăng cường cho hỏi đáp dạng dài / Understanding Retrieval Augmentation for Long-Form Question Answering
Giới thiệu bài báo
- Khảo sát các mô hình ngôn ngữ tăng cường truy xuất trong bài toán hỏi đáp dạng dài; phát hiện rằng truy xuất là một thành phần quan trọng nhưng các tài liệu bằng chứng cần được thêm vào LLM một cách cẩn trọng; đồng thời nhận thấy lỗi quy gán xảy ra thường xuyên hơn khi các tài liệu được truy xuất không có đủ thông tin/bằng chứng để trả lời câu hỏi.
> Explores retrieval-augmented language models on long-form question answering; finds that retrieval is an important component but evidence documents should be carefully added to the llm; finds that attribution error happens more frequently when retrieved documents lack sufficient information/evidence for answering the question.
Tóm tắt bài báo
- Trình bày một nghiên cứu về các mô hình ngôn ngữ (LM) tăng cường truy hồi cho bài toán hỏi đáp dạng dài. Nghiên cứu phân tích việc tăng cường truy hồi ảnh hưởng thế nào đến các LM khác nhau bằng cách so sánh các câu trả lời do mô hình tạo ra khi sử dụng cùng một tập tài liệu bằng chứng, đồng thời xem xét sự khác biệt về chất lượng của tập tài liệu truy hồi ảnh hưởng ra sao đến câu trả lời được tạo bởi cùng một LM. Nghiên cứu khảo sát nhiều thuộc tính của câu trả lời được sinh ra (ví dụ: độ trôi chảy, độ dài, độ phân tán), đặc biệt nhấn mạnh vào việc quy chiếu của các câu trả lời dạng dài đối với các tài liệu bằng chứng trong ngữ cảnh. Nghiên cứu thu thập chú thích của con người về việc quy chiếu trong câu trả lời và đánh giá các phương pháp tự động phán đoán quy chiếu. Công trình này mang lại những hiểu biết mới về cách tăng cường truy hồi tác động đến việc sinh văn bản dài giàu tri thức của LM. Ngoài ra, nghiên cứu còn xác định các mẫu quy chiếu trong sinh văn bản dài và phân tích các nguyên nhân chính gây ra lỗi quy chiếu. Thông qua các phân tích này, nghiên cứu làm sáng tỏ cách tăng cường truy hồi ảnh hưởng đến việc sinh văn bản dài giàu tri thức và đề xuất các hướng đi cho công việc trong tương lai.
> We present a study of retrieval-augmented language models (LMs) on long-form question answering. We analyze how retrieval augmentation impacts different LMs, by comparing answers generated from models while using the same evidence documents, and how differing quality of retrieval document set impacts the answers generated from the same LM. We study various attributes of generated answers (e.g., fluency, length, variance) with an emphasis on the attribution of generated long-form answers to in-context evidence documents. We collect human annotations of answer attribution and evaluate methods for automatically judging attribution. Our study provides new insights on how retrieval augmentation impacts long, knowledge-rich text generation of LMs. We further identify attribution patterns for long text generation and analyze the main culprits of attribution errors. Together, our analysis reveals how retrieval augmentation impacts long knowledge-rich text generation and provide directions for future work.
Link bài báo
https://arxiv.org/abs/2310.12150
Đọc thêm
https://x.com/omarsar0/status/1714986431859282144
GenBench
Giới thiệu bài báo
- Trình bày một khung làm việc để đặc trưng hóa và hiểu nghiên cứu về khả năng khái quát hóa trong NLP, bao gồm một phân tích tổng hợp trên 543 bài báo và một bộ công cụ giúp khám phá cũng như hiểu rõ hơn các nghiên cứu về khái quát hóa.
> Presents a framework for characterizing and understanding generalization research in nlp; involves a meta-analysis of 543 papers and a set of tools to explore and better understand generalization studies.
Link bài báo
https://nature.com/articles/s42256-023-00729-y/…
Đọc thêm
https://x.com/AIatMeta/status/1715041427283902793
Liệu mô hình ngôn ngữ lớn có thể tự giải thích chính mình? Nghiên cứu về các lời tự giải thích do LLM tạo ra / Can Large Language Models Explain Themselves? A Study of LLM-Generated Self-Explanations
Giới thiệu bài báo
- Đánh giá khả năng của LLM trong việc tự sinh ra các lời giải thích về quy gán đặc trưng. Tự giải thích hữu ích trong việc cải thiện hiệu năng và tính trung thực của LLM, và khả năng này có thể được sử dụng cùng với chain-of-thought prompting. #chain-of-thought
> Assesses an llm's capability to self-generate feature attribution explanations; self-explanation is useful to improve performance and truthfulness in llms; this capability can be used together with chain-of-thought prompting.
Tóm tắt bài báo
- Các mô hình ngôn ngữ lớn (LLM) như ChatGPT đã chứng minh hiệu năng vượt trội trên nhiều tác vụ xử lý ngôn ngữ tự nhiên (NLP) như phân tích cảm xúc, suy luận toán học và tóm tắt. Hơn nữa, vì các mô hình này được tinh chỉnh theo chỉ dẫn trên các cuộc hội thoại của con người để tạo ra các phản hồi “hữu ích”, chúng có thể và thường sẽ tạo ra phần giải thích đi kèm với phản hồi, mà chúng tôi gọi là tự giải thích. Ví dụ, khi phân tích cảm xúc của một bài đánh giá phim, mô hình có thể xuất ra không chỉ mức độ tích cực của cảm xúc mà còn cả phần giải thích (chẳng hạn bằng cách liệt kê các từ mang sắc thái cảm xúc như “tuyệt vời” và “đáng nhớ” trong bài đánh giá). Những phần tự giải thích được tạo tự động này chính xác đến mức nào? Trong bài báo này, chúng tôi khảo sát câu hỏi đó trên tác vụ phân tích cảm xúc và với giải thích gán thuộc tính đặc trưng, một trong những bối cảnh được nghiên cứu phổ biến nhất trong tài liệu về khả năng diễn giải (đối với các mô hình tiền ChatGPT). Cụ thể, chúng tôi nghiên cứu các cách khác nhau để khơi gợi tự giải thích, đánh giá độ trung thực của chúng theo một tập hợp chỉ số đánh giá, và so sánh chúng với các phương pháp giải thích truyền thống như occlusion hoặc bản đồ độ nổi bật LIME. Thông qua một loạt thí nghiệm mở rộng, chúng tôi nhận thấy các phần tự giải thích của ChatGPT có hiệu năng ngang bằng với các phương pháp truyền thống, nhưng lại khá khác biệt với chúng theo nhiều chỉ số mức độ đồng thuận, đồng thời rẻ hơn rất nhiều để tạo ra (vì chúng được sinh ra cùng với dự đoán). Ngoài ra, chúng tôi còn xác định được một số đặc tính thú vị của chúng, điều này thôi thúc chúng tôi xem xét lại nhiều thực hành hiện tại về khả năng diễn giải mô hình trong kỷ nguyên của các LLM kiểu ChatGPT.
> Large language models (LLMs) such as ChatGPT have demonstrated superior performance on a variety of natural language processing (NLP) tasks including sentiment analysis, mathematical reasoning and summarization. Furthermore, since these models are instruction-tuned on human conversations to produce "helpful" responses, they can and often will produce explanations along with the response, which we call self-explanations. For example, when analyzing the sentiment of a movie review, the model may output not only the positivity of the sentiment, but also an explanation (e.g., by listing the sentiment-laden words such as "fantastic" and "memorable" in the review). How good are these automatically generated self-explanations? In this paper, we investigate this question on the task of sentiment analysis and for feature attribution explanation, one of the most commonly studied settings in the interpretability literature (for pre-ChatGPT models). Specifically, we study different ways to elicit the self-explanations, evaluate their faithfulness on a set of evaluation metrics, and compare them to traditional explanation methods such as occlusion or LIME saliency maps. Through an extensive set of experiments, we find that ChatGPT's self-explanations perform on par with traditional ones, but are quite different from them according to various agreement metrics, meanwhile being much cheaper to produce (as they are generated along with the prediction). In addition, we identified several interesting characteristics of them, which prompt us to rethink many current model interpretability practices in the era of ChatGPT(-like) LLMs.
Liên kết bài báo
https://arxiv.org/abs/2310.11207
Đọc thêm
https://x.com/omarsar0/status/1714665747752923620
OpenAgents: Nền tảng mở cho các tác nhân ngôn ngữ trong thế giới thực / OpenAgents: An Open Platform for Language Agents in the Wild
Giới thiệu bài báo
- Đây là một nền tảng để sử dụng và lưu trữ các tác nhân ngôn ngữ mở, bao gồm ba tác nhân: một data agent cho phân tích dữ liệu, một plugins agent với hơn 200 công cụ API hằng ngày, và một web agent cho duyệt web tự động.
> An open platform for using and hosting language agents in the wild; includes three agents, including a data agent for data analysis, a plugins agent with 200+ daily api tools, and a web agent for autonomous web browsing.
Tóm tắt bài báo
- Các tác tử ngôn ngữ cho thấy tiềm năng sử dụng ngôn ngữ tự nhiên cho nhiều tác vụ đa dạng và phức tạp trong các môi trường khác nhau, đặc biệt khi được xây dựng trên các mô hình ngôn ngữ lớn (LLM). Các framework tác tử ngôn ngữ hiện tại hướng tới việc tạo điều kiện xây dựng các tác tử ngôn ngữ ở mức chứng minh khái niệm, nhưng lại bỏ qua khả năng tiếp cận tác tử của người không chuyên và hầu như không chú ý đến thiết kế ở cấp độ ứng dụng. Chúng tôi giới thiệu OpenAgents, một nền tảng mở để sử dụng và lưu trữ các tác tử ngôn ngữ trong đời sống hằng ngày. OpenAgents bao gồm ba tác tử: (1) Data Agent để phân tích dữ liệu với Python/SQL và các công cụ dữ liệu, (2) Plugins Agent với hơn 200 công cụ API dùng hằng ngày, (3) Web Agent cho việc duyệt web tự động. Người dùng phổ thông có thể tương tác với chức năng của tác tử thông qua giao diện người dùng web được tối ưu cho phản hồi nhanh và các lỗi phổ biến, trong khi nhà phát triển và nhà nghiên cứu được cung cấp trải nghiệm triển khai liền mạch trong môi trường cục bộ, tạo nền tảng để xây dựng các tác tử ngôn ngữ sáng tạo và hỗ trợ đánh giá trong thế giới thực. Chúng tôi làm rõ các thách thức và cơ hội, với kỳ vọng đặt nền móng cho nghiên cứu và phát triển các tác tử ngôn ngữ trong thế giới thực trong tương lai.
> Language agents show potential in being capable of utilizing natural language for varied and intricate tasks in diverse environments, particularly when built upon large language models (LLMs). Current language agent frameworks aim to facilitate the construction of proof-of-concept language agents while neglecting the non-expert user access to agents and paying little attention to application-level designs. We present OpenAgents, an open platform for using and hosting language agents in the wild of everyday life. OpenAgents includes three agents: (1) Data Agent for data analysis with Python/SQL and data tools; (2) Plugins Agent with 200+ daily API tools; (3) Web Agent for autonomous web browsing. OpenAgents enables general users to interact with agent functionalities through a web user interface optimized for swift responses and common failures while offering developers and researchers a seamless deployment experience on local setups, providing a foundation for crafting innovative language agents and facilitating real-world evaluations. We elucidate the challenges and opportunities, aspiring to set a foundation for future research and development of real-world language agents.
Link bài báo
https://arxiv.org/abs/2310.10634v1
Đọc thêm
https://x.com/ChengZhoujun/status/1714343204148113860
Khơi gợi sở thích của con người bằng mô hình ngôn ngữ / Eliciting Human Preferences with Language Models
Giới thiệu bài báo
- Sử dụng mô hình ngôn ngữ để định hướng quá trình đặc tả tác vụ và một framework học tập để giúp mô hình khơi gợi và suy ra hành vi mong muốn thông qua tương tác tự do dựa trên ngôn ngữ với người dùng; cho thấy rằng bằng cách tạo ra các câu hỏi mở, hệ thống tạo ra các phản hồi giàu thông tin hơn so với các prompt do người dùng tự viết.
> Uses language models to guide the task specification process and a learning framework to help models elicit and infer intended behavior through free-form, language-based interaction with users; shows that by generating open-ended questions, the system generates responses that are more informative than user-written prompts.
Tóm tắt bài báo
- Mô hình ngôn ngữ (LM) có thể được chỉ dẫn để thực hiện các tác vụ mục tiêu bằng cách sử dụng các ví dụ có gán nhãn hoặc prompt ngôn ngữ tự nhiên. Tuy nhiên, việc chọn ví dụ hoặc viết prompt có thể rất khó, đặc biệt với các tác vụ có chứa những trường hợp biên bất thường, đòi hỏi diễn đạt chính xác các ưu tiên mơ hồ, hoặc cần một mô hình tư duy chính xác về cách LM hành xử. Chúng tôi đề xuất sử dụng chính các LM để dẫn dắt quá trình đặc tả tác vụ. Bài báo này giới thiệu 'Generative Active Task Elicitation (GATE)', một khung học tập trong đó mô hình khơi gợi và suy ra hành vi dự định thông qua tương tác ngôn ngữ tự do với người dùng. Chúng tôi nghiên cứu GATE trong ba lĩnh vực: xác thực email, gợi ý nội dung và suy luận đạo đức. Trong các thí nghiệm đăng ký trước, chúng tôi cho thấy rằng các LM được prompt để thực hiện GATE — chẳng hạn bằng cách tạo câu hỏi mở hoặc tổng hợp các trường hợp biên giàu thông tin — thường khơi gợi được những phản hồi giàu thông tin hơn so với prompt hay nhãn do người dùng tự viết. Người dùng cho biết việc khai thác tác vụ theo kiểu tương tác cần ít công sức hơn so với viết prompt hoặc gán nhãn ví dụ, đồng thời làm lộ ra những khía cạnh mới mà ban đầu họ không dự đoán tới. Các phát hiện của chúng tôi gợi ý rằng việc khai thác do LM dẫn dắt có thể là một công cụ mạnh để căn chỉnh mô hình theo các sở thích và giá trị phức tạp của con người.
> Language models (LMs) can be directed to perform target tasks by using labeled examples or natural language prompts. But selecting examples or writing prompts for can be challenging--especially in tasks that involve unusual edge cases, demand precise articulation of nebulous preferences, or require an accurate mental model of LM behavior. We propose to use LMs themselves to guide the task specification process. In this paper, we introduce Generative Active Task Elicitation (GATE): a learning framework in which models elicit and infer intended behavior through free-form, language-based interaction with users. We study GATE in three domains: email validation, content recommendation, and moral reasoning. In preregistered experiments, we show that LMs prompted to perform GATE (e.g., by generating open-ended questions or synthesizing informative edge cases) elicit responses that are often more informative than user-written prompts or labels. Users report that interactive task elicitation requires less effort than prompting or example labeling and surfaces novel considerations not initially anticipated by users. Our findings suggest that LM-driven elicitation can be a powerful tool for aligning models to complex human preferences and values.
Liên kết bài báo
https://arxiv.org/abs/2310.11589
Đọc thêm
https://x.com/AlexTamkin/status/1715040019520569395
AutoMix: Trộn mô hình ngôn ngữ tự động / AutoMix: Automatically Mixing Language Models
Giới thiệu bài báo
- Một cách tiếp cận định tuyến truy vấn tới llms dựa trên độ chính xác của các mô hình ngôn ngữ nhỏ hơn (được thực hiện qua vài lần tự xác minh); một bộ meta-verifier được đưa vào để kiểm tra đầu ra của bộ xác minh (thường là mô hình nhỏ hơn) và định tuyến truy vấn sang mô hình ngôn ngữ lớn hơn khi cần. Các thí nghiệm dùng llama2-13/70b trên năm bộ dữ liệu suy luận có ngữ cảnh cho thấy AutoMix vượt qua các đường cơ sở hiện có, cải thiện lợi ích gia tăng trên mỗi chi phí lên tới 89%.
> An approach to route queries to llms based on the correctness of smaller language models (done via few-shot self-verification); a meta-verifier is introduced to check the verifier's output (typically a smaller model) and route the query to a larger language model if needed. experiments using llama2-13/70b, on five context-grounded reasoning datasets demonstrate that automix surpasses established baselines, improving the incremental benefit per cost by up to 89%.
Tóm tắt bài báo
- Hiện nay, các mô hình ngôn ngữ lớn (LLM) với nhiều kích cỡ và cấu hình khác nhau đã có sẵn từ các nhà cung cấp cloud API. Sự đa dạng này mang lại nhiều lựa chọn hơn, nhưng việc tận dụng hiệu quả các lựa chọn đó để tối ưu chi phí tính toán và hiệu năng vẫn là một thách thức. Trong công trình này, chúng tôi giới thiệu AutoMix, một phương pháp định tuyến truy vấn tới các LM lớn hơn một cách chiến lược dựa trên độ đúng gần đúng của đầu ra từ một LM nhỏ hơn. Cốt lõi của AutoMix là một cơ chế few-shot tự xác minh, ước lượng độ tin cậy của chính đầu ra của nó mà không cần huấn luyện. Do quá trình xác minh có thể nhiễu, AutoMix sử dụng một meta verifier để tinh chỉnh độ chính xác của các đánh giá này. Kết quả thực nghiệm với LLAMA2-13/70B trên năm bộ dữ liệu suy luận có ngữ cảnh cho thấy AutoMix vượt qua các đường cơ sở hiện có, cải thiện lợi ích gia tăng trên mỗi chi phí lên tới 89%. Mã nguồn và dữ liệu có tại https://github.com/automix-llm/automix.
> Large language models (LLMs) are now available in various sizes and configurations from cloud API providers. While this diversity offers a broad spectrum of choices, effectively leveraging the options to optimize computational cost and performance remains challenging. In this work, we present AutoMix, an approach that strategically routes queries to larger LMs, based on the approximate correctness of outputs from a smaller LM. Central to AutoMix is a few-shot self-verification mechanism, which estimates the reliability of its own outputs without requiring training. Given that verifications can be noisy, we employ a meta verifier in AutoMix to refine the accuracy of these assessments. Our experiments using LLAMA2-13/70B, on five context-grounded reasoning datasets demonstrate that AutoMix surpasses established baselines, improving the incremental benefit per cost by up to 89%. Our code and data are available at https://github.com/automix-llm/automix.
Liên kết bài báo
https://arxiv.org/abs/2310.12963
Đọc thêm
https://x.com/omarsar0/status/1715385477627334718
Lập kế hoạch ngôn ngữ video / Video Language Planning
Giới thiệu bài báo
- Thuật toán được đề xuất có thể tổng hợp các kế hoạch video dài hạn phức tạp trên nhiều lĩnh vực robot học thông qua một quy trình tìm kiếm trên cây, trong đó mô hình thị giác-ngôn ngữ được huấn luyện làm chính sách và hàm giá trị, còn mô hình văn bản-sang-video được huấn luyện làm mô hình động lực học.
> Enables synthesizing complex long-horizon video plans across robotics domains; the proposed algorithm involves a tree search procedure that trains vision-language models to serve as policies and value functions, and text-to-video models as dynamic models.
Tóm tắt bài báo
- Chúng tôi quan tâm đến việc hiện thực hóa lập kế hoạch thị giác cho các tác vụ dài hạn phức tạp trong không gian của video và ngôn ngữ được tạo sinh, bằng cách tận dụng những tiến bộ gần đây của các mô hình tạo sinh quy mô lớn được tiền huấn luyện trên dữ liệu ở quy mô Internet. Để làm điều này, chúng tôi giới thiệu video language planning (VLP), một thuật toán gồm quy trình tìm kiếm trên cây, trong đó chúng tôi huấn luyện (i) các mô hình thị giác-ngôn ngữ để đóng vai trò vừa là chính sách vừa là hàm giá trị, và (ii) các mô hình văn bản-sang-video làm mô hình động lực học. VLP nhận đầu vào là một chỉ dẫn tác vụ dài hạn và quan sát ảnh hiện tại, rồi xuất ra một kế hoạch video dài cung cấp đặc tả đa phương thức (video và ngôn ngữ) chi tiết mô tả cách hoàn thành tác vụ cuối cùng. VLP mở rộng theo mức tăng của ngân sách tính toán, trong đó thời gian tính toán nhiều hơn sẽ tạo ra các kế hoạch video tốt hơn, và có thể tổng hợp các kế hoạch video dài hạn trên nhiều lĩnh vực robot học khác nhau: từ sắp xếp lại nhiều vật thể đến thao tác khéo léo bằng hai tay với nhiều camera. Các kế hoạch video được tạo sinh có thể được chuyển thành hành động robot thực thông qua các chính sách có điều kiện theo mục tiêu, được điều kiện hóa trên từng khung hình trung gian của video được tạo sinh. Kết quả thực nghiệm cho thấy VLP cải thiện đáng kể tỷ lệ thành công của các tác vụ dài hạn so với các phương pháp trước đây trên cả robot mô phỏng lẫn robot thực (trên 3 nền tảng phần cứng).
> We are interested in enabling visual planning for complex long-horizon tasks in the space of generated videos and language, leveraging recent advances in large generative models pretrained on Internet-scale data. To this end, we present video language planning (VLP), an algorithm that consists of a tree search procedure, where we train (i) vision-language models to serve as both policies and value functions, and (ii) text-to-video models as dynamics models. VLP takes as input a long-horizon task instruction and current image observation, and outputs a long video plan that provides detailed multimodal (video and language) specifications that describe how to complete the final task. VLP scales with increasing computation budget where more computation time results in improved video plans, and is able to synthesize long-horizon video plans across different robotics domains: from multi-object rearrangement, to multi-camera bi-arm dexterous manipulation. Generated video plans can be translated into real robot actions via goal-conditioned policies, conditioned on each intermediate frame of the generated video. Experiments show that VLP substantially improves long-horizon task success rates compared to prior methods on both simulated and real robots (across 3 hardware platforms).
Liên kết bài báo
https://arxiv.org/abs/2310.10625
Đọc thêm
https://x.com/du_yilun/status/1714297584842318157
Bản gốc
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-ff8
Chưa có bình luận nào.