08] Các bài báo ML nổi bật trong tuần (Top ML Papers of the Week)

(discuss.pytorch.kr)

2 điểm bởi ninebow 2023-10-09 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Tổng quan

Chúng tôi đã thử tự động dịch các bài viết về những bài báo ML được DAIR.AI công bố hằng tuần.
Xem qua các bài báo được giới thiệu trong tuần này, có thể thấy có nhiều nghiên cứu về các mô hình ngôn ngữ (Language Models, LLM) xử lý ngữ cảnh dài hạn (Long Context). Đặc biệt, các bài như 'LLMs Represent Space and Time', 'Retrieval meets Long Context LLMs', 'StreamingLLM', 'The Dawn of LLMs', 'Training LLMs with Pause Tokens' đã làm nổi bật nhiều khía cạnh khác nhau của LLM.
Xu hướng này là một ví dụ tiêu biểu cho thấy tầm quan trọng của mô hình ngôn ngữ trong machine learning và deep learning đang tiếp tục gia tăng. LLM là công nghệ học từ lượng lớn dữ liệu ngôn ngữ để cải thiện hiệu năng tổng thể trong nhiều tác vụ hiểu ngôn ngữ như sinh câu, dịch máy, sửa chính tả. Tuy nhiên, việc xử lý ngữ cảnh dài hạn vẫn còn nhiều khó khăn. Có vẻ như nhiều cách tiếp cận khác nhau đang được đề xuất để giải quyết vấn đề này.
Ngoài ra, các bài báo như 'Neural Developmental Programs', 'Recursively Self-Improving Code Generation', 'Retrieval-Augmented Dual Instruction Tuning' cũng khám phá những chủ đề như tự học của AI, sinh mã và instruction tuning. Điều này cho thấy các phương pháp luận mới đang tiếp tục xuất hiện trong AI, và các nghiên cứu như vậy được kỳ vọng sẽ đóng vai trò rất quan trọng trong việc nâng cao khả năng tự học và tính thích nghi của công nghệ AI.
Vì vậy, có thể nói xu hướng của các bài báo tuần này cho thấy những hướng nghiên cứu mới trong xử lý ngữ cảnh dài hạn của mô hình ngôn ngữ cũng như trong lĩnh vực tự học và sinh mã của AI.

Mô hình ngôn ngữ biểu diễn không gian và thời gian / Language Models Represent Space and Time

Giới thiệu bài báo

Nghiên cứu phát hiện rằng các mô hình ngôn ngữ học được các biểu diễn tuyến tính của không gian và thời gian trên nhiều thang đo; các biểu diễn này mạnh mẽ trước những biến đổi của prompt và được hợp nhất trên nhiều loại thực thể khác nhau, từ đó lập luận rằng mô hình ngôn ngữ học được mô hình thế giới theo nghĩa đen chứ không chỉ là các thống kê bề mặt. Đồng thời, nghiên cứu chứng minh rằng chúng tiếp thu được tri thức có cấu trúc cơ bản như không gian và thời gian. #llm #llama2

Discovers that llms learn linear representations of space and time across multiple scales; the representations are robust to prompt variations and unified across different entity types; demonstrate that llms acquire fundamental structured knowledge such as space and time, claiming that language models learn beyond superficial statistics, but literal world models.

Tóm tắt bài báo

Năng lực của các mô hình ngôn ngữ lớn (LLM) đã làm dấy lên tranh luận rằng liệu các hệ thống này chỉ học một tập hợp khổng lồ các thống kê bề mặt, hay học một mô hình nhất quán về quá trình sinh dữ liệu — tức một mô hình thế giới. Chúng tôi tìm thấy bằng chứng ủng hộ giả thuyết sau bằng cách phân tích các biểu diễn đã học của ba bộ dữ liệu không gian (thế giới, Hoa Kỳ, các địa điểm ở New York) và ba bộ dữ liệu thời gian (nhân vật lịch sử, tác phẩm nghệ thuật, tiêu đề tin tức) trong họ mô hình Llama-2. Kết quả cho thấy LLM học được các biểu diễn tuyến tính của không gian và thời gian trên nhiều thang đo. Những biểu diễn này vẫn vững vàng trước các biến thể của prompt và được hợp nhất trên các loại thực thể khác nhau (ví dụ: thành phố và địa danh). Ngoài ra, nghiên cứu còn xác định được các "space neurons" và "time neurons" riêng lẻ có khả năng mã hóa ổn định các tọa độ không gian và thời gian. Phân tích của chúng tôi cho thấy các LLM hiện đại tiếp thu tri thức có cấu trúc về những chiều cơ bản như không gian và thời gian, qua đó củng cố quan điểm rằng chúng không chỉ học các thống kê bề mặt mà còn học các mô hình thế giới theo nghĩa đen.

The capabilities of large language models (LLMs) have sparked debate over whether such systems just learn an enormous collection of superficial statistics or a coherent model of the data generating process -- a world model. We find evidence for the latter by analyzing the learned representations of three spatial datasets (world, US, NYC places) and three temporal datasets (historical figures, artworks, news headlines) in the Llama-2 family of models. We discover that LLMs learn linear representations of space and time across multiple scales. These representations are robust to prompting variations and unified across different entity types (e.g. cities and landmarks). In addition, we identify individual space neurons'' and time neurons'' that reliably encode spatial and temporal coordinates. Our analysis demonstrates that modern LLMs acquire structured knowledge about fundamental dimensions such as space and time, supporting the view that they learn not merely superficial statistics, but literal world models.

Liên kết bài báo

https://arxiv.org/abs/2310.02207

Đọc thêm

https://x.com/wesg52/status/1709551516577902782

Khi truy xuất gặp các mô hình ngôn ngữ lớn ngữ cảnh dài / Retrieval meets Long Context Large Language Models

Giới thiệu bài báo

Bài báo so sánh truy xuất tăng cường và cửa sổ ngữ cảnh dài trong các tác vụ downstream để khảo sát liệu có thể kết hợp hai phương pháp nhằm tận dụng ưu điểm của cả hai hay không. Một llm có cửa sổ ngữ cảnh 4K dùng RAG đơn giản có thể đạt hiệu năng tương đương với một llm được fine-tune có ngữ cảnh 16K; truy xuất có thể cải thiện đáng kể hiệu năng của llm bất kể kích thước cửa sổ ngữ cảnh mở rộng; và một llama2-70b tăng cường truy xuất với cửa sổ ngữ cảnh 32K vượt qua gpt-3.5-turbo-16k trên 7 tác vụ ngữ cảnh dài, bao gồm hỏi đáp và tóm tắt dựa trên truy vấn. #llama #llama2-7b-32k-context #llama2-long #100k-context-window #streamingllm

Compares retrieval augmentation and long-context windows for downstream tasks to investigate if the methods can be combined to get the best of both worlds; an llm with a 4k context window using simple rag can achieve comparable performance to a fine-tuned llm with 16k context; retrieval can significantly improve the performance of llms regardless of their extended context window sizes; a retrieval-augmented llama2-70b with a 32k context window outperforms gpt-3.5-turbo-16k on seven long context tasks including question answering and query-based summarization.

Tóm tắt bài báo

Trong khi việc mở rộng cửa sổ ngữ cảnh của các mô hình ngôn ngữ lớn (LLM) gần đây đang trở nên phổ biến, các giải pháp tăng cường LLM bằng truy xuất đã tồn tại từ nhiều năm trước. Những câu hỏi tự nhiên đặt ra là: i) giữa tăng cường truy xuất và cửa sổ ngữ cảnh dài, cách nào phù hợp hơn cho các tác vụ downstream? ii) Có thể kết hợp cả hai phương pháp để tận dụng ưu điểm của cả hai hay không? Nghiên cứu này trả lời các câu hỏi đó bằng cách khảo sát cả hai giải pháp trên hai LLM tiền huấn luyện hiện đại, gồm một GPT 43B độc quyền và LLaMA2-70B. Điều khá bất ngờ là nhóm tác giả phát hiện một LLM có cửa sổ ngữ cảnh 4K sử dụng tăng cường truy xuất đơn giản trong quá trình sinh có thể đạt hiệu năng tương đương với một LLM được fine-tune có cửa sổ ngữ cảnh 16K thông qua nội suy vị trí trên các tác vụ ngữ cảnh dài, trong khi cần ít tính toán hơn nhiều. Quan trọng hơn, nghiên cứu chứng minh rằng truy xuất có thể cải thiện đáng kể hiệu năng của LLM bất kể kích thước cửa sổ ngữ cảnh được mở rộng là bao nhiêu. LLaMA2-70B tăng cường truy xuất với cửa sổ ngữ cảnh 32K vượt trội hơn GPT-3.5-turbo-16k và Davinci003 về điểm số trung bình trên 7 tác vụ ngữ cảnh dài, bao gồm hỏi đáp và tóm tắt dựa trên truy vấn. Mô hình này cũng vượt xa baseline LLaMA2-70B-32k không dùng truy xuất, đồng thời có tốc độ sinh nhanh hơn nhiều. Nghiên cứu mang lại những góc nhìn tổng quát giúp người thực hành cân nhắc giữa tăng cường truy xuất và mở rộng ngữ cảnh dài cho LLM.

Extending the context window of large language models (LLMs) is getting popular recently, while the solution of augmenting LLMs with retrieval has existed for years. The natural questions are: i) Retrieval-augmentation versus long context window, which one is better for downstream tasks? ii) Can both methods be combined to get the best of both worlds? In this work, we answer these questions by studying both solutions using two state-of-the-art pretrained LLMs, i.e., a proprietary 43B GPT and LLaMA2-70B. Perhaps surprisingly, we find that LLM with 4K context window using simple retrieval-augmentation at generation can achieve comparable performance to finetuned LLM with 16K context window via positional interpolation on long context tasks, while taking much less computation. More importantly, we demonstrate that retrieval can significantly improve the performance of LLMs regardless of their extended context window sizes. Our best model, retrieval-augmented LLaMA2-70B with 32K context window, outperforms GPT-3.5-turbo-16k and Davinci003 in terms of average score on seven long context tasks including question answering and query-based summarization. It also outperforms its non-retrieval LLaMA2-70B-32k baseline by a margin, while being much faster at generation. Our study provides general insights on the choice of retrieval-augmentation versus long context extension of LLM for practitioners.

Liên kết bài báo

https://arxiv.org/abs/2310.03025

Đọc thêm

https://x.com/omarsar0/status/1709749178199318545

Mô hình ngôn ngữ streaming hiệu quả với attention sink / Efficient Streaming Language Models with Attention Sinks

Giới thiệu bài báo

Một framework cho phép xây dựng streaming LLM hiệu quả với attention sink, hiện tượng mà trạng thái kv của các token ban đầu có thể khôi phục phần lớn hiệu năng của window attention; sự xuất hiện của attention sink là do điểm attention mạnh hướng tới các token ban đầu; cách tiếp cận này cho phép các LLM được huấn luyện với cửa sổ attention có độ dài hữu hạn khái quát hóa sang độ dài chuỗi vô hạn mà không cần fine-tune bổ sung. #streamingllm

A framework that enables efficient streaming llms with attention sinks, a phenomenon where the kv states of initial tokens will largely recover the performance of window attention; the emergence of the attention sink is due to strong attention scores towards the initial tokens; this approach enables llms trained with finite length attention windows to generalize to infinite sequence length without any additional fine-tuning.

Tóm tắt bài báo

Việc triển khai mô hình ngôn ngữ lớn (LLM) trong các ứng dụng streaming như hội thoại nhiều lượt, nơi dự kiến có các tương tác dài, là nhu cầu cấp thiết nhưng đặt ra hai thách thức lớn. Thứ nhất, trong giai đoạn giải mã, việc cache trạng thái Key và Value (KV) của các token trước đó tiêu tốn rất nhiều bộ nhớ. Thứ hai, các LLM phổ biến không thể khái quát hóa sang các văn bản dài hơn độ dài chuỗi huấn luyện. Window attention, nơi chỉ cache các KV gần nhất, là một cách tiếp cận tự nhiên — nhưng nghiên cứu cho thấy nó thất bại khi độ dài văn bản vượt quá kích thước cache. Một hiện tượng thú vị được quan sát thấy, gọi là attention sink, đó là việc giữ lại KV của các token ban đầu sẽ khôi phục đáng kể hiệu năng của window attention. Trong bài báo này, trước tiên nhóm tác giả chứng minh rằng sự xuất hiện của attention sink là do điểm attention mạnh hướng về các token ban đầu như một “sink”, ngay cả khi chúng không quan trọng về mặt ngữ nghĩa. Dựa trên phân tích trên, bài báo giới thiệu StreamingLLM, một framework hiệu quả cho phép các LLM được huấn luyện với cửa sổ attention có độ dài hữu hạn có thể khái quát hóa sang độ dài chuỗi vô hạn mà không cần fine-tuning. Nhóm tác giả cho thấy StreamingLLM có thể giúp Llama-2, MPT, Falcon và Pythia thực hiện language modeling ổn định và hiệu quả với tối đa hơn 4 triệu token. Ngoài ra, họ cũng phát hiện rằng việc thêm một placeholder token làm attention sink chuyên dụng trong giai đoạn pre-training có thể cải thiện hơn nữa việc triển khai streaming. Trong thiết lập streaming, StreamingLLM nhanh hơn tối đa 22.2 lần so với baseline sliding window recomputation. Mã nguồn và bộ dữ liệu có tại https://github.com/mit-han-lab/streaming-llm.

Deploying Large Language Models (LLMs) in streaming applications such as multi-round dialogue, where long interactions are expected, is urgently needed but poses two major challenges. Firstly, during the decoding stage, caching previous tokens' Key and Value states (KV) consumes extensive memory. Secondly, popular LLMs cannot generalize to longer texts than the training sequence length. Window attention, where only the most recent KVs are cached, is a natural approach -- but we show that it fails when the text length surpasses the cache size. We observe an interesting phenomenon, namely attention sink, that keeping the KV of initial tokens will largely recover the performance of window attention. In this paper, we first demonstrate that the emergence of attention sink is due to the strong attention scores towards initial tokens as a ``sink'' even if they are not semantically important. Based on the above analysis, we introduce StreamingLLM, an efficient framework that enables LLMs trained with a finite length attention window to generalize to infinite sequence lengths without any fine-tuning. We show that StreamingLLM can enable Llama-2, MPT, Falcon, and Pythia to perform stable and efficient language modeling with up to 4 million tokens and more. In addition, we discover that adding a placeholder token as a dedicated attention sink during pre-training can further improve streaming deployment. In streaming settings, StreamingLLM outperforms the sliding window recomputation baseline by up to 22.2x speedup. Code and datasets are provided at https://github.com/mit-han-lab/streaming-llm.

Liên kết bài báo

https://arxiv.org/abs/2309.17453

Đọc thêm

https://x.com/Guangxuan_Xiao/status/1708943505731801325

https://discuss.pytorch.kr/t/…

Hướng tới các mạng nơ-ron nhân tạo tự lắp ráp thông qua các chương trình phát triển thần kinh / Towards Self-Assembling Artificial Neural Networks through Neural Developmental Programs

Giới thiệu bài báo

Đề xuất sử dụng các mạng nơ-ron tự lắp ráp thông qua một quá trình phát triển phản ánh các đặc tính của sự phát triển phôi thai ở sinh vật học (được gọi là các chương trình phát triển thần kinh); đồng thời cho thấy tính khả thi của cách tiếp cận này trong các bài toán điều khiển liên tục và các topology tăng trưởng.

Proposes to use neural networks that self-assemble through a developmental process that mirrors properties of embryonic development in biological organisms (referred to as neural developmental programs); shows the feasibility of the approach in continuous control problems and growing topologies.

Tóm tắt bài báo

Hệ thần kinh sinh học được tạo ra theo cách khác biệt căn bản so với các mạng nơ-ron nhân tạo hiện nay. Dù deep learning cho thấy những kết quả ấn tượng ở nhiều lĩnh vực khác nhau, việc thiết kế các kiến trúc nơ-ron hiệu năng cao thường đòi hỏi nỗ lực kỹ thuật đáng kể. Trái lại, hệ thần kinh sinh học phát triển thông qua một quá trình tự tổ chức động. Trong bài báo này, chúng tôi thực hiện những bước đầu tiên hướng tới các mạng nơ-ron có thể phát triển thông qua một quá trình phát sinh phản ánh các đặc tính then chốt của sự phát triển phôi ở sinh vật sống. Quá trình phát triển này được dẫn dắt bởi một mạng nơ-ron khác mà chúng tôi gọi là Neural Developmental Program (NDP), và mạng này chỉ hoạt động thông qua giao tiếp cục bộ. Chúng tôi khảo sát vai trò của sự phát triển nơ-ron trên nhiều benchmark học máy và nhiều phương pháp tối ưu hóa khác nhau (huấn luyện tiến hóa, RL trực tuyến, RL ngoại tuyến và học có giám sát). Ngoài ra, chúng tôi cũng nêu bật các hướng nghiên cứu tương lai và những cơ hội được mở ra khi sự tự tổ chức thúc đẩy quá trình phát triển của các mạng nơ-ron.

Biological nervous systems are created in a fundamentally different way than current artificial neural networks. Despite its impressive results in a variety of different domains, deep learning often requires considerable engineering effort to design high-performing neural architectures. By contrast, biological nervous systems are grown through a dynamic self-organizing process. In this paper, we take initial steps toward neural networks that grow through a developmental process that mirrors key properties of embryonic development in biological organisms. The growth process is guided by another neural network, which we call a Neural Developmental Program (NDP) and which operates through local communication alone. We investigate the role of neural growth on different machine learning benchmarks and different optimization methods (evolutionary training, online RL, offline RL, and supervised learning). Additionally, we highlight future research directions and opportunities enabled by having self-organization driving the growth of neural networks.

Link bài báo

https://arxiv.org/abs/2307.08197

Đọc thêm

https://x.com/risi1979/status/1708888992224362742

Bình minh của LMM: Khảo sát sơ bộ với GPT-4V(ision) / The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)

Giới thiệu bài báo

Để đào sâu hiểu biết về các mô hình đa phương thức quy mô lớn (LMM), bài viết phân tích toàn diện gpt-4v, tập trung vào việc thăm dò gpt-4v trong nhiều kịch bản ứng dụng khác nhau, đồng thời cung cấp nhiều ví dụ từ khả năng code có thị giác cho tới các LMM tăng cường truy xuất. #multimodal #gpt-4v

A comprehensive analysis of gpt-4v to deepen the understanding of large multimodal models (lmms); it focuses on probing gpt-4v across various application scenarios; provides examples ranging from code capabilities with vision to retrieval-augmented lmms.

Tóm tắt bài báo

Các mô hình đa phương thức lớn (LMM) mở rộng các mô hình ngôn ngữ lớn (LLM) bằng những năng lực đa giác quan như hiểu thị giác để đạt được trí tuệ tổng quát mạnh hơn. Trong bài báo này, chúng tôi phân tích mô hình mới nhất GPT-4V(ision) nhằm đào sâu hiểu biết về LMM. Phân tích này tập trung vào những tác vụ thú vị mà GPT-4V có thể thực hiện, bao gồm các mẫu thử để thăm dò chất lượng và tính tổng quát của các năng lực GPT-4V, các loại đầu vào và chế độ làm việc mà mô hình hỗ trợ, cũng như những cách prompt hiệu quả để dẫn dắt mô hình. Trong cách tiếp cận khám phá GPT-4V của mình, chúng tôi tuyển chọn và sắp xếp một bộ mẫu định tính được thiết kế cẩn thận, bao quát nhiều lĩnh vực và tác vụ khác nhau. Những quan sát từ các mẫu này cho thấy khả năng chưa từng có của GPT-4V trong việc xử lý các đầu vào đa phương thức được đan xen một cách tùy ý, cùng với tính tổng quát trong năng lực của nó, giúp GPT-4V trở thành một hệ thống tổng quát đa phương thức mạnh mẽ. Hơn nữa, khả năng độc đáo của GPT-4V trong việc hiểu các dấu đánh dấu trực quan được vẽ trên ảnh đầu vào có thể mở ra các phương thức tương tác người-máy mới như visual referring prompting. Chúng tôi kết thúc báo cáo bằng các thảo luận chuyên sâu về những kịch bản ứng dụng mới nổi và các hướng nghiên cứu tương lai cho các hệ thống dựa trên GPT-4V. Chúng tôi hy vọng khảo sát sơ bộ này sẽ truyền cảm hứng cho các nghiên cứu tương lai về cách hình thành tác vụ đa phương thức thế hệ tiếp theo, những phương pháp mới để khai thác và cải thiện LMM nhằm giải quyết các vấn đề thực tế, cũng như việc hiểu tốt hơn các foundation model đa phương thức.

Link bài báo

https://arxiv.org/abs/2309.17421

Đọc thêm

https://x.com/omarsar0/status/1708860551110041871

https://discuss.pytorch.kr/t/gn-chatgpt/2543

Hãy suy nghĩ trước khi nói: Huấn luyện mô hình ngôn ngữ với token tạm dừng / Think before you speak: Training Language Models With Pause Tokens

Giới thiệu bài báo

Sử dụng token <pause> có thể học được để huấn luyện và suy luận cho LLM, qua đó trì hoãn việc mô hình tạo câu trả lời và giúp đạt được cải thiện hiệu năng trên các tác vụ hiểu biết tổng quát như hỏi đáp theo lẽ thường và giải toán đố bằng lời. Kết quả thí nghiệm cho thấy cách này chỉ mang lại lợi ích khi độ trễ được đưa vào cả giai đoạn tiền huấn luyện liên quan lẫn fine-tuning downstream. #pause-for-thought

Thực hiện huấn luyện và suy luận trên các LLM với một token <pause> có thể học được, giúp trì hoãn việc tạo câu trả lời của mô hình và đạt được cải thiện hiệu năng trên các tác vụ hiểu biết tổng quát như commonsense QA và giải toán đố bằng lời; các thí nghiệm cho thấy điều này chỉ có lợi nếu độ trễ được đưa vào cả tiền huấn luyện liên quan và fine-tuning downstream.

Tóm tắt bài báo

Các mô hình ngôn ngữ tạo phản hồi bằng cách sinh ra một chuỗi token liên tiếp. Token thứ $(K+1)^{th}$ là kết quả của việc thao tác $K$ vector ẩn trên mỗi tầng, với một vector cho mỗi token trước đó. Vậy nếu thay vào đó, ta để mô hình thao tác chẳng hạn $K+10$ vector ẩn trước khi nó xuất ra token thứ $(K+1)^{th}$ thì sao? Chúng tôi hiện thực hóa ý tưởng này bằng cách thực hiện huấn luyện và suy luận trên các mô hình ngôn ngữ với token $\textit{pause}$ (có thể học được), là một chuỗi token được nối thêm vào tiền tố đầu vào. Sau đó, chúng tôi trì hoãn việc trích xuất đầu ra của mô hình cho đến khi token tạm dừng cuối cùng xuất hiện, nhờ đó cho phép mô hình xử lý thêm tính toán trước khi chốt câu trả lời. Chúng tôi đánh giá thực nghiệm $\textit{pause-training}$ trên các mô hình chỉ decoder với 1B và 130M tham số, được tiền huấn luyện nhân quả trên C4, cùng các tác vụ downstream bao gồm suy luận, hỏi đáp, hiểu biết tổng quát và hồi tưởng sự kiện. Phát hiện chính của chúng tôi là độ trễ ở thời gian suy luận mang lại cải thiện khi mô hình vừa được tiền huấn luyện vừa được fine-tune với độ trễ. Với mô hình 1B, chúng tôi ghi nhận cải thiện trên 8 trong số 9 tác vụ, nổi bật nhất là tăng $18%$ điểm EM trên tác vụ QA của SQuAD, $8%$ trên CommonSenseQA và $1%$ độ chính xác trên tác vụ suy luận của GSM8k. Công trình của chúng tôi đặt ra nhiều câu hỏi nghiên cứu khái niệm và thực tiễn trong tương lai nhằm biến dự đoán token tiếp theo có độ trễ thành một mô hình mới có thể áp dụng rộng rãi.

Language models generate responses by producing a series of tokens in immediate succession: the $(K+1)^{th}$ token is an outcome of manipulating $K$ hidden vectors per layer, one vector per preceding token. What if instead we were to let the model manipulate say, $K+10$ hidden vectors, before it outputs the $(K+1)^{th}$ token? We operationalize this idea by performing training and inference on language models with a (learnable) $\textit{pause}$ token, a sequence of which is appended to the input prefix. We then delay extracting the model's outputs until the last pause token is seen, thereby allowing the model to process extra computation before committing to an answer. We empirically evaluate $\textit{pause-training}$ on decoder-only models of 1B and 130M parameters with causal pretraining on C4, and on downstream tasks covering reasoning, question-answering, general understanding and fact recall. Our main finding is that inference-time delays show gains when the model is both pre-trained and finetuned with delays. For the 1B model, we witness gains on 8 of 9 tasks, most prominently, a gain of $18%$ EM score on the QA task of SQuAD, $8%$ on CommonSenseQA and $1%$ accuracy on the reasoning task of GSM8k. Our work raises a range of conceptual and practical future research questions on making delayed next-token prediction a widely applicable new paradigm.

Liên kết bài báo

https://arxiv.org/abs/2310.02226

Đọc thêm

https://x.com/omarsar0/status/1709573238123122959

Công cụ tối ưu hóa tự học (STOP): Sinh mã tự cải thiện theo cách đệ quy / Self-Taught Optimizer (STOP): Recursively Self-Improving Code Generation

Giới thiệu bài báo

Đề xuất sử dụng một chương trình scaffolding được tích hợp mô hình ngôn ngữ để tự cải thiện một cách đệ quy; một bộ cải thiện khởi tạo trước tiên cải thiện chương trình đầu vào để trả về lời giải tốt nhất, sau đó tiếp tục được giao nhiệm vụ tự cải thiện chính nó; cho thấy mô hình GPT-4 có thể viết mã cho phép tự gọi chính nó để tự cải thiện. #self-training-survey-paper

Đề xuất sử dụng một chương trình scaffolding tích hợp mô hình ngôn ngữ để tự cải thiện theo cách đệ quy; một bộ cải thiện hạt giống trước tiên cải thiện chương trình đầu vào trả về lời giải tốt nhất, rồi tiếp tục được giao nhiệm vụ tự cải thiện chính nó; cho thấy các mô hình gpt-4 có thể viết mã có thể tự gọi chính nó để tự cải thiện.

Tóm tắt bài báo

Một số tiến bộ gần đây của các hệ thống AI (ví dụ: Tree-of-Thoughts và Program-Aided Language Models) giải quyết bài toán bằng cách cung cấp một chương trình “scaffolding” tổ chức nhiều lần gọi tới mô hình ngôn ngữ để tạo ra đầu ra tốt hơn. Chương trình scaffolding được viết bằng ngôn ngữ lập trình như Python. Trong công trình này, các tác giả sử dụng một chương trình scaffolding tích hợp mô hình ngôn ngữ để tự cải thiện chính nó. Họ bắt đầu với một “improver” hạt giống, có nhiệm vụ cải thiện một chương trình đầu vào theo một hàm utility cho trước bằng cách truy vấn mô hình ngôn ngữ nhiều lần và trả về lời giải tốt nhất. Sau đó, improver hạt giống này được chạy để tự cải thiện chính nó. Trên một tập nhỏ các tác vụ downstream, improver đã được cải thiện sau đó tạo ra các chương trình có hiệu năng tốt hơn đáng kể so với improver hạt giống. Tiếp theo, các tác giả phân tích nhiều chiến lược tự cải thiện khác nhau do mô hình ngôn ngữ đề xuất, bao gồm beam search, thuật toán di truyền và simulated annealing. Vì bản thân các mô hình ngôn ngữ không bị thay đổi, đây không phải là tự cải thiện đệ quy hoàn toàn. Dù vậy, các thí nghiệm proof-of-concept cho thấy một mô hình ngôn ngữ hiện đại như GPT-4 có thể viết mã có khả năng tự gọi chính nó để tự cải thiện. Nhóm tác giả cũng xem xét một cách phản biện các mối lo ngại xung quanh việc phát triển công nghệ tự cải thiện và đánh giá tần suất đoạn mã được tạo ra có thể vượt qua sandbox.

Several recent advances in AI systems (e.g., Tree-of-Thoughts and Program-Aided Language Models) solve problems by providing a "scaffolding" program that structures multiple calls to language models to generate better outputs. A scaffolding program is written in a programming language such as Python. In this work, we use a language-model-infused scaffolding program to improve itself. We start with a seed "improver" that improves an input program according to a given utility function by querying a language model several times and returning the best solution. We then run this seed improver to improve itself. Across a small set of downstream tasks, the resulting improved improver generates programs with significantly better performance than its seed improver. Afterward, we analyze the variety of self-improvement strategies proposed by the language model, including beam search, genetic algorithms, and simulated annealing. Since the language models themselves are not altered, this is not full recursive self-improvement. Nonetheless, it demonstrates that a modern language model, GPT-4 in our proof-of-concept experiments, is capable of writing code that can call itself to improve itself. We critically consider concerns around the development of self-improving technologies and evaluate the frequency with which the generated code bypasses a sandbox.

Link bài báo

https://arxiv.org/abs/2310.02304

Đọc thêm

https://x.com/ericzelikman/status/1709721771937587541

RA-DIT: Tinh chỉnh chỉ dẫn kép tăng cường truy xuất / RA-DIT: Retrieval-Augmented Dual Instruction Tuning

Giới thiệu bài báo

Đề xuất một phương pháp fine-tuning gọn nhẹ để bổ sung khả năng truy xuất cho mạng nơ-ron nhân tạo. Phương pháp này gồm 2 bước: 1) cập nhật mạng nơ-ron nhân tạo đã được tiền huấn luyện để tận dụng tốt hơn thông tin được truy xuất, và 2) cập nhật bộ truy xuất để trả về các kết quả phù hợp hơn. Kết quả cho thấy việc fine-tuning trên các tác vụ đòi hỏi cả khai thác tri thức lẫn nhận biết ngữ cảnh mang lại thêm lợi ích ở từng giai đoạn. Mô hình 65b đạt kết quả state-of-the-art trên nhiều benchmark học zero-shot và few-shot chuyên sâu về tri thức, đồng thời vượt trội hơn các phương pháp ngôn ngữ tăng cường truy xuất hiện có tới +8.9% ở zero-shot và +1.4% ở 5-shot. #rag #instruct-tuning

Proposes a lightweight fine-tuning method to retrofit llms with retrieval capabilities; it involves a 2-step approach: 1) updates a pretrained lm to better use the retrieved information 2) updates the retriever to return more relevant results, as preferred by the lm results show that fine-tuning over tasks that require both knowledge utilization and contextual awareness, each stage leads to additional gains; a 65b model achieves state-of-the-art results on a range of knowledge-intensive zero- and few-shot learning benchmarks; it outperforms existing retrieval-augmented language approaches by up to +8.9% in zero-shot and +1.4% in 5-shot.

Tóm tắt bài báo

Các mô hình ngôn ngữ tăng cường truy xuất (RALM) cải thiện hiệu năng bằng cách truy cập kiến thức đuôi dài và mới nhất từ kho dữ liệu bên ngoài, nhưng rất khó xây dựng. Các cách tiếp cận hiện có либо yêu cầu những sửa đổi đặc thù cho truy xuất với chi phí cao trong giai đoạn tiền huấn luyện LM, hoặc dùng cách tích hợp kho dữ liệu hậu kỳ nên hiệu năng không tối ưu. Chúng tôi giới thiệu Retrieval-Augmented Dual Instruction Tuning (RA-DIT), một phương pháp tinh chỉnh nhẹ cung cấp lựa chọn thứ ba bằng cách cải tạo bất kỳ LLM nào để có khả năng truy xuất. Cách tiếp cận của nhóm hoạt động qua hai bước tinh chỉnh riêng biệt: (1) cập nhật LM đã tiền huấn luyện để tận dụng tốt hơn thông tin được truy xuất, và (2) cập nhật bộ truy xuất để trả về các kết quả phù hợp hơn theo cách LM ưu tiên. Thông qua tinh chỉnh trên các tác vụ đòi hỏi cả việc sử dụng tri thức lẫn nhận thức ngữ cảnh, chúng tôi chứng minh rằng mỗi giai đoạn đều mang lại cải thiện hiệu năng đáng kể, và việc dùng cả hai còn đem lại lợi ích bổ sung. Mô hình tốt nhất của chúng tôi, RA-DIT 65B, đạt hiệu năng hàng đầu trên nhiều benchmark học zero-shot và few-shot thiên về tri thức, vượt trội rõ rệt so với các cách tiếp cận RALM in-context hiện có, trung bình lên tới +8,9% ở thiết lập 0-shot và +1,4% ở thiết lập 5-shot.

Retrieval-augmented language models (RALMs) improve performance by accessing long-tail and up-to-date knowledge from external data stores, but are challenging to build. Existing approaches require either expensive retrieval-specific modifications to LM pre-training or use post-hoc integration of the data store that leads to suboptimal performance. We introduce Retrieval-Augmented Dual Instruction Tuning (RA-DIT), a lightweight fine-tuning methodology that provides a third option by retrofitting any LLM with retrieval capabilities. Our approach operates in two distinct fine-tuning steps: (1) one updates a pre-trained LM to better use retrieved information, while (2) the other updates the retriever to return more relevant results, as preferred by the LM. By fine-tuning over tasks that require both knowledge utilization and contextual awareness, we demonstrate that each stage yields significant performance improvements, and using both leads to additional gains. Our best model, RA-DIT 65B, achieves state-of-the-art performance across a range of knowledge-intensive zero- and few-shot learning benchmarks, significantly outperforming existing in-context RALM approaches by up to +8.9% in 0-shot setting and +1.4% in 5-shot setting on average.

Liên kết bài báo

https://arxiv.org/abs/2310.01352

Đọc thêm

https://x.com/omarsar0/status/1709204756013490494

Kosmos-G: Tạo ảnh phù hợp ngữ cảnh bằng mô hình ngôn ngữ lớn đa phương thức / Kosmos-G: Generating Images in Context with Multimodal Large Language Models

Giới thiệu bài báo

Đây là mô hình có thể thực hiện tạo ảnh zero-shot độ trung thực cao từ đầu vào thị giác-ngôn ngữ tổng quát trải rộng trên nhiều hình ảnh, mở rộng tạo ảnh zero-shot theo chủ thể sang các kịch bản đa thực thể, đồng thời thay thế CLIP để mở ra các ứng dụng mới với các kỹ thuật U-Net khác như ControlNet và LoRA. #multimodal

A model that performs high-fidelity zero-shot image generation from generalized vision-language input that spans multiple images; extends zero-shot subject-driven image generation to multi-entity scenarios; allows the replacement of clip, unlocking new applications with other u-net techniques such as controlnet and lora.

Tóm tắt bài báo

Gần đây, các kỹ thuật tạo sinh văn bản-thành-ảnh (T2I) và thị giác-ngôn ngữ-thành-ảnh (VL2I) đã có những bước tiến lớn. Tuy nhiên, việc tạo sinh từ đầu vào thị giác-ngôn ngữ tổng quát, đặc biệt là khi liên quan đến nhiều hình ảnh, vẫn chưa được nghiên cứu đầy đủ. Trong bài báo này, chúng tôi giới thiệu Kosmos-G, một mô hình tận dụng năng lực nhận thức tiên tiến của các mô hình ngôn ngữ lớn đa phương thức (MLLM) để giải quyết thách thức nêu trên. Cách tiếp cận của chúng tôi căn chỉnh không gian đầu ra của MLLM với CLIP bằng cách dùng phương thức văn bản làm mỏ neo và thực hiện compositional instruction tuning trên dữ liệu được tuyển chọn. Kosmos-G thể hiện khả năng độc đáo trong việc tạo sinh zero-shot theo chủ thể với nhiều thực thể. Đáng chú ý, score distillation instruction tuning không yêu cầu sửa đổi bộ giải mã hình ảnh. Vì vậy, nó có thể thay thế CLIP một cách liền mạch và dễ dàng tích hợp với vô số kỹ thuật U-Net, từ điều khiển tinh vi đến các biến thể bộ giải mã hình ảnh được cá nhân hóa. Chúng tôi xem Kosmos-G là một nỗ lực ban đầu hướng tới mục tiêu "hình ảnh như một ngoại ngữ trong tạo sinh hình ảnh".

Recent advancements in text-to-image (T2I) and vision-language-to-image (VL2I) generation have made significant strides. However, the generation from generalized vision-language inputs, especially involving multiple images, remains under-explored. This paper presents Kosmos-G, a model that leverages the advanced perception capabilities of Multimodal Large Language Models (MLLMs) to tackle the aforementioned challenge. Our approach aligns the output space of MLLM with CLIP using the textual modality as an anchor and performs compositional instruction tuning on curated data. Kosmos-G demonstrates a unique capability of zero-shot multi-entity subject-driven generation. Notably, the score distillation instruction tuning requires no modifications to the image decoder. This allows for a seamless substitution of CLIP and effortless integration with a myriad of U-Net techniques ranging from fine-grained controls to personalized image decoder variants. We posit Kosmos-G as an initial attempt towards the goal of "image as a foreign language in image generation."

Liên kết bài báo

https://arxiv.org/abs/2310.02992

Đọc thêm

https://x.com/omarsar0/status/1709934741158510625

Mô hình ngôn ngữ lớn như những bộ suy luận tương tự / Large Language Models as Analogical Reasoners

Giới thiệu bài báo

Cách tiếp cận này khác với chain-of-thought ở chỗ không cần các ví dụ được gán nhãn cho quá trình suy luận, và là một cách tiếp cận prompting mới lấy cảm hứng từ suy luận tương tự, nhằm dẫn dắt mô hình tự tạo ra các ví dụ hoặc kiến thức liên quan trong ngữ cảnh. #llm-reasoning #chain-of-thought

A new prompting approach to automatically guide the reasoning process of llms; the approach is different from chain-of-thought in that it doesn’t require labeled exemplars of the reasoning process; the approach is inspired by analogical reasoning and prompts lms to self-generate relevant exemplars or knowledge in the context.

Tóm tắt bài báo

Prompting chain-of-thought (CoT) cho các mô hình ngôn ngữ cho thấy hiệu năng ấn tượng trên nhiều tác vụ suy luận, nhưng thường cần các ví dụ được gán nhãn cho quá trình suy luận. Trong nghiên cứu này, chúng tôi giới thiệu Analogical Prompting, một cách tiếp cận prompting mới được thiết kế để tự động dẫn dắt quá trình suy luận của các mô hình ngôn ngữ lớn. Lấy cảm hứng từ suy luận tương tự, một quá trình nhận thức mà con người dựa vào những kinh nghiệm quá khứ có liên quan để giải quyết vấn đề mới, cách tiếp cận này prompting các mô hình ngôn ngữ tự tạo ra các ví dụ hoặc kiến thức phù hợp trong ngữ cảnh trước khi tiếp tục giải quyết bài toán đã cho. Phương pháp này có một số ưu điểm: loại bỏ nhu cầu gán nhãn hoặc truy xuất ví dụ, từ đó mang lại tính khái quát và sự tiện lợi; đồng thời có thể điều chỉnh các ví dụ và kiến thức được tạo ra cho từng bài toán, mang lại tính thích ứng. Kết quả thực nghiệm cho thấy cách tiếp cận này vượt trội hơn 0-shot CoT và few-shot CoT thủ công trong nhiều tác vụ suy luận khác nhau, bao gồm giải toán trong GSM8K và MATH, sinh mã trong Codeforces, và các tác vụ suy luận khác trong BIG-Bench.

Chain-of-thought (CoT) prompting for language models demonstrates impressive performance across reasoning tasks, but typically needs labeled exemplars of the reasoning process. In this work, we introduce a new prompting approach, Analogical Prompting, designed to automatically guide the reasoning process of large language models. Inspired by analogical reasoning, a cognitive process in which humans draw from relevant past experiences to tackle new problems, our approach prompts language models to self-generate relevant exemplars or knowledge in the context, before proceeding to solve the given problem. This method presents several advantages: it obviates the need for labeling or retrieving exemplars, offering generality and convenience; it can also tailor the generated exemplars and knowledge to each problem, offering adaptability. Experimental results show that our approach outperforms 0-shot CoT and manual few-shot CoT in a variety of reasoning tasks, including math problem solving in GSM8K and MATH, code generation in Codeforces, and other reasoning tasks in BIG-Bench.

[2023/10/02 ~ 10/08] Các bài báo ML nổi bật trong tuần (Top ML Papers of the Week)

Tổng quan

Mô hình ngôn ngữ biểu diễn không gian và thời gian / Language Models Represent Space and Time

Giới thiệu bài báo

Tóm tắt bài báo

Liên kết bài báo

Đọc thêm

Khi truy xuất gặp các mô hình ngôn ngữ lớn ngữ cảnh dài / Retrieval meets Long Context Large Language Models

Giới thiệu bài báo

Tóm tắt bài báo

Liên kết bài báo

Đọc thêm

Mô hình ngôn ngữ streaming hiệu quả với attention sink / Efficient Streaming Language Models with Attention Sinks

Giới thiệu bài báo

Tóm tắt bài báo

Liên kết bài báo

Đọc thêm

Hướng tới các mạng nơ-ron nhân tạo tự lắp ráp thông qua các chương trình phát triển thần kinh / Towards Self-Assembling Artificial Neural Networks through Neural Developmental Programs

Giới thiệu bài báo

Tóm tắt bài báo

Link bài báo

Đọc thêm

Bình minh của LMM: Khảo sát sơ bộ với GPT-4V(ision) / The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)

Giới thiệu bài báo

Tóm tắt bài báo

Link bài báo

Đọc thêm

Hãy suy nghĩ trước khi nói: Huấn luyện mô hình ngôn ngữ với token tạm dừng / Think before you speak: Training Language Models With Pause Tokens

Giới thiệu bài báo

Tóm tắt bài báo

Liên kết bài báo

Đọc thêm

Công cụ tối ưu hóa tự học (STOP): Sinh mã tự cải thiện theo cách đệ quy / Self-Taught Optimizer (STOP): Recursively Self-Improving Code Generation

Giới thiệu bài báo

Tóm tắt bài báo

Link bài báo

Đọc thêm

RA-DIT: Tinh chỉnh chỉ dẫn kép tăng cường truy xuất / RA-DIT: Retrieval-Augmented Dual Instruction Tuning

Giới thiệu bài báo

Tóm tắt bài báo

Liên kết bài báo

Đọc thêm

Kosmos-G: Tạo ảnh phù hợp ngữ cảnh bằng mô hình ngôn ngữ lớn đa phương thức / Kosmos-G: Generating Images in Context with Multimodal Large Language Models

Giới thiệu bài báo

Tóm tắt bài báo

Liên kết bài báo

Đọc thêm

Mô hình ngôn ngữ lớn như những bộ suy luận tương tự / Large Language Models as Analogical Reasoners

Giới thiệu bài báo

Tóm tắt bài báo

Liên kết bài báo

Đọc thêm

Bài gốc

Bài viết liên quan

Chưa có bình luận nào.