5 điểm bởi ninebow 2023-11-27 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Tổng quan

  • Tôi đã thử dịch tự động các bài viết về các bài báo ML được DAIR.AI công bố hằng tuần.

  • Các bài báo được chọn trong tuần này chủ yếu có xu hướng liên quan đến 'Large Language Models(LLMs)', 'Reasoning and Attention in AI System', và 'Artificial Intelligence in Medical Domain'.

  • Đặc biệt, chủ đề về 'Reasoning and Attention in AI System' nổi bật rõ rệt. Điều này phản ánh nỗ lực đưa trí tuệ nhân tạo vượt ra ngoài việc chỉ nhận diện mẫu, để sở hữu năng lực suy luận và giải quyết vấn đề tương tự con người.

  • Nghiên cứu về việc ứng dụng trí tuệ nhân tạo trong lĩnh vực y tế cũng rất đáng chú ý. 'LLMs as Collaborators for Medical Reasoning' là một ví dụ quan trọng trong lĩnh vực này, khám phá khả năng ứng dụng của LLM (mô hình ngôn ngữ lớn) trong việc xử lý dữ liệu y tế.

  • Tóm lại, các bài báo được chọn trong tuần này cho thấy có nhiều nghiên cứu tập trung vào việc phát triển năng lực suy luận phức tạp, cơ chế tập trung attention tương tự con người, cũng như ứng dụng trí tuệ nhân tạo trong lĩnh vực y tế; đây có thể được xem là một chỉ dấu quan trọng cho hướng phát triển của công nghệ trí tuệ nhân tạo.


System 2 Attention (có thể bạn cũng sẽ cần)

Giới thiệu bài báo

  • Tận dụng khả năng suy luận và tuân theo chỉ dẫn của LLM để quyết định nội dung cần chú ý, tái tạo ngữ cảnh đầu vào sao cho chỉ bao gồm các phần liên quan trước khi attention vào ngữ cảnh đã tái tạo để tạo ra phản hồi cuối cùng của mô hình, từ đó tăng tính xác thực và đạt hiệu năng tốt hơn các LLM dựa trên attention tiêu chuẩn trong các tác vụ như QA và các bài toán đố toán học.

    Leverages the reasoning and instruction following capabilities of llms to decide what to attend to; it regenerates input context to only include relevant portions before attending to the regenerated context to elicit the final response from the model; increases factuality and outperforms standard attention-based llms on tasks such as qa and math world problems.

Tóm tắt bài báo

  • Soft attention trong các mô hình ngôn ngữ lớn (LLM) dựa trên Transformer dễ bị ảnh hưởng bởi việc đưa thông tin không liên quan từ ngữ cảnh vào các biểu diễn tiềm ẩn, điều này tác động xấu đến quá trình tạo token tiếp theo. Để khắc phục vấn đề này, chúng tôi giới thiệu System 2 Attention (S2A), tận dụng khả năng suy luận bằng ngôn ngữ tự nhiên và làm theo chỉ dẫn của LLM để quyết định cần chú ý đến điều gì. S2A tái tạo ngữ cảnh đầu vào sao cho chỉ giữ lại những phần liên quan, rồi áp dụng attention lên ngữ cảnh đã tái tạo để tạo ra phản hồi cuối cùng. Trong các thí nghiệm, S2A cho thấy hiệu năng vượt trội hơn các LLM dựa trên attention tiêu chuẩn trên ba tác vụ có chứa ý kiến hoặc thông tin không liên quan, gồm QA, bài toán đố toán học và sinh văn bản dài, trong đó S2A làm tăng tính xác thực và tính khách quan, đồng thời giảm xu hướng xu nịnh.

    Soft attention in Transformer-based Large Language Models (LLMs) is susceptible to incorporating irrelevant information from the context into its latent representations, which adversely affects next token generations. To help rectify these issues, we introduce System 2 Attention (S2A), which leverages the ability of LLMs to reason in natural language and follow instructions in order to decide what to attend to. S2A regenerates the input context to only include the relevant portions, before attending to the regenerated context to elicit the final response. In experiments, S2A outperforms standard attention-based LLMs on three tasks containing opinion or irrelevant information, QA, math word problems and longform generation, where S2A increases factuality and objectivity, and decreases sycophancy.

Liên kết bài báo

https://arxiv.org/abs/2311.11829

Đọc thêm

https://x.com/jaseweston/status/1726784511357157618


Phát triển kiến trúc Transformer trong các mô hình ngôn ngữ lớn với ngữ cảnh dài: Khảo sát toàn diện / Advancing Transformer Architecture in Long-Context Large Language Models: A Comprehensive Survey

Giới thiệu bài báo

  • Đây là phần tổng quan về các phương pháp nhằm cải tiến các mô-đun kiến trúc Transformer để tối ưu hóa khả năng xử lý ngữ cảnh dài ở mọi giai đoạn, từ tiền huấn luyện đến suy luận.

    An overview of the methodologies for enhancing transformer architecture modules that optimize long-context capabilities across all stages from pre-training to inference.

Tóm tắt bài báo

  • Các mô hình ngôn ngữ lớn (LLM) dựa trên Transformer do ChatGPT khơi mào đã mở ra một con đường mang tính cách mạng hướng tới trí tuệ nhân tạo tổng quát (AGI) và đang được áp dụng trong nhiều lĩnh vực khác nhau như cơ sở tri thức, giao diện cho con người và tác nhân động. Tuy nhiên, một hạn chế phổ biến là nhiều LLM hiện nay, do bị ràng buộc bởi tài nguyên, chủ yếu được tiền huấn luyện trên các văn bản ngắn, khiến chúng kém hiệu quả hơn với các prompt có ngữ cảnh dài vốn thường gặp trong môi trường thực tế. Bài báo này trình bày một khảo sát toàn diện tập trung vào sự phát triển của kiến trúc mô hình trong các LLM dựa trên Transformer nhằm tối ưu hóa khả năng xử lý ngữ cảnh dài ở mọi giai đoạn từ tiền huấn luyện đến suy luận. Trước hết, bài báo xác định và phân tích các vấn đề phát sinh khi xử lý đầu vào và đầu ra có ngữ cảnh dài trong các mô hình dựa trên Transformer hiện tại. Tiếp đó, bài báo chủ yếu đưa ra một hệ phân loại tổng thể để khám phá bức tranh các nâng cấp Transformer về mặt kiến trúc nhằm giải quyết những vấn đề này. Sau đó, bài báo khảo sát các thành phần đánh giá thiết yếu được sử dụng rộng rãi cho LLM ngữ cảnh dài, bao gồm bộ dữ liệu, chỉ số và mô hình chuẩn, đồng thời giới thiệu một số bộ công cụ tối ưu hóa đáng chú ý như thư viện, hệ thống và trình biên dịch để tăng cường hiệu suất và hiệu quả của LLM ở các giai đoạn khác nhau. Cuối cùng, bài báo thảo luận thêm về những thách thức chủ đạo và các hướng đi tiềm năng cho nghiên cứu tương lai trong lĩnh vực này. Ngoài ra, nhóm tác giả đã xây dựng một kho lưu trữ để tuyển chọn các tài liệu liên quan và cập nhật theo thời gian thực tại https://github.com/Strivin0311/long-llms-learning.

    With the bomb ignited by ChatGPT, Transformer-based Large Language Models (LLMs) have paved a revolutionary path toward Artificial General Intelligence (AGI) and have been applied in diverse areas as knowledge bases, human interfaces, and dynamic agents. However, a prevailing limitation exists: many current LLMs, constrained by resources, are primarily pre-trained on shorter texts, rendering them less effective for longer-context prompts, commonly encountered in real-world settings. In this paper, we present a comprehensive survey focusing on the advancement of model architecture in Transformer-based LLMs to optimize long-context capabilities across all stages from pre-training to inference. We firstly delineate and analyze the problems of handling long-context input and output with the current Transformer-based models. Then, we mainly offer a holistic taxonomy to navigate the landscape of Transformer upgrades on architecture to solve these problems. Afterward, we provide the investigation on wildly used evaluation necessities tailored for long-context LLMs, including datasets, metrics, and baseline models, as well as some amazing optimization toolkits like libraries, systems, and compilers to augment LLMs' efficiency and efficacy across different stages. Finally, we further discuss the predominant challenges and potential avenues for future research in this domain. Additionally, we have established a repository where we curate relevant literature with real-time updates at https://github.com/Strivin0311/long-llms-learning.

Link bài báo

https://arxiv.org/abs/2311.12351

Đọc thêm

https://x.com/omarsar0/status/1727358484360945750


PaSS: lấy mẫu suy đoán song song / PaSS: Parallel Speculative Sampling

Giới thiệu bài báo

  • Đây là một phương pháp rút ngắn thời gian suy luận của LLM dựa trên một biến thể của speculative sampling và giải mã song song, đạt được mức tăng tốc đáng kể (lên tới 30%) chỉ bằng cách học thêm lượng tham số rất nhỏ, cỡ $O(d_{emb})$.

    Approach to reduce inference time of llms based on a variant of speculative sampling and parallel decoding; achieves significant speed-ups (up to 30%) by only learning as little as o(d_emb) additional parameters.

Tóm tắt bài báo

  • Việc mở rộng kích thước của các mô hình ngôn ngữ lên hàng chục tỷ tham số đã mang lại hiệu năng ấn tượng trên nhiều tác vụ. Khi sinh văn bản, các mô hình này được dùng theo kiểu tự hồi quy, đòi hỏi một forward pass cho mỗi token được tạo ra, và vì vậy phải đọc toàn bộ tập tham số từ bộ nhớ. Việc truy cập bộ nhớ này tạo thành nút thắt cổ chai chính trong quá trình sinh và còn trở nên nghiêm trọng hơn khi kích thước mô hình tăng lên. Hơn nữa, việc thực thi forward pass cho nhiều token song song thường mất gần như cùng thời gian với chỉ một token. Hai quan sát này dẫn đến sự phát triển của speculative sampling, trong đó một mô hình nhỏ thứ hai được dùng để phác thảo trước vài token, sau đó chúng được xác thực hoặc loại bỏ bằng một forward pass duy nhất của mô hình lớn. Đáng tiếc là phương pháp này yêu cầu hai mô hình dùng chung tokenizer, nên hạn chế khả năng áp dụng. Như một phương án thay thế, chúng tôi đề xuất sử dụng parallel decoding như một cách để phác thảo nhiều token từ một mô hình duy nhất mà không phát sinh chi phí tính toán và cũng không cần mô hình thứ hai. Cách tiếp cận của chúng tôi chỉ yêu cầu thêm một input token để đánh dấu các từ sẽ được sinh đồng thời. Chúng tôi cho thấy hiệu năng đầy hứa hẹn (tăng tốc lên tới $30%$) trong khi chỉ cần thêm ít nhất $O(d_{emb})$ tham số.

    Scaling the size of language models to tens of billions of parameters has led to impressive performance on a wide range of tasks. At generation, these models are used auto-regressively, requiring a forward pass for each generated token, and thus reading the full set of parameters from memory. This memory access forms the primary bottleneck for generation and it worsens as the model size increases. Moreover, executing a forward pass for multiple tokens in parallel often takes nearly the same time as it does for just one token. These two observations lead to the development of speculative sampling, where a second smaller model is used to draft a few tokens, that are then validated or rejected using a single forward pass of the large model. Unfortunately, this method requires two models that share the same tokenizer and thus limits its adoption. As an alternative, we propose to use parallel decoding as a way to draft multiple tokens from a single model with no computational cost, nor the need for a second model. Our approach only requires an additional input token that marks the words that will be generated simultaneously. We show promising performance (up to $30%$ speed-up) while requiring only as few as $O(d_{emb})$ additional parameters.

Link bài báo

https://arxiv.org/abs/2311.13581

Đọc thêm

https://x.com/omarsar0/status/1728066181796418009


Mirasol3B: Mô hình tự hồi quy đa phương thức cho các modality được căn chỉnh theo thời gian và theo ngữ cảnh / Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities

Giới thiệu bài báo

  • Đây là một mô hình đa phương thức để học trên audio, video và văn bản, tách phần mô hình hóa đa phương thức thành các mô hình tự hồi quy riêng biệt và tập trung; đầu vào được xử lý theo từng modality; cách tiếp cận này có thể xử lý video dài hơn so với các mô hình khác và đạt hiệu năng vượt trội hơn các phương pháp tiên tiến nhất trên các benchmark video QA, long video QA và audio-video-text.

    A multimodal model for learning across audio, video, and text which decouples the multimodal modeling into separate, focused autoregressive models; the inputs are processed according to the modalities; this approach can handle longer videos compared to other models and it outperforms state-of-the-art approach on video qa, long video qa, and audio-video-text benchmark.

Tóm tắt bài báo

  • Một trong những thách thức chính của học đa phương thức là phải kết hợp các modality không đồng nhất (ví dụ: video, âm thanh, văn bản). Chẳng hạn, video và âm thanh được thu nhận với tốc độ cao hơn nhiều so với văn bản và gần như được căn chỉnh theo thời gian. Chúng thường không được đồng bộ với văn bản, vốn được cung cấp như ngữ cảnh toàn cục, chẳng hạn tiêu đề hoặc mô tả. Ngoài ra, đầu vào video và âm thanh có dung lượng lớn hơn nhiều và tăng theo độ dài video, vì vậy đương nhiên cần nhiều năng lực tính toán chuyên biệt hơn cho các modality này và khiến việc mô hình hóa các phụ thuộc tầm xa trở nên khó khăn hơn. Ở đây, việc mô hình hóa đa phương thức được tách rời thành các mô hình tự hồi quy riêng biệt, tập trung vào việc xử lý đầu vào theo đặc tính của từng modality. Bài báo đề xuất một mô hình đa phương thức có tên Mirasol3B, gồm một thành phần tự hồi quy cho các modality được đồng bộ theo thời gian (âm thanh và video), và một thành phần tự hồi quy cho các modality ngữ cảnh không nhất thiết được căn chỉnh theo thời gian nhưng vẫn có tính tuần tự. Để xử lý các chuỗi video-âm thanh dài, bài báo đề xuất tiếp tục phân chia chuỗi video và âm thanh thành các đoạn snippet liên tiếp và xử lý biểu diễn của chúng theo cách tự hồi quy. Vì mục đích đó, bài báo đề xuất cơ chế Combiner, mô hình hóa thông tin âm thanh-video một cách chung trong một khung thời gian. Combiner học cách trích xuất đặc trưng âm thanh và video từ các tín hiệu không-thời gian thô, sau đó học cách hợp nhất các đặc trưng này để tạo ra các biểu diễn gọn nhưng giàu khả năng biểu đạt cho từng snippet. Cách tiếp cận này đạt hiệu năng SOTA trên các benchmark đa phương thức đã được thiết lập tốt, vượt qua các mô hình lớn hơn rất nhiều. Nó xử lý hiệu quả nhu cầu tính toán cao của đầu vào media bằng cách vừa học các biểu diễn cô đọng, kiểm soát độ dài chuỗi của các biểu diễn đặc trưng âm thanh-video, vừa mô hình hóa các phụ thuộc của chúng theo thời gian.

    One of the main challenges of multimodal learning is the need to combine heterogeneous modalities (e.g., video, audio, text). For example, video and audio are obtained at much higher rates than text and are roughly aligned in time. They are often not synchronized with text, which comes as a global context, e.g., a title, or a description. Furthermore, video and audio inputs are of much larger volumes, and grow as the video length increases, which naturally requires more compute dedicated to these modalities and makes modeling of long-range dependencies harder. We here decouple the multimodal modeling, dividing it into separate, focused autoregressive models, processing the inputs according to the characteristics of the modalities. We propose a multimodal model, called Mirasol3B, consisting of an autoregressive component for the time-synchronized modalities (audio and video), and an autoregressive component for the context modalities which are not necessarily aligned in time but are still sequential. To address the long-sequences of the video-audio inputs, we propose to further partition the video and audio sequences in consecutive snippets and autoregressively process their representations. To that end, we propose a Combiner mechanism, which models the audio-video information jointly within a timeframe. The Combiner learns to extract audio and video features from raw spatio-temporal signals, and then learns to fuse these features producing compact but expressive representations per snippet. Our approach achieves the state-of-the-art on well established multimodal benchmarks, outperforming much larger models. It effectively addresses the high computational demand of media inputs by both learning compact representations, controlling the sequence length of the audio-video feature representations, and modeling their dependencies in time.

Liên kết bài báo

https://arxiv.org/abs/2311.05698

Đọc thêm

https://x.com/GoogleAI/status/1724553024088191211


Orca 2: Dạy các mô hình ngôn ngữ nhỏ cách suy luận / Orca 2: Teaching Small Language Models How to Reason

Giới thiệu bài báo

  • Bài báo đề xuất một cách tiếp cận để dạy các mô hình ngôn ngữ nhỏ hơn cách suy luận. Cụ thể, mô hình được cho là sử dụng các kỹ thuật suy luận như xử lý từng bước, recall-then-generate, recall-reason-generate, extract-generate và direct-answer; mô hình này vượt qua các mô hình cùng kích thước và đạt mức hiệu năng tương đương hoặc tốt hơn các mô hình lớn hơn gấp 5-10 lần khi được đánh giá trên các tác vụ phức tạp kiểm tra năng lực suy luận nâng cao trong thiết lập zero-shot.

    Proposes an approach to teach smaller language models to reason; specifically, the lm is thought to use reasoning techniques, such as step-by-step processing, recall-then-generate, recall-reason-generate, extract-generate, and direct-answer methods; outperforms models of similar size and attains performance levels similar or better to those of models 5-10x larger, as assessed on complex tasks that test advanced reasoning abilities in zero-shot settings.

Tóm tắt bài báo

  • Orca 1 học từ các tín hiệu phong phú như vết giải thích, nhờ đó vượt trội hơn các mô hình instruction tuning thông thường trên những benchmark như BigBench Hard và AGIEval. Trong Orca 2, nghiên cứu tiếp tục khám phá cách các tín hiệu huấn luyện được cải thiện có thể nâng cao năng lực suy luận của các LM nhỏ. Nghiên cứu về huấn luyện LM nhỏ thường dựa vào học bắt chước để tái tạo đầu ra của các mô hình mạnh hơn. Tuy nhiên, nhóm tác giả cho rằng việc quá nhấn mạnh vào học bắt chước có thể hạn chế tiềm năng của các mô hình nhỏ. Mục tiêu là dạy các LM nhỏ sử dụng những chiến lược giải khác nhau cho các tác vụ khác nhau, có thể khác với chiến lược mà mô hình lớn sử dụng. Ví dụ, trong khi mô hình lớn có thể đưa ra câu trả lời trực tiếp cho một bài toán phức tạp, mô hình nhỏ có thể không có cùng năng lực đó. Trong Orca 2, mô hình được huấn luyện với nhiều kỹ thuật suy luận khác nhau (từng bước, hồi tưởng rồi tạo sinh, hồi tưởng-suy luận-tạo sinh, trả lời trực tiếp, v.v.). Quan trọng hơn, mục tiêu là giúp mô hình học cách xác định chiến lược giải hiệu quả nhất cho từng tác vụ. Orca 2 được đánh giá bằng một bộ toàn diện gồm 15 benchmark đa dạng (tương ứng khoảng 100 tác vụ và hơn 36.000 prompt duy nhất). Kết quả đánh giá trên các tác vụ phức tạp nhằm kiểm tra năng lực suy luận nâng cao trong thiết lập zero-shot cho thấy Orca 2 vượt xa các mô hình cùng kích thước và đạt mức hiệu năng tương đương hoặc tốt hơn các mô hình lớn hơn 5-10 lần. Để hỗ trợ nghiên cứu về phát triển, đánh giá và căn chỉnh các LM nhỏ hơn, trọng số của Orca 2 được công khai tại aka.ms/orca-lm

    Orca 1 learns from rich signals, such as explanation traces, allowing it to outperform conventional instruction-tuned models on benchmarks like BigBench Hard and AGIEval. In Orca 2, we continue exploring how improved training signals can enhance smaller LMs' reasoning abilities. Research on training small LMs has often relied on imitation learning to replicate the output of more capable models. We contend that excessive emphasis on imitation may restrict the potential of smaller models. We seek to teach small LMs to employ different solution strategies for different tasks, potentially different from the one used by the larger model. For example, while larger models might provide a direct answer to a complex task, smaller models may not have the same capacity. In Orca 2, we teach the model various reasoning techniques (step-by-step, recall then generate, recall-reason-generate, direct answer, etc.). More crucially, we aim to help the model learn to determine the most effective solution strategy for each task. We evaluate Orca 2 using a comprehensive set of 15 diverse benchmarks (corresponding to approximately 100 tasks and over 36,000 unique prompts). Orca 2 significantly surpasses models of similar size and attains performance levels similar or better to those of models 5-10x larger, as assessed on complex tasks that test advanced reasoning abilities in zero-shot settings. make Orca 2 weights publicly available at aka.ms/orca-lm to support research on the development, evaluation, and alignment of smaller LMs

Liên kết bài báo

https://arxiv.org/abs/2311.11045

Đọc thêm

https://x.com/omarsar0/status/1726990087399915995


GPQA: benchmark Hỏi & Đáp chống Google ở cấp độ sau đại học / GPQA: A Graduate-Level Google-Proof Q&A Benchmark

Giới thiệu bài báo

  • Đề xuất một benchmark QA cấp độ sau đại học, chống tra cứu Google, gồm 448 câu hỏi trắc nghiệm do các chuyên gia lĩnh vực sinh học, vật lý và hóa học biên soạn. Mốc cơ sở mạnh nhất dựa trên GPT-4 đạt độ chính xác 39%, và benchmark này cung cấp các thí nghiệm giám sát có thể mở rộng để hỗ trợ thu được thông tin đáng tin cậy và trung thực từ các hệ thống AI hiện đại vượt qua năng lực của con người.

    Proposes a graduate-level google-proof qa benchmark consisting of 448 multiple-choice questions written by domain experts in biology, physics, and chemistry; the strongest gpt-4 based baseline achieves 39% accuracy; this benchmark offers scalable oversight experiments that can help obtain reliable and truthful information from modern ai systems that surpass human capabilities.

Tóm tắt bài báo

  • GPQA được giới thiệu như một bộ dữ liệu độ khó cao gồm 448 câu hỏi trắc nghiệm do các chuyên gia trong lĩnh vực sinh học, vật lý và hóa học biên soạn. Tỷ lệ trả lời đúng của các chuyên gia đã có hoặc đang theo học bằng tiến sĩ trong các lĩnh vực này đạt 65% (74% nếu loại trừ những lỗi rõ ràng mà chính chuyên gia nhận ra khi nhìn lại), trong khi những người kiểm định không phải chuyên gia nhưng có trình độ cao chỉ đạt 34% dù được truy cập web không giới hạn trong thời gian trung bình hơn 30 phút (tức là các câu hỏi đã được kiểm chứng là “Google-proof”). Đây cũng là những câu hỏi khó đối với các hệ thống AI hiện đại nhất, khi mốc chuẩn mạnh nhất dựa trên GPT-4 chỉ đạt độ chính xác 39%. Nếu muốn sử dụng các hệ thống AI trong tương lai để giúp trả lời những câu hỏi rất khó, chẳng hạn như khi phát triển tri thức khoa học mới, chúng ta cần phát triển các phương pháp giám sát có khả năng mở rộng để con người có thể giám sát đầu ra của chúng, điều vốn có thể khó khăn ngay cả khi người giám sát có kỹ năng và kiến thức tốt. Độ khó của GPQA đối với cả những người không phải chuyên gia nhưng thành thạo lẫn các hệ thống AI tuyến đầu cho phép thực hiện các thí nghiệm giám sát có khả năng mở rộng trong điều kiện thực tế hơn; từ đó được kỳ vọng sẽ giúp tìm ra cách để các chuyên gia con người có thể thu được thông tin trung thực một cách đáng tin cậy từ các hệ thống AI vượt quá năng lực con người.

    We present GPQA, a challenging dataset of 448 multiple-choice questions written by domain experts in biology, physics, and chemistry. We ensure that the questions are high-quality and extremely difficult: experts who have or are pursuing PhDs in the corresponding domains reach 65% accuracy (74% when discounting clear mistakes the experts identified in retrospect), while highly skilled non-expert validators only reach 34% accuracy, despite spending on average over 30 minutes with unrestricted access to the web (i.e., the questions are "Google-proof"). The questions are also difficult for state-of-the-art AI systems, with our strongest GPT-4 based baseline achieving 39% accuracy. If we are to use future AI systems to help us answer very hard questions, for example, when developing new scientific knowledge, we need to develop scalable oversight methods that enable humans to supervise their outputs, which may be difficult even if the supervisors are themselves skilled and knowledgeable. The difficulty of GPQA both for skilled non-experts and frontier AI systems should enable realistic scalable oversight experiments, which we hope can help devise ways for human experts to reliably get truthful information from AI systems that surpass human capabilities.

Link bài báo

https://arxiv.org/abs/2311.12022

Đọc thêm

https://x.com/idavidrein/status/1727033002234909060


Khơi nguồn trí tuệ ngôn ngữ: Cẩm nang quá giang từ suy luận Chuỗi Tư Duy (CoT) đến tác tử ngôn ngữ / Igniting Language Intelligence: The Hitchhiker's Guide From Chain-of-Thought Reasoning to Language Agents

Giới thiệu bài báo

  • Đây là phần tóm tắt về suy luận CoT (Chain-of-Thought), các cơ chế nền tảng đứng sau các kỹ thuật CoT (Chain-of-Thought), và cách chúng được áp dụng vào các khung tác tử ngôn ngữ.

    Summary of cot reasoning, foundational mechanics underpinning cot techniques, and their application to language agent frameworks.

Tóm tắt bài báo

  • Các mô hình ngôn ngữ lớn (LLM) đã cải thiện mạnh mẽ lĩnh vực trí tuệ ngôn ngữ, như được chứng minh qua hiệu năng thực nghiệm ấn tượng trên nhiều tác vụ suy luận phức tạp. Bên cạnh đó, các chứng minh lý thuyết cũng làm sáng tỏ những năng lực suy luận mới nổi của chúng, cho thấy rõ các khả năng nhận thức nâng cao trong bối cảnh ngôn ngữ. Yếu tố then chốt giúp LLM đạt hiệu quả vượt trội khi xử lý các tác vụ suy luận phức tạp là việc tận dụng kỹ thuật suy luận chuỗi suy nghĩ (CoT), buộc mô hình phải hình thành các bước trung gian trên đường đi đến đáp án. Cách tiếp cận suy luận CoT không chỉ cho thấy khả năng khuếch đại hiệu năng suy luận mà còn cải thiện tính diễn giải được, khả năng kiểm soát và tính linh hoạt. Trên cơ sở những ưu điểm đó, các nỗ lực nghiên cứu gần đây đã mở rộng phương pháp luận suy luận CoT để thúc đẩy sự phát triển của các tác nhân ngôn ngữ tự trị, có thể tuân thủ thành thạo các chỉ dẫn bằng ngôn ngữ và thực thi hành động trong nhiều môi trường khác nhau. Bài báo khảo sát này tổ chức một thảo luận toàn diện, đi sâu vào các chiều cạnh nghiên cứu quan trọng, bao gồm: (i) cơ chế nền tảng của các kỹ thuật CoT, tập trung làm rõ bối cảnh và cơ sở cho hiệu quả của chúng; (ii) sự chuyển dịch mô hình trong CoT; và (iii) sự phát triển bùng nổ của các tác nhân ngôn ngữ được tăng cường bằng các phương pháp CoT. Các hướng nghiên cứu tương lai bao gồm khám phá về khả năng khái quát hóa, hiệu quả, tùy biến, mở rộng quy mô và an toàn. Bài báo này hướng đến đông đảo độc giả, từ người mới muốn có kiến thức toàn diện về suy luận CoT và tác nhân ngôn ngữ, đến các nhà nghiên cứu giàu kinh nghiệm quan tâm đến cơ chế nền tảng và muốn tham gia vào các thảo luận tiên tiến nhất về các chủ đề này. Kho lưu trữ các bài báo liên quan có tại https://github.com/Zoeyyao27/CoT-Igniting-Agent.

    Large language models (LLMs) have dramatically enhanced the field of language intelligence, as demonstrably evidenced by their formidable empirical performance across a spectrum of complex reasoning tasks. Additionally, theoretical proofs have illuminated their emergent reasoning capabilities, providing a compelling showcase of their advanced cognitive abilities in linguistic contexts. Critical to their remarkable efficacy in handling complex reasoning tasks, LLMs leverage the intriguing chain-of-thought (CoT) reasoning techniques, obliging them to formulate intermediate steps en route to deriving an answer. The CoT reasoning approach has not only exhibited proficiency in amplifying reasoning performance but also in enhancing interpretability, controllability, and flexibility. In light of these merits, recent research endeavors have extended CoT reasoning methodologies to nurture the development of autonomous language agents, which adeptly adhere to language instructions and execute actions within varied environments. This survey paper orchestrates a thorough discourse, penetrating vital research dimensions, encompassing: (i) the foundational mechanics of CoT techniques, with a focus on elucidating the circumstances and justification behind its efficacy; (ii) the paradigm shift in CoT; and (iii) the burgeoning of language agents fortified by CoT approaches. Prospective research avenues envelop explorations into generalization, efficiency, customization, scaling, and safety. This paper caters to a wide audience, including beginners seeking comprehensive knowledge of CoT reasoning and language agents, as well as experienced researchers interested in foundational mechanics and engaging in cutting-edge discussions on these topics. A repository for the related papers is available at https://github.com/Zoeyyao27/CoT-Igniting-Agent.

Liên kết bài báo

https://arxiv.org/abs/2311.11797

Đọc thêm

https://x.com/omarsar0/status/1726803725220487277


GAIA: benchmark cho trợ lý AI tổng quát / GAIA: a benchmark for General AI Assistants

Giới thiệu bài báo

  • Theo một benchmark dành cho các trợ lý AI tổng quát gồm những câu hỏi thực tế đòi hỏi một tập hợp năng lực nền tảng như suy luận, xử lý đa phương thức, duyệt web và khả năng sử dụng công cụ nói chung, người tham gia là con người đạt 92%, trong khi GPT-4 được trang bị plugin đạt 15%.

    A benchmark for general ai assistants consisting of real-world questions that require a set of fundamental abilities such as reasoning, multimodal handling, web browsing, and generally tool-use proficiency; shows that human respondents obtain 92% vs. 15% for gpt-4 equipped with plugins.

Tóm tắt bài báo

  • Giới thiệu GAIA, một benchmark cho trợ lý AI tổng quát, mà nếu được giải quyết sẽ trở thành một cột mốc của nghiên cứu AI. GAIA đưa ra các câu hỏi trong thế giới thực đòi hỏi một tập hợp năng lực nền tảng như suy luận, xử lý đa phương thức, duyệt web và nhìn chung là khả năng sử dụng công cụ thành thạo. Các câu hỏi của GAIA về mặt khái niệm thì đơn giản với con người nhưng lại khó đối với phần lớn AI tiên tiến: người trả lời là con người đạt 92%, trong khi GPT-4 được trang bị plugin chỉ đạt 15%. Khoảng cách hiệu năng đáng kể này trái ngược với xu hướng gần đây khi LLM vượt qua con người ở các tác vụ đòi hỏi kỹ năng chuyên môn như luật hoặc hóa học. Triết lý của GAIA đi ngược lại xu hướng benchmark AI hiện nay vốn nhắm đến các tác vụ ngày càng khó hơn với con người. Chúng tôi cho rằng sự xuất hiện của Trí tuệ Nhân tạo Tổng quát (AGI) phụ thuộc vào khả năng của một hệ thống trong việc thể hiện độ vững chắc tương tự một người bình thường trước những câu hỏi như vậy. Sử dụng phương pháp luận của GAIA, chúng tôi đã thiết kế 466 câu hỏi cùng câu trả lời tương ứng. Chúng tôi công bố các câu hỏi và giữ lại đáp án của 300 câu để phục vụ bảng xếp hạng có tại https://huggingface.co/gaia-benchmark.

    We introduce GAIA, a benchmark for General AI Assistants that, if solved, would represent a milestone in AI research. GAIA proposes real-world questions that require a set of fundamental abilities such as reasoning, multi-modality handling, web browsing, and generally tool-use proficiency. GAIA questions are conceptually simple for humans yet challenging for most advanced AIs: we show that human respondents obtain 92% vs. 15% for GPT-4 equipped with plugins. This notable performance disparity contrasts with the recent trend of LLMs outperforming humans on tasks requiring professional skills in e.g. law or chemistry. GAIA's philosophy departs from the current trend in AI benchmarks suggesting to target tasks that are ever more difficult for humans. We posit that the advent of Artificial General Intelligence (AGI) hinges on a system's capability to exhibit similar robustness as the average human does on such questions. Using GAIA's methodology, we devise 466 questions and their answer. We release our questions while retaining answers to 300 of them to power a leader-board available at https://huggingface.co/gaia-benchmark.

Link bài báo

https://arxiv.org/abs/2311.12983

Đọc thêm

https://x.com/ThomasScialom/status/1727683993045201339


MedAgents: Mô hình ngôn ngữ lớn như những cộng tác viên cho suy luận y khoa zero-shot / MedAgents: Large Language Models as Collaborators for Zero-shot Medical Reasoning

Giới thiệu bài báo

  • Đề xuất một khung cộng tác nhiều vòng cho lĩnh vực y khoa, tận dụng các agent dựa trên LLM theo hình thức nhập vai để nâng cao mức độ thành thạo và năng lực suy luận của LLM.

    Proposes a collaborative multi-round framework for the medical domain that leverages role-playing llm-based agents to enhance llm proficiency and reasoning capabilities.

Tóm tắt bài báo

  • Các mô hình ngôn ngữ lớn (LLM), dù đã đạt được những tiến bộ đáng kể trong nhiều lĩnh vực phổ quát, vẫn gặp phải những rào cản lớn trong y học và chăm sóc sức khỏe. Lĩnh vực này đối mặt với những thách thức đặc thù như thuật ngữ chuyên ngành và suy luận trên tri thức chuyên môn. Để giải quyết những vấn đề dai dẳng này, nhóm tác giả đề xuất một khung Multi-disciplinary Collaboration (MC) mới cho lĩnh vực y khoa. Khung này tận dụng các agent dựa trên LLM theo hình thức nhập vai, tham gia vào thảo luận cộng tác nhiều vòng, từ đó nâng cao mức độ thành thạo và năng lực suy luận của LLM. Khung làm việc này không cần huấn luyện và có tính diễn giải, bao gồm 5 bước quan trọng: tập hợp các chuyên gia theo miền, đưa ra các phân tích riêng lẻ, tóm tắt các phân tích này thành một báo cáo, lặp lại thảo luận cho đến khi đạt được đồng thuận, và cuối cùng đưa ra quyết định. Công trình đặc biệt tập trung vào kịch bản zero-shot; kết quả trên 9 bộ dữ liệu (MedQA, MedMCQA, PubMedQA và 6 tác vụ con từ MMLU) cho thấy khung MC được đề xuất vượt trội trong việc khai thác và tận dụng chuyên môn y khoa bên trong LLM, đồng thời mở rộng năng lực suy luận của chúng. Dựa trên những kết quả này, nhóm tác giả tiếp tục thực hiện đánh giá bởi con người để xác định và phân loại các lỗi phổ biến trong phương pháp, cũng như các nghiên cứu ablation nhằm hiểu tác động của nhiều yếu tố khác nhau lên hiệu năng tổng thể. Mã nguồn có tại \url{https://github.com/gersteinlab/MedAgents}.

    Large Language Models (LLMs), despite their remarkable progress across various general domains, encounter significant barriers in medicine and healthcare. This field faces unique challenges such as domain-specific terminologies and the reasoning over specialized knowledge. To address these obstinate issues, we propose a novel Multi-disciplinary Collaboration (MC) framework for the medical domain that leverages role-playing LLM-based agents who participate in a collaborative multi-round discussion, thereby enhancing LLM proficiency and reasoning capabilities. This training-free and interpretable framework encompasses five critical steps: gathering domain experts, proposing individual analyses, summarising these analyses into a report, iterating over discussions until a consensus is reached, and ultimately making a decision. Our work particularly focuses on the zero-shot scenario, our results on nine data sets (MedQA, MedMCQA, PubMedQA, and six subtasks from MMLU) establish that our proposed MC framework excels at mining and harnessing the medical expertise in LLMs, as well as extending its reasoning abilities. Based on these outcomes, we further conduct a human evaluation to pinpoint and categorize common errors within our method, as well as ablation studies aimed at understanding the impact of various factors on overall performance. Our code can be found at \url{https://github.com/gersteinlab/MedAgents}.

Link bài báo

https://arxiv.org/abs/2311.10537

Đọc thêm

https://x.com/omarsar0/status/1726627951582511135


Lạc đà trong khí hậu đang thay đổi: Nâng cao khả năng thích ứng của LM với Tulu 2 / Camels in a Changing Climate: Enhancing LM Adaptation with Tulu 2

Giới thiệu bài báo

  • Cung cấp một bộ mô hình Tülu cải tiến nhằm nâng cao hiểu biết và các thông lệ tốt nhất trong việc điều chỉnh các mô hình ngôn ngữ đã tiền huấn luyện cho các tác vụ downstream và sở thích người dùng; bộ Tülu 2 đạt hiệu năng hàng đầu trong số các mô hình mở và ngang bằng hoặc vượt hiệu năng của GPT-3.5-Turbo-0301 trên nhiều benchmark.

    Presents a suite of improved tülu models for advancing the understanding and best practices of adapting pretrained language models to downstream tasks and user preferences; tülu 2 suite achieves state-of-the-art performance among open models and matches or exceeds the performance of gpt-3.5-turbo-0301 on several benchmarks.

Tóm tắt bài báo

  • Kể từ khi Tülu được phát hành [Wang et al., 2023b], các tài nguyên mở cho instruction tuning đã phát triển rất nhanh, từ các mô hình nền tốt hơn cho đến các kỹ thuật fine-tuning mới. Nhóm tác giả đã thử nghiệm và tích hợp nhiều tiến bộ này vào Tülu, từ đó tạo ra Tülu 2, một bộ mô hình Tülu cải tiến nhằm thúc đẩy hiểu biết và các thông lệ tốt nhất trong việc điều chỉnh các mô hình ngôn ngữ đã tiền huấn luyện cho các tác vụ downstream và sở thích người dùng. Cụ thể, họ phát hành: (1) Tülu-V2-mix, một tập hợp cải tiến của các bộ dữ liệu instruction chất lượng cao; (2) Tülu 2, các mô hình LLAMA-2 được fine-tune trên hỗn hợp V2; (3) Tülu 2+DPO, các mô hình Tülu 2 được huấn luyện bằng direct preference optimization (DPO), bao gồm mô hình được huấn luyện bằng DPO lớn nhất cho đến nay (Tülu 2+DPO 70B); (4) CODE Tülu 2, các mô hình CODE LLAMA được fine-tune trên hỗn hợp V2 của họ và cho hiệu năng vượt trội so với CODE LLAMA và biến thể instruction-tuned của nó là CODE LLAMA-Instruct. Đánh giá từ nhiều góc độ cho thấy bộ Tülu 2 đạt hiệu năng hàng đầu trong số các mô hình mở và ngang bằng hoặc vượt GPT-3.5-turbo-0301 trên nhiều benchmark. Họ công bố toàn bộ checkpoint, dữ liệu, mã huấn luyện và mã đánh giá để thúc đẩy các nỗ lực mở trong tương lai về việc điều chỉnh các mô hình ngôn ngữ lớn.

    Since the release of Tülu [Wang et al., 2023b], open resources for instruction tuning have developed quickly, from better base models to new finetuning techniques. We test and incorporate a number of these advances into Tülu , resulting in Tülu 2, a suite of improved Tülu models for advancing the understanding and best practices of adapting pretrained language models to downstream tasks and user preferences. Concretely, we release: (1) Tülu-V2-mix, an improved collection of high-quality instruction datasets; (2) Tülu 2, LLAMA-2 models finetuned on the V2 mixture; (3) Tülu 2+DPO, Tülu 2 models trained with direct preference optimization (DPO), including the largest DPO-trained model to date (Tülu 2+DPO 70B); (4) CODE Tülu 2, CODE LLAMA models finetuned on our V2 mix that outperform CODE LLAMA and its instruction-tuned variant, CODE LLAMA-Instruct. Our evaluation from multiple perspectives shows that the Tülu 2 suite achieves state-of-the-art performance among open models and matches or exceeds the performance of GPT-3.5-turbo-0301 on several benchmarks. We release all the checkpoints, data, training and evaluation code to facilitate future open efforts on adapting large language models.

Liên kết bài báo

https://arxiv.org/abs/2311.10702

Đọc thêm

https://x.com/natolambert/status/1727350301131518454


Bản gốc

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-a05

Chưa có bình luận nào.

Chưa có bình luận nào.