5 điểm bởi ninebow 2023-10-02 | 2 bình luận | Chia sẻ qua WhatsApp

Tổng quan

  • Tôi đã thử dịch tự động các bài viết về các bài báo ML được DAIR.AI công bố hằng tuần.
  • Các bài báo trong tuần này phần lớn dường như tập trung vào LLM (Large Language Models). Trong đó có nhiều chủ đề đa dạng như cải thiện thuật toán về hiệu quả quy trình của LLM trong nhiều môi trường, Graph Neural Prompting cho LLM, và việc áp dụng quá trình tư duy logic.
  • Trong số các bài báo được chọn tuần này, những bài như 'Boolformer' và 'Vision Transformers Need Registers' cũng cho thấy xu hướng nghiên cứu đang được thúc đẩy theo hướng kết hợp với các lĩnh vực AI khác.
  • Qua đó có thể thấy sự phát triển của công nghệ AI không chỉ nằm ở việc khám phá riêng lẻ từng lĩnh vực mà còn là một phần quan trọng của việc kết hợp nhiều lĩnh vực để tìm kiếm các cách tiếp cận và lời giải mới.

Lời nguyền đảo ngược / The Reversal Curse

Giới thiệu bài báo

  • Phát hiện rằng mạng nơ-ron nhân tạo được huấn luyện trên các câu theo dạng 'a là b' sẽ không tự động khái quát hóa sang chiều ngược lại là 'b là a', tức là lời nguyền đảo ngược; đồng thời chứng minh hiệu ứng này bằng cách tinh chỉnh mạng nơ-ron trên các câu giả định và xác nhận tính vững chắc của hiện tượng này trên nhiều kích thước mô hình và nhiều họ mô hình. #llm-reasoning

    Finds that llms trained on sentences of the form “a is b” will not automatically generalize to the reverse direction “b is a”, i.e., the reversal curse; shows the effect through finetuning llms on fictitious statements and demonstrating its robustness across model sizes and model families.

Liên kết bài báo

https://owainevans.github.io/reversal_curse.pdf

Đọc thêm

https://x.com/OwainEvans_UK/status/1705285631520407821

Mở rộng ngữ cảnh dài hiệu quả cho foundation model / Effective Long-Context Scaling of Foundation Models

Giới thiệu bài báo

  • Đề xuất một biến thể 70b đã có thể vượt qua hiệu năng tổng thể của gpt-3.5-turbo-16k trên một bộ tác vụ ngữ cảnh dài. Điều này bao gồm một quy trình instruction tuning tiết kiệm chi phí, không cần dữ liệu chỉ dẫn dài được con người gán nhãn. #1b-context-window #100k-context-window

    Propose a 70b variant that can already surpass gpt-3.5-turbo-16k’s overall performance on a suite of long-context tasks. this involves a cost-effective instruction tuning procedure that does not require human-annotated long instruction data.

Tóm tắt bài báo

  • Chúng tôi giới thiệu một dòng LLM ngữ cảnh dài hỗ trợ cửa sổ ngữ cảnh hiệu quả lên tới 32.768 token. Dòng mô hình của chúng tôi được xây dựng thông qua continual pretraining từ Llama 2 với các chuỗi huấn luyện dài hơn và trên một tập dữ liệu nơi các văn bản dài được upsample. Chúng tôi thực hiện đánh giá diện rộng trên language modeling, các tác vụ synthetic context probing, và nhiều benchmark nghiên cứu khác nhau. Trên các benchmark nghiên cứu, mô hình của chúng tôi đạt được cải thiện nhất quán trên hầu hết các tác vụ thông thường và cải thiện đáng kể trên các tác vụ ngữ cảnh dài so với Llama 2. Đáng chú ý, với một quy trình instruction tuning tiết kiệm chi phí không cần dữ liệu chỉ dẫn dài do con người gán nhãn, biến thể 70B đã có thể vượt qua hiệu năng tổng thể của gpt-3.5-turbo-16k trên một bộ tác vụ ngữ cảnh dài. Cùng với các kết quả này, chúng tôi cung cấp phân tích chuyên sâu về từng thành phần trong phương pháp của mình. Chúng tôi đi sâu vào position encoding của Llama và thảo luận về hạn chế của nó trong việc mô hình hóa các phụ thuộc dài. Chúng tôi cũng xem xét tác động của nhiều lựa chọn thiết kế trong quá trình pretraining, bao gồm phối trộn dữ liệu và curriculum huấn luyện về độ dài chuỗi -- các thí nghiệm ablation của chúng tôi cho thấy việc có thật nhiều văn bản dài trong tập dữ liệu pretrain không phải là yếu tố then chốt để đạt hiệu năng mạnh, và chúng tôi xác minh bằng thực nghiệm rằng continual pretraining cho ngữ cảnh dài hiệu quả hơn và mang lại hiệu quả tương đương so với pretraining từ đầu với các chuỗi dài.

    We present a series of long-context LLMs that support effective context windows of up to 32,768 tokens. Our model series are built through continual pretraining from Llama 2 with longer training sequences and on a dataset where long texts are upsampled. We perform extensive evaluation on language modeling, synthetic context probing tasks, and a wide range of research benchmarks. On research benchmarks, our models achieve consistent improvements on most regular tasks and significant improvements on long-context tasks over Llama 2. Notably, with a cost-effective instruction tuning procedure that does not require human-annotated long instruction data, the 70B variant can already surpass gpt-3.5-turbo-16k's overall performance on a suite of long-context tasks. Alongside these results, we provide an in-depth analysis on the individual components of our method. We delve into Llama's position encodings and discuss its limitation in modeling long dependencies. We also examine the impact of various design choices in the pretraining process, including the data mix and the training curriculum of sequence lengths -- our ablation experiments suggest that having abundant long texts in the pretrain dataset is not the key to achieving strong performance, and we empirically verify that long context continual pretraining is more efficient and similarly effective compared to pretraining from scratch with long sequences.

Liên kết bài báo

https://arxiv.org/abs/2309.16039

Đọc thêm

https://x.com/omarsar0/status/1707780482178400261

Graph Neural Prompting với large language models / Graph Neural Prompting with Large Language Models

Giới thiệu bài báo

  • Đề xuất một phương pháp plug-and-play để hỗ trợ các LLM đã được tiền huấn luyện học tri thức hữu ích từ knowledge graph (KG); bao gồm nhiều thiết kế như bộ mã hóa graph neural network tiêu chuẩn, mô-đun pooling đa phương thức chéo, domain projector, và mục tiêu dự đoán liên kết tự giám sát. #knowledge-graph

    Proposes a plug-and-play method to assist pre-trained llms in learning beneficial knowledge from knowledge graphs (kgs); includes various designs, including a standard graph neural network encoder, a cross-modality pooling module, a domain projector, and a self-supervised link prediction objective.

Tóm tắt bài báo

  • Các mô hình ngôn ngữ lớn (LLM) đã cho thấy khả năng khái quát hóa đáng kinh ngạc với hiệu năng vượt trội trong nhiều tác vụ mô hình hóa ngôn ngữ. Tuy nhiên, chúng vẫn bộc lộ những hạn chế cố hữu trong việc nắm bắt và truy xuất chính xác tri thức có căn cứ. Trong khi các nghiên cứu trước đây đã khám phá cách tận dụng đồ thị tri thức để cải thiện mô hình hóa ngôn ngữ thông qua huấn luyện kết hợp và các kiến trúc mô hình tùy chỉnh, việc áp dụng điều này cho LLM gặp khó khăn do số lượng tham số lớn và chi phí tính toán cao. Ngoài ra, cách tận dụng các LLM đã được tiền huấn luyện và tránh phải huấn luyện một mô hình tùy chỉnh từ đầu vẫn là một câu hỏi còn bỏ ngỏ. Trong nghiên cứu này, chúng tôi đề xuất Graph Neural Prompting (GNP), một phương pháp plug-and-play mới nhằm hỗ trợ các LLM đã được tiền huấn luyện học tri thức hữu ích từ KG. GNP bao gồm nhiều thiết kế như bộ mã hóa mạng nơ-ron đồ thị tiêu chuẩn, mô-đun pooling đa phương thức chéo, bộ chiếu miền và mục tiêu dự đoán liên kết tự giám sát. Các thí nghiệm diện rộng trên nhiều bộ dữ liệu cho thấy GNP vượt trội trong cả tác vụ suy luận thường thức lẫn suy luận y sinh học, trên nhiều kích thước và thiết lập LLM khác nhau.
    > Large Language Models (LLMs) have shown remarkable generalization capability with exceptional performance in various language modeling tasks. However, they still exhibit inherent limitations in precisely capturing and returning grounded knowledge. While existing work has explored utilizing knowledge graphs to enhance language modeling via joint training and customized model architectures, applying this to LLMs is problematic owing to their large number of parameters and high computational cost. In addition, how to leverage the pre-trained LLMs and avoid training a customized model from scratch remains an open question. In this work, we propose Graph Neural Prompting (GNP), a novel plug-and-play method to assist pre-trained LLMs in learning beneficial knowledge from KGs. GNP encompasses various designs, including a standard graph neural network encoder, a cross-modality pooling module, a domain projector, and a self-supervised link prediction objective. Extensive experiments on multiple datasets demonstrate the superiority of GNP on both commonsense and biomedical reasoning tasks across different LLM sizes and settings.

Liên kết bài báo

https://arxiv.org/abs/2309.15427

Đọc thêm

https://x.com/omarsar0/status/1707211751354212382

Vision Transformer cần register / Vision Transformers Need Registers

Giới thiệu bài báo

  • Xác định các artifact trong feature map của các mạng Vision Transformer bị tái sử dụng cho tính toán nội bộ, và đề xuất một giải pháp cung cấp thêm token vào chuỗi đầu vào để đảm nhận vai trò đó. Giải pháp này khắc phục vấn đề, tạo ra feature map và attention map mượt hơn, đồng thời thiết lập các kết quả state-of-the-art mới trên các tác vụ dự đoán thị giác dày đặc. #vision-transformer #transformer
    > Identifies artifacts in feature maps of vision transformer networks that are repurposed for internal computations; this work proposes a solution to provide additional tokens to the input sequence to fill that role; the solution fixes the problem, leads to smoother feature and attention maps, and sets new state-of-the-art results on dense visual prediction tasks.

Tóm tắt bài báo

  • Transformer gần đây đã nổi lên như một công cụ mạnh mẽ để học các biểu diễn thị giác. Trong bài báo này, chúng tôi xác định và mô tả đặc tính của các artifact trong feature map của cả mạng ViT được huấn luyện có giám sát lẫn tự giám sát. Các artifact này tương ứng với những token có chuẩn lớn xuất hiện trong quá trình suy luận chủ yếu ở các vùng nền ít thông tin của ảnh, và bị tái sử dụng cho các phép tính nội bộ. Chúng tôi đề xuất một giải pháp đơn giản nhưng hiệu quả dựa trên việc cung cấp thêm token vào chuỗi đầu vào của Vision Transformer để đảm nhận vai trò đó. Chúng tôi cho thấy giải pháp này khắc phục hoàn toàn vấn đề ở cả mô hình có giám sát và tự giám sát, thiết lập state of the art mới cho các mô hình thị giác tự giám sát trên các tác vụ dự đoán thị giác dày đặc, cho phép các phương pháp khám phá đối tượng hoạt động với các mô hình lớn hơn, và quan trọng nhất là tạo ra feature map và attention map mượt hơn cho xử lý thị giác downstream.
    > Transformers have recently emerged as a powerful tool for learning visual representations. In this paper, we identify and characterize artifacts in feature maps of both supervised and self-supervised ViT networks. The artifacts correspond to high-norm tokens appearing during inference primarily in low-informative background areas of images, that are repurposed for internal computations. We propose a simple yet effective solution based on providing additional tokens to the input sequence of the Vision Transformer to fill that role. We show that this solution fixes that problem entirely for both supervised and self-supervised models, sets a new state of the art for self-supervised visual models on dense visual prediction tasks, enables object discovery methods with larger models, and most importantly leads to smoother feature maps and attention maps for downstream visual processing.

Liên kết bài báo

https://arxiv.org/abs/2309.16588

Đọc thêm

https://x.com/TimDarcet/status/1707769575981424866

Boolformer: Hồi quy ký hiệu của các hàm logic bằng Transformer / Boolformer: Symbolic Regression of Logic Functions with Transformers

Giới thiệu bài báo

  • Cung cấp kiến trúc transformer đầu tiên được huấn luyện để thực hiện hồi quy ký hiệu end-to-end cho các hàm Boolean; nó có thể dự đoán các công thức gọn cho những hàm phức tạp và có thể được áp dụng vào việc mô hình hóa động lực học của các mạng điều hòa gen. #transformer
    > Presents the first transformer architecture trained to perform end-to-end symbolic regression of boolean functions; it can predict compact formulas for complex functions and be applied to modeling the dynamics of gene regulatory networks.

Tóm tắt bài báo

  • Trong nghiên cứu này, nhóm tác giả giới thiệu Boolformer, kiến trúc Transformer đầu tiên được huấn luyện để thực hiện symbolic regression end-to-end cho các hàm Boolean. Trước hết, họ cho thấy mô hình có thể dự đoán các công thức gọn cho những hàm phức tạp chưa từng xuất hiện trong quá trình huấn luyện khi được cung cấp bảng chân trị sạch. Sau đó, họ chứng minh khả năng tìm các biểu thức xấp xỉ khi chỉ có các quan sát không đầy đủ và nhiễu. Boolformer được đánh giá trên một tập rộng các bộ dữ liệu phân loại nhị phân trong thế giới thực, qua đó cho thấy tiềm năng như một lựa chọn thay thế có thể diễn giải được cho các phương pháp machine learning cổ điển. Cuối cùng, mô hình được áp dụng cho bài toán phổ biến là mô hình hóa động lực học của các mạng điều hòa gen. Thông qua một benchmark gần đây, nhóm tác giả cho thấy Boolformer có thể cạnh tranh với các genetic algorithm hiện đại nhất trong khi tăng tốc nhanh hơn vài bậc độ lớn. Mã nguồn và mô hình được công khai để mọi người sử dụng.
    > In this work, we introduce Boolformer, the first Transformer architecture trained to perform end-to-end symbolic regression of Boolean functions. First, we show that it can predict compact formulas for complex functions which were not seen during training, when provided a clean truth table. Then, we demonstrate its ability to find approximate expressions when provided incomplete and noisy observations. We evaluate the Boolformer on a broad set of real-world binary classification datasets, demonstrating its potential as an interpretable alternative to classic machine learning methods. Finally, we apply it to the widespread task of modelling the dynamics of gene regulatory networks. Using a recent benchmark, we show that Boolformer is competitive with state-of-the art genetic algorithms with a speedup of several orders of magnitude. Our code and models are available publicly.

Liên kết bài báo

https://arxiv.org/abs/2309.12207

Đọc thêm

https://x.com/stephanedascoli/status/1706235856778834015

Căn chỉnh các mô hình đa phương thức lớn bằng RLHF tăng cường tính thực chứng / Aligning Large Multimodal Models with Factually Augmented RLHF

Giới thiệu bài báo

  • Áp dụng RLHF tăng cường tính thực chứng để căn chỉnh các mô hình đa phương thức quy mô lớn. Cách tiếp cận này giúp giảm hiện tượng reward hacking trong RLHF và cải thiện hiệu năng trên bộ dữ liệu LLaVA-Bench lên mức 94% so với GPT-4 chỉ dùng văn bản. #llm-alignment #multimodal #rlhf
    > Adapts factually augmented rlhf to aligning large multimodal models; this approach alleviates the reward hacking in rlhf and improves performance on the llava-bench dataset with the 94% performance level of the text-only gpt-4.

Tóm tắt bài báo

  • Các mô hình đa phương thức lớn (LMM) được xây dựng trên nhiều modality, và sự lệch căn chỉnh giữa hai modality có thể dẫn đến “ảo giác”, tạo ra các đầu ra văn bản không bám sát thông tin đa phương thức trong ngữ cảnh. Để giải quyết vấn đề lệch căn chỉnh đa phương thức, nhóm tác giả điều chỉnh Reinforcement Learning from Human Feedback (RLHF) từ miền văn bản sang bài toán căn chỉnh thị giác-ngôn ngữ, trong đó người gán nhãn được yêu cầu so sánh hai phản hồi và chỉ ra phản hồi nào có nhiều ảo giác hơn, còn mô hình thị giác-ngôn ngữ được huấn luyện để tối đa hóa phần thưởng mô phỏng từ con người. Họ đề xuất một thuật toán căn chỉnh mới có tên Factually Augmented RLHF, bổ sung cho reward model các thông tin thực tế như chú thích ảnh và các lựa chọn trắc nghiệm ground-truth, nhờ đó giảm hiện tượng reward hacking trong RLHF và tiếp tục cải thiện hiệu năng. Nhóm tác giả cũng tăng cường dữ liệu huấn luyện do GPT-4 tạo ra trước đó (cho vision instruction tuning) bằng các cặp ảnh-văn bản do con người viết để cải thiện năng lực tổng thể của mô hình. Để đánh giá cách tiếp cận được đề xuất trong các kịch bản thực tế, họ phát triển một benchmark đánh giá mới là MMHAL-BENCH, đặc biệt tập trung vào việc phạt các trường hợp ảo giác. Là LMM đầu tiên được huấn luyện bằng RLHF, phương pháp này đạt cải thiện đáng kể trên bộ dữ liệu LLaVA-Bench với mức hiệu năng bằng 94% GPT-4 chỉ dùng văn bản (trong khi các phương pháp tốt nhất trước đó chỉ đạt mức 87%), đồng thời cải thiện 60% trên MMHAL-BENCH so với các baseline khác. Mã nguồn, mô hình và dữ liệu được open-source tại https://llava-rlhf.github.io.
    > Large Multimodal Models (LMM) are built across modalities and the misalignment between two modalities can result in "hallucination", generating textual outputs that are not grounded by the multimodal information in context. To address the multimodal misalignment issue, we adapt the Reinforcement Learning from Human Feedback (RLHF) from the text domain to the task of vision-language alignment, where human annotators are asked to compare two responses and pinpoint the more hallucinated one, and the vision-language model is trained to maximize the simulated human rewards. We propose a new alignment algorithm called Factually Augmented RLHF that augments the reward model with additional factual information such as image captions and ground-truth multi-choice options, which alleviates the reward hacking phenomenon in RLHF and further improves the performance. We also enhance the GPT-4-generated training data (for vision instruction tuning) with previously available human-written image-text pairs to improve the general capabilities of our model. To evaluate the proposed approach in real-world scenarios, we develop a new evaluation benchmark MMHAL-BENCH with a special focus on penalizing hallucinations. As the first LMM trained with RLHF, our approach achieves remarkable improvement on the LLaVA-Bench dataset with the 94% performance level of the text-only GPT-4 (while previous best methods can only achieve the 87% level), and an improvement by 60% on MMHAL-BENCH over other baselines. We opensource our code, model, data at https://llava-rlhf.github.io.

Liên kết bài báo

https://arxiv.org/abs/2309.14525

Đọc thêm

https://x.com/arankomatsuzaki/status/1706839311306621182

Căn chỉnh mô hình ngôn ngữ lớn: Khảo sát / Large Language Model Alignment: A Survey

Giới thiệu bài báo

  • Đây là một báo cáo khảo sát toàn diện về căn chỉnh LLM, với các chủ đề gồm căn chỉnh bên ngoài, căn chỉnh bên trong, khả năng diễn giải theo cơ chế, tấn công nhắm vào các LLM đã được căn chỉnh, đánh giá căn chỉnh, các hướng đi tương lai và thảo luận. #survey-paper #llm-alignment
    > A comprehensive survey paper on llm alignment; topics include outer alignment, inner alignment, mechanistic interpretability, attacks on aligned llms, alignment evaluation, future directions, and discussions.

Tóm tắt bài báo

  • Trong những năm gần đây, các mô hình ngôn ngữ lớn (LLM) đã đạt được những tiến bộ đáng chú ý. Những bước tiến này, dù thu hút sự quan tâm rất lớn, đồng thời cũng làm dấy lên nhiều lo ngại khác nhau. Tiềm năng của các mô hình này rõ ràng là vô cùng to lớn; tuy nhiên, chúng có thể tạo ra các văn bản không chính xác, gây hiểu lầm, hoặc thậm chí có hại. Vì vậy, việc áp dụng các kỹ thuật căn chỉnh để bảo đảm những mô hình này thể hiện hành vi phù hợp với các giá trị của con người trở nên đặc biệt quan trọng. Khảo sát này nỗ lực cung cấp một cái nhìn khám phá sâu rộng về các phương pháp luận căn chỉnh được thiết kế cho LLM, cùng với các nghiên cứu hiện có về năng lực trong lĩnh vực này. Dưới lăng kính căn chỉnh AI, chúng tôi phân loại các phương pháp phổ biến và các đề xuất mới nổi cho việc căn chỉnh LLM thành căn chỉnh bên ngoài và căn chỉnh bên trong. Chúng tôi cũng khảo sát các vấn đề quan trọng như khả năng diễn giải của mô hình và các điểm dễ tổn thương tiềm tàng trước tấn công đối kháng. Để đánh giá mức độ căn chỉnh của LLM, chúng tôi trình bày nhiều bộ benchmark và phương pháp đánh giá đa dạng. Sau khi thảo luận về hiện trạng nghiên cứu căn chỉnh cho LLM, cuối cùng chúng tôi đưa ra một tầm nhìn cho tương lai và xem xét những hướng nghiên cứu đầy hứa hẹn ở phía trước. Kỳ vọng của chúng tôi đối với khảo sát này không chỉ dừng lại ở việc khơi dậy sự quan tâm nghiên cứu trong lĩnh vực này. Chúng tôi còn mong muốn thu hẹp khoảng cách giữa cộng đồng nghiên cứu căn chỉnh AI và các nhà nghiên cứu tập trung vào việc khám phá năng lực của LLM, nhằm hướng tới những LLM vừa mạnh mẽ vừa an toàn.
    > Recent years have witnessed remarkable progress made in large language models (LLMs). Such advancements, while garnering significant attention, have concurrently elicited various concerns. The potential of these models is undeniably vast; however, they may yield texts that are imprecise, misleading, or even detrimental. Consequently, it becomes paramount to employ alignment techniques to ensure these models to exhibit behaviors consistent with human values. This survey endeavors to furnish an extensive exploration of alignment methodologies designed for LLMs, in conjunction with the extant capability research in this domain. Adopting the lens of AI alignment, we categorize the prevailing methods and emergent proposals for the alignment of LLMs into outer and inner alignment. We also probe into salient issues including the models' interpretability, and potential vulnerabilities to adversarial attacks. To assess LLM alignment, we present a wide variety of benchmarks and evaluation methodologies. After discussing the state of alignment research for LLMs, we finally cast a vision toward the future, contemplating the promising avenues of research that lie ahead. Our aspiration for this survey extends beyond merely spurring research interests in this realm. We also envision bridging the gap between the AI alignment research community and the researchers engrossed in the capability exploration of LLMs for both capable and safe LLMs.

Liên kết bài báo

https://arxiv.org/abs/2309.15025

Đọc thêm

https://x.com/omarsar0/status/1706845285064818905

Báo cáo kỹ thuật Qwen / Qwen Technical Report

Giới thiệu bài báo

  • Đề xuất một loạt LLM cho thấy sức mạnh của RLHF trong các tác vụ liên quan đến sử dụng công cụ và khả năng lập kế hoạch để tạo ra các tác tử ngôn ngữ. #qwen-vl #rlhf
    > Proposes a series of llms demonstrating the strength of rlhf on tasks involving tool use and planning capabilities for creating language agents.

Tóm tắt bài báo

  • Các mô hình ngôn ngữ lớn (LLM) đã tạo ra cuộc cách mạng trong lĩnh vực trí tuệ nhân tạo, cho phép thực hiện các tác vụ xử lý ngôn ngữ tự nhiên vốn trước đây được cho là chỉ con người mới làm được. Trong bài viết này, chúng tôi giới thiệu Qwen, sản phẩm đầu tiên trong loạt mô hình ngôn ngữ lớn của mình. Qwen là một dòng mô hình ngôn ngữ toàn diện bao gồm nhiều mô hình với số lượng tham số khác nhau. Dòng này gồm Qwen, các mô hình ngôn ngữ nền tảng được tiền huấn luyện, và Qwen-Chat, các mô hình hội thoại được tinh chỉnh bằng các kỹ thuật căn chỉnh với con người. Các mô hình ngôn ngữ nền tảng liên tục cho thấy hiệu năng vượt trội trên nhiều tác vụ downstream, còn các mô hình hội thoại, đặc biệt là những mô hình được huấn luyện bằng Reinforcement Learning from Human Feedback (RLHF), có tính cạnh tranh rất cao. Các mô hình hội thoại sở hữu khả năng sử dụng công cụ và lập kế hoạch nâng cao để xây dựng ứng dụng tác tử, thể hiện hiệu năng ấn tượng ngay cả khi so sánh với các mô hình lớn hơn trong những tác vụ phức tạp như tận dụng code interpreter. Ngoài ra, nhóm tác giả còn phát triển các mô hình chuyên về lập trình là Code-Qwen và Code-Qwen-Chat, cùng mô hình chuyên về toán học là Math-Qwen-Chat, được xây dựng trên nền các mô hình ngôn ngữ cơ sở. Những mô hình này cho thấy hiệu năng cải thiện đáng kể so với các mô hình mã nguồn mở, và chỉ kém đôi chút so với các mô hình độc quyền.
    > Large language models (LLMs) have revolutionized the field of artificial intelligence, enabling natural language processing tasks that were previously thought to be exclusive to humans. In this work, we introduce Qwen, the first installment of our large language model series. Qwen is a comprehensive language model series that encompasses distinct models with varying parameter counts. It includes Qwen, the base pretrained language models, and Qwen-Chat, the chat models finetuned with human alignment techniques. The base language models consistently demonstrate superior performance across a multitude of downstream tasks, and the chat models, particularly those trained using Reinforcement Learning from Human Feedback (RLHF), are highly competitive. The chat models possess advanced tool-use and planning capabilities for creating agent applications, showcasing impressive performance even when compared to bigger models on complex tasks like utilizing a code interpreter. Furthermore, we have developed coding-specialized models, Code-Qwen and Code-Qwen-Chat, as well as mathematics-focused models, Math-Qwen-Chat, which are built upon base language models. These models demonstrate significantly improved performance in comparison with open-source models, and slightly fall behind the proprietary models.

Liên kết bài báo

https://arxiv.org/abs/2309.16609

Đọc thêm

https://x.com/omarsar0/status/1707776749042364729

MentalLLaMA: Phân tích sức khỏe tinh thần có thể diễn giải trên mạng xã hội bằng mô hình ngôn ngữ lớn / MentalLLaMA: Interpretable Mental Health Analysis on Social Media with Large Language Models

Giới thiệu bài báo

  • Một dòng llm mã nguồn mở dành cho phân tích sức khỏe tinh thần có thể diễn giải với khả năng làm theo chỉ dẫn; đồng thời đề xuất một bộ dữ liệu chỉ dẫn về sức khỏe tinh thần có thể diễn giải, đa tác vụ và đa nguồn trên mạng xã hội với 105.000 mẫu dữ liệu. #medical #llm-for-clinical-task #llama
    > An open-source llm series for interpretable mental health analysis with instruction-following capability; it also proposes a multi-task and multi-source interpretable mental health instruction dataset on social media with 105k data samples.

Tóm tắt bài báo

  • Với sự phát triển của công nghệ web, văn bản trên mạng xã hội đang trở thành một nguồn dữ liệu phong phú cho phân tích sức khỏe tâm thần tự động. Do các phương pháp phân biệt truyền thống gặp vấn đề về khả năng diễn giải thấp, các mô hình ngôn ngữ lớn gần đây đang được nghiên cứu cho bài toán phân tích sức khỏe tâm thần có thể diễn giải trên mạng xã hội, với mục tiêu cung cấp giải thích chi tiết cùng với dự đoán. Kết quả cho thấy ChatGPT có thể tạo ra các lời giải thích gần với con người cho những phân loại chính xác của nó. Tuy nhiên, LLM vẫn đạt hiệu năng phân loại chưa thỏa đáng trong thiết lập zero-shot/few-shot. Fine-tuning theo miền là một giải pháp hiệu quả, nhưng phải đối mặt với 2 thách thức: 1) thiếu dữ liệu huấn luyện chất lượng cao. 2) chưa có LLM mã nguồn mở nào cho phân tích sức khỏe tâm thần có thể diễn giải được phát hành để giảm chi phí fine-tuning. Để giải quyết những vấn đề này, Facebook đã xây dựng IMHI, bộ dữ liệu chỉ dẫn về sức khỏe tâm thần có thể diễn giải đa tác vụ và đa nguồn đầu tiên trên mạng xã hội, với 105 nghìn mẫu dữ liệu. Dữ liệu mạng xã hội thô được thu thập từ 10 nguồn hiện có, bao phủ 8 tác vụ phân tích sức khỏe tâm thần. Họ sử dụng các prompt few-shot do chuyên gia viết cùng các nhãn đã thu thập để nhắc ChatGPT và lấy phần giải thích từ phản hồi của nó. Để bảo đảm độ tin cậy của các lời giải thích, họ thực hiện các đánh giá nghiêm ngặt cả tự động lẫn thủ công về tính chính xác, nhất quán và chất lượng của dữ liệu được tạo ra. Dựa trên bộ dữ liệu IMHI và các mô hình nền tảng LLaMA2, họ huấn luyện MentalLLaMA, loạt LLM mã nguồn mở đầu tiên dành cho phân tích sức khỏe tâm thần có thể diễn giải với khả năng làm theo chỉ dẫn. Họ cũng đánh giá hiệu năng của MentalLLaMA trên benchmark đánh giá IMHI gồm 10 tập kiểm thử, nơi độ chính xác của dự đoán và chất lượng giải thích được xem xét. Kết quả cho thấy MentalLLaMA tiệm cận các phương pháp phân biệt hiện đại nhất về độ chính xác và tạo ra các lời giải thích chất lượng cao.
    > With the development of web technology, social media texts are becoming a rich source for automatic mental health analysis. As traditional discriminative methods bear the problem of low interpretability, the recent large language models have been explored for interpretable mental health analysis on social media, which aims to provide detailed explanations along with predictions. The results show that ChatGPT can generate approaching-human explanations for its correct classifications. However, LLMs still achieve unsatisfactory classification performance in a zero-shot/few-shot manner. Domain-specific finetuning is an effective solution, but faces 2 challenges: 1) lack of high-quality training data. 2) no open-source LLMs for interpretable mental health analysis were released to lower the finetuning cost. To alleviate these problems, we build the first multi-task and multi-source interpretable mental health instruction (IMHI) dataset on social media, with 105K data samples. The raw social media data are collected from 10 existing sources covering 8 mental health analysis tasks. We use expert-written few-shot prompts and collected labels to prompt ChatGPT and obtain explanations from its responses. To ensure the reliability of the explanations, we perform strict automatic and human evaluations on the correctness, consistency, and quality of generated data. Based on the IMHI dataset and LLaMA2 foundation models, we train MentalLLaMA, the first open-source LLM series for interpretable mental health analysis with instruction-following capability. We also evaluate the performance of MentalLLaMA on the IMHI evaluation benchmark with 10 test sets, where their correctness for making predictions and the quality of explanations are examined. The results show that MentalLLaMA approaches state-of-the-art discriminative methods in correctness and generates high-quality explanations.

Liên kết bài báo

https://arxiv.org/abs/2309.13567

Đọc thêm

https://x.com/SAnaniadou/status/1707668936634794442

Tăng cường suy luận chuỗi suy nghĩ zero-shot trong mô hình ngôn ngữ lớn thông qua logic / Enhancing Zero-Shot Chain-of-Thought Reasoning in Large Language Models through Logic

Giới thiệu bài báo

  • Một khung neurosymbolic mới nhằm cải thiện suy luận chuỗi suy nghĩ zero-shot của LLM; tận dụng các nguyên lý của logic ký hiệu để kiểm chứng và điều chỉnh quy trình suy luận, qua đó cải thiện năng lực suy luận của LLM. #chain-of-thought
    > A new neurosymbolic framework to improve zero-shot chain-of-thought reasoning in llms; leverages principles from symbolic logic to verify and revise reasoning processes to improve the reasoning capabilities of llms.

Tóm tắt bài báo

  • Những tiến bộ gần đây của các mô hình ngôn ngữ lớn đã cho thấy khả năng khái quát hóa đáng kinh ngạc của chúng trên nhiều lĩnh vực khác nhau. Tuy nhiên, năng lực suy luận của chúng vẫn còn nhiều dư địa để cải thiện, đặc biệt khi phải đối mặt với các tình huống đòi hỏi suy luận nhiều bước. Dù các mô hình ngôn ngữ lớn sở hữu lượng tri thức phong phú, chúng thường không thể tận dụng tri thức này một cách hiệu quả để xây dựng một khuôn mẫu tư duy nhất quán, nhất là ở khía cạnh suy luận. Các mô hình ngôn ngữ sinh đôi khi cũng xuất hiện hiện tượng hallucination vì quy trình suy luận của chúng không bị ràng buộc bởi các nguyên tắc logic. Nhằm cải thiện năng lực suy luận chuỗi suy nghĩ zero-shot của các mô hình ngôn ngữ lớn, chúng tôi đề xuất Logical Chain-of-Thought (LogiCoT), một khung neurosymbolic tận dụng các nguyên lý của logic ký hiệu để kiểm chứng và điều chỉnh quy trình suy luận cho phù hợp. Thông qua đánh giá thực nghiệm trên các tác vụ ngôn ngữ thuộc nhiều lĩnh vực đa dạng, bao gồm số học, tri thức thường thức, ký hiệu, suy luận nhân quả và các vấn đề xã hội, chúng tôi đã chứng minh hiệu quả của khuôn mẫu suy luận được tăng cường bằng logic.
    > Recent advancements in large language models have showcased their remarkable generalizability across various domains. However, their reasoning abilities still have significant room for improvement, especially when confronted with scenarios requiring multi-step reasoning. Although large language models possess extensive knowledge, their behavior, particularly in terms of reasoning, often fails to effectively utilize this knowledge to establish a coherent thinking paradigm. Generative language models sometimes show hallucinations as their reasoning procedures are unconstrained by logical principles. Aiming to improve the zero-shot chain-of-thought reasoning ability of large language models, we propose Logical Chain-of-Thought (LogiCoT), a neurosymbolic framework that leverages principles from symbolic logic to verify and revise the reasoning processes accordingly. Experimental evaluations conducted on language tasks in diverse domains, including arithmetic, commonsense, symbolic, causal inference, and social problems, demonstrate the efficacy of the enhanced reasoning paradigm by logic.

Liên kết bài báo

https://arxiv.org/abs/2309.13339

Đọc thêm

https://x.com/omarsar0/status/1706711389803287019

Bản gốc

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-c24

2 bình luận

 
alstjr7375 2023-10-02

Wow.. bài viết tâm huyết, đọc rất thú vị.

 
ninebow 2023-10-03

Cảm ơn ^^;