3 điểm bởi ninebow 2024-04-29 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  • Chúng tôi đã thử tự động dịch các bài viết về các bài báo ML được DAIR.AI công bố hằng tuần.

  • Xem qua các bài báo được gửi trong tuần này, có thể thấy phần lớn đều tập trung vào các mô hình ngôn ngữ thế hệ tiếp theo (Large Language Models, LLMs) và các lĩnh vực ứng dụng của chúng. Cụ thể, các bài như "Make Your LLM Fully Utilize the Context", "Graph Machine Learning in the Era of LLMs", "Self-Evolution of LLMs" và "Naturalized Execution Tuning (NExT)" đề cập đến các hướng nghiên cứu về phương pháp phát triển và tối ưu hóa LLMs, cũng như những lĩnh vực ứng dụng mới. Điều này phản ánh tầm quan trọng ngày càng tăng và khả năng ứng dụng rộng mở của LLMs trong lĩnh vực trí tuệ nhân tạo gần đây.

  • Lý do sự phát triển của LLMs quan trọng là vì các mô hình này không chỉ thể hiện hiệu năng vượt trội trong xử lý ngôn ngữ tự nhiên (Natural Language Processing, NLP) mà còn khi thực hiện nhiều tác vụ đa phương thức. Ví dụ, bài báo "Make Your LLM Fully Utilize the Context" khám phá cách LLMs có thể tận dụng tối đa ngữ cảnh được cung cấp để trích xuất và diễn giải thông tin chính xác hơn. Ngoài ra, "Graph Machine Learning in the Era of LLMs" là nghiên cứu về cách việc học trên dữ liệu dựa trên đồ thị có thể được cải thiện nhờ LLMs, qua đó hỗ trợ rất nhiều trong việc hiểu các mối quan hệ và mẫu hình phức tạp.

  • Xu hướng này cho thấy vai trò của LLMs trong lĩnh vực trí tuệ nhân tạo không chỉ dừng lại ở việc hiểu và tạo ngôn ngữ, mà đang mở rộng sang giải quyết vấn đề và ứng dụng trên phạm vi rộng hơn. Có thể xem đây là một phần trong nỗ lực của các nhà nghiên cứu nhằm khám phá nhiều khía cạnh khác nhau của trí tuệ nhân tạo, đặc biệt là phát triển các mô hình có thể hiểu và sử dụng ngôn ngữ của con người tốt hơn. Đồng thời, xu hướng nghiên cứu này cũng củng cố nhận định rằng việc ứng dụng LLMs trong nhiều lĩnh vực sẽ tiếp tục gia tăng trong tương lai.

[IMG] [2024/04/22 ~ 04/28] Các bài báo ML nổi bật tuần này (Top ML Papers of the Week)|1028x618


Báo cáo kỹ thuật Phi-3: Mô hình ngôn ngữ có năng lực cao chạy cục bộ trên điện thoại của bạn / Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone

Giới thiệu bài báo

phi-3-mini, một mô hình ngôn ngữ mới với 3.8B tham số được huấn luyện trên 3,3 nghìn tỷ token, được báo cáo là có thể cạnh tranh với Mixtral 8x7B và GPT-3.5; mô hình có độ dài ngữ cảnh mặc định là 4K nhưng cũng bao gồm phiên bản mở rộng lên 128K (phi-mini-128K); kết hợp dữ liệu web đã được lọc kỹ ở mức cao và dữ liệu tổng hợp để huấn luyện mô hình 3.8B; đồng thời cũng công bố kết quả của các mô hình 7B và 14B (phi-3-small và phi-3-medium) được huấn luyện trên 4.8T token.

A new 3.8B parameter language model called phi-3-mini trained on 3.3 trillion tokens and is reported to rival Mixtral 8x7B and GPT-3.5; has a default context length of 4K but also includes a version that is extended to 128K (phi-mini-128K); combines heavily filtered web data and synthetic data to train the 3.8B models; it also reports results on 7B and 14B models trained on 4.8T tokens (phi-3-small and phi-3-medium).

Tóm tắt bài báo (Abstract)

Chúng tôi giới thiệu phi-3-mini, một mô hình ngôn ngữ 3,8 tỷ tham số được huấn luyện trên 3,3 nghìn tỷ token. Hiệu năng tổng thể của mô hình, được đo bằng cả các benchmark học thuật lẫn kiểm thử nội bộ, đạt mức sánh ngang với các mô hình như Mixtral 8x7B và GPT-3.5 (ví dụ: phi-3-mini đạt 69% trên MMLU và 8.38 trên MT-bench), dù đủ nhỏ để triển khai trên điện thoại. Đổi mới nằm hoàn toàn ở bộ dữ liệu huấn luyện của chúng tôi, là phiên bản mở rộng của bộ dữ liệu đã dùng cho phi-2, gồm dữ liệu web được lọc rất kỹ và dữ liệu tổng hợp. Mô hình cũng được căn chỉnh thêm để tăng độ vững, độ an toàn và phù hợp với định dạng hội thoại. Chúng tôi cũng cung cấp một số kết quả mở rộng tham số ban đầu với các mô hình 7B và 14B được huấn luyện trên 4.8T token, lần lượt gọi là phi-3-small và phi-3-medium; cả hai đều có năng lực vượt trội đáng kể so với phi-3-mini (ví dụ: lần lượt đạt 75% và 78% trên MMLU, và 8.7 và 8.9 trên MT-bench).

We introduce phi-3-mini, a 3.8 billion parameter language model trained on 3.3 trillion tokens, whose overall performance, as measured by both academic benchmarks and internal testing, rivals that of models such as Mixtral 8x7B and GPT-3.5 (e.g., phi-3-mini achieves 69% on MMLU and 8.38 on MT-bench), despite being small enough to be deployed on a phone. The innovation lies entirely in our dataset for training, a scaled-up version of the one used for phi-2, composed of heavily filtered web data and synthetic data. The model is also further aligned for robustness, safety, and chat format. We also provide some initial parameter-scaling results with a 7B and 14B models trained for 4.8T tokens, called phi-3-small and phi-3-medium, both significantly more capable than phi-3-mini (e.g., respectively 75% and 78% on MMLU, and 8.7 and 8.9 on MT-bench).

Liên kết bài báo

https://arxiv.org/abs/2404.14219

Đọc thêm

https://discuss.pytorch.kr/t/…

https://x.com/omarsar0/status/1782780923806699716


OpenELM: Họ mô hình ngôn ngữ hiệu quả với framework huấn luyện và suy luận mã nguồn mở / OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework

Giới thiệu bài báo

Đây là một mô hình ngôn ngữ mở mới sử dụng chiến lược mở rộng theo từng lớp để phân bổ tham số hiệu quả, từ đó cải thiện hiệu suất và độ chính xác; có nhiều kích thước như 270M, 450M, 1.1B và 3B; đạt mức cải thiện 2.36% về độ chính xác so với OLMo trong khi chỉ cần số token tiền huấn luyện ít hơn 2 lần.

A new open language model that employs a layer-wise scaling strategy to efficiently allocate parameters and leading to better efficiency and accuracy; comes with different sizes such as 270M, 450M, 1.1B, and 3B; achieves a 2.36% improvement in accuracy compared to OLMo while requiring 2× fewer pre-training tokens.

Tóm tắt bài báo (Abstract)

Tính tái lập và tính minh bạch của các mô hình ngôn ngữ lớn là yếu tố cực kỳ quan trọng để thúc đẩy nghiên cứu mở, bảo đảm độ tin cậy của kết quả, đồng thời cho phép điều tra về thiên lệch dữ liệu, thiên lệch mô hình và các rủi ro tiềm ẩn. Để phục vụ mục tiêu đó, chúng tôi phát hành OpenELM, một mô hình ngôn ngữ mở tiên tiến hàng đầu. OpenELM sử dụng chiến lược mở rộng theo từng tầng để phân bổ tham số một cách hiệu quả trong mỗi tầng của mô hình transformer, từ đó cải thiện độ chính xác. Ví dụ, với ngân sách tham số khoảng 1 tỷ, OpenELM cải thiện độ chính xác thêm 2,36% so với OLMo, đồng thời cần ít hơn $2\times$ token tiền huấn luyện. Khác với các cách làm trước đây chỉ cung cấp trọng số mô hình và mã suy luận, đồng thời tiền huấn luyện trên các bộ dữ liệu riêng tư, bản phát hành này bao gồm toàn bộ framework để huấn luyện và đánh giá mô hình ngôn ngữ trên các bộ dữ liệu công khai, gồm nhật ký huấn luyện, nhiều checkpoint và cấu hình tiền huấn luyện. Chúng tôi cũng phát hành mã để chuyển đổi mô hình sang thư viện MLX nhằm suy luận và tinh chỉnh trên thiết bị Apple. Bản phát hành toàn diện này hướng đến việc trao quyền và củng cố cộng đồng nghiên cứu mở, mở đường cho các nỗ lực nghiên cứu mở trong tương lai. Mã nguồn cùng với trọng số mô hình đã tiền huấn luyện và công thức huấn luyện có tại \url{https://github.com/apple/corenet}. Ngoài ra, các mô hình có thể được tìm thấy trên HuggingFace tại: \url{https://huggingface.co/apple/OpenELM}.

The reproducibility and transparency of large language models are crucial for advancing open research, ensuring the trustworthiness of results, and enabling investigations into data and model biases, as well as potential risks. To this end, we release OpenELM, a state-of-the-art open language model. OpenELM uses a layer-wise scaling strategy to efficiently allocate parameters within each layer of the transformer model, leading to enhanced accuracy. For example, with a parameter budget of approximately one billion parameters, OpenELM exhibits a 2.36% improvement in accuracy compared to OLMo while requiring $2\times$ fewer pre-training tokens. Diverging from prior practices that only provide model weights and inference code, and pre-train on private datasets, our release includes the complete framework for training and evaluation of the language model on publicly available datasets, including training logs, multiple checkpoints, and pre-training configurations. We also release code to convert models to MLX library for inference and fine-tuning on Apple devices. This comprehensive release aims to empower and strengthen the open research community, paving the way for future open research endeavors. Our source code along with pre-trained model weights and training recipes is available at \url{https://github.com/apple/corenet}. Additionally, \model models can be found on HuggingFace at: \url{https://huggingface.co/apple/OpenELM}.

Liên kết bài báo

https://arxiv.org/abs/2404.14619

Đọc thêm

https://discuss.pytorch.kr/t/apple-270m-3b-openelm/4204

https://github.com/apple/corenet

https://huggingface.co/apple/OpenELM

https://x.com/rasbt/status/1783480053847736713


Snowflake Arctic

Giới thiệu bài báo

Đây là một LLM mã nguồn mở (giấy phép Apache 2.0) sử dụng kiến trúc transformer lai Dense-MoE độc đáo; được cho là đạt hiệu năng ngang Llama3 70B trên các thước đo doanh nghiệp như lập trình (HumanEval+ và MBPP+), SQL (Spider) và làm theo chỉ thị (IFEval); đồng thời tuyên bố chỉ dùng ngân sách tính toán thấp hơn 17 lần so với Llama3 70B; chi phí tính toán cho huấn luyện vào khoảng dưới 2 triệu USD (ít hơn 3K GPU-tuần).

An open-source LLM (Apache 2.0 license.) that uses a unique Dense-MoE Hybrid transformer architecture; performs on par with Llama3 70B in enterprise metrics like coding (HumanEval+ & MBPP+), SQL (Spider) and instruction following (IFEval); claims to use 17x less compute budget than Llama 3 70B; the training compute is roughly under $2 million (less than 3K GPU weeks).

Liên kết bài báo

https://snowflake.com/blog/…

Đọc thêm

https://discuss.pytorch.kr/t/…

https://x.com/omarsar0/status/1783176059694821632


Xây dựng LLM tận dụng tối đa ngữ cảnh / Make Your LLM Fully Utilize the Context

Giới thiệu bài báo

Bài báo trình bày một cách tiếp cận để vượt qua vấn đề lost-in-the-middle thường gặp ở LLM. Cách tiếp cận này áp dụng quy trình huấn luyện "giàu thông tin" một cách tường minh lên Mistral-7B để giúp LLM tận dụng đầy đủ ngữ cảnh. Mô hình này tận dụng bộ dữ liệu tổng hợp trong đó câu trả lời đòi hỏi 1) khả năng nhận biết thông tin chi tiết trên một đoạn ngắn (∼128 token) nằm trong ngữ cảnh dài tổng hợp (4K-32K token) và 2) việc tích hợp và suy luận thông tin từ hai hoặc nhiều đoạn ngắn. Mô hình kết quả, FILM-7B (Fill-in-the-Middle), cho thấy nó có thể truy xuất thông tin một cách ổn định từ các vị trí khác nhau trong cửa sổ ngữ cảnh 32K của mình.

Presents an approach to overcome the lost-in-the-middle challenge common in LLMs. It applies an explicit "information-intensive" training procedure on Mistral-7B to enable the LLM to fully utilize the context. It leverages a synthetic dataset where the answer requires fine-grained information awareness on a short segment (∼128 tokens) within a synthesized long context (4K−32K tokens), and 2) the integration and reasoning of information from two or more short segments. The resulting model, FILM-7B (Fill-in-the-Middle), shows that it can robustly retrieve information from different positions in its 32K context window.

Tóm tắt bài báo(Abstract)

Nhiều mô hình ngôn ngữ lớn (LLM) hiện đại có thể xử lý đầu vào dài, nhưng vẫn gặp khó khăn trong việc tận dụng đầy đủ thông tin trong ngữ cảnh dài, vấn đề này được biết đến với tên gọi “lost in the middle”. Chúng tôi giả thuyết rằng nguyên nhân là do sự giám sát tường minh trong quá trình huấn luyện ngữ cảnh dài còn chưa đủ, nên không nhấn mạnh được rằng mọi vị trí trong ngữ cảnh dài đều có thể chứa thông tin quan trọng. Dựa trên trực giác này, nghiên cứu đề xuất huấn luyện information-intensive (IN2), một giải pháp hoàn toàn dựa trên dữ liệu nhằm khắc phục vấn đề lost-in-the-middle. Cụ thể, huấn luyện IN2 tận dụng một bộ dữ liệu hỏi-đáp ngữ cảnh dài được tổng hợp, trong đó để tìm ra câu trả lời cần (1) nhận biết thông tin chi tiết ở các đoạn ngắn (~128 token) trong ngữ cảnh dài tổng hợp (4K-32K token) và (2) tích hợp và suy luận thông tin từ hai hoặc nhiều đoạn ngắn. Bằng cách áp dụng kiểu huấn luyện giàu thông tin này cho Mistral-7B, nhóm nghiên cứu giới thiệu FILM-7B (FILl-in-the-Middle). Để đánh giá kỹ lưỡng khả năng tận dụng ngữ cảnh dài của FILM-7B, họ thiết kế ba tác vụ probing bao quát nhiều kiểu ngữ cảnh khác nhau (tài liệu, mã nguồn, và ngữ cảnh dữ liệu có cấu trúc) cùng các mẫu truy xuất thông tin (truy xuất xuôi, ngược và hai chiều). Kết quả probing cho thấy FILM-7B có thể truy xuất ổn định thông tin từ nhiều vị trí khác nhau trong cửa sổ ngữ cảnh 32K. Ngoài các tác vụ probing này, FILM-7B còn cải thiện đáng kể hiệu năng trên các tác vụ ngữ cảnh dài trong thực tế (ví dụ: điểm F1 trên NarrativeQA từ 23.5->26.9), đồng thời duy trì hiệu năng tương đương trên các tác vụ ngữ cảnh ngắn (ví dụ: độ chính xác trên MMLU từ 59.3->59.2). Liên kết GitHub: https://github.com/microsoft/FILM.

While many contemporary large language models (LLMs) can process lengthy input, they still struggle to fully utilize information within the long context, known as the lost-in-the-middle challenge. We hypothesize that it stems from insufficient explicit supervision during the long-context training, which fails to emphasize that any position in a long context can hold crucial information. Based on this intuition, our study presents information-intensive (IN2) training, a purely data-driven solution to overcome lost-in-the-middle. Specifically, IN2 training leverages a synthesized long-context question-answer dataset, where the answer requires (1) fine-grained information awareness on a short segment (~128 tokens) within a synthesized long context (4K-32K tokens), and (2) the integration and reasoning of information from two or more short segments. Through applying this information-intensive training on Mistral-7B, we present FILM-7B (FILl-in-the-Middle). To thoroughly assess the ability of FILM-7B for utilizing long contexts, we design three probing tasks that encompass various context styles (document, code, and structured-data context) and information retrieval patterns (forward, backward, and bi-directional retrieval). The probing results demonstrate that FILM-7B can robustly retrieve information from different positions in its 32K context window. Beyond these probing tasks, FILM-7B significantly improves the performance on real-world long-context tasks (e.g., 23.5->26.9 F1 score on NarrativeQA), while maintaining a comparable performance on short-context tasks (e.g., 59.3->59.2 accuracy on MMLU). Github Link: https://github.com/microsoft/FILM.

Liên kết bài báo

https://arxiv.org/abs/2404.16811

Đọc thêm

https://github.com/microsoft/FILM

https://x.com/omarsar0/status/1783905514578980949


FineWeb

Giới thiệu bài báo

Một bộ dữ liệu web quy mô lớn chứa 15 nghìn tỷ token để huấn luyện mô hình ngôn ngữ; lọc và loại bỏ trùng lặp CommonCrawl từ năm 2013 đến 2024 với mục tiêu cải thiện chất lượng dữ liệu.

A large-scale web dataset containing 15 trillion tokens for training language models; filters and deduplicates CommonCrawl between 2013 and 2024 and the goal is to improve the quality of the data.

Liên kết bài báo

https://huggingface.co/datasets/HuggingFaceFW/fineweb

Đọc thêm

https://x.com/gui_penedo/status/1781953413938557276


Trình chỉnh sửa gen dựa trên AI / AI-powered Gene Editors

Giới thiệu bài báo

Một hệ thống AI được vận hành bởi LLM huấn luyện trên quy mô lớn về tính đa dạng sinh học, đạt được khả năng chỉnh sửa chính xác bộ gen người thông qua thiết kế trình chỉnh sửa gen có thể lập trình.

Achieves precision editing of the human genome with a programmable gene editor design with an AI system powered by an LLM trained on biological diversity at scale.

Liên kết bài báo

https://www.biorxiv.org/content/10.1101/2024.04.22.590591v1

Đọc thêm

https://x.com/thisismadani/status/1782510590839406904


AutoCrawler: tác tử web hiểu biết tiến triển để tạo web crawler / AutoCrawler: A Progressive Understanding Web Agent for Web Crawler Generation

Giới thiệu bài báo

Kết hợp LLM với crawler nhằm giúp crawler xử lý môi trường web đa dạng và luôn thay đổi hiệu quả hơn; tác tử web crawler tận dụng cấu trúc phân cấp của HTML để hiểu dần theo từng bước, sử dụng các thao tác top-down và step-back, đồng thời khai thác cấu trúc cây DOM để tạo ra crawler hoàn chỉnh và có thể thực thi.

Combines LLMs with crawlers with the goal of helping crawlers handle diverse and changing web environments more efficiently; the web crawler agent leverages the hierarchical structure of HTML for progressive understanding; employs top-down and step-back operations, and leverages the DOM tree structure, to generate a complete and executable crawler.

Tóm tắt bài báo (Abstract)

Tự động hóa web là một kỹ thuật quan trọng để thực hiện các tác vụ web phức tạp bằng cách tự động hóa các thao tác web phổ biến, nâng cao hiệu quả vận hành và giảm nhu cầu can thiệp thủ công. Các phương pháp truyền thống như wrapper có hạn chế về khả năng thích ứng và mở rộng khi gặp một trang web mới. Trong khi đó, các tác nhân sinh được hỗ trợ bởi mô hình ngôn ngữ lớn (LLM) lại cho thấy hiệu năng và khả năng tái sử dụng kém trong các kịch bản thế giới mở. Trong nghiên cứu này, chúng tôi giới thiệu bài toán tạo crawler cho các trang web thông tin theo chiều dọc và một mô hình kết hợp LLM với crawler, giúp crawler xử lý môi trường web đa dạng và thay đổi hiệu quả hơn. Chúng tôi đề xuất AutoCrawler, một framework hai giai đoạn tận dụng cấu trúc phân cấp của HTML để hiểu dần từng bước. Thông qua các thao tác từ trên xuống và lùi bước, AutoCrawler có thể học từ các hành động sai và liên tục tinh gọn HTML để tạo ra hành động tốt hơn. Chúng tôi đã thực hiện các thí nghiệm toàn diện với nhiều LLM và chứng minh hiệu quả của framework này. Tài nguyên của bài báo có tại \url{https://github.com/EZ-hwh/AutoCrawler}

Web automation is a significant technique that accomplishes complicated web tasks by automating common web actions, enhancing operational efficiency, and reducing the need for manual intervention. Traditional methods, such as wrappers, suffer from limited adaptability and scalability when faced with a new website. On the other hand, generative agents empowered by large language models (LLMs) exhibit poor performance and reusability in open-world scenarios. In this work, we introduce a crawler generation task for vertical information web pages and the paradigm of combining LLMs with crawlers, which helps crawlers handle diverse and changing web environments more efficiently. We propose AutoCrawler, a two-stage framework that leverages the hierarchical structure of HTML for progressive understanding. Through top-down and step-back operations, AutoCrawler can learn from erroneous actions and continuously prune HTML for better action generation. We conduct comprehensive experiments with multiple LLMs and demonstrate the effectiveness of our framework. Resources of this paper can be found at \url{https://github.com/EZ-hwh/AutoCrawler}

Liên kết bài báo

https://arxiv.org/abs/2404.12753

Đọc thêm

https://github.com/EZ-hwh/AutoCrawler

https://x.com/omarsar0/status/1782462314983071757


Graph Machine Learning trong kỷ nguyên mô hình ngôn ngữ lớn (LLM) / Graph Machine Learning in the Era of Large Language Models (LLMs)

Giới thiệu bài báo

Cung cấp cái nhìn tổng quan toàn diện về những tiến bộ mới nhất của Graph ML trong kỷ nguyên LLM; bao gồm các phát triển gần đây trong Graph ML, cách LLM có thể cải thiện đặc trưng đồ thị, và cách nó có thể giải quyết các vấn đề như OOD và tính không đồng nhất của đồ thị.

Provides a comprehensive overview of the latest advancements for Graph ML in the era of LLMs; covers the recent developments in Graph ML, how LLM can enhance graph features, and how it can address issues such as OOD and graph heterogeneity.

Tóm tắt bài báo (Abstract)

Đồ thị đóng vai trò quan trọng trong việc biểu diễn các mối quan hệ phức tạp ở nhiều lĩnh vực khác nhau như mạng xã hội, đồ thị tri thức và khám phá phân tử. Cùng với sự xuất hiện của học sâu, mạng nơ-ron đồ thị (GNN) đã nổi lên như một nền tảng cốt lõi của học máy trên đồ thị (Graph ML), hỗ trợ việc biểu diễn và xử lý các cấu trúc đồ thị. Gần đây, LLM đã cho thấy những năng lực chưa từng có trong các tác vụ ngôn ngữ và được ứng dụng rộng rãi trong nhiều lĩnh vực như thị giác máy tính và hệ thống gợi ý. Thành công nổi bật này cũng đã khơi dậy sự quan tâm đến việc áp dụng LLM vào lĩnh vực đồ thị. Ngày càng có nhiều nỗ lực được thực hiện để khám phá tiềm năng của LLM trong việc nâng cao khả năng khái quát hóa, khả năng chuyển giao và năng lực học ít mẫu của Graph ML. Trong khi đó, đồ thị, đặc biệt là đồ thị tri thức, rất giàu tri thức thực tế đáng tin cậy, có thể được tận dụng để cải thiện năng lực suy luận của LLM và giảm bớt các hạn chế như ảo giác hay thiếu khả năng giải thích. Xét đến tốc độ tiến triển nhanh chóng của hướng nghiên cứu này, cần có một bản tổng quan có hệ thống tóm lược những tiến bộ mới nhất của Graph ML trong kỷ nguyên LLM nhằm mang lại sự hiểu biết sâu sắc cho các nhà nghiên cứu và người làm thực tiễn. Vì vậy, trong khảo sát này, trước tiên chúng tôi điểm lại những tiến triển gần đây của Graph ML. Tiếp đó, chúng tôi xem xét cách LLM có thể được tận dụng để nâng cao chất lượng đặc trưng đồ thị, giảm sự phụ thuộc vào dữ liệu đã gán nhãn và giải quyết các thách thức như tính dị thể của đồ thị và khả năng khái quát hóa ngoài phân phối (OOD). Sau đó, chúng tôi đi sâu vào cách đồ thị có thể nâng cao LLM, nhấn mạnh khả năng của chúng trong việc cải thiện giai đoạn tiền huấn luyện và suy luận của LLM. Ngoài ra, chúng tôi cũng khảo sát nhiều ứng dụng khác nhau và thảo luận về các hướng đi tương lai tiềm năng trong lĩnh vực đầy hứa hẹn này.

Graphs play an important role in representing complex relationships in various domains like social networks, knowledge graphs, and molecular discovery. With the advent of deep learning, Graph Neural Networks (GNNs) have emerged as a cornerstone in Graph Machine Learning (Graph ML), facilitating the representation and processing of graph structures. Recently, LLMs have demonstrated unprecedented capabilities in language tasks and are widely adopted in a variety of applications such as computer vision and recommender systems. This remarkable success has also attracted interest in applying LLMs to the graph domain. Increasing efforts have been made to explore the potential of LLMs in advancing Graph ML's generalization, transferability, and few-shot learning ability. Meanwhile, graphs, especially knowledge graphs, are rich in reliable factual knowledge, which can be utilized to enhance the reasoning capabilities of LLMs and potentially alleviate their limitations such as hallucinations and the lack of explainability. Given the rapid progress of this research direction, a systematic review summarizing the latest advancements for Graph ML in the era of LLMs is necessary to provide an in-depth understanding to researchers and practitioners. Therefore, in this survey, we first review the recent developments in Graph ML. We then explore how LLMs can be utilized to enhance the quality of graph features, alleviate the reliance on labeled data, and address challenges such as graph heterogeneity and out-of-distribution (OOD) generalization. Afterward, we delve into how graphs can enhance LLMs, highlighting their abilities to enhance LLM pre-training and inference. Furthermore, we investigate various applications and discuss the potential future directions in this promising field.

Link bài báo

https://arxiv.org/abs/2404.14928

Đọc thêm

https://x.com/omarsar0/status/1783171591020392886


Khảo sát về sự tự tiến hóa của mô hình ngôn ngữ lớn / A Survey on Self-Evolution of Large Language Models

Giới thiệu bài báo

Cung cấp một bản khảo sát toàn diện về các phương pháp tiếp cận tự tiến hóa trong LLM.

Provides a comprehensive survey on self-evolution approaches in LLMs.

Tóm tắt bài báo (Abstract)

Mô hình ngôn ngữ lớn (LLM) đã đạt được nhiều tiến bộ đáng kể trong nhiều lĩnh vực và các ứng dụng tác tử thông minh. Tuy nhiên, các LLM hiện nay học từ sự giám sát của con người hoặc mô hình bên ngoài có chi phí cao và có thể chạm trần hiệu năng khi độ phức tạp và tính đa dạng của tác vụ tăng lên. Để giải quyết vấn đề này, các cách tiếp cận tự tiến hóa cho phép LLM tự chủ thu nhận, tinh chỉnh và học từ các trải nghiệm do chính mô hình tạo ra đang phát triển nhanh chóng. Mô hình huấn luyện mới này, lấy cảm hứng từ quá trình học tập qua trải nghiệm của con người, mang đến tiềm năng mở rộng LLM hướng tới siêu trí tuệ. Trong bài viết này, chúng tôi giới thiệu một khảo sát toàn diện về các cách tiếp cận tự tiến hóa trong LLM. Trước hết, chúng tôi đề xuất một khung khái niệm cho tự tiến hóa và phác thảo quá trình tiến hóa như các chu kỳ lặp gồm bốn giai đoạn: thu nhận trải nghiệm, tinh chỉnh trải nghiệm, cập nhật và đánh giá. Thứ hai, chúng tôi phân loại các mục tiêu tiến hóa của LLM và các tác tử dựa trên LLM; sau đó tóm tắt tài liệu và cung cấp phân loại cùng những insight cho từng mô-đun. Cuối cùng, chúng tôi chỉ ra chính xác các thách thức hiện có và đề xuất các hướng đi tương lai để cải thiện các khung tự tiến hóa, qua đó trang bị cho các nhà nghiên cứu những insight quan trọng nhằm đẩy nhanh quá trình phát triển các LLM tự tiến hóa.

Large language models (LLMs) have significantly advanced in various fields and intelligent agent applications. However, current LLMs that learn from human or external model supervision are costly and may face performance ceilings as task complexity and diversity increase. To address this issue, self-evolution approaches that enable LLM to autonomously acquire, refine, and learn from experiences generated by the model itself are rapidly growing. This new training paradigm inspired by the human experiential learning process offers the potential to scale LLMs towards superintelligence. In this work, we present a comprehensive survey of self-evolution approaches in LLMs. We first propose a conceptual framework for self-evolution and outline the evolving process as iterative cycles composed of four phases: experience acquisition, experience refinement, updating, and evaluation. Second, we categorize the evolution objectives of LLMs and LLM-based agents; then, we summarize the literature and provide taxonomy and insights for each module. Lastly, we pinpoint existing challenges and propose future directions to improve self-evolution frameworks, equipping researchers with critical insights to fast-track the development of self-evolving LLMs.

Link bài báo

https://arxiv.org/abs/2404.14387

Đọc thêm

https://x.com/omarsar0/status/1782777977526231440


NExT: Dạy mô hình ngôn ngữ lớn suy luận về việc thực thi mã / NExT: Teaching Large Language Models to Reason about Code Execution

Giới thiệu bài báo

Huấn luyện một LLM có khả năng kiểm tra dấu vết thực thi của chương trình và suy luận về hành vi thời gian chạy thông qua chuỗi suy nghĩ tổng hợp; cải thiện tỷ lệ sửa lỗi của mô hình PaLM 2 trên MBPP và Human lần lượt thêm 26.1% và 14.3%, đồng thời cho thấy mô hình cũng có thể khái quát hóa sang các kịch bản chưa biết.

Trains an LLM to have the ability to inspect the execution traced of programs and reason about run-time behavior via synthetic chain-of-thought rationales; improves the fix rate of a PaLM 2 model on MBPP and Human by 26.1% and 14.3%; the model also shows that it can generalize to unknown scenarios.

Tóm tắt bài báo (Abstract)

Một kỹ năng nền tảng của các nhà phát triển phần mềm là khả năng hiểu và suy luận về việc thực thi chương trình. Ví dụ, lập trình viên có thể mô phỏng việc thực thi mã trong đầu bằng ngôn ngữ tự nhiên để gỡ lỗi và sửa mã (còn gọi là rubber duck debugging). Tuy nhiên, các mô hình ngôn ngữ lớn (LLM) cho mã thường được huấn luyện trên dạng văn bản bề mặt của chương trình, vì vậy có thể thiếu hiểu biết ngữ nghĩa về cách chương trình thực thi trong thời gian chạy. Để giải quyết vấn đề này, chúng tôi đề xuất NExT, một phương pháp dạy LLM kiểm tra các dấu vết thực thi của chương trình (trạng thái biến của các dòng đã thực thi) và suy luận về hành vi thời gian chạy của chúng thông qua lập luận chuỗi suy nghĩ (CoT). Cụ thể, NExT sử dụng tự huấn luyện để khởi tạo một tập huấn luyện tổng hợp gồm các lập luận nhận biết thực thi dẫn tới lời giải đúng cho tác vụ (ví dụ: chương trình đã được sửa) mà không cần công việc gán nhãn thủ công tốn sức. Các thí nghiệm trên các tác vụ sửa chương trình dựa trên MBPP và HumanEval cho thấy NExT cải thiện tỷ lệ sửa lỗi của mô hình PaLM 2 thêm tuyệt đối 26.1% và 14.3% tương ứng, đồng thời cải thiện đáng kể chất lượng lập luận, được xác minh bằng các chỉ số tự động và người đánh giá. Mô hình của chúng tôi cũng có thể khái quát hóa sang các kịch bản không có dấu vết chương trình ở thời điểm kiểm thử.

A fundamental skill among human developers is the ability to understand and reason about program execution. As an example, a programmer can mentally simulate code execution in natural language to debug and repair code (aka. rubber duck debugging). However, large language models (LLMs) of code are typically trained on the surface textual form of programs, thus may lack a semantic understanding of how programs execute at run-time. To address this issue, we propose NExT, a method to teach LLMs to inspect the execution traces of programs (variable states of executed lines) and reason about their run-time behavior through chain-of-thought (CoT) rationales. Specifically, NExT uses self-training to bootstrap a synthetic training set of execution-aware rationales that lead to correct task solutions (e.g., fixed programs) without laborious manual annotation. Experiments on program repair tasks based on MBPP and HumanEval demonstrate that NExT improves the fix rate of a PaLM 2 model, by 26.1% and 14.3% absolute, respectively, with significantly improved rationale quality as verified by automated metrics and human raters. Our model can also generalize to scenarios where program traces are absent at test-time.

Link bài báo

https://arxiv.org/abs/2404.14662

Đọc thêm

https://x.com/AnsongNi/status/1783311827390070941


Bài gốc

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-b1c


Bài viết này được tổng hợp bằng mô hình GPT nên có thể có sai sót, vì vậy vui lòng tham khảo cả bài gốc ở bên dưới! Trong lúc đọc, nếu bạn phát hiện nội dung nào còn gượng hoặc chưa chính xác, mong bạn hãy cho biết qua phần bình luận.

⚠️Quảng cáo⚠️: Bạn thấy bài viết này do Cộng đồng người dùng PyTorch Hàn Quốc tổng hợp có hữu ích không? Nếu đăng ký làm thành viên, chúng tôi sẽ gửi các bài viết chính qua email cho bạn! (Mặc định là Weekly, nhưng cũng có thể đổi sang Daily.)

Chưa có bình luận nào.

Chưa có bình luận nào.