[2024/03/11 ~ 03/17] Các bài báo ML nổi bật tuần này (Top ML Papers of the Week)
(discuss.pytorch.kr)[2024/03/11 ~ 03/17] Các bài báo ML nổi bật tuần này (Top ML Papers of the Week)
-
Đây là bản dịch tự động các bài viết về các bài báo ML được DAIR.AI công bố hằng tuần.
-
Trong tuần này, các bài báo về mô hình ngôn ngữ lớn (Large Language Models, LLMs) nổi lên như một xu hướng chính. Có thể thấy xu hướng đó ở chỗ nhiều bài báo tập trung vào LLMs để giải quyết hoặc tìm cách hiểu nhiều vấn đề khác nhau. Ví dụ, các bài như "SIMA", "Retrieval Augmented Thoughts", "LMs Can Teach Themselves to Think Before Speaking", "Knowledge Conflicts for LLMs" và "LLMs Predict Neuroscience Results" đều sử dụng mô hình ngôn ngữ lớn hoặc xử lý các vấn đề liên quan đến hiệu năng của chúng. Ngoài ra, những bài như "Stealing Part of a Production Language Model" cũng cho thấy các mô hình ngôn ngữ đang được nghiên cứu từ góc độ bảo mật.
-
Xu hướng này dường như phản ánh những thay đổi mang tính đột phá mà mô hình ngôn ngữ lớn đã đem lại cho cộng đồng nghiên cứu AI trong vài năm gần đây, cũng như tầm ảnh hưởng của chúng. Các mô hình ngôn ngữ lớn đang khẳng định vị thế như những foundation model hiệu quả không chỉ trong xử lý ngôn ngữ tự nhiên (Natural Language Processing, NLP) mà còn ở nhiều lĩnh vực khác nhau. Theo đó, LLMs cho thấy hiệu năng cao trong nhiều tác vụ hiểu và sinh ngôn ngữ, đồng thời cũng đang được khám phá rộng rãi trong nghiên cứu ứng dụng. Thêm vào đó, các bài như "Multimodal LLM Pre-training" thể hiện xu hướng nghiên cứu mới nhất, nơi LLMs được kết hợp với các dạng dữ liệu khác như hình ảnh và âm thanh để tăng cường năng lực học đa phương thức.
-
Dựa trên phân tích này, có thể dự đoán rằng nghiên cứu về LLMs sẽ tiếp tục cải thiện khả năng hiểu ngôn ngữ, mở rộng sang nhiều lĩnh vực ứng dụng mới và đóng vai trò quan trọng trong sự phát triển của công nghệ AI. Không chỉ việc nâng cao hiệu năng của LLMs, mà cả các vấn đề rộng hơn bao gồm nghiên cứu ứng dụng, bảo mật và các vấn đề đạo đức cũng sẽ tiếp tục được khám phá.
SIMA / SIMA
Giới thiệu bài báo
- Một tác nhân AI tổng quát cho môi trường ảo 3D có thể làm theo chỉ dẫn ngôn ngữ tự nhiên trong phạm vi rộng các môi trường ảo 3D và trò chơi điện tử; SIMA được đánh giá trên 600 kỹ năng cơ bản, bao gồm điều hướng, tương tác với vật thể và sử dụng menu. Ngôn ngữ dường như là yếu tố có ảnh hưởng rất lớn đến hiệu năng.
A generalist ai agent for 3d virtual environments that follows natural-language instructions in a broad range of 3d virtual environments and video games; sima is evaluated across 600 basic skills, spanning navigation, object interaction, and menu use. language seems to be a huge factor in performance.
Tóm tắt bài báo (Abstract)
Việc xây dựng các hệ thống AI hiện thân có thể làm theo chỉ dẫn ngôn ngữ tùy ý trong mọi môi trường 3D là một thách thức cốt lõi để tạo ra AI tổng quát. Để đạt được mục tiêu này, cần học cách gắn ngôn ngữ với nhận thức và hành động hiện thân nhằm hoàn thành các tác vụ phức tạp. Dự án Scalable, Instructable, Multiworld Agent (SIMA) giải quyết vấn đề này bằng cách huấn luyện các tác nhân làm theo chỉ dẫn tự do trong nhiều môi trường 3D ảo đa dạng, bao gồm các môi trường nghiên cứu được tuyển chọn cũng như các trò chơi điện tử thương mại thế giới mở. Mục tiêu của họ là phát triển một tác nhân có thể nhận chỉ dẫn và thực hiện mọi việc mà con người có thể làm trong bất kỳ môi trường 3D mô phỏng nào. Cách tiếp cận của họ tập trung vào tính tổng quát được dẫn dắt bởi ngôn ngữ trong khi đặt ra ít giả định nhất có thể. Các tác nhân tương tác với môi trường theo thời gian thực bằng một giao diện tổng quát giống con người: đầu vào là quan sát hình ảnh và chỉ dẫn ngôn ngữ, còn đầu ra là các thao tác bàn phím và chuột. Cách tiếp cận tổng quát này đầy thách thức, nhưng cho phép các tác nhân gắn ngôn ngữ với nhiều môi trường có độ phức tạp thị giác cao và ngữ nghĩa phong phú, đồng thời cũng cho phép dễ dàng chạy tác nhân trong các môi trường mới. Bài báo này mô tả động cơ và mục tiêu của nhóm tác giả, những tiến triển ban đầu đã đạt được, cùng các kết quả sơ bộ đầy hứa hẹn trên một số môi trường nghiên cứu đa dạng và nhiều trò chơi điện tử thương mại khác nhau.
Building embodied AI systems that can follow arbitrary language instructions in any 3D environment is a key challenge for creating general AI. Accomplishing this goal requires learning to ground language in perception and embodied actions, in order to accomplish complex tasks. The Scalable, Instructable, Multiworld Agent (SIMA) project tackles this by training agents to follow free-form instructions across a diverse range of virtual 3D environments, including curated research environments as well as openended, commercial video games. Our goal is to develop an instructable agent that can accomplish anything a human can do in any simulated 3D environment. Our approach focuses on language-driven generality while imposing minimal assumptions. Our agents interact with environments in real-time using a generic, human-like interface: the inputs are image observations and language instructions and the outputs are keyboard-and-mouse actions. This general approach is challenging, but it allows agents to ground language across many visually complex and semantically rich environments while also allowing us to readily run agents in new environments. In this paper we describe our motivation and goal, the initial progress we have made, and promising preliminary results on several diverse research environments and a variety of commercial video games.
Liên kết bài báo
https://storage.googleapis.com/deepmind-media/DeepMind.com/…
Đọc thêm
https://discuss.pytorch.kr/t/gn-google-sima-3d-ai/3764
https://x.com/GoogleDeepMind/status/1767918515585994818
RAT: Suy nghĩ tăng cường truy xuất để khơi gợi lập luận nhận biết ngữ cảnh trong sinh chuỗi dài / RAT: Retrieval Augmented Thoughts Elicit Context-Aware Reasoning in Long-Horizon Generation
Giới thiệu bài báo
- Cho thấy rằng việc lặp đi lặp lại chỉnh sửa chuỗi suy nghĩ bằng truy xuất thông tin có thể cải thiện đáng kể khả năng suy luận và tạo sinh của LLM trong các tác vụ tạo sinh đường dài. Ý tưởng cốt lõi là mỗi bước suy nghĩ được chỉnh sửa bằng thông tin truy xuất có liên quan đến truy vấn tác vụ cũng như các bước suy nghĩ hiện tại và trước đó. Retrieval-augmented thoughts (RAT) có thể được áp dụng cho các mô hình khác nhau như GPT-4 và CodeLLaMA-7b để cải thiện các tác vụ tạo sinh đường dài (ví dụ: viết sáng tạo và lập kế hoạch tác vụ hiện thân); RAT là một phương pháp prompting zero-shot và cải thiện đáng kể so với các baseline gồm zero-shot CoT prompting, vanilla RAG và các baseline khác.
Shows that iteratively revising a chain of thoughts with information retrieval can significantly improve llm reasoning and generation in long-horizon generation tasks; the key idea is that each thought step is revised with relevant retrieved information to the task query, the current and past thought steps; retrieval augmented thoughts (rat) can be applied to different models like gpt-4 and codellama-7b to improve long-horizon generation tasks (e.g., creative writing and embodied task planning); rat is a zero-shot prompting approach and provides significant improvements to baselines that include zero-shot cot prompting, vanilla rag, and other baselines.
Tóm tắt bài báo (Abstract)
- Chúng tôi khám phá cách việc lặp lại chỉnh sửa chuỗi suy nghĩ với sự hỗ trợ của truy xuất thông tin có thể cải thiện đáng kể năng lực suy luận và tạo sinh của các mô hình ngôn ngữ lớn trong các tác vụ tạo sinh đường dài, đồng thời giảm mạnh hiện tượng ảo giác. Cụ thể, phương pháp được đề xuất -- retrieval-augmented thoughts (RAT) -- sẽ chỉnh sửa từng bước suy nghĩ một bằng thông tin truy xuất có liên quan đến truy vấn tác vụ, bước suy nghĩ hiện tại và các bước suy nghĩ trước đó, sau khi zero-shot CoT ban đầu được tạo ra. Khi áp dụng RAT cho GPT-3.5, GPT-4 và CodeLLaMA-7b, hiệu năng trên nhiều tác vụ tạo sinh dài hạn khác nhau được cải thiện đáng kể; trung bình điểm đánh giá tăng tương đối 13.63% trong sinh mã, 16.96% trong suy luận toán học, 19.2% trong viết sáng tạo và 42.78% trong lập kế hoạch tác vụ hiện thân. Trang demo có tại https://craftjarvis.github.io/RAT
We explore how iterative revising a chain of thoughts with the help of information retrieval significantly improves large language models' reasoning and generation ability in long-horizon generation tasks, while hugely mitigating hallucination. In particular, the proposed method -- retrieval-augmented thoughts (RAT) -- revises each thought step one by one with retrieved information relevant to the task query, the current and the past thought steps, after the initial zero-shot CoT is generated. Applying RAT to GPT-3.5, GPT-4, and CodeLLaMA-7b substantially improves their performances on various long-horizon generation tasks; on average of relatively increasing rating scores by 13.63% on code generation, 16.96% on mathematical reasoning, 19.2% on creative writing, and 42.78% on embodied task planning. The demo page can be found at https://craftjarvis.github.io/RAT
Liên kết bài báo
https://arxiv.org/abs/2403.05313
Đọc thêm
https://x.com/omarsar0/status/1767251740443746435
Quiet-STaR: Mô hình ngôn ngữ có thể tự học cách suy nghĩ trước khi nói / Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking
Giới thiệu bài báo
- Trình bày một sự khái quát hóa của STaR, gọi là Quiet-STaR, nhằm giúp các mô hình ngôn ngữ (LM) học suy luận theo cách tổng quát hơn và có khả năng mở rộng hơn. Quiet-STaR cho phép LM tạo ra các rationale ở mỗi token để giải thích văn bản trong tương lai; bài báo cũng đề xuất một thuật toán lấy mẫu song song theo từng token giúp cải thiện dự đoán của LM bằng cách tạo ra suy nghĩ nội bộ một cách hiệu quả; việc tạo rationale được cải thiện bằng REINFORCE.
Presents a generalization of star, called quiet-star, to enable language models (lms) to learn to reason in more general and scalable ways; quiet-star enables lms to generate rationales at each token to explain future text; it proposes a token-wise parallel sampling algorithm that helps improve lm predictions by efficiently generating internal thoughts; the rationale generation is improved using reinforce.
Tóm tắt bài báo (Abstract)
- Khi viết hoặc nói, con người đôi khi dừng lại để suy nghĩ. Dù các công trình tập trung vào suy luận thường mô tả suy luận như một cách để trả lời câu hỏi hoặc hoàn thành các tác vụ mang tính tác nhân, suy luận thực ra hiện diện ngầm trong gần như mọi văn bản. Ví dụ, điều này áp dụng cho những bước không được nêu rõ giữa các dòng của một chứng minh hoặc cho thuyết tâm trí làm nền tảng cho một cuộc hội thoại. Trong Self-Taught Reasoner (STaR, Zelikman và cộng sự, 2022), mô hình học được cách suy nghĩ hữu ích bằng cách suy ra các cơ sở lập luận từ một vài ví dụ trong bài toán hỏi đáp và học từ những ví dụ dẫn đến đáp án đúng. Đây là một bối cảnh rất hạn chế — lý tưởng nhất là mô hình ngôn ngữ có thể học cách suy ra các cơ sở lập luận không được nêu rõ trong văn bản bất kỳ. Chúng tôi giới thiệu Quiet-STaR, một phiên bản tổng quát hóa của STaR, trong đó các LM học cách tạo ra cơ sở lập luận tại mỗi token để giải thích văn bản tương lai, từ đó cải thiện dự đoán. Chúng tôi giải quyết các thách thức chính, gồm 1) chi phí tính toán khi tạo phần tiếp diễn, 2) việc LM ban đầu không biết cách tạo hoặc sử dụng các suy nghĩ nội tại, và 3) nhu cầu dự đoán vượt ra ngoài từng token kế tiếp riêng lẻ. Để giải quyết, chúng tôi đề xuất một thuật toán lấy mẫu song song theo từng token, sử dụng các token có thể học biểu thị điểm bắt đầu và kết thúc của một suy nghĩ, cùng với kỹ thuật teacher forcing mở rộng. Đáng khích lệ là các cơ sở lập luận được tạo ra đặc biệt hữu ích trong việc mô hình hóa những token khó dự đoán và cải thiện khả năng của LM trong việc trực tiếp trả lời các câu hỏi khó. Cụ thể, sau khi tiếp tục tiền huấn luyện một LM trên tập văn bản internet với Quiet-STaR, chúng tôi ghi nhận cải thiện zero-shot trên GSM8K (5.9% $\rightarrow$ 10.9%) và CommonsenseQA (36.3% $\rightarrow$ 47.2%), đồng thời quan sát thấy perplexity của các token khó trong văn bản tự nhiên được cải thiện. Quan trọng là những cải thiện này không cần fine-tuning trên các tác vụ đó. Quiet-STaR là một bước tiến hướng tới các LM có thể học cách suy luận theo cách tổng quát và có khả năng mở rộng hơn.
When writing and talking, people sometimes pause to think. Although reasoning-focused works have often framed reasoning as a method of answering questions or completing agentic tasks, reasoning is implicit in almost all written text. For example, this applies to the steps not stated between the lines of a proof or to the theory of mind underlying a conversation. In the Self-Taught Reasoner (STaR, Zelikman et al. 2022), useful thinking is learned by inferring rationales from few-shot examples in question-answering and learning from those that lead to a correct answer. This is a highly constrained setting -- ideally, a language model could instead learn to infer unstated rationales in arbitrary text. We present Quiet-STaR, a generalization of STaR in which LMs learn to generate rationales at each token to explain future text, improving their predictions. We address key challenges, including 1) the computational cost of generating continuations, 2) the fact that the LM does not initially know how to generate or use internal thoughts, and 3) the need to predict beyond individual next tokens. To resolve these, we propose a tokenwise parallel sampling algorithm, using learnable tokens indicating a thought's start and end, and an extended teacher-forcing technique. Encouragingly, generated rationales disproportionately help model difficult-to-predict tokens and improve the LM's ability to directly answer difficult questions. In particular, after continued pretraining of an LM on a corpus of internet text with Quiet-STaR, we find zero-shot improvements on GSM8K (5.9%$\rightarrow$10.9%) and CommonsenseQA (36.3%$\rightarrow$47.2%) and observe a perplexity improvement of difficult tokens in natural text. Crucially, these improvements require no fine-tuning on these tasks. Quiet-STaR marks a step towards LMs that can learn to reason in a more general and scalable way.
Liên kết bài báo
https://arxiv.org/abs/2403.09629
Đọc thêm
https://x.com/omarsar0/status/1768681638009975088
Xung đột tri thức cho LLM: Bài khảo sát / Knowledge Conflicts for LLMs: A Survey
Giới thiệu bài báo
- Bài báo khảo sát này phân loại vấn đề xung đột tri thức thường gặp khi làm việc với LLM thành xung đột ngữ cảnh-bộ nhớ, giữa các ngữ cảnh và trong nội bộ bộ nhớ, đồng thời cung cấp những góc nhìn về nguyên nhân và các phương pháp tiềm năng để giảm thiểu các vấn đề xung đột tri thức này.
An overview of the common issue of knowledge conflict when working with llms; the survey paper categorizes these conflicts into context-memory, inter-context, and intra-memory conflict; it also provides insights into causes and potential ways to mitigate these knowledge conflict issues.
Tóm tắt bài báo(Abstract)
- Bài khảo sát này cung cấp một phân tích chuyên sâu về xung đột tri thức trong các mô hình ngôn ngữ lớn (LLM), nhấn mạnh những thách thức phức tạp mà chúng gặp phải khi kết hợp tri thức theo ngữ cảnh và tri thức tham số. Trọng tâm ở đây là ba nhóm xung đột tri thức: xung đột ngữ cảnh-bộ nhớ, xung đột giữa các ngữ cảnh và xung đột nội bộ nhớ. Những xung đột này có thể ảnh hưởng đáng kể đến độ tin cậy và hiệu năng của LLM, đặc biệt trong các ứng dụng thực tế nơi nhiễu và thông tin sai lệch xuất hiện phổ biến. Bằng cách phân loại các xung đột này, khám phá nguyên nhân, xem xét hành vi của LLM khi gặp xung đột và rà soát các giải pháp hiện có, bài khảo sát này hướng tới việc làm sáng tỏ các chiến lược nhằm cải thiện độ vững của LLM, qua đó trở thành một nguồn tài liệu có giá trị để thúc đẩy nghiên cứu trong lĩnh vực đang phát triển này.
This survey provides an in-depth analysis of knowledge conflicts for large language models (LLMs), highlighting the complex challenges they encounter when blending contextual and parametric knowledge. Our focus is on three categories of knowledge conflicts: context-memory, inter-context, and intra-memory conflict. These conflicts can significantly impact the trustworthiness and performance of LLMs, especially in real-world applications where noise and misinformation are common. By categorizing these conflicts, exploring the causes, examining the behaviors of LLMs under such conflicts, and reviewing available solutions, this survey aims to shed light on strategies for improving the robustness of LLMs, thereby serving as a valuable resource for advancing research in this evolving area.
Liên kết bài báo
https://arxiv.org/abs/2403.08319
Đọc thêm
https://x.com/omarsar0/status/1768288774532858003
Đánh cắp một phần của mô hình ngôn ngữ production / Stealing Part of a Production Language Model
Giới thiệu bài báo
- Giới thiệu cuộc tấn công đánh cắp mô hình đầu tiên có khả năng trích xuất thông tin từ các mô hình ngôn ngữ production như ChatGPT hoặc PaLM-2, đồng thời cho thấy có thể khôi phục lớp chiếu embedding của mô hình dựa trên transformer thông qua quyền truy cập API thông thường; minh họa bằng ví dụ trích xuất toàn bộ ma trận chiếu từ các mô hình openai ada và babbage với chi phí dưới 20 USD.
Presents the first model-stealing attack that extracts information from production language models like chatgpt or palm-2; shows that it's possible to recover the embedding projection layer of a transformer-based model through typical api access; as an example, the entire projection matrix was extracted from the openai ada and babbage models for under $20.
Tóm tắt bài báo(Abstract)
- Giới thiệu cuộc tấn công đánh cắp mô hình đầu tiên có thể trích xuất thông tin chính xác và không hề tầm thường từ các mô hình ngôn ngữ production hộp đen như ChatGPT của OpenAI hay PaLM-2 của Google. Cụ thể, cuộc tấn công này khôi phục lớp chiếu embedding của mô hình transformer (tới các đối xứng), với điều kiện chỉ có quyền truy cập API thông thường. Với chi phí dưới 20 USD, cuộc tấn công có thể trích xuất toàn bộ ma trận chiếu của các mô hình ngôn ngữ Ada và Babbage của OpenAI. Qua đó, lần đầu tiên xác nhận rằng các mô hình hộp đen này có kích thước chiều ẩn lần lượt là 1024 và 2048. Nghiên cứu cũng khôi phục chính xác kích thước chiều ẩn của mô hình gpt-3.5-turbo, đồng thời ước tính rằng sẽ tốn dưới 2.000 USD chi phí truy vấn để khôi phục toàn bộ ma trận chiếu. Cuối cùng, bài báo trình bày các biện pháp phòng vệ và giảm thiểu tiềm năng, đồng thời thảo luận về hàm ý của các hướng nghiên cứu tương lai có thể mở rộng cuộc tấn công này.
We introduce the first model-stealing attack that extracts precise, nontrivial information from black-box production language models like OpenAI's ChatGPT or Google's PaLM-2. Specifically, our attack recovers the embedding projection layer (up to symmetries) of a transformer model, given typical API access. For under $20 USD, our attack extracts the entire projection matrix of OpenAI's Ada and Babbage language models. We thereby confirm, for the first time, that these black-box models have a hidden dimension of 1024 and 2048, respectively. We also recover the exact hidden dimension size of the gpt-3.5-turbo model, and estimate it would cost under $2,000 in queries to recover the entire projection matrix. We conclude with potential defenses and mitigations, and discuss the implications of possible future work that could extend our attack.
Liên kết bài báo
https://arxiv.org/abs/2403.06634
Đọc thêm
https://x.com/omarsar0/status/1767641831079067694
Branch-Train-MiX: Trộn các LLM chuyên gia thành một LLM mixture-of-experts / Branch-Train-MiX: Mixing Expert LLMs into a Mixture-of-Experts LLM
Giới thiệu bài báo
- Đề xuất việc trộn các LLM chuyên gia vào một quá trình huấn luyện mixture-of-experts như một cách tiếp cận hiệu quả hơn về mặt tính toán để huấn luyện LLM; cách tiếp cận này được cho là hiệu quả hơn so với huấn luyện một LLM tổng quát lớn hơn hoặc nhiều LLM chuyên biệt riêng lẻ; phương pháp này, BTX, trước tiên huấn luyện song song nhiều bản sao của một LLM hạt giống được chuyên biệt hóa cho các miền khác nhau (tức các LLM chuyên gia), rồi hợp nhất chúng thành một LLM duy nhất bằng các lớp feed-forward MoE, sau đó tinh chỉnh toàn bộ mô hình hợp nhất.
Proposes mixing expert llms into a mixture-of-experts llm as a more compute-efficient approach for training llms; it's shown to be more efficient than training a larger generalist llm or several separate specialized llms; the approach, btx, first trains (in parallel) multiple copies of a seed llm specialized in different domains (i.e., expert llms) and merges them into a single llm using moe feed-forward layers, followed by fine-tuning of the overall unified model.
Tóm tắt bài báo(Abstract)
- Chúng tôi nghiên cứu các phương pháp hiệu quả để huấn luyện mô hình ngôn ngữ lớn (LLM) có năng lực trong nhiều lĩnh vực chuyên biệt như lập trình, suy luận toán học và tri thức thế giới. Phương pháp này, có tên là BTX (Branch-Train-MiX), bắt đầu từ một mô hình hạt giống được phân nhánh để huấn luyện các chuyên gia với mức thông lượng cao và chi phí truyền thông giảm, theo cách song song hóa tối đa. Sau khi từng chuyên gia được huấn luyện bất đồng bộ, BTX tập hợp các tham số feedforward của chúng như các chuyên gia trong các tầng Mixture-of-Expert (MoE) và lấy trung bình các tham số còn lại, sau đó trải qua một giai đoạn tinh chỉnh MoE để học cơ chế định tuyến ở mức token. BTX khái quát hóa hai trường hợp đặc biệt: phương pháp Branch-Train-Merge, không có giai đoạn tinh chỉnh MoE để học định tuyến; và sparse upcycling, bỏ qua giai đoạn huấn luyện chuyên gia bất đồng bộ. So với các cách tiếp cận khác, BTX đạt được điểm cân bằng tốt nhất giữa độ chính xác và hiệu quả.
We investigate efficient methods for training Large Language Models (LLMs) to possess capabilities in multiple specialized domains, such as coding, math reasoning and world knowledge. Our method, named Branch-Train-MiX (BTX), starts from a seed model, which is branched to train experts in embarrassingly parallel fashion with high throughput and reduced communication cost. After individual experts are asynchronously trained, BTX brings together their feedforward parameters as experts in Mixture-of-Expert (MoE) layers and averages the remaining parameters, followed by an MoE-finetuning stage to learn token-level routing. BTX generalizes two special cases, the Branch-Train-Merge method, which does not have the MoE finetuning stage to learn routing, and sparse upcycling, which omits the stage of training experts asynchronously. Compared to alternative approaches, BTX achieves the best accuracy-efficiency tradeoff.
Liên kết bài báo
https://arxiv.org/abs/2403.07816
Đọc thêm
https://x.com/jaseweston/status/1767727740952682667
Mô hình ngôn ngữ lớn vượt qua chuyên gia con người trong việc dự đoán kết quả thần kinh học / Large language models surpass human experts in predicting neuroscience results
Giới thiệu bài báo
- Đề xuất BrainBench, một benchmark để đánh giá khả năng của machine learning trong việc dự đoán các kết quả thần kinh học; phát hiện rằng machine learning vượt qua chuyên gia trong việc dự đoán kết quả thực nghiệm; đồng thời cho thấy machine learning được tinh chỉnh theo tài liệu thần kinh học còn cho hiệu năng tốt hơn.
Proposes a benchmark, brainbench, for evaluating the ability of llms to predict neuroscience results; finds that llms surpass experts in predicting experimental outcomes; an llm tuned on neuroscience literature was shown to perform even better.
Tóm tắt bài báo (Abstract)
- Các khám phá khoa học thường phụ thuộc vào việc tổng hợp những nghiên cứu kéo dài hàng chục năm, một nhiệm vụ có thể vượt quá năng lực xử lý thông tin của con người. Mô hình ngôn ngữ lớn (LLM) mang lại một giải pháp. Các LLM được huấn luyện trên kho tài liệu khoa học khổng lồ có thể tích hợp những phát hiện nhiều nhiễu nhưng có liên hệ với nhau để dự báo các kết quả mới tốt hơn chuyên gia con người. Để đánh giá khả năng này, chúng tôi đã tạo ra BrainBench, một benchmark hướng tới tương lai cho việc dự đoán kết quả thần kinh học. Chúng tôi nhận thấy LLM vượt qua chuyên gia trong việc dự đoán kết quả thực nghiệm. BrainGPT, một LLM mà chúng tôi tinh chỉnh trên tài liệu thần kinh học, còn cho kết quả tốt hơn nữa. Giống như chuyên gia con người, khi LLM tự tin vào dự đoán của mình thì khả năng dự đoán đúng cũng cao hơn, báo hiệu một tương lai nơi con người và LLM cùng hợp tác để tạo ra khám phá. Cách tiếp cận này không chỉ dành riêng cho thần kinh học mà còn có thể chuyển giao sang các lĩnh vực đòi hỏi tri thức chuyên sâu khác.
Scientific discoveries often hinge on synthesizing decades of research, a task that potentially outstrips human information processing capacities. Large language models (LLMs) offer a solution. LLMs trained on the vast scientific literature could potentially integrate noisy yet interrelated findings to forecast novel results better than human experts. To evaluate this possibility, we created BrainBench, a forward-looking benchmark for predicting neuroscience results. We find that LLMs surpass experts in predicting experimental outcomes. BrainGPT, an LLM we tuned on the neuroscience literature, performed better yet. Like human experts, when LLMs were confident in their predictions, they were more likely to be correct, which presages a future where humans and LLMs team together to make discoveries. Our approach is not neuroscience-specific and is transferable to other knowledge-intensive endeavors.
Liên kết bài báo
https://arxiv.org/abs/2403.03230
Đọc thêm
https://x.com/ProfData/status/1765689739682754824
C4AI Command-R
Giới thiệu bài báo
command-rlà mô hình 35b tham số với độ dài ngữ cảnh 128k, được tối ưu cho các trường hợp sử dụng như suy luận, tóm tắt và hỏi đáp; có khả năng sinh đa ngôn ngữ được đánh giá trên 10 ngôn ngữ, cùng khả năng sử dụng công cụ và RAG hiệu năng cao; mô hình đã được phát hành cho mục đích nghiên cứu.A 35b parameter model, with a context length of 128k, optimized for use cases that include reasoning, summarization, and question answering; command-r has the capability for multilingual generation evaluated in 10 languages and performant tool use and rag capabilities; it has been released for research purposes.
Liên kết bài báo
https://huggingface.co/CohereForAI/c4ai-command-r-v01
Đọc thêm
https://x.com/CohereForAI/status/1767275927505977455
Độ tương đồng cosine của embedding có thực sự nói về sự tương đồng không? / Is Cosine-Similarity of Embeddings Really About Similarity?
Giới thiệu bài báo
- Nghiên cứu các embedding được suy ra từ các mô hình tuyến tính có chuẩn hóa và phân tích một cách giải tích cách độ tương đồng cosine có thể tạo ra những độ tương đồng tùy ý và vô nghĩa; đồng thời phát hiện rằng với một số mô hình tuyến tính, độ tương đồng thậm chí không là duy nhất và ở các mô hình khác thì bị chi phối bởi chuẩn hóa; các tác giả cảnh báo không nên sử dụng độ tương đồng cosine một cách mù quáng và đưa ra các điểm cần cân nhắc cùng các phương án thay thế.
Studies embeddings derived from regularized linear models and derive analytically how cosine-similarity can yield arbitrary and meaningless similarities; also finds that for some linear models, the similarities are not even unique and others are controlled by regularization; the authors caution against blindly using cosine similarity and presents considerations and alternatives.
Tóm tắt bài báo (Abstract)
- Độ tương đồng cosine là cosine của góc giữa hai vectơ, hay tương đương là tích vô hướng giữa các phiên bản đã được chuẩn hóa của chúng. Một ứng dụng phổ biến là định lượng độ tương đồng ngữ nghĩa giữa các đối tượng nhiều chiều bằng cách áp dụng độ tương đồng cosine lên một embedding đặc trưng chiều thấp đã được học. Trong thực tế, cách này có thể hoạt động tốt hơn nhưng đôi khi cũng tệ hơn so với tích vô hướng chưa chuẩn hóa giữa các vectơ embedding. Để hiểu rõ hơn quan sát thực nghiệm này, chúng tôi nghiên cứu các embedding được suy ra từ các mô hình tuyến tính có chuẩn hóa, nơi các nghiệm dạng đóng giúp tạo điều kiện cho phân tích giải tích. Chúng tôi chỉ ra bằng phân tích cách độ tương đồng cosine có thể tạo ra những “độ tương đồng” tùy ý và do đó vô nghĩa. Với một số mô hình tuyến tính, các độ tương đồng thậm chí không là duy nhất, trong khi với những mô hình khác, chúng bị chi phối một cách ngầm định bởi chuẩn hóa. Chúng tôi thảo luận các hàm ý vượt ra ngoài mô hình tuyến tính: khi huấn luyện các mô hình sâu, người ta sử dụng kết hợp nhiều dạng chuẩn hóa khác nhau; các yếu tố này gây ra những tác động ngầm định và không chủ ý khi lấy độ tương đồng cosine của các embedding thu được, khiến kết quả trở nên thiếu minh bạch và có thể mang tính tùy ý. Dựa trên các insight này, chúng tôi cảnh báo không nên sử dụng độ tương đồng cosine một cách mù quáng và phác thảo các phương án thay thế.
Cosine-similarity is the cosine of the angle between two vectors, or equivalently the dot product between their normalizations. A popular application is to quantify semantic similarity between high-dimensional objects by applying cosine-similarity to a learned low-dimensional feature embedding. This can work better but sometimes also worse than the unnormalized dot-product between embedded vectors in practice. To gain insight into this empirical observation, we study embeddings derived from regularized linear models, where closed-form solutions facilitate analytical insights. We derive analytically how cosine-similarity can yield arbitrary and therefore meaningless `similarities.' For some linear models the similarities are not even unique, while for others they are implicitly controlled by the regularization. We discuss implications beyond linear models: a combination of different regularizations are employed when learning deep models; these have implicit and unintended effects when taking cosine-similarities of the resulting embeddings, rendering results opaque and possibly arbitrary. Based on these insights, we caution against blindly using cosine-similarity and outline alternatives.
Liên kết bài báo
https://arxiv.org/abs/2403.05440
Đọc thêm
https://x.com/_reachsumit/status/1767045820384477575
MM1: Phương pháp, phân tích và insight từ tiền huấn luyện LLM đa phương thức / MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training
Giới thiệu bài báo
- Cung cấp cái nhìn toàn diện về các phương pháp, phân tích và insight trong tiền huấn luyện LLM đa phương thức; nghiên cứu các thành phần kiến trúc khác nhau và phát hiện rằng việc phối trộn cẩn thận dữ liệu image-caption, image-text xen kẽ và dữ liệu chỉ văn bản là chìa khóa để đạt hiệu năng tiên tiến nhất; đồng thời đề xuất một họ mô hình đa phương thức lên tới 30B tham số, đạt SOTA trên các chỉ số tiền huấn luyện và có các đặc tính như học trong ngữ cảnh được cải thiện, suy luận đa ảnh, cũng như cho phép few-shot chain-of-thought prompting.
Provides a comprehensive overview of methods, analysis, and insights into multimodal llm pre-training; studies different architecture components and finds that carefully mixing image-caption, interleaved image-text, and text-only data is key for state-of-the-art performance; it also proposes a family of multimodal models up to 30b parameters that achieve sota in pre-training metrics and include properties such as enhanced in-context learning, multi-image reasoning, enabling few-shot chain-of-thought prompting.
Tóm tắt bài báo (Abstract)
- Công trình này trình bày cách xây dựng các mô hình ngôn ngữ lớn đa phương thức (MLLM) có hiệu năng cao. Cụ thể, nghiên cứu xem xét tầm quan trọng của nhiều thành phần kiến trúc và lựa chọn dữ liệu khác nhau. Thông qua các thử nghiệm loại trừ cẩn thận và toàn diện đối với bộ mã hóa hình ảnh, bộ kết nối thị giác-ngôn ngữ và nhiều lựa chọn dữ liệu tiền huấn luyện, tác giả đã xác định được một số bài học thiết kế quan trọng. Ví dụ, nghiên cứu chứng minh rằng việc thực hiện tiền huấn luyện đa phương thức ở quy mô lớn bằng cách kết hợp cẩn thận dữ liệu ảnh-chú thích, ảnh-văn bản xen kẽ và dữ liệu chỉ có văn bản là yếu tố then chốt để đạt được kết quả few-shot tối tân (SOTA) trên nhiều benchmark, so với các kết quả tiền huấn luyện đã được công bố khác. Ngoài ra, nghiên cứu cho thấy bộ mã hóa hình ảnh, cùng với độ phân giải ảnh và số lượng token hình ảnh, có ảnh hưởng đáng kể, trong khi thiết kế bộ kết nối thị giác-ngôn ngữ lại tương đối ít quan trọng. Bằng cách mở rộng recipe được trình bày, tác giả xây dựng MM1, một họ mô hình đa phương thức lên tới 30B tham số, bao gồm cả mô hình dense và các biến thể mixture-of-experts (MoE), đạt SOTA về các chỉ số tiền huấn luyện và đạt hiệu năng cạnh tranh sau khi fine-tuning có giám sát trên nhiều benchmark đa phương thức đã được thiết lập. Nhờ tiền huấn luyện quy mô lớn, MM1 sở hữu những đặc tính hấp dẫn như khả năng học theo ngữ cảnh được cải thiện và suy luận trên nhiều hình ảnh, cho phép prompting chain-of-thought theo kiểu few-shot.
In this work, we discuss building performant Multimodal Large Language Models (MLLMs). In particular, we study the importance of various architecture components and data choices. Through careful and comprehensive ablations of the image encoder, the vision language connector, and various pre-training data choices, we identified several crucial design lessons. For example, we demonstrate that for large-scale multimodal pre-training using a careful mix of image-caption, interleaved image-text, and text-only data is crucial for achieving state-of-the-art (SOTA) few-shot results across multiple benchmarks, compared to other published pre-training results. Further, we show that the image encoder together with image resolution and the image token count has substantial impact, while the vision-language connector design is of comparatively negligible importance. By scaling up the presented recipe, we build MM1, a family of multimodal models up to 30B parameters, consisting of both dense models and mixture-of-experts (MoE) variants, that are SOTA in pre-training metrics and achieve competitive performance after supervised fine-tuning on a range of established multimodal benchmarks. Thanks to large-scale pre-training, MM1 enjoys appealing properties such as enhanced in-context learning, and multi-image reasoning, enabling few-shot chain-of-thought prompting.
Liên kết bài báo
https://arxiv.org/abs/2403.09611
Đọc thêm
https://discuss.pytorch.kr/t/apple-llm-mm1-x/3772
https://x.com/DrJimFan/status/1769053019939967080
Bản gốc
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-6a6
Bài viết này được tổng hợp bằng mô hình GPT, vì vậy có thể có một số điểm chưa chính xác; vui lòng tham khảo thêm bản gốc ở phía dưới bài viết! Nếu trong lúc đọc bạn phát hiện nội dung gượng gạo hoặc sai sót, mong bạn để lại bình luận để thông báo.
⚠️Quảng cáo⚠️: Bạn thấy bài viết này do Cộng đồng người dùng PyTorch Hàn Quốc tổng hợp có hữu ích không? Nếu đăng ký thành viên, bạn sẽ nhận được các bài viết nổi bật qua email! (Mặc định là Weekly nhưng cũng có thể đổi sang Daily.)
6 bình luận
Bạn đã dùng công cụ dịch tự động nào vậy?
Vâng, tôi đang dùng DeepL haha
Gần đây họ còn cho phép tạo bảng thuật ngữ dịch cho cả tiếng Hàn nên tôi đã thử dùng, nhưng có vấn đề orz...
Có vẻ như trong phần giới thiệu bài báo của RAT,
ratvàragđã bị dịch lần lượt thành chuột và giẻ lau. Có lẽ mô hình đã đọc nguyên các chữ thường đó.Tôi đã chỉnh sửa như sau. Cảm ơn! :D
Ồ đúng rồi nhỉ; tôi sẽ sửa lại bản gốc haha
Cảm ơn bạn!
Ôi, tiêu đề... vui lòng đổi thành 'Các bài báo ML nổi bật trong tuần' nhé;;