[2023/09/11 ~ 09/17] Các bài báo ML nổi bật trong tuần (Top ML Papers of the Week)
(discuss.pytorch.kr)Tổng quan
- Tôi đã thử dịch tự động các bài viết về các bài báo ML được DAIR.AI công bố hằng tuần.
- Các bài báo được chọn trong tuần này phần lớn tập trung vào chủ đề LLM (Large Language Model). Đặc biệt, điểm độc đáo là cách tiếp cận với LLM rất đa dạng. Những bài báo này phân tích LLM từ nhiều góc độ khác nhau, bao gồm phương pháp huấn luyện mô hình ngôn ngữ, tiềm năng phát triển của LLM dựa trên tác tử, sự tinh chỉnh và năng lực tự học của LLM, cùng một loạt nghiên cứu xoay quanh LLM.
- Xu hướng này cho thấy phương pháp huấn luyện mô hình ngôn ngữ đang được xem trọng trong lĩnh vực trí tuệ nhân tạo và máy học, và trong số đó LLM đang thu hút nhiều sự chú ý. Đồng thời, sự đa dạng trong cách tiếp cận LLM cũng gợi ý rằng công nghệ này có thể được ứng dụng rất rộng rãi và cho thấy tiềm năng của nó.
Chỉ cần sách giáo khoa II: báo cáo kỹ thuật PHI-1.5 / Textbooks Are All You Need II: phi-1.5 technical report
Giới thiệu bài báo
- Mô hình mới 1,3 tỷ tham số được huấn luyện trên 30 tỷ token; tập dữ liệu gồm dữ liệu tổng hợp ở mức "chất lượng sách giáo khoa"; phi-1.5 có thể cạnh tranh hoặc vượt qua các mô hình lớn hơn khác trong các tác vụ suy luận, cho thấy chất lượng dữ liệu đóng vai trò quan trọng hơn so với những gì trước đây người ta từng nghĩ. #llm #llm-alignment
A new 1.3 billion parameter model trained on 30 billion tokens; the dataset consists of "textbook-quality" synthetically generated data; phi-1.5 competes or outperforms other larger models on reasoning tasks suggesting that data quality plays a more important role than previously thought.
Tóm tắt bài báo
- Chúng tôi tiếp tục nghiên cứu về sức mạnh của các mô hình ngôn ngữ nhỏ dựa trên Transformer, được khởi đầu bởi $TinyStories$ — một mô hình 10 triệu tham số có thể tạo ra tiếng Anh mạch lạc — và công trình tiếp nối về $phi-1$, một mô hình 1,3 tỷ tham số có hiệu năng lập trình Python gần đạt trình độ hiện đại nhất. Công trình sau đó đã đề xuất sử dụng các mô hình ngôn ngữ lớn (LLM) hiện có để tạo ra dữ liệu ở mức 'chất lượng sách giáo khoa' như một cách cải thiện quá trình học so với dữ liệu web truyền thống. Lần này, chúng tôi đi theo cách tiếp cận 'Chỉ cần sách giáo khoa', tập trung vào suy luận thường thức trong ngôn ngữ tự nhiên, và tạo ra một mô hình mới có tên \textbf{phi-1.5} với 1,3 tỷ tham số, đạt hiệu năng trên các tác vụ ngôn ngữ tự nhiên tương đương các mô hình lớn hơn 5 lần, đồng thời vượt qua phần lớn các LLM không thuộc nhóm tiên phong ở các tác vụ suy luận phức tạp hơn như toán tiểu học và lập trình cơ bản. Nói chung, $phi-1.5$ thể hiện nhiều đặc tính của các LLM lớn hơn rất nhiều, cả mặt tốt — như khả năng "suy nghĩ từng bước" hoặc thực hiện một mức độ học trong ngữ cảnh còn sơ khai — lẫn mặt xấu, bao gồm hiện tượng ảo giác và khả năng tạo ra nội dung độc hại hoặc thiên lệch; tuy vậy, một tín hiệu đáng khích lệ là các khía cạnh này đang được cải thiện nhờ không sử dụng dữ liệu web. Chúng tôi mã nguồn mở $phi-1.5$ để thúc đẩy thêm nghiên cứu về những chủ đề cấp thiết này.
We continue the investigation into the power of smaller Transformer-based language models as initiated by \textbf{TinyStories} -- a 10 million parameter model that can produce coherent English -- and the follow-up work on \textbf{phi-1}, a 1.3 billion parameter model with Python coding performance close to the state-of-the-art. The latter work proposed to use existing Large Language Models (LLMs) to generate
textbook quality" data as a way to enhance the learning process compared to traditional web data. We follow theTextbooks Are All You Need" approach, focusing this time on common sense reasoning in natural language, and create a new 1.3 billion parameter model named \textbf{phi-1.5}, with performance on natural language tasks comparable to models 5x larger, and surpassing most non-frontier LLMs on more complex reasoning tasks such as grade-school mathematics and basic coding. More generally, \textbf{phi-1.5} exhibits many of the traits of much larger LLMs, both good -- such as the ability to ``think step by step" or perform some rudimentary in-context learning -- and bad, including hallucinations and the potential for toxic and biased generations -- encouragingly though, we are seeing improvement on that front thanks to the absence of web data. We open-source \textbf{phi-1.5} to promote further research on these urgent topics.
Liên kết bài báo
https://arxiv.org/abs/2309.05463
Đọc thêm
https://x.com/omarsar0/status/1701590130270601422
Sự trỗi dậy và tiềm năng của các tác tử dựa trên mô hình ngôn ngữ lớn: bài báo khảo sát / The Rise and Potential of Large Language Model Based Agents: A Survey
Giới thiệu bài báo
- Một cái nhìn tổng quan toàn diện về các tác tử dựa trên LLM; bao quát từ cách xây dựng các tác tử này đến cách khai thác chúng một cách hữu ích. #survey-paper
A comprehensive overview of llm based agents; covers from how to construct these agents to how to harness them for good.
Tóm tắt bài báo
- Nhân loại từ lâu đã theo đuổi trí tuệ nhân tạo (AI) ngang bằng hoặc vượt qua con người, và các tác tử AI được xem là phương tiện đầy hứa hẹn để đạt được mục tiêu này. Tác tử AI là các thực thể nhân tạo có khả năng cảm nhận môi trường, đưa ra quyết định và thực hiện hành động. Kể từ giữa thế kỷ 20, đã có rất nhiều nỗ lực nhằm phát triển các tác tử AI thông minh. Tuy nhiên, những nỗ lực này chủ yếu tập trung vào việc cải tiến thuật toán hoặc chiến lược huấn luyện để nâng cao các năng lực cụ thể hoặc hiệu suất trên những tác vụ nhất định. Trên thực tế, điều mà cộng đồng còn thiếu là một mô hình đủ tổng quát và đủ mạnh để đóng vai trò điểm khởi đầu cho việc thiết kế các tác tử AI có thể thích ứng với nhiều kịch bản đa dạng. Nhờ những năng lực đa dụng và ấn tượng mà chúng thể hiện, các mô hình ngôn ngữ lớn (LLM) được xem là những tia lửa tiềm năng của trí tuệ nhân tạo tổng quát (AGI), mang lại hy vọng cho việc xây dựng các tác tử AI tổng quát. Nhiều nỗ lực nghiên cứu đã tận dụng LLM làm nền tảng để xây dựng tác tử AI và đã đạt được những tiến triển đáng kể. Trước hết, bài viết lần theo khái niệm tác tử từ nguồn gốc triết học đến quá trình phát triển trong AI, đồng thời giải thích vì sao LLM phù hợp để làm nền tảng cho tác tử AI. Dựa trên đó, bài viết trình bày một khung khái niệm cho các tác tử dựa trên LLM, gồm ba thành phần chính là bộ não, tri giác và hành động; khung này có thể được điều chỉnh để phù hợp với nhiều ứng dụng khác nhau. Tiếp theo, bài viết khảo sát phạm vi ứng dụng rộng lớn của các tác tử dựa trên LLM ở ba khía cạnh: kịch bản tác tử đơn, kịch bản đa tác tử và hợp tác giữa con người với tác tử. Sau đó, bài viết đi sâu vào xã hội tác tử, xem xét hành vi và tính cách của các tác tử dựa trên LLM, các hiện tượng xã hội nảy sinh khi chúng hình thành xã hội, cũng như những góc nhìn mà chúng mang lại cho xã hội loài người. Cuối cùng, bài viết thảo luận về nhiều chủ đề trọng yếu và các vấn đề còn bỏ ngỏ trong lĩnh vực này.
For a long time, humanity has pursued artificial intelligence (AI) equivalent to or surpassing the human level, with AI agents considered a promising vehicle for this pursuit. AI agents are artificial entities that sense their environment, make decisions, and take actions. Many efforts have been made to develop intelligent AI agents since the mid-20th century. However, these efforts have mainly focused on advancement in algorithms or training strategies to enhance specific capabilities or performance on particular tasks. Actually, what the community lacks is a sufficiently general and powerful model to serve as a starting point for designing AI agents that can adapt to diverse scenarios. Due to the versatile and remarkable capabilities they demonstrate, large language models (LLMs) are regarded as potential sparks for Artificial General Intelligence (AGI), offering hope for building general AI agents. Many research efforts have leveraged LLMs as the foundation to build AI agents and have achieved significant progress. We start by tracing the concept of agents from its philosophical origins to its development in AI, and explain why LLMs are suitable foundations for AI agents. Building upon this, we present a conceptual framework for LLM-based agents, comprising three main components: brain, perception, and action, and the framework can be tailored to suit different applications. Subsequently, we explore the extensive applications of LLM-based agents in three aspects: single-agent scenarios, multi-agent scenarios, and human-agent cooperation. Following this, we delve into agent societies, exploring the behavior and personality of LLM-based agents, the social phenomena that emerge when they form societies, and the insights they offer for human society. Finally, we discuss a range of key topics and open problems within the field.
Liên kết bài báo
https://arxiv.org/abs/2309.07864
Đọc thêm
https://x.com/omarsar0/status/1702736490067890239
EvoDiff
Giới thiệu bài báo
- Kết hợp dữ liệu ở quy mô tiến hóa với mô hình diffusion để tạo protein có thể điều khiển trong không gian trình tự; phương pháp này có thể tạo ra những protein mà các mô hình dựa trên cấu trúc không thể tiếp cận. #diffusion
Combines evolutionary-scale data with diffusion models for controllable protein generation in sequence space; it can generate proteins inaccessible to structure-based models.
Liên kết bài báo
https://www.biorxiv.org/content/10.1101/2023.09.11.556673v1
Đọc thêm
https://x.com/KevinKaichuang/status/1701953715312136302
RAIN: Có thể tự căn chỉnh mô hình ngôn ngữ mà không cần fine-tuning / RAIN: Your Language Models Can Align Themselves without Finetuning
Giới thiệu bài báo
- Phát hiện rằng bằng cách tích hợp cơ chế tự đánh giá và tua lại, các LLM chưa được căn chỉnh có thể trực tiếp tạo ra các phản hồi phù hợp với sở thích của con người thông qua cơ chế tự tăng cường.
Discovers that by integrating self-evaluation and rewind mechanisms, unaligned llms can directly produce responses consistent with human preferences via self-boosting.
Tóm tắt bài báo
- Các mô hình ngôn ngữ lớn (LLM) thường cho thấy sự không nhất quán với sở thích của con người. Các nghiên cứu trước đây thu thập dữ liệu về sở thích của con người rồi căn chỉnh các mô hình đã tiền huấn luyện bằng học tăng cường hoặc instruction tuning, tức bước fine-tuning. Ngược lại, việc căn chỉnh các LLM bị đóng băng mà không cần bất kỳ dữ liệu bổ sung nào hấp dẫn hơn. Nghiên cứu này khám phá tiềm năng của thiết lập thứ hai. Nhóm tác giả phát hiện rằng bằng cách tích hợp cơ chế tự đánh giá và tua lại, các LLM chưa được căn chỉnh có thể trực tiếp tạo ra phản hồi phù hợp với sở thích của con người thông qua tự tăng cường. Unity giới thiệu một phương pháp suy luận mới, Rewindable Auto-regressive INference (RAIN), cho phép các LLM đã tiền huấn luyện tự đánh giá phần sinh của chính mình và sử dụng kết quả đánh giá để dẫn dắt việc tua lùi và sinh tiếp về phía trước nhằm bảo đảm an toàn AI. Đáng chú ý, RAIN hoạt động mà không cần thêm dữ liệu để căn chỉnh mô hình và không cần huấn luyện, tính gradient hay cập nhật tham số; trong giai đoạn tự đánh giá, mô hình được hướng dẫn về việc cần căn chỉnh theo sở thích nào của con người thông qua một prompt mẫu cố định, nhờ đó không cần sửa đổi prompt ban đầu. Kết quả thực nghiệm do GPT-4 và con người đánh giá chứng minh hiệu quả của RAIN. Trên bộ dữ liệu HH, RAIN cải thiện tỷ lệ vô hại của LLaMA 30B từ 82% lên 97% so với suy luận vanilla, trong khi vẫn duy trì tỷ lệ hữu ích. Trước cuộc tấn công đối kháng hàng đầu llm-attacks trên Vicuna 33B, RAIN thiết lập một đường cơ sở phòng thủ mới khi giảm tỷ lệ tấn công thành công từ 94% xuống 19%.
Large language models (LLMs) often demonstrate inconsistencies with human preferences. Previous research gathered human preference data and then aligned the pre-trained models using reinforcement learning or instruction tuning, the so-called finetuning step. In contrast, aligning frozen LLMs without any extra data is more appealing. This work explores the potential of the latter setting. We discover that by integrating self-evaluation and rewind mechanisms, unaligned LLMs can directly produce responses consistent with human preferences via self-boosting. We introduce a novel inference method, Rewindable Auto-regressive INference (RAIN), that allows pre-trained LLMs to evaluate their own generation and use the evaluation results to guide backward rewind and forward generation for AI safety. Notably, RAIN operates without the need of extra data for model alignment and abstains from any training, gradient computation, or parameter updates; during the self-evaluation phase, the model receives guidance on which human preference to align with through a fixed-template prompt, eliminating the need to modify the initial prompt. Experimental results evaluated by GPT-4 and humans demonstrate the effectiveness of RAIN: on the HH dataset, RAIN improves the harmlessness rate of LLaMA 30B over vanilla inference from 82% to 97%, while maintaining the helpfulness rate. Under the leading adversarial attack llm-attacks on Vicuna 33B, RAIN establishes a new defense baseline by reducing the attack success rate from 94% to 19%.
Liên kết bài báo
https://arxiv.org/abs/2309.07124
Đọc thêm
https://x.com/omarsar0/status/1702131444041011395
Học parkour cho robot / Robot Parkour Learning
Giới thiệu bài báo
- Trình bày một hệ thống học chính sách parkour dựa trên thị giác end-to-end, được chuyển sang robot bốn chân bằng camera độ sâu egocentric của nó; cho thấy các robot chi phí thấp có thể tự động lựa chọn và thực thi các kỹ năng parkour trong môi trường thực tế.
Presents a system for learning end-to-end vision-based parkour policy which is transferred to a quadrupedal robot using its ecocentric depth camera; shows that low-cost robots can automatically select and execute parkour skills in a real-world environment.
Tóm tắt bài báo
- Parkour là một thách thức lớn của chuyển động bằng chân, đòi hỏi robot phải nhanh chóng vượt qua nhiều loại chướng ngại vật trong các môi trường phức tạp. Các phương pháp hiện có либо tạo ra các kỹ năng di chuyển đa dạng nhưng không có thị giác, hoặc tạo ra các kỹ năng dựa trên thị giác nhưng mang tính chuyên biệt, bằng cách sử dụng dữ liệu tham chiếu từ động vật hoặc các phần thưởng phức tạp. Tuy nhiên, để hiện thực hóa parkour tự động, robot cần học được các kỹ năng có khả năng khái quát hóa, vừa dựa trên thị giác vừa đa dạng, để nhận biết và phản ứng với nhiều kịch bản khác nhau. Trong nghiên cứu này, chúng tôi đề xuất một hệ thống học một chính sách parkour dựa trên thị giác end-to-end duy nhất cho nhiều kỹ năng parkour khác nhau bằng phần thưởng đơn giản mà không cần bất kỳ dữ liệu chuyển động tham chiếu nào. Chúng tôi phát triển một phương pháp học tăng cường lấy cảm hứng từ direct collocation để tạo ra các kỹ năng parkour, bao gồm leo qua chướng ngại vật cao, nhảy qua khoảng trống lớn, bò dưới rào cản thấp, lách qua khe hẹp và chạy. Các kỹ năng này được chưng cất thành một chính sách parkour dựa trên thị giác duy nhất và chuyển sang robot bốn chân bằng camera độ sâu gắn theo góc nhìn thứ nhất của robot. Chúng tôi cho thấy hệ thống này có thể giúp hai robot chi phí thấp khác nhau tự động lựa chọn và thực thi các kỹ năng parkour phù hợp để vượt qua những môi trường thực tế đầy thách thức.
Parkour is a grand challenge for legged locomotion that requires robots to overcome various obstacles rapidly in complex environments. Existing methods can generate either diverse but blind locomotion skills or vision-based but specialized skills by using reference animal data or complex rewards. However, autonomous parkour requires robots to learn generalizable skills that are both vision-based and diverse to perceive and react to various scenarios. In this work, we propose a system for learning a single end-to-end vision-based parkour policy of diverse parkour skills using a simple reward without any reference motion data. We develop a reinforcement learning method inspired by direct collocation to generate parkour skills, including climbing over high obstacles, leaping over large gaps, crawling beneath low barriers, squeezing through thin slits, and running. We distill these skills into a single vision-based parkour policy and transfer it to a quadrupedal robot using its egocentric depth camera. We demonstrate that our system can empower two different low-cost robots to autonomously select and execute appropriate parkour skills to traverse challenging real-world environments.
Liên kết bài báo
https://arxiv.org/abs/2309.05665
Đọc thêm
https://x.com/zipengfu/status/1701316023612219445
Khảo sát về hiện tượng hallucination trong các mô hình foundation lớn / A Survey of Hallucination in Large Foundation Models
Giới thiệu bài báo
- Phân loại các loại hiện tượng hallucination khác nhau và đưa ra các tiêu chí đánh giá cùng các chiến lược giảm thiểu hallucination. #survey-paper #foundation-model
Classifies different types of hallucination phenomena and provides evaluation criteria for assessing hallucination along with mitigation strategies.
Tóm tắt bài báo
- Hallucination trong mô hình foundation (FM) là việc tạo ra nội dung lệch khỏi thực tế hoặc chứa thông tin bịa đặt. Bài khảo sát này cung cấp một cái nhìn tổng quan rộng về những nỗ lực gần đây nhằm xác định, làm rõ và giải quyết vấn đề hallucination, với trọng tâm đặc biệt là các mô hình foundation “lớn” (LFM). Bài báo phân loại nhiều loại hiện tượng hallucination khác nhau đặc thù của LFM và thiết lập các tiêu chí đánh giá để đo lường mức độ hallucination. Bài báo cũng xem xét các chiến lược hiện có nhằm giảm thiểu hallucination trong LFM và thảo luận về các hướng nghiên cứu tiềm năng trong tương lai của lĩnh vực này. Về cơ bản, bài báo đưa ra một cái nhìn toàn diện về các thách thức và giải pháp liên quan đến hallucination trong LFM.
Hallucination in a foundation model (FM) refers to the generation of content that strays from factual reality or includes fabricated information. This survey paper provides an extensive overview of recent efforts that aim to identify, elucidate, and tackle the problem of hallucination, with a particular focus on ``Large'' Foundation Models (LFMs). The paper classifies various types of hallucination phenomena that are specific to LFMs and establishes evaluation criteria for assessing the extent of hallucination. It also examines existing strategies for mitigating hallucination in LFMs and discusses potential directions for future research in this area. Essentially, the paper offers a comprehensive examination of the challenges and solutions related to hallucination in LFMs.
Liên kết bài báo
https://arxiv.org/abs/2309.05922
Đọc thêm
https://x.com/omarsar0/status/1701970034711539839
Agents: Framework mã nguồn mở cho các tác tử ngôn ngữ tự trị / Agents: An Open-source Framework for Autonomous Language Agents
Giới thiệu bài báo
- Đây là một thư viện mã nguồn mở để xây dựng các tác tử ngôn ngữ tự trị, hỗ trợ các tính năng như lập kế hoạch, bộ nhớ, sử dụng công cụ, giao tiếp đa tác tử và nhiều hơn nữa.
An open-source library for building autonomous language agents including support for features like planning, memory, tool usage, multi-agent communication, and more.
Tóm tắt bài báo
- Những tiến bộ gần đây của các mô hình ngôn ngữ lớn (LLM) cho phép các nhà nghiên cứu và nhà phát triển xây dựng các tác tử ngôn ngữ tự trị có thể tự động giải quyết nhiều tác vụ khác nhau và tương tác với môi trường, con người và các tác tử khác thông qua giao diện ngôn ngữ tự nhiên. Chúng tôi coi tác tử ngôn ngữ là một hướng đi đầy hứa hẹn hướng tới trí tuệ nhân tạo tổng quát, và đã phát hành Agents, một thư viện mã nguồn mở nhằm mở rộng khả năng tiếp cận những tiến bộ này tới nhiều đối tượng không chuyên hơn. Agents được thiết kế cẩn thận để hỗ trợ các tính năng quan trọng như lập kế hoạch, bộ nhớ, sử dụng công cụ, giao tiếp đa tác tử và điều khiển ký hiệu chi tiết. Agents thân thiện với người dùng vì cho phép cả người không chuyên xây dựng, tùy chỉnh, kiểm thử, tinh chỉnh và triển khai các tác tử ngôn ngữ tự trị tiên tiến mà không cần nhiều mã. Thư viện này cũng thân thiện với nghiên cứu nhờ thiết kế mô-đun giúp các nhà nghiên cứu dễ dàng mở rộng. Agents có tại https://github.com/aiwaves-cn/agents.
Recent advances on large language models (LLMs) enable researchers and developers to build autonomous language agents that can automatically solve various tasks and interact with environments, humans, and other agents using natural language interfaces. We consider language agents as a promising direction towards artificial general intelligence and release Agents, an open-source library with the goal of opening up these advances to a wider non-specialist audience. Agents is carefully engineered to support important features including planning, memory, tool usage, multi-agent communication, and fine-grained symbolic control. Agents is user-friendly as it enables non-specialists to build, customize, test, tune, and deploy state-of-the-art autonomous language agents without much coding. The library is also research-friendly as its modularized design makes it easily extensible for researchers. Agents is available at https://github.com/aiwaves-cn/agents.
Liên kết bài báo
https://arxiv.org/abs/2309.07870
Đọc thêm
https://x.com/arankomatsuzaki/status/1702497897395396960
Radiology-Llama2: mô hình ngôn ngữ lớn tốt nhất cùng hạng cho chẩn đoán hình ảnh / Radiology-Llama2: Best-in-Class Large Language Model for Radiology
Giới thiệu bài báo
- Cung cấp một LLM dựa trên Llama 2 được điều chỉnh cho lĩnh vực chẩn đoán hình ảnh; mô hình được tinh chỉnh trên một tập dữ liệu lớn các báo cáo chẩn đoán hình ảnh để tạo ra các phần kết luận nhất quán và hữu ích về mặt lâm sàng từ các phát hiện hình ảnh học.
Presents an llm based on llama 2 tailored for radiology; it's tuned on a large dataset of radiology reports to generate coherent and clinically useful impressions from radiology findings.
Tóm tắt bài báo
- Bài báo này giới thiệu Radiology-Llama2, một mô hình ngôn ngữ lớn chuyên biệt cho chẩn đoán hình ảnh thông qua quy trình gọi là instruction tuning. Radiology-Llama2 dựa trên kiến trúc Llama2 và được huấn luyện bổ sung trên một tập dữ liệu lớn các báo cáo chẩn đoán hình ảnh để tạo ra các phần kết luận nhất quán và hữu ích về mặt lâm sàng từ các phát hiện hình ảnh học. Các đánh giá định lượng bằng chỉ số ROUGE trên các bộ dữ liệu MIMIC-CXR và OpenI cho thấy Radiology-Llama2 đạt hiệu năng tiên tiến nhất so với các mô hình ngôn ngữ sinh khác, với điểm Rouge-1 là 0.4834 trên MIMIC-CXR và 0.4185 trên OpenI. Các đánh giá bổ sung từ chuyên gia chẩn đoán hình ảnh cũng nhấn mạnh thế mạnh của mô hình về khả năng dễ hiểu, tính nhất quán, mức độ liên quan, sự súc tích và giá trị lâm sàng. Công trình này cho thấy tiềm năng của các mô hình ngôn ngữ bản địa hóa được thiết kế và tinh chỉnh cho các lĩnh vực chuyên biệt như chẩn đoán hình ảnh. Khi được đánh giá và triển khai đúng cách, các mô hình như vậy có thể chuyển đổi những lĩnh vực như chẩn đoán hình ảnh bằng cách tự động hóa các tác vụ lặp lại và nâng cao chuyên môn của con người.
This paper introduces Radiology-Llama2, a large language model specialized for radiology through a process known as instruction tuning. Radiology-Llama2 is based on the Llama2 architecture and further trained on a large dataset of radiology reports to generate coherent and clinically useful impressions from radiological findings. Quantitative evaluations using ROUGE metrics on the MIMIC-CXR and OpenI datasets demonstrate that Radiology-Llama2 achieves state-of-the-art performance compared to other generative language models, with a Rouge-1 score of 0.4834 on MIMIC-CXR and 0.4185 on OpenI. Additional assessments by radiology experts highlight the model's strengths in understandability, coherence, relevance, conciseness, and clinical utility. The work illustrates the potential of localized language models designed and tuned for specialized domains like radiology. When properly evaluated and deployed, such models can transform fields like radiology by automating rote tasks and enhancing human expertise.
Liên kết bài báo
https://arxiv.org/abs/2309.06419
Đọc thêm
https://x.com/omarsar0/status/1701774444052557965
Tác tử giao tiếp cho phát triển phần mềm / Communicative Agents for Software Development
Giới thiệu bài báo
- Giới thiệu chatdev, một công ty phát triển phần mềm ảo vận hành bằng hội thoại mô phỏng mô hình thác nước; cho thấy hiệu quả của tác tử trong việc tạo phần mềm, thậm chí hoàn tất toàn bộ quy trình phát triển phần mềm trong chưa đầy bảy phút với chi phí dưới một đô la.
Presents chatdev, a virtual chat-powered software development company mirroring the waterfall model; shows the efficacy of the agent in software generation, even completing the entire software development process in less than seven minutes for less than one dollar.
Tóm tắt bài báo
- Kỹ nghệ phần mềm là một lĩnh vực đặc trưng bởi các quy trình ra quyết định phức tạp, thường dựa vào trực giác tinh tế và sự trao đổi, tham vấn. Những tiến bộ gần đây trong deep learning đã bắt đầu cách mạng hóa thực hành kỹ nghệ phần mềm thông qua các thiết kế tinh vi được triển khai ở nhiều giai đoạn khác nhau của phát triển phần mềm. Bài báo này giới thiệu một mô hình mới tận dụng mô hình ngôn ngữ lớn (LLM) xuyên suốt toàn bộ quy trình phát triển phần mềm, tinh gọn và hợp nhất các quy trình then chốt thông qua giao tiếp bằng ngôn ngữ tự nhiên, từ đó loại bỏ nhu cầu cần các mô hình chuyên biệt ở từng giai đoạn. Ở trung tâm của mô hình này là ChatDev, một công ty phát triển phần mềm ảo vận hành bằng chat, phản ánh mô hình thác nước truyền thống bằng cách chia tỉ mỉ quy trình phát triển thành bốn giai đoạn thời gian riêng biệt: thiết kế, lập trình, kiểm thử và viết tài liệu. Mỗi giai đoạn có sự tham gia của một nhóm tác nhân như lập trình viên, người rà soát mã và kỹ sư kiểm thử, thúc đẩy đối thoại cộng tác và tạo điều kiện cho quy trình làm việc liền mạch. Chuỗi chat đóng vai trò điều phối, chia nhỏ từng giai đoạn thành các tác vụ con ở mức nguyên tử. Điều này cho phép đảm nhiệm hai vai trò: đề xuất và xác thực giải pháp thông qua giao tiếp có nhận thức ngữ cảnh, từ đó giải quyết hiệu quả các tác vụ con cụ thể. Phân tích thực nghiệm của ChatDev cho thấy hiệu quả đáng chú ý trong việc tạo phần mềm, cho phép hoàn tất toàn bộ quy trình phát triển phần mềm trong chưa đến 7 phút với chi phí dưới 1 USD. Hệ thống không chỉ xác định và giảm thiểu các lỗ hổng tiềm ẩn mà còn sửa các lỗi ảo giác tiềm năng, đồng thời vẫn duy trì hiệu suất cao và hiệu quả chi phí ấn tượng. Tiềm năng của ChatDev mở ra những khả năng mới để tích hợp LLM vào lĩnh vực phát triển phần mềm.
Software engineering is a domain characterized by intricate decision-making processes, often relying on nuanced intuition and consultation. Recent advancements in deep learning have started to revolutionize software engineering practices through elaborate designs implemented at various stages of software development. In this paper, we present an innovative paradigm that leverages large language models (LLMs) throughout the entire software development process, streamlining and unifying key processes through natural language communication, thereby eliminating the need for specialized models at each phase. At the core of this paradigm lies ChatDev, a virtual chat-powered software development company that mirrors the established waterfall model, meticulously dividing the development process into four distinct chronological stages: designing, coding, testing, and documenting. Each stage engages a team of agents, such as programmers, code reviewers, and test engineers, fostering collaborative dialogue and facilitating a seamless workflow. The chat chain acts as a facilitator, breaking down each stage into atomic subtasks. This enables dual roles, allowing for proposing and validating solutions through context-aware communication, leading to efficient resolution of specific subtasks. The instrumental analysis of ChatDev highlights its remarkable efficacy in software generation, enabling the completion of the entire software development process in under seven minutes at a cost of less than one dollar. It not only identifies and alleviates potential vulnerabilities but also rectifies potential hallucinations while maintaining commendable efficiency and cost-effectiveness. The potential of ChatDev unveils fresh possibilities for integrating LLMs into the realm of software development.
Liên kết bài báo
https://arxiv.org/abs/2307.07924v3
Đọc thêm
https://x.com/KevinAFischer/status/1702355125418045860
MAmmoTH: Xây dựng mô hình tổng quát về toán học thông qua hybrid instruction tuning / MAmmoTH: Building Math Generalist Models through Hybrid Instruction Tuning
Giới thiệu bài báo
- Một loạt mô hình học máy mã nguồn mở được tùy chỉnh cho việc giải toán tổng quát, được huấn luyện trên bộ dữ liệu instruction tuning được tuyển chọn kỹ lưỡng và cho hiệu năng vượt trội so với các mô hình mã nguồn mở hiện có trên nhiều bộ dữ liệu suy luận toán học. #mathglm
A series of open-source llms tailored for general math problem-solving; the models are trained on a curated instruction tuning dataset and outperform existing open-source models on several mathematical reasoning datasets.
Tóm tắt bài báo
- Giới thiệu MAmmoTH, một dòng mô hình ngôn ngữ lớn (LLM) mã nguồn mở được tùy biến đặc biệt cho việc giải các bài toán tổng quát. Các mô hình MAmmoTH được huấn luyện trên MathInstruct, bộ dữ liệu tinh chỉnh theo chỉ dẫn được tuyển chọn kỹ lưỡng. MathInstruct được biên soạn từ 13 bộ dữ liệu toán học với các lập luận ở mức trung gian, trong đó 6 bộ có phần lập luận mới do nhóm tác giả tự tuyển chọn. Giải pháp này cung cấp một dạng lai độc đáo giữa chain-of-thought (CoT) và program-of-thought (PoT), đồng thời bao quát rộng nhiều lĩnh vực khác nhau trong toán học. Sự kết hợp giữa CoT và PoT không chỉ khai mở tiềm năng sử dụng công cụ mà còn cho phép các quá trình tư duy khác nhau cho các bài toán khác nhau. Kết quả là, dòng MAmmoTH vượt trội đáng kể so với các mô hình mã nguồn mở hiện có trên 9 bộ dữ liệu suy luận toán học ở mọi quy mô, với mức tăng độ chính xác trung bình từ 13% đến 29%. Đáng chú ý, mô hình MAmmoTH-7B đạt 35% trên MATH, một bộ dữ liệu cấp độ thi đấu, vượt mô hình 7B mã nguồn mở tốt nhất (WizardMath) tới 25%, và mô hình MAmmoTH-34B đạt độ chính xác 46% trên MATH, thậm chí vượt cả kết quả CoT của GPT-4. Nghiên cứu này nhấn mạnh tầm quan trọng của việc bao phủ đa dạng phạm vi bài toán và việc sử dụng các dạng lập luận lai trong phát triển các mô hình tổng quát toán học ưu việt.
We introduce MAmmoTH, a series of open-source large language models (LLMs) specifically tailored for general math problem-solving. The MAmmoTH models are trained on MathInstruct, our meticulously curated instruction tuning dataset. MathInstruct is compiled from 13 math datasets with intermediate rationales, six of which have rationales newly curated by us. It presents a unique hybrid of chain-of-thought (CoT) and program-of-thought (PoT) rationales, and also ensures extensive coverage of diverse fields in math. The hybrid of CoT and PoT not only unleashes the potential of tool use but also allows different thought processes for different math problems. As a result, the MAmmoTH series substantially outperform existing open-source models on nine mathematical reasoning datasets across all scales with an average accuracy gain between 13% and 29%. Remarkably, our MAmmoTH-7B model reaches 35% on MATH (a competition-level dataset), which exceeds the best open-source 7B model (WizardMath) by 25%, and the MAmmoTH-34B model achieves 46% accuracy on MATH, even surpassing GPT-4's CoT result. Our work underscores the importance of diverse problem coverage and the use of hybrid rationales in developing superior math generalist models.
Liên kết bài báo
https://arxiv.org/abs/2309.05653
Đọc thêm
https://x.com/xiangyue96/status/1701710215442309323
Bài gốc
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-461
Chưa có bình luận nào.