5 điểm bởi ninebow 2023-11-08 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Tổng quan

  • Đây là bản dịch tự động bài viết về các bài báo ML được DAIR.AI công bố hằng tuần.

  • Các bài báo được gửi trong tuần này tập trung vào mô hình ngôn ngữ lớn (Large Language Models, LLMs) và việc đánh giá hiệu năng của chúng. Đặc biệt, qua các bài như 'Evaluating LLMs', 'LLMs for Chip Design', 'Efficient Context Window Extension of LLMs', 'Enhancing LLMs by Emotion Stimuli', có thể thấy đang có nhiều thảo luận về các cách ứng dụng và tối ưu hóa khác nhau cho LLM.

  • Xu hướng này phản ánh việc tầm quan trọng của LLM trong lĩnh vực trí tuệ nhân tạo đã tăng mạnh trong những năm gần đây. Đặc biệt, khi các mô hình tiên phong như dòng GPT của OpenAI cho thấy kết quả ấn tượng trên nhiều tác vụ xử lý ngôn ngữ tự nhiên (NLP), các nhà nghiên cứu đang tập trung vào việc phát triển hơn nữa các mô hình này hoặc áp dụng chúng cho các bài toán mới. Cùng với đó, sự quan tâm đến các phương án nâng cao hiệu quả mô hình và làm phong phú hơn đầu vào/đầu ra của mô hình bằng cách tận dụng các yếu tố như cảm xúc hoặc ngữ cảnh tình huống cũng đang gia tăng.

  • Ngoài ra, các bài báo như 'Next Generation AlphaFold' cho thấy, trong những bối cảnh không phải LLM, các cách tiếp cận đổi mới cũng đang được tìm kiếm bằng cách áp dụng phương pháp học máy vào các lĩnh vực chuyên sâu như sinh học cấu trúc. Xu hướng nghiên cứu này cho thấy công nghệ học máy và học sâu không chỉ dừng ở tiến bộ lý thuyết mà còn đang phát triển thành các ứng dụng cụ thể trong nhiều lĩnh vực như công nghiệp, khoa học và y học.


Học sâu cho dự báo thời tiết hằng ngày từ các quan sát thưa thớt / Deep Learning for Day Forecasts from Sparse Observations

Giới thiệu bài báo

  • Một mô hình thời tiết thần kinh tiên tiến mở rộng cả phạm vi thời gian dự báo và các biến mà mô hình dựa trên quan sát có thể dự đoán tốt; học từ cả cảm biến dữ liệu dày đặc lẫn cảm biến dữ liệu thưa và đưa ra dự báo trước tới 24 giờ cho lượng mưa, gió, nhiệt độ và điểm sương.
    > A state-of-the-art neural weather model that extends both the lead time range and the variables that an observation-based model can predict well; learns from both dense and sparse data sensors and makes predictions up to 24 hours ahead for precipitation, wind, temperature, and dew point.

Tóm tắt bài báo

  • Mạng nơ-ron sâu mang đến một mô hình thay thế để mô phỏng điều kiện thời tiết. Khả năng của các mô hình thần kinh trong việc đưa ra dự báo trong chưa đến một giây ngay khi dữ liệu sẵn có, thực hiện điều đó với độ phân giải thời gian và không gian rất cao, cũng như khả năng học trực tiếp từ các quan sát khí quyển, chỉ là một vài trong số những ưu điểm độc đáo của các mô hình này. Cho đến nay, các mô hình thần kinh được huấn luyện bằng quan sát khí quyển — loại dữ liệu có độ trung thực cao nhất và độ trễ thấp nhất — mới chỉ đạt hiệu năng tốt với thời gian dự báo tối đa 12 giờ khi so sánh với các mô hình dự báo thời tiết số xác suất hiện đại, và chỉ đối với duy nhất biến lượng mưa. Trong bài báo này, chúng tôi giới thiệu MetNet-3, mô hình mở rộng đáng kể cả phạm vi thời gian dự báo lẫn các biến mà một mô hình thần kinh dựa trên quan sát có thể dự đoán tốt. MetNet-3 học từ cả cảm biến dữ liệu dày đặc và thưa, đồng thời đưa ra dự báo trước tới 24 giờ cho lượng mưa, gió, nhiệt độ và điểm sương. MetNet-3 giới thiệu một kỹ thuật làm dày dữ liệu then chốt, giúp ngầm nắm bắt quá trình đồng hóa dữ liệu và tạo ra các dự báo có mật độ không gian dày đặc mặc dù mạng được huấn luyện trên các mục tiêu cực kỳ thưa. MetNet-3 cung cấp độ phân giải thời gian và không gian cao, lần lượt lên tới 2 phút và 1 km, đồng thời có độ trễ vận hành thấp. Chúng tôi nhận thấy MetNet-3 có thể vượt qua các mô hình NWP đơn thành viên và đa thành viên tốt nhất như HRRR và ENS trên khu vực CONUS trong các thiết lập dự báo trước tới 24 giờ, thiết lập một cột mốc hiệu năng mới cho các mô hình thần kinh dựa trên quan sát. MetNet-3 hiện đã được đưa vào vận hành và các dự báo của nó đang được cung cấp trên Google Search cùng với các mô hình khác.
    > Deep neural networks offer an alternative paradigm for modeling weather conditions. The ability of neural models to make a prediction in less than a second once the data is available and to do so with very high temporal and spatial resolution, and the ability to learn directly from atmospheric observations, are just some of these models' unique advantages. Neural models trained using atmospheric observations, the highest fidelity and lowest latency data, have to date achieved good performance only up to twelve hours of lead time when compared with state-of-the-art probabilistic Numerical Weather Prediction models and only for the sole variable of precipitation. In this paper, we present MetNet-3 that extends significantly both the lead time range and the variables that an observation based neural model can predict well. MetNet-3 learns from both dense and sparse data sensors and makes predictions up to 24 hours ahead for precipitation, wind, temperature and dew point. MetNet-3 introduces a key densification technique that implicitly captures data assimilation and produces spatially dense forecasts in spite of the network training on extremely sparse targets. MetNet-3 has a high temporal and spatial resolution of, respectively, up to 2 minutes and 1 km as well as a low operational latency. We find that MetNet-3 is able to outperform the best single- and multi-member NWPs such as HRRR and ENS over the CONUS region for up to 24 hours ahead setting a new performance milestone for observation based neural models. MetNet-3 is operational and its forecasts are served in Google Search in conjunction with other models.

Liên kết bài báo

https://arxiv.org/abs/2306.06079

Đọc thêm

https://x.com/GoogleAI/status/1719774923294687636


Đánh giá mô hình ngôn ngữ lớn: một khảo sát toàn diện / Evaluating Large Language Models: A Comprehensive Survey

Giới thiệu bài báo

  • Cung cấp một khảo sát toàn diện (hơn 100 trang) về việc đánh giá LLM, bao gồm thảo luận về các loại đánh giá, bộ dữ liệu, kỹ thuật và nhiều nội dung khác. #llm-survey #llm-evaluation
    > A comprehensive survey (100+ pages) on evaluating llms, including discussions about the different types of evaluations, datasets, techniques, and more.

Tóm tắt bài báo

  • Các mô hình ngôn ngữ lớn (LLM) đã chứng minh những năng lực đáng kinh ngạc trên một phổ tác vụ rộng lớn. Chúng đã thu hút sự chú ý đáng kể và được triển khai trong rất nhiều ứng dụng hạ nguồn. Tuy nhiên, giống như một con dao hai lưỡi, LLM cũng tiềm ẩn những rủi ro. Chúng có thể làm rò rỉ dữ liệu cá nhân hoặc tạo ra nội dung không phù hợp, có hại hoặc gây hiểu lầm. Ngoài ra, sự phát triển nhanh chóng của LLM cũng làm dấy lên lo ngại về khả năng xuất hiện các hệ thống siêu trí tuệ không có đủ biện pháp bảo vệ. Để tận dụng hiệu quả năng lực của LLM đồng thời bảo đảm sự phát triển an toàn và có ích của chúng, việc tiến hành đánh giá LLM một cách nghiêm ngặt và toàn diện là vô cùng quan trọng. Khảo sát này nỗ lực cung cấp một góc nhìn toàn cảnh về đánh giá LLM. Chúng tôi phân loại việc đánh giá LLM thành ba nhóm chính: đánh giá kiến thức và năng lực, đánh giá căn chỉnh và đánh giá an toàn. Cùng với phần tổng quan toàn diện về các phương pháp luận đánh giá và benchmark cho ba khía cạnh này, bài viết còn tổng hợp một tuyển tập các đánh giá liên quan đến hiệu năng của LLM trong các lĩnh vực chuyên biệt, đồng thời thảo luận về việc xây dựng các nền tảng đánh giá toàn diện bao phủ việc đánh giá LLM về năng lực, căn chỉnh, an toàn và khả năng ứng dụng. Chúng tôi hy vọng tổng quan toàn diện này sẽ thúc đẩy thêm nhiều mối quan tâm nghiên cứu về đánh giá LLM, với mục tiêu cuối cùng là đưa hoạt động đánh giá trở thành nền tảng cốt lõi để định hướng sự phát triển có trách nhiệm của LLM. Chúng tôi kỳ vọng điều này sẽ dẫn dắt quá trình tiến hóa của chúng theo hướng tối đa hóa lợi ích xã hội đồng thời giảm thiểu rủi ro tiềm ẩn. Danh sách các bài báo liên quan được tuyển chọn có tại https://github.com/tjunlp-lab/Awesome-LLMs-Evaluation-Papers.
    > Large language models (LLMs) have demonstrated remarkable capabilities across a broad spectrum of tasks. They have attracted significant attention and been deployed in numerous downstream applications. Nevertheless, akin to a double-edged sword, LLMs also present potential risks. They could suffer from private data leaks or yield inappropriate, harmful, or misleading content. Additionally, the rapid progress of LLMs raises concerns about the potential emergence of superintelligent systems without adequate safeguards. To effectively capitalize on LLM capacities as well as ensure their safe and beneficial development, it is critical to conduct a rigorous and comprehensive evaluation of LLMs. This survey endeavors to offer a panoramic perspective on the evaluation of LLMs. We categorize the evaluation of LLMs into three major groups: knowledge and capability evaluation, alignment evaluation and safety evaluation. In addition to the comprehensive review on the evaluation methodologies and benchmarks on these three aspects, we collate a compendium of evaluations pertaining to LLMs' performance in specialized domains, and discuss the construction of comprehensive evaluation platforms that cover LLM evaluations on capabilities, alignment, safety, and applicability. We hope that this comprehensive overview will stimulate further research interests in the evaluation of LLMs, with the ultimate goal of making evaluation serve as a cornerstone in guiding the responsible development of LLMs. We envision that this will channel their evolution into a direction that maximizes societal benefit while minimizing potential risks. A curated list of related papers has been publicly available at https://github.com/tjunlp-lab/Awesome-LLMs-Evaluation-Papers.

Liên kết bài báo

https://arxiv.org/abs/2310.19736

Đọc thêm

https://x.com/omarsar0/status/1719351676828602502


Cuộc chiến của các backbone: So sánh quy mô lớn các mô hình tiền huấn luyện trên nhiều tác vụ thị giác máy tính / Battle of the Backbones: A Large-Scale Comparison of Pretrained Models across Computer Vision Tasks

Giới thiệu bài báo

  • Khung benchmark quy mô lớn cho nhiều tác vụ thị giác máy tính đa dạng; xác nhận rằng dù vision transformer (ViT) và self-supervised learning (SSL) ngày càng phổ biến, các mạng nơ-ron tích chập được tiền huấn luyện theo cách có giám sát trên các tập huấn luyện lớn vẫn cho hiệu năng tốt nhất ở phần lớn tác vụ. #self-supervised #vision-transformer
    > A large benchmarking framework for a diverse suite of computer vision tasks; find that while vision transformers (vits) and self-supervised learning (ssl) are increasingly popular, convolutional neural networks pretrained in a supervised fashion on large training sets perform best on most tasks.

Tóm tắt bài báo

  • Các hệ thống thị giác máy tính dựa trên mạng nơ-ron thường được xây dựng trên một backbone, tức bộ trích xuất đặc trưng đã được huấn luyện trước hoặc khởi tạo ngẫu nhiên. Chỉ vài năm trước, lựa chọn mặc định là mạng nơ-ron tích chập được huấn luyện trên ImageNet. Tuy nhiên, thời gian gần đây đã chứng kiến sự xuất hiện của vô số backbone được tiền huấn luyện bằng nhiều thuật toán và bộ dữ liệu khác nhau. Dù sự phong phú về lựa chọn này đã giúp cải thiện hiệu năng của nhiều hệ thống, nhưng cũng khiến người làm thực tế khó đưa ra quyết định có cơ sở về việc nên chọn backbone nào. Battle of the Backbones (BoB) giúp việc lựa chọn này trở nên dễ dàng hơn bằng cách benchmark một tập hợp đa dạng các mô hình tiền huấn luyện, bao gồm mô hình thị giác-ngôn ngữ, các mô hình được huấn luyện bằng tự giám sát, và backbone của Stable Diffusion, trên nhiều tác vụ thị giác máy tính khác nhau, từ phân loại, phát hiện đối tượng cho tới tổng quát hóa OOD và hơn thế nữa. Ngoài ra, BoB còn chỉ ra các hướng đi đầy hứa hẹn để cộng đồng nghiên cứu thúc đẩy thị giác máy tính, bằng cách làm rõ điểm mạnh và điểm yếu của các phương pháp hiện có thông qua một phân tích toàn diện dựa trên hơn 1.500 lần chạy huấn luyện. Mặc dù vision transformer (ViT) và self-supervised learning (SSL) ngày càng phổ biến, nhóm tác giả nhận thấy rằng các mạng nơ-ron tích chập được tiền huấn luyện theo cách có giám sát trên các tập huấn luyện lớn vẫn cho hiệu năng tốt nhất ở phần lớn tác vụ trong số các mô hình được xem xét. Hơn nữa, trong các phép so sánh công bằng trên cùng kiến trúc và các bộ dữ liệu tiền huấn luyện có kích thước tương đương, nhóm tác giả nhận thấy backbone SSL có tính cạnh tranh rất cao, cho thấy các công trình tương lai nên thực hiện tiền huấn luyện SSL với những kiến trúc tiên tiến hơn và các bộ dữ liệu tiền huấn luyện lớn hơn. Nhóm tác giả công bố kết quả thô của các thí nghiệm cùng với mã nguồn cho phép các nhà nghiên cứu tự kiểm thử backbone của mình tại đây(https://github.com/hsouri/Battle-of-the-Backbones)
    > Neural network based computer vision systems are typically built on a backbone, a pretrained or randomly initialized feature extractor. Several years ago, the default option was an ImageNet-trained convolutional neural network. However, the recent past has seen the emergence of countless backbones pretrained using various algorithms and datasets. While this abundance of choice has led to performance increases for a range of systems, it is difficult for practitioners to make informed decisions about which backbone to choose. Battle of the Backbones (BoB) makes this choice easier by benchmarking a diverse suite of pretrained models, including vision-language models, those trained via self-supervised learning, and the Stable Diffusion backbone, across a diverse set of computer vision tasks ranging from classification to object detection to OOD generalization and more. Furthermore, BoB sheds light on promising directions for the research community to advance computer vision by illuminating strengths and weakness of existing approaches through a comprehensive analysis conducted on more than 1500 training runs. While vision transformers (ViTs) and self-supervised learning (SSL) are increasingly popular, we find that convolutional neural networks pretrained in a supervised fashion on large training sets still perform best on most tasks among the models we consider. Moreover, in apples-to-apples comparisons on the same architectures and similarly sized pretraining datasets, we find that SSL backbones are highly competitive, indicating that future works should perform SSL pretraining with advanced architectures and larger pretraining datasets. We release the raw results of our experiments along with code that allows researchers to put their own backbones through the gauntlet here: https://github.com/hsouri/Battle-of-the-Backbones

Liên kết bài báo

https://arxiv.org/abs/2310.19909

Đọc thêm

https://x.com/micahgoldblum/status/1719719308882801045


ChipNeMo: LLM thích ứng miền cho thiết kế chip / ChipNeMo: Domain-Adapted LLMs for Chip Design

Giới thiệu bài báo

  • Đề xuất sử dụng LLM cho thiết kế chip công nghiệp bằng cách tận dụng các kỹ thuật thích ứng miền; đánh giá nhiều ứng dụng khác nhau cho thiết kế chip như chatbot trợ lý, tự động hóa thiết kế điện tử và tóm tắt lỗi; thích ứng miền cải thiện đáng kể hiệu năng so với các mô hình đa dụng trên nhiều tác vụ thiết kế; sử dụng llm thích ứng miền cho RAG còn tiếp tục nâng cao chất lượng câu trả lời.
    > Proposes using llms for industrial chip design by leveraging domain adaptation techniques; evaluates different applications for chip design such as assistant chatbot, electronic design automation, and bug summarization; domain adaptation significantly improves performance over general-purpose models on a variety of design tasks; using a domain-adapted llm for rag further improves answer quality.

Tóm tắt bài báo

  • ChipNeMo nhằm khám phá các ứng dụng của mô hình ngôn ngữ lớn (LLM) cho thiết kế chip công nghiệp. Thay vì triển khai trực tiếp các LLM thương mại hoặc mã nguồn mở có sẵn, nghiên cứu áp dụng các kỹ thuật thích nghi theo miền như bộ tách từ tùy chỉnh, tiền huấn luyện tiếp tục thích nghi theo miền, tinh chỉnh có giám sát (SFT) với chỉ dẫn đặc thù theo miền, và các mô hình truy hồi đã được thích nghi theo miền. Các phương pháp này được đánh giá trên ba ứng dụng LLM được chọn cho thiết kế chip: chatbot trợ lý kỹ thuật, tạo script EDA, và tóm tắt cũng như phân tích lỗi. Kết quả cho thấy các kỹ thuật thích nghi theo miền này giúp cải thiện đáng kể hiệu năng LLM so với các mô hình nền đa dụng trên cả ba ứng dụng được đánh giá, cho phép giảm kích thước mô hình tới 5 lần mà vẫn đạt hiệu năng tương đương hoặc tốt hơn trên nhiều tác vụ thiết kế. Kết quả nghiên cứu cũng cho thấy vẫn còn dư địa để cải thiện giữa kết quả hiện tại và kết quả lý tưởng. Unity kỳ vọng rằng các nghiên cứu tiếp theo về cách tiếp cận LLM phù hợp theo miền sẽ giúp thu hẹp khoảng cách này trong tương lai.

    ChipNeMo aims to explore the applications of large language models (LLMs) for industrial chip design. Instead of directly deploying off-the-shelf commercial or open-source LLMs, we instead adopt the following domain adaptation techniques: custom tokenizers, domain-adaptive continued pretraining, supervised fine-tuning (SFT) with domain-specific instructions, and domain-adapted retrieval models. We evaluate these methods on three selected LLM applications for chip design: an engineering assistant chatbot, EDA script generation, and bug summarization and analysis. Our results show that these domain adaptation techniques enable significant LLM performance improvements over general-purpose base models across the three evaluated applications, enabling up to 5x model size reduction with similar or better performance on a range of design tasks. Our findings also indicate that there's still room for improvement between our current results and ideal outcomes. We believe that further investigation of domain-adapted LLM approaches will help close this gap in the future.

Liên kết bài báo

https://arxiv.org/abs/2311.00176

Đọc thêm

https://x.com/omarsar0/status/1720066328961159387


YaRN: Mở rộng cửa sổ ngữ cảnh hiệu quả cho mô hình ngôn ngữ lớn / YaRN: Efficient Context Window Extension of Large Language Models

Giới thiệu bài báo

  • Đề xuất một phương pháp hiệu quả về mặt tính toán để mở rộng cửa sổ ngữ cảnh của llms vượt ra ngoài phạm vi đã được tiền huấn luyện, đồng thời ngoại suy vượt qua ngữ cảnh giới hạn của bộ dữ liệu tinh chỉnh, và các mô hình đã được tái tạo với độ dài ngữ cảnh lên tới 128k. #yarn

    Proposes a compute-efficient method for efficiently extending the context window of llms beyond what it was pretrained on; extrapolates beyond the limited context of a fine-tuning dataset and models have been reproduced up to 128k context length.

Tóm tắt bài báo

  • Rotary Position Embeddings (RoPE) đã được chứng minh là mã hóa thông tin vị trí hiệu quả trong các mô hình ngôn ngữ dựa trên transformer. Tuy nhiên, các mô hình này không thể tổng quát hóa vượt quá độ dài chuỗi mà chúng được huấn luyện. Chúng tôi giới thiệu YaRN (Yet another RoPE extensioN method), một phương pháp hiệu quả về mặt tính toán để mở rộng cửa sổ ngữ cảnh của các mô hình như vậy, chỉ cần ít hơn 10 lần số token và ít hơn 2,5 lần số bước huấn luyện so với các phương pháp trước đó. Với YaRN, chúng tôi cho thấy các mô hình LLaMA có thể tận dụng hiệu quả và ngoại suy tới độ dài ngữ cảnh dài hơn nhiều so với mức mà tiền huấn luyện ban đầu cho phép, đồng thời vượt qua cả mức tiên tiến nhất trước đây trong việc mở rộng cửa sổ ngữ cảnh. Ngoài ra, YaRN cũng được chứng minh có khả năng ngoại suy vượt ra ngoài ngữ cảnh giới hạn của bộ dữ liệu tinh chỉnh. Các mô hình được tinh chỉnh bằng YaRN đã được cung cấp trực tuyến và tái tạo tới độ dài ngữ cảnh 128k tại https://github.com/jquesnelle/yarn

    Rotary Position Embeddings (RoPE) have been shown to effectively encode positional information in transformer-based language models. However, these models fail to generalize past the sequence length they were trained on. We present YaRN (Yet another RoPE extensioN method), a compute-efficient method to extend the context window of such models, requiring 10x less tokens and 2.5x less training steps than previous methods. Using YaRN, we show that LLaMA models can effectively utilize and extrapolate to context lengths much longer than their original pre-training would allow, while also surpassing previous the state-of-the-art at context window extension. In addition, we demonstrate that YaRN exhibits the capability to extrapolate beyond the limited context of a fine-tuning dataset. The models fine-tuned using YaRN has been made available and reproduced online up to 128k context length at https://github.com/jquesnelle/yarn

Liên kết bài báo

https://arxiv.org/abs/2309.00071

Đọc thêm

https://x.com/theemozilla/status/1720107186850877662

https://discuss.pytorch.kr/t/yarn-rope-llm-10-2-5-context-window-128k/…


Bộ dữ liệu và các thách thức Open DAC 2023 cho việc khám phá chất hấp phụ trong thu giữ không khí trực tiếp / The Open DAC 2023 Dataset and Challenges for Sorbent Discovery in Direct Air Capture

Giới thiệu bài báo

  • Giới thiệu một bộ dữ liệu gồm hơn 38 triệu phép tính lý thuyết phiếm hàm mật độ (DFT) trên hơn 8.800 vật liệu MOF chứa CO2 và/hoặc H2O đã hấp phụ. Bộ dữ liệu này trực tiếp xác định các đặc tính cho DAC, đồng thời dùng bộ dữ liệu để huấn luyện các mô hình ML tiên tiến nhằm xấp xỉ các phép tính ở mức DFT, và có thể trở thành một đường cơ sở quan trọng cho các nỗ lực trong tương lai nhằm xác định MOF cho nhiều ứng dụng rộng hơn, bao gồm cả DAC.
    > Introduces a dataset consisting of more than 38m density functional theory (dft) calculations on more than 8,800 mof materials containing adsorbed co2 and/or h2o; properties for dac are identified directly in the dataset; also trains state-of-the-art ml models with the dataset to approximate calculations at the dft level; can lead to important baseline for future efforts to identify mofs for a wide range of applications, including dac.

Tóm tắt bài báo

  • Để ứng phó với biến đổi khí hậu toàn cầu, cần khẩn cấp các phương pháp mới để loại bỏ carbon dioxide. Thu giữ trực tiếp từ không khí (DAC) là một công nghệ mới nổi nhằm thu giữ carbon dioxide trực tiếp từ không khí xung quanh. Khung kim loại-hữu cơ (MOF) đã được nghiên cứu rộng rãi như các chất hấp phụ có khả năng tùy biến cho DAC. Tuy nhiên, việc khám phá các chất hấp phụ MOF đầy hứa hẹn cho DAC là một thách thức do không gian hóa học cần khảo sát quá rộng lớn và vì cần hiểu đặc tính vật liệu như một hàm của độ ẩm và nhiệt độ. Pure Storage khám phá một cách tiếp cận tính toán tận dụng những đổi mới gần đây trong machine learning (ML) và giới thiệu một bộ dữ liệu mang tên Open DAC 2023 (ODAC23), gồm hơn 38 triệu phép tính lý thuyết phiếm hàm mật độ (DFT) trên hơn 8.800 vật liệu MOF chứa CO2 và/hoặc H2O đã hấp phụ. ODAC23 hiện là bộ dữ liệu lớn nhất về các phép tính hấp phụ MOF với độ chính xác ở mức DFT đang có sẵn. Bên cạnh việc khảo sát các đặc tính của các phân tử đã hấp phụ, bộ dữ liệu này còn là một nguồn thông tin phong phú về sự thư giãn cấu trúc của MOF, điều có thể hữu ích trong nhiều bối cảnh ngoài ứng dụng cụ thể cho DAC. Một số lượng lớn MOF có các đặc tính đầy hứa hẹn cho DAC đã được xác định trực tiếp trong ODAC23. Ngoài ra, nhóm nghiên cứu cũng đã huấn luyện các mô hình machine learning tiên tiến trên bộ dữ liệu này để thực hiện các phép tính xấp xỉ ở mức DFT. Bộ dữ liệu mã nguồn mở này cùng các mô hình ML ban đầu sẽ cung cấp một đường cơ sở quan trọng cho những nỗ lực trong tương lai nhằm xác định MOF cho nhiều ứng dụng khác nhau, bao gồm cả DAC.
    > New methods for carbon dioxide removal are urgently needed to combat global climate change. Direct air capture (DAC) is an emerging technology to capture carbon dioxide directly from ambient air. Metal-organic frameworks (MOFs) have been widely studied as potentially customizable adsorbents for DAC. However, discovering promising MOF sorbents for DAC is challenging because of the vast chemical space to explore and the need to understand materials as functions of humidity and temperature. We explore a computational approach benefiting from recent innovations in machine learning (ML) and present a dataset named Open DAC 2023 (ODAC23) consisting of more than 38M density functional theory (DFT) calculations on more than 8,800 MOF materials containing adsorbed CO2 and/or H2O. ODAC23 is by far the largest dataset of MOF adsorption calculations at the DFT level of accuracy currently available. In addition to probing properties of adsorbed molecules, the dataset is a rich source of information on structural relaxation of MOFs, which will be useful in many contexts beyond specific applications for DAC. A large number of MOFs with promising properties for DAC are identified directly in ODAC23. We also trained state-of-the-art ML models on this dataset to approximate calculations at the DFT level. This open-source dataset and our initial ML models will provide an important baseline for future efforts to identify MOFs for a wide range of applications, including DAC.

Liên kết bài báo

https://arxiv.org/abs/2311.00341

Đọc thêm

https://x.com/AIatMeta/status/1720143486505341128


Một khung thống nhất để áp dụng, khám phá và thúc đẩy tính đối xứng trong machine learning / A Unified Framework to Enforce, Discover, and Promote Symmetry in Machine Learning

Giới thiệu bài báo

  • Trình bày một khung phương pháp luận thống nhất để áp dụng, khám phá và thúc đẩy tính đối xứng trong machine learning, đồng thời thảo luận cách áp dụng các ý tưởng này vào các mô hình ML như perceptron đa lớp và hồi quy hàm cơ sở.
    > Presents a unified and methodological framework to enforce, discover, and promote symmetry in machine learning; also discusses how these ideas can be applied to ml models such as multilayer perceptions and basis function regression.

Tóm tắt bài báo

  • Tính đối xứng hiện diện khắp tự nhiên và ngày càng đóng vai trò trung tâm trong vật lý cũng như machine learning. Các đối xứng cơ bản như bất biến Poincaré cho phép ngoại suy các định luật vật lý được phát hiện trong phòng thí nghiệm trên Trái Đất đến những vùng xa nhất của vũ trụ. Để đạt được năng lực ngoại suy này trong các ứng dụng machine learning, tính đối xứng là yếu tố thiết yếu. Ví dụ, bất biến tịnh tiến trong phân loại ảnh cho phép các mô hình có ít tham số hơn, như mạng nơ-ron tích chập, được huấn luyện trên các tập dữ liệu nhỏ hơn mà vẫn đạt hiệu năng hàng đầu. Trong bài báo này, tác giả đưa ra một khung lý thuyết và phương pháp luận thống nhất để tích hợp tính đối xứng vào các mô hình machine learning theo ba cách: 1. áp đặt đối xứng đã biết khi huấn luyện mô hình; 2. khám phá các đối xứng chưa biết của một mô hình hoặc tập dữ liệu cho trước; và 3. thúc đẩy tính đối xứng trong quá trình huấn luyện bằng cách học một mô hình phá vỡ đối xứng trong một nhóm ứng viên do người dùng chỉ định khi có đủ bằng chứng trong dữ liệu. Ba cách tiếp cận này cho phép tăng cường tính đối xứng khi huấn luyện các mô hình machine learning. Tác giả cho thấy các nhiệm vụ này có thể được biểu diễn trong một khung toán học chung mà đối tượng trung tâm là đạo hàm Lie gắn với các tác động nhóm Lie tuyến tính theo thớ trên các bó vectơ. Bài báo mở rộng và thống nhất một số kết quả hiện có bằng cách chỉ ra rằng việc áp đặt và khám phá đối xứng là các tác vụ đại số tuyến tính mang tính đối ngẫu xét theo cấu trúc song tuyến của đạo hàm Lie. Ngoài ra, tác giả đề xuất một cách mới để thúc đẩy tính đối xứng bằng cách đưa ra một lớp hàm chuẩn hóa lồi dựa trên đạo hàm Lie và phép thư giãn chuẩn hạt nhân nhằm phạt việc phá vỡ đối xứng trong quá trình huấn luyện các mô hình machine learning. Bài báo cũng giải thích cách áp dụng các ý tưởng này cho nhiều loại mô hình machine learning khác nhau, bao gồm hồi quy hàm cơ sở, khám phá hệ động lực, multilayer perceptron và các mạng nơ-ron tác động lên các trường không gian như hình ảnh.
    > Symmetry is present throughout nature and continues to play an increasingly central role in physics and machine learning. Fundamental symmetries, such as Poincar'{e} invariance, allow physical laws discovered in laboratories on Earth to be extrapolated to the farthest reaches of the universe. Symmetry is essential to achieving this extrapolatory power in machine learning applications. For example, translation invariance in image classification allows models with fewer parameters, such as convolutional neural networks, to be trained on smaller data sets and achieve state-of-the-art performance. In this paper, we provide a unifying theoretical and methodological framework for incorporating symmetry into machine learning models in three ways: 1. enforcing known symmetry when training a model; 2. discovering unknown symmetries of a given model or data set; and 3. promoting symmetry during training by learning a model that breaks symmetries within a user-specified group of candidates when there is sufficient evidence in the data. We show that these tasks can be cast within a common mathematical framework whose central object is the Lie derivative associated with fiber-linear Lie group actions on vector bundles. We extend and unify several existing results by showing that enforcing and discovering symmetry are linear-algebraic tasks that are dual with respect to the bilinear structure of the Lie derivative. We also propose a novel way to promote symmetry by introducing a class of convex regularization functions based on the Lie derivative and nuclear norm relaxation to penalize symmetry breaking during training of machine learning models. We explain how these ideas can be applied to a wide range of machine learning models including basis function regression, dynamical systems discovery, multilayer perceptrons, and neural networks acting on spatial fields such as images.

Link bài báo

https://arxiv.org/abs/2311.00212

Đọc thêm

https://x.com/eigensteve/status/1720115655050227911


AlphaFold thế hệ tiếp theo / Next Generation AlphaFold

Giới thiệu bài báo

  • Báo cáo tiến triển về một phiên bản AlphaFold mới mở rộng đáng kể phạm vi ứng dụng của hệ thống, cho thấy khả năng dự đoán cấu trúc kết hợp của các phức hợp gồm protein, axit nucleic, phân tử nhỏ, ion và các gốc dư đã biến đổi, đồng thời thể hiện độ chính xác cao hơn các bộ dự đoán chuyên biệt trong các tương tác protein-axit nucleic.
    > Reports progress on a new iteration of alphafold that greatly expands its range of applicability; shows capabilities of joint structure prediction of complexes including proteins, nucleic acids, small molecules, ions, and modified residue; demonstrates greater accuracy on protein-nucleic acid interactions than specialists predictors.

Link bài báo

https://storage.googleapis.com/deepmind-media/DeepMind.com/…

Đọc thêm

https://x.com/demishassabis/status/1719345831730368596


Có thể hiểu và tăng cường mô hình ngôn ngữ lớn bằng các kích thích cảm xúc / Large Language Models Understand and Can be Enhanced by Emotional Stimuli

Giới thiệu bài báo

  • Nghiên cứu khả năng hiểu các kích thích cảm xúc của LLM; thực hiện các thí nghiệm tự động trên 45 tác vụ bằng nhiều LLM khác nhau, bao gồm Flan-T5-Large, Vicuna, Llama 2, BLOOM, ChatGPT và GPT-4; các tác vụ trải rộng từ ứng dụng quyết định đến ứng dụng sinh nội dung, đại diện cho các kịch bản đánh giá toàn diện; kết quả thực nghiệm cho thấy LLM có khả năng nắm bắt trí tuệ cảm xúc.
    > Explores the ability of llms to understand emotional stimuli; conducts automatic experiments on 45 tasks using various llms, including flan-t5-large, vicuna, llama 2, bloom, chatgpt, and gpt-4; the tasks span deterministic and generative applications that represent comprehensive evaluation scenarios; experimental results show that llms have a grasp of emotional intelligence.

Tóm tắt bài báo

  • Trí tuệ cảm xúc ảnh hưởng đáng kể đến các hành vi và tương tác hằng ngày của chúng ta. Các mô hình ngôn ngữ lớn (LLM) đã cho thấy hiệu năng ấn tượng trong nhiều tác vụ và được xem là một bước tiến hướng tới trí tuệ nhân tạo tổng quát, nhưng vẫn chưa rõ liệu LLM có thể thực sự nắm bắt được các kích thích cảm xúc mang tính tâm lý hay không. Việc hiểu và phản hồi các tín hiệu cảm xúc mang lại cho con người một lợi thế rõ rệt trong giải quyết vấn đề. Bài báo này thực hiện bước đầu tiên nhằm khám phá khả năng hiểu kích thích cảm xúc của mạng nơ-ron nhân tạo. Để làm điều đó, nhóm tác giả trước tiên tiến hành các thí nghiệm tự động trên 45 tác vụ bằng nhiều LLM khác nhau như Flan-T5-Large, Vicuna, Llama 2, BLOOM, ChatGPT và GPT-4. Các tác vụ này trải dài trên cả ứng dụng quyết định luận và ứng dụng sinh, đại diện cho các kịch bản đánh giá toàn diện. Các thí nghiệm tự động cho thấy LLM có khả năng nắm bắt trí tuệ cảm xúc và có thể cải thiện hiệu năng thông qua prompt cảm xúc (được gọi là "EmotionPrompt", kết hợp prompt gốc với kích thích cảm xúc), ví dụ: cải thiện hiệu năng tương đối 8,00% trong Instruction Induction và 115% trong BIG-Bench. Bên cạnh các tác vụ quyết định luận có thể được đánh giá tự động bằng các chỉ số hiện có, nhóm nghiên cứu còn thực hiện một nghiên cứu với 106 người tham gia để đánh giá chất lượng của các tác vụ sinh bằng cả prompt thông thường lẫn prompt cảm xúc. Kết quả nghiên cứu trên người cho thấy EmotionPrompt cải thiện đáng kể kết quả của các tác vụ sinh (mức cải thiện trung bình 10,9% theo các chỉ số về hiệu năng, tính chân thực và trách nhiệm). Bài viết cũng thảo luận chuyên sâu về lý do EmotionPrompt hiệu quả với LLM và những yếu tố có thể ảnh hưởng đến hiệu năng của nó. Chúng tôi cho rằng EmotionPrompt mở ra một hướng đi mới để khám phá tri thức liên ngành cho tương tác giữa con người và LLM.

    Trí tuệ cảm xúc ảnh hưởng đáng kể đến các hành vi và tương tác hằng ngày của chúng ta. Mặc dù các Mô hình Ngôn ngữ Lớn (LLM) ngày càng được xem là một bước tiến hướng tới trí tuệ nhân tạo tổng quát, thể hiện hiệu năng ấn tượng trong nhiều tác vụ, nhưng vẫn chưa chắc liệu LLM có thể thực sự hiểu các kích thích cảm xúc mang tính tâm lý hay không. Khả năng hiểu và phản hồi các tín hiệu cảm xúc mang lại cho con người một lợi thế rõ rệt trong giải quyết vấn đề. Trong bài báo này, chúng tôi thực hiện bước đầu tiên để khám phá khả năng hiểu các kích thích cảm xúc của LLM. Vì vậy, trước tiên chúng tôi tiến hành các thí nghiệm tự động trên 45 tác vụ bằng nhiều LLM khác nhau, bao gồm Flan-T5-Large, Vicuna, Llama 2, BLOOM, ChatGPT và GPT-4. Các tác vụ của chúng tôi trải rộng trên các ứng dụng quyết định luận và ứng dụng sinh, đại diện cho những kịch bản đánh giá toàn diện. Các thí nghiệm tự động cho thấy LLM có khả năng nắm bắt trí tuệ cảm xúc, và hiệu năng của chúng có thể được cải thiện bằng các prompt cảm xúc (mà chúng tôi gọi là "EmotionPrompt", kết hợp prompt gốc với các kích thích cảm xúc), ví dụ: mức cải thiện hiệu năng tương đối 8,00% trong Instruction Induction và 115% trong BIG-Bench. Bên cạnh các tác vụ quyết định luận có thể được đánh giá tự động bằng các thước đo hiện có, chúng tôi đã thực hiện một nghiên cứu với 106 người tham gia để đánh giá chất lượng của các tác vụ sinh bằng cả prompt thông thường và prompt cảm xúc. Kết quả nghiên cứu trên người của chúng tôi cho thấy EmotionPrompt giúp tăng đáng kể hiệu năng của các tác vụ sinh (mức cải thiện trung bình 10,9% xét theo các chỉ số về hiệu năng, tính chân thực và trách nhiệm). Chúng tôi đưa ra phần thảo luận chuyên sâu về lý do EmotionPrompt hoạt động hiệu quả với LLM và các yếu tố có thể ảnh hưởng đến hiệu năng của nó. Chúng tôi cho rằng EmotionPrompt báo hiệu một hướng đi mới để khám phá tri thức liên ngành cho tương tác giữa con người và LLM.

Liên kết bài báo

https://arxiv.org/abs/2307.11760

Đọc thêm

https://x.com/emollick/status/1720135672764285176


FP8-LM: Huấn luyện mô hình ngôn ngữ lớn FP8 / FP8-LM: Training FP8 Large Language Models

Giới thiệu bài báo

  • Khi huấn luyện LLM FP8, nhóm tác giả phát hiện rằng hầu hết các biến như gradient và trạng thái optimizer trong quá trình huấn luyện LLM có thể sử dụng các định dạng dữ liệu độ chính xác thấp mà không làm suy giảm độ chính xác của mô hình và không cần thay đổi hyper-parameter.

    Phát hiện rằng khi huấn luyện các LLM fp8, hầu hết các biến, chẳng hạn như gradient và trạng thái optimizer, trong quá trình huấn luyện llm, có thể sử dụng các định dạng dữ liệu độ chính xác thấp mà không làm ảnh hưởng đến độ chính xác của mô hình và không cần thay đổi hyper-parameter.

Tóm tắt bài báo

  • Bài báo này khảo sát định dạng dữ liệu low-bit FP8 để huấn luyện hiệu quả các mô hình ngôn ngữ lớn (LLM). Insight cốt lõi của nghiên cứu là trong quá trình huấn luyện LLM, phần lớn các biến như gradient và trạng thái optimizer có thể dùng định dạng dữ liệu độ chính xác thấp mà không làm giảm độ chính xác của mô hình và không cần thay đổi hyperparameter. Cụ thể, Unity đề xuất một framework mixed-precision tự động FP8 mới cho việc huấn luyện LLM. Framework này cung cấp ba mức độ tận dụng FP8 nhằm đơn giản hóa việc huấn luyện mixed-precision và song song phân tán cho LLM. Framework tích hợp dần gradient 8-bit, trạng thái optimizer và huấn luyện phân tán theo cách tăng dần. Kết quả thực nghiệm cho thấy, trong quá trình huấn luyện mô hình GPT-175B trên nền tảng GPU H100, framework huấn luyện mixed-precision FP8 của Unity không chỉ giúp giảm 42% mức sử dụng bộ nhớ thực tế mà còn chạy nhanh hơn 64% so với framework BF16 được sử dụng rộng rãi (ví dụ: Megatron-LM), đồng thời vượt tốc độ của Nvidia Transformer Engine 17%. Nhờ đó, chi phí huấn luyện các mô hình foundation quy mô lớn có thể được cắt giảm đáng kể. Ngoài ra, phương pháp huấn luyện mixed-precision FP8 của Unity mang tính tổng quát. Nó có thể được áp dụng liền mạch cho các tác vụ khác như instruction tuning cho LLM và reinforcement learning from human feedback, qua đó giúp tiết kiệm chi phí fine-tuning. Framework huấn luyện độ chính xác thấp FP8 của Unity được phát hành mã nguồn mở tại {https://github.com/Azure/MS-AMP}{aka.ms/MS.AMP}.
    > In this paper, we explore FP8 low-bit data formats for efficient training of large language models (LLMs). Our key insight is that most variables, such as gradients and optimizer states, in LLM training can employ low-precision data formats without compromising model accuracy and requiring no changes to hyper-parameters. Specifically, we propose a new FP8 automatic mixed-precision framework for training LLMs. This framework offers three levels of FP8 utilization to streamline mixed-precision and distributed parallel training for LLMs. It gradually incorporates 8-bit gradients, optimizer states, and distributed learning in an incremental manner. Experiment results show that, during the training of GPT-175B model on H100 GPU platform, our FP8 mixed-precision training framework not only achieved a remarkable 42% reduction in real memory usage but also ran 64% faster than the widely adopted BF16 framework (i.e., Megatron-LM), surpassing the speed of Nvidia Transformer Engine by 17%. This largely reduces the training costs for large foundation models. Furthermore, our FP8 mixed-precision training methodology is generic. It can be seamlessly applied to other tasks such as LLM instruction tuning and reinforcement learning with human feedback, offering savings in fine-tuning expenses. Our FP8 low-precision training framework is open-sourced at {https://github.com/Azure/MS-AMP}{aka.ms/MS.AMP}.

Liên kết bài báo

https://arxiv.org/abs/2310.18313

Đọc thêm

https://x.com/arankomatsuzaki/status/1718813303223222765


Bản gốc

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-2e0

Chưa có bình luận nào.

Chưa có bình luận nào.