2 điểm bởi ninebow 2024-02-19 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Tổng quan

  • Tôi đã thử tự động dịch bài viết về các bài báo ML mà DAIR.AI công bố hàng tuần.

  • Các bài báo được chọn trong tuần này phản ánh các xu hướng nghiên cứu mới nhất trong lĩnh vực xử lý ngôn ngữ tự nhiên, mạng nơ-ron sâu và học tăng cường. Đặc biệt, các bài báo về công nghệ liên quan đến xử lý ngôn ngữ tự nhiên (NLP) đã nhận được sự chú ý trong tuần này. Ngoài ra, các thuật ngữ "World Model" và "neural network trainability" dường như liên quan đến khía cạnh lý thuyết của học tăng cường hoặc mạng nơ-ron sâu.

  • Gần đây, ngành trí tuệ nhân tạo đang tập trung nhiều vào sự phát triển của mô hình ngôn ngữ quy mô lớn. Điều này là do sau khi các mô hình như GPT-3 thể hiện hiệu năng ấn tượng trong nhiều tác vụ dựa trên ngôn ngữ, NLP trở thành chủ đề quan trọng trong cả nghiên cứu lý thuyết và ứng dụng thực tế. Mô hình ngôn ngữ quy mô lớn có thể được dùng cho dịch thuật, tóm tắt, truy vấn-đáp ứng, tạo văn bản sáng tạo… và nghiên cứu về cách hiểu cùng cải tiến các mô hình này đang diễn ra rất sôi nổi.

  • Hơn nữa, các khái niệm như “neural network trainability” và “World Model” gợi ý những nghiên cứu về công nghệ mới nhằm huấn luyện hiệu quả hơn các mạng nơ-ron sâu, cho phép mô hình hóa các môi trường phức tạp hơn. Trong lĩnh vực học tăng cường, trọng tâm là phát triển năng lực tác tử giải quyết các vấn đề phức tạp hơn thông qua các mô hình môi trường tinh vi hơn, đây cũng là xu hướng quan trọng của nghiên cứu AI hiện đại.

  • Bài viết này được tổng hợp bằng mô hình GPT, có thể có sai sót nên vui lòng tham khảo thêm nguyên văn bên dưới bài viết. Khi đọc, nếu bạn phát hiện nội dung nào khó hiểu hoặc sai sót, hãy để lại bình luận để thông báo cho chúng tôi.


OpenAI Sora

Giới thiệu bài báo

  • Một mô hình AI chuyển văn bản thành video có thể tạo ra cảnh video chân thực và giàu trí tưởng tượng lên tới tối đa một phút khi được cung cấp hướng dẫn bằng văn bản; nó có thể tạo ra các cảnh phức tạp với nhiều nhân vật, các loại chuyển động khác nhau và bối cảnh, đồng thời hiểu cách chúng liên quan đến nhau; các khả năng khác bao gồm việc tạo nhiều cảnh quay trong cùng một video với tính nhất quán về nhân vật và phong cách hình ảnh.

    A text-to-video ai model that can create videos of up to a minute of realistic and imaginative scenes given text instructions; it can generate complex scenes with multiple characters, different motion types, and backgrounds, and understand how they relate to each other; other capabilities include creating multiple shots within a single video with persistence across characters and visual style.

Liên kết bài báo

https://openai.com/research/…

Đọc thêm

https://discuss.pytorch.kr/t/gn-openai-sora-ai/3519

https://x.com/OpenAI/status/1758192957386342435


Gemini 1.5 / Gemini 1.5

Giới thiệu bài báo

  • Mô hình chuyên gia hỗn hợp đa phương thức hiệu quả tính toán, tập trung vào các khả năng như nhớ lại và suy luận nội dung dài, có thể suy luận trên các tài liệu dài tiềm năng chứa hàng triệu token, bao gồm nhiều giờ video và âm thanh; nâng cao hiệu năng tiên tiến trong QA tài liệu dài, QA video dài, và ASR bối cảnh dài. Gemini 1.5 pro đạt hiệu quả tương đương hoặc tốt hơn Gemini 1.0 ultra trên các benchmark tiêu chuẩn và đạt khả năng truy xuất gần như hoàn hảo (>99%) đến ít nhất 10 triệu token, một bước tiến đáng kể so với các LLM ngữ cảnh dài khác.

    A compute-efficient multimodal mixture-of-experts model that focuses on capabilities such as recalling and reasoning over long-form content; it can reason over long documents potentially containing millions of tokens, including hours of video and audio; improves the state-of-the-art performance in long-document qa, long-video qa, and long-context asr. gemini 1.5 pro matches or outperforms gemini 1.0 ultra across standard benchmarks and achieves near-perfect retrieval (>99%) up to at least 10 million tokens, a significant advancement compared to other long-context llms.

Liên kết bài báo

https://storage.googleapis.com/deepmind-media/gemini/…

Đọc thêm

https://discuss.pytorch.kr/t/gn-gemini-1-5/3518

https://x.com/omarsar0/status/1758151923612483839


V-JEPA

Giới thiệu bài báo

  • Một tập hợp các mô hình thị giác được huấn luyện với mục tiêu dự đoán đặc trưng bằng 2 triệu video; dựa vào học không giám sát, không sử dụng bộ mã hóa ảnh đã qua tiền huấn luyện, văn bản, ví dụ phản ví dụ, tái tạo hoặc các nguồn giám sát khác; khẳng định đạt được biểu diễn thị giác đa năng hoạt động tốt cả trong các tác vụ dựa trên chuyển động và dựa trên hình thức, mà không cần điều chỉnh tham số của mô hình.

    A collection of vision models trained on a feature prediction objective using 2 million videos; relies on self-supervised learning and doesn’t use pretrained image encoders, text, negative examples, reconstruction, or other supervision sources; claims to achieve versatile visual representations that perform well on both motion and appearance-based tasks, without adaption of the model’s parameters.

Tóm tắt (Abstract)

Bài báo này khám phá việc dự đoán đặc trưng như một mục tiêu độc lập cho học không giám sát từ video và giới thiệu V-JEPA, tập hợp các mô hình thị giác được huấn luyện hoàn toàn bằng mục tiêu dự đoán đặc trưng, không sử dụng bộ mã hóa ảnh đã được tiền huấn luyện, văn bản, ví dụ âm tính, tái tạo hoặc các nguồn giám sát khác. Các mô hình này được huấn luyện trên 2 triệu video thu thập từ các bộ dữ liệu công khai và được đánh giá trên các tác vụ ảnh và video tiếp theo. Kết quả cho thấy rằng học bằng cách dự đoán đặc trưng video có thể tạo ra các biểu diễn thị giác đa dụng hoạt động tốt trong cả nhiệm vụ dựa trên chuyển động và cơ chế ngoại hình mà không cần tinh chỉnh tham số của mô hình; chẳng hạn, mô hình lớn nhất được huấn luyện chỉ trên video của chúng tôi, ViT-H/16, khi dùng backbone đóng băng, đạt độ chính xác 81.9% trên Kinetics-400, 72.2% trên Something-Something-v2 và 77.9% trên ImageNet1K.

This paper explores feature prediction as a stand-alone objective for unsupervised learning from video and introduces V-JEPA, a collection of vision models trained solely using a feature prediction objective, without the use of pretrained image encoders, text, negative examples, reconstruction, or other sources of supervision. The models are trained on 2 million videos collected from public datasets and are evaluated on downstream image and video tasks. Our results show that learning by predicting video features leads to versatile visual representations that perform well on both motion and appearance-based tasks, without adaption of the model’s parameters; e.g., using a frozen backbone, our largest model, a ViT-H/16 trained only on videos, obtains 81.9% on Kinetics-400, 72.2% on Something-Something-v2, and 77.9% on ImageNet1K.

Liên kết bài báo

https://ai.meta.com/research/publications/…

Đọc thêm

https://ai.meta.com/blog/…

https://github.com/facebookresearch/jepa

https://x.com/AIatMeta/status/1758176023588577326


LWM (Large World Model): Mô hình sử dụng video và ngôn ngữ độ dài một triệu token với RingAttention / World Model on Million-Length Video And Language With RingAttention

Giới thiệu bài báo

  • Mô hình đa phương thức ngữ cảnh 1M tổng quát được huấn luyện trên video dài và sách bằng RingAttention; thiết lập chuẩn mực mới cho các tác vụ truy xuất khó và hiểu biết video dài; sử dụng đóng gói chuỗi có mặt nạ để kết hợp các độ dài chuỗi khác nhau, trọng số hàm mất mát và bộ dữ liệu QA do mô hình sinh ra cho trò chuyện chuỗi dài; mã nguồn mở một họ mô hình 7B tham số có khả năng xử lý văn bản và video dài hơn 1 triệu token.

    A general-purpose 1m context multimodal model trained on long videos and books using ringattention; sets new benchmarks in difficult retrieval tasks and long video understanding; uses masked sequence packing for mixing different sequence lengths, loss weighting, and model-generated qa dataset for long sequence chat; open-sources a family of 7b parameter models that can process long text and videos of over 1m tokens.

Tóm tắt bài báo (Abstract)

  • Các mô hình ngôn ngữ hiện tại còn thiếu hụt trong việc hiểu các khía cạnh của thế giới không dễ miêu tả bằng lời nói, và gặp khó khăn với các nhiệm vụ phức tạp, dài hơi. Các chuỗi video cung cấp thông tin thời gian quý giá mà ngôn ngữ và hình ảnh tĩnh không có, khiến chúng trở nên hấp dẫn cho việc mô hình hóa cùng ngôn ngữ. Những mô hình như vậy có thể phát triển cả hiểu biết về tri thức văn bản của con người và thế giới vật lý, mở ra khả năng AI rộng hơn để hỗ trợ con người. Tuy nhiên, học từ hàng triệu token của chuỗi video và ngôn ngữ gặp nhiều thách thức do hạn chế bộ nhớ, độ phức tạp tính toán và tập dữ liệu hạn chế. Để giải quyết những thách thức này, chúng tôi biên soạn một bộ dữ liệu lớn gồm các video và sách đa dạng, tận dụng kỹ thuật RingAttention để huấn luyện quy mô lớn trên chuỗi dài, và tăng dần kích thước ngữ cảnh từ 4K lên 1M token. Bài báo này đóng góp như sau: (a) Mạng nơ-ron có ngữ cảnh lớn nhất: chúng tôi huấn luyện một trong những mô hình transformer có kích thước ngữ cảnh lớn nhất cho chuỗi video và ngôn ngữ dài, thiết lập chuẩn mực mới trong các bài kiểm thử truy hồi khó và hiểu video dài. (b) Các giải pháp để vượt qua thách thức huấn luyện thị giác-ngôn ngữ, bao gồm sử dụng đóng gói chuỗi mask để trộn các độ dài chuỗi khác nhau, trọng số hàm mất mát để cân bằng ngôn ngữ và thị giác, và tập dữ liệu QA do mô hình tạo ra cho trò chuyện chuỗi dài. (c) Triển khai được tối ưu hóa cao với RingAttention, đóng gói chuỗi mask và các tính năng chính khác để huấn luyện chuỗi đa phương thức hàng triệu token. (d) Mở nguồn hoàn toàn một họ mô hình 7B tham số có khả năng xử lý tài liệu văn bản dài (LWM-Text, LWM-Text-Chat) và video (LWM, LWM-Chat) dài hơn 1 triệu token. Công trình này mở đường cho việc huấn luyện trên các tập dữ liệu khổng lồ của video và ngôn ngữ dài để phát triển sự hiểu biết cả về tri thức của con người và thế giới đa phương thức, cũng như khả năng rộng hơn.

    Current language models fall short in understanding aspects of the world not easily described in words, and struggle with complex, long-form tasks. Video sequences offer valuable temporal information absent in language and static images, making them attractive for joint modeling with language. Such models could develop an understanding of both human textual knowledge and the physical world, enabling broader AI capabilities for assisting humans. However, learning from millions of tokens of video and language sequences poses challenges due to memory constraints, computational complexity, and limited datasets. To address these challenges, we curate a large dataset of diverse videos and books, utilize the RingAttention technique to scalably train on long sequences, and gradually increase context size from 4K to 1M tokens. This paper makes the following contributions: (a) Largest context size neural network: We train one of the largest context size transformers on long video and language sequences, setting new benchmarks in difficult retrieval tasks and long video understanding. (b) Solutions for overcoming vision-language training challenges, including using masked sequence packing for mixing different sequence lengths, loss weighting to balance language and vision, and model-generated QA dataset for long sequence chat. (c) A highly-optimized implementation with RingAttention, masked sequence packing, and other key features for training on millions-length multimodal sequences. (d) Fully open-sourced a family of 7B parameter models capable of processing long text documents (LWM-Text, LWM-Text-Chat) and videos (LWM, LWM-Chat) of over 1M tokens. This work paves the way for training on massive datasets of long video and language to develop understanding of both human knowledge and the multimodal world, and broader capabilities.

Liên kết bài báo

https://arxiv.org/abs/2402.08268

Đọc thêm

https://largeworldmodel.github.io/

https://huggingface.co/LargeWorldModel

https://x.com/haoliuhl/status/1757828392362389999


Ranh giới khả năng huấn luyện của mạng nơ-ron là fractal / The boundary of neural network trainability is fractal

Giới thiệu bài báo

  • Phát hiện rằng ranh giới giữa các cấu hình siêu tham số có thể huấn luyện và không thể huấn luyện của mạng nơ-ron là fractal; quan sát cảnh quan siêu tham số fractal cho mọi cấu hình mạng nơ-ron và mạng nơ-ron tuyến tính sâu; đồng thời quan sát thấy các siêu tham số có hiệu năng tốt nhất nằm ở đầu mút của độ ổn định.

    Finds that the boundary between trainable and untrainable neural network hyperparameter configurations is fractal; observes fractal hyperparameter landscapes for every neural network configuration and deep linear networks; also observes that the best-performing hyperparameters are at the end of stability.

Tóm tắt (Abstract)

  • Ví dụ, một số fractal liên quan đến tập Mandelbrot và tập Julia bậc hai được tính toán bằng cách lặp lại một hàm, sau đó xác định biên giới giữa các siêu tham số khiến dãy kết quả phân kỳ hoặc vẫn nằm trong phạm vi bị chặn. Việc huấn luyện mạng nơ-ron cũng tương tự, vì nó cũng áp dụng liên tục một hàm cập nhật (ví dụ: lặp lại các bước giảm gradient), có thể dẫn đến hành vi hội tụ hoặc phân kỳ, và có thể cực kỳ nhạy cảm với những thay đổi nhỏ của siêu tham số. Lấy cảm hứng từ những sự tương đồng này, chúng tôi đã tiến hành nghiên cứu thực nghiệm về biên giới giữa các siêu tham số mạng nơ-ron dẫn tới việc huấn luyện ổn định và phân kỳ. Chúng tôi phát hiện rằng biên giới này tồn tại ở dạng fractal trên phạm vi hơn mười bậc quy mô trong tất cả các cấu hình đã được thử nghiệm.

    Some fractals -- for instance those associated with the Mandelbrot and quadratic Julia sets -- are computed by iterating a function, and identifying the boundary between hyperparameters for which the resulting series diverges or remains bounded. Neural network training similarly involves iterating an update function (e.g. repeated steps of gradient descent), can result in convergent or divergent behavior, and can be extremely sensitive to small changes in hyperparameters. Motivated by these similarities, we experimentally examine the boundary between neural network hyperparameters that lead to stable and divergent training. We find that this boundary is fractal over more than ten decades of scale in all tested configurations.

Liên kết bài báo

https://arxiv.org/abs/2402.06184

Đọc thêm

https://x.com/jaschasd/status/1756930242965606582


OS-Copilot: Hướng tới các tác nhân máy tính tổng quát với khả năng tự cải thiện / OS-Copilot: Towards Generalist Computer Agents with Self-Improvement

Giới thiệu bài báo

  • Một khung công tác để xây dựng các tác nhân máy tính tổng quát tương tác với các thành phần cốt lõi của một hệ điều hành như Linux hoặc macOS; đồng thời đề xuất một tác nhân embodied tự cải thiện nhằm tự động hóa các tác vụ máy tính phổ biến; tác nhân này đạt hiệu năng tốt hơn 35% so với các phương pháp trước đó trên benchmark trợ lý AI tổng quát (GAIA).

    a framework to build generalist computer agents that interface with key elements of an operating system like linux or macos; it also proposes a self-improving embodied agent for automating general computer tasks; this agent outperforms the previous methods by 35% on the general ai assistants (gaia) benchmark.

Tóm tắt (Abstract)

  • Tương tác tự chủ với máy tính là một thách thức từ lâu, với tiềm năng rất lớn, và sự phổ biến gần đây của các mô hình ngôn ngữ lớn (LLM) đã thúc đẩy đáng kể tiến bộ trong việc xây dựng các tác nhân số. Tuy nhiên, hầu hết các tác nhân này được thiết kế để tương tác trong một miền hẹp, chẳng hạn như một phần mềm hay một website cụ thể. Sự tập trung hẹp như vậy làm hạn chế khả năng áp dụng của chúng cho các tác vụ máy tính chung. Vì vậy, chúng tôi giới thiệu OS-Copilot, một khung công tác để xây dựng các tác nhân tổng quát có khả năng tương tác với các thành phần toàn diện của hệ điều hành (OS), bao gồm web, terminal mã, tệp tin, đa phương tiện và nhiều ứng dụng bên thứ ba. Chúng tôi sử dụng OS-Copilot để tạo ra FRIDAY, một tác nhân embodied tự cải thiện nhằm tự động hóa các tác vụ máy tính tổng quát. Trên GAIA, bộ benchmark trợ lý AI tổng quát, FRIDAY vượt trội hơn các phương pháp trước đó 35%, thể hiện khả năng tổng quát hóa mạnh mẽ cho các ứng dụng chưa từng xuất hiện thông qua kỹ năng tích lũy từ các tác vụ trước đó. Chúng tôi cũng trình bày bằng chứng định lượng cho thấy FRIDAY học cách điều khiển và tự cải thiện trên Excel và PowerPoint với mức giám sát tối thiểu. Khung OS-Copilot và kết quả thực nghiệm của chúng tôi cung cấp cơ sở hạ tầng cùng những hiểu biết cho nghiên cứu tương lai hướng tới các tác nhân máy tính có khả năng mạnh mẽ và tính năng mở rộng toàn diện hơn.

    Autonomous interaction with the computer has been a longstanding challenge with great potential, and the recent proliferation of large language models (LLMs) has markedly accelerated progress in building digital agents. However, most of these agents are designed to interact with a narrow domain, such as a specific software or website. This narrow focus constrains their applicability for general computer tasks. To this end, we introduce OS-Copilot, a framework to build generalist agents capable of interfacing with comprehensive elements in an operating system (OS), including the web, code terminals, files, multimedia, and various third-party applications. We use OS-Copilot to create FRIDAY, a self-improving embodied agent for automating general computer tasks. On GAIA, a general AI assistants benchmark, FRIDAY outperforms previous methods by 35%, showcasing strong generalization to unseen applications via accumulated skills from previous tasks. We also present numerical and quantitative evidence that FRIDAY learns to control and self-improve on Excel and Powerpoint with minimal supervision. Our OS-Copilot framework and empirical findings provide infrastructure and insights for future research toward more capable and general-purpose computer agents.

Liên kết bài báo

https://arxiv.org/abs/2402.07456

Đọc thêm

https://x.com/omarsar0/status/1757443594976206885


TestGen-LLM: Cải thiện kiểm thử đơn vị tự động bằng mô hình ngôn ngữ lớn tại Meta / Automated Unit Test Improvement using Large Language Models at Meta

Giới thiệu bài báo

  • Trong lần đánh giá trên các sản phẩm Reels và Stories của Instagram, nhóm nghiên cứu báo cáo rằng 75% trường hợp kiểm thử của TestGen-LLM được xây dựng đúng, 57% vượt qua đáng tin cậy, và độ phủ tăng 25%.

    Uses llms to automatically improve existing human-written tests; reports that after an evaluation on reels and stories products for instagram, 75% of testgen-llm's test cases were built correctly, 57% passed reliably, and 25% increased coverage.

Tóm tắt (Abstract)

  • Bài này giới thiệu công cụ TestGen-LLM của Meta, sử dụng LLM để tự động cải thiện các bài kiểm thử do con người viết trước đó. TestGen-LLM xác minh rằng các lớp kiểm thử do nó tạo ra đã vượt qua thành công một tập hợp bộ lọc nhằm đảm bảo mức cải thiện có thể đo lường so với bộ kiểm thử gốc, từ đó loại bỏ các vấn đề phát sinh do ảo giác của LLM. Bài viết mô tả cách Meta triển khai TestGen-LLM trong các test-a-thon của nền tảng Instagram và Facebook. Trong đánh giá trên sản phẩm Reels và Stories của Instagram, 75% các trường hợp kiểm thử của TestGen-LLM được xây dựng đúng, 57% vượt qua một cách đáng tin cậy, và 25% tăng mức độ bao phủ. Trong các test-a-thon Instagram và Facebook của Meta, giải pháp này đã cải thiện 11.5% tất cả các lớp được áp dụng, với 73% khuyến nghị được các kỹ sư phần mềm Meta chấp nhận để triển khai lên môi trường production. Chúng tôi cho rằng đây là báo cáo đầu tiên về triển khai quy mô công nghiệp mã do LLM tạo ra với sự đảm bảo rõ ràng về mức cải thiện mã.

Liên kết bài báo

https://arxiv.org/abs/2402.09171

Đọc thêm

https://x.com/nathanbenaich/status/1758036247115608317


ChemLLM: Mô hình ngôn ngữ lớn cho lĩnh vực hóa học / ChemLLM: A Chemical Large Language Model

Giới thiệu bài báo

  • Đây là một LLM chuyên dụng được huấn luyện cho các tác vụ liên quan đến hóa học; nó khẳng định đạt hiệu năng tốt hơn GPT-3.5 trong các tác vụ chính như chuyển đổi tên, chú thích phân tử và dự đoán phản ứng, và còn vượt qua GPT-4 ở hai trong số các tác vụ này.

    A dedicated llm trained for chemistry-related tasks; claims to outperform gpt-3.5 on principal tasks such as name conversion, molecular caption, and reaction prediction; it also surpasses gpt-4 on two of these tasks.

Tóm tắt bài báo (Abstract)

  • Mô hình ngôn ngữ lớn (LLM) đã đạt được những tiến bộ đáng kể trong các ứng dụng hóa học như dự đoán tính chất phân tử, tạo phân tử, thiết kế quy trình thí nghiệm, v.v. Tuy nhiên, cộng đồng vẫn thiếu một mô hình dựa trên hội thoại được thiết kế riêng cho hóa học. Vấn đề này phát sinh vì phần lớn dữ liệu hóa học và tri thức khoa học chủ yếu được lưu trữ trong cơ sở dữ liệu có cấu trúc, và việc dùng trực tiếp dữ liệu có cấu trúc đó làm giảm khả năng của mô hình trong việc duy trì hội thoại mạch lạc. Để giải quyết vấn đề này, chúng tôi phát triển một phương pháp xây dựng hướng dẫn dựa trên mẫu mới để chuyển đổi kiến thức có cấu trúc thành hội thoại thông thường, phù hợp cho việc huấn luyện mô hình ngôn ngữ. Bằng cách tận dụng cách tiếp cận này, chúng tôi phát triển ChemLLM, mô hình ngôn ngữ lớn đầu tiên dành riêng cho hóa học, có thể xử lý nhiều tác vụ đa dạng trên nhiều nhánh của hóa học thông qua tương tác hội thoại mượt mà. ChemLLM vượt trội hơn GPT-3.5 trong cả ba tác vụ chính của hóa học: chuyển đổi tên, chú thích phân tử và dự đoán phản ứng, và vượt cả GPT-4 ở hai trong ba tác vụ này. Đáng chú ý, mặc dù được huấn luyện chủ yếu trên kho ngữ liệu tập trung hóa học, ChemLLM cho thấy khả năng thích ứng rất tốt với các tác vụ toán học và vật lý liên quan. Ngoài ra, ChemLLM còn thể hiện sự thành thạo trong các tác vụ NLP chuyên biệt trong hóa học như dịch tài liệu khoa học và lập trình hoá học thông tin. ChemLLM mở ra một hướng khám phá mới trong nghiên cứu hóa học, và phương pháp tích hợp kiến thức hóa học có cấu trúc vào hệ thống hội thoại của chúng tôi mở ra một tiền đồ mới cho phát triển LLM trong nhiều ngành khoa học khác nhau. Mã nguồn, tập dữ liệu và trọng số mô hình được truy cập công khai tại hf.co/AI4Chem/ChemLLM-7B-Chat.

    Large language models (LLMs) have made impressive progress in chemistry applications, including molecular property prediction, molecular generation, experimental protocol design, etc. However, the community lacks a dialogue-based model specifically designed for chemistry. The challenge arises from the fact that most chemical data and scientific knowledge are primarily stored in structured databases, and the direct use of these structured data compromises the model's ability to maintain coherent dialogue. To tackle this issue, we develop a novel template-based instruction construction method that transforms structured knowledge into plain dialogue, making it suitable for language model training. By leveraging this approach, we develop ChemLLM, the first large language model dedicated to chemistry, capable of performing various tasks across chemical disciplines with smooth dialogue interaction. ChemLLM beats GPT-3.5 on all three principal tasks in chemistry, i.e., name conversion, molecular caption, and reaction prediction, and surpasses GPT-4 on two of them. Remarkably, ChemLLM also shows exceptional adaptability to related mathematical and physical tasks despite being trained mainly on chemical-centric corpora. Furthermore, ChemLLM demonstrates proficiency in specialized NLP tasks within chemistry, such as literature translation and cheminformatic programming. ChemLLM opens up a new avenue for exploration within chemical studies, while our method of integrating structured chemical knowledge into dialogue systems sets a new frontier for developing LLMs across various scientific fields. Codes, Datasets, and Model weights are publicly accessible at hf.co/AI4Chem/ChemLLM-7B-Chat.

Liên kết bài báo

https://arxiv.org/abs/2402.06852

Đọc thêm

https://hf.co/AI4Chem/ChemLLM-7B-Chat

https://x.com/omarsar0/status/1757246740539773165


Mô hình ngôn ngữ lớn: Khảo sát / Large Language Models: A Survey

Giới thiệu bài báo

  • Tác giả xem xét ba nhóm LLM phổ biến (GPT, Llama, PaLM), đặc điểm, đóng góp và giới hạn của chúng; tổng hợp các tính năng và kỹ thuật đã được phát triển để xây dựng và tăng cường LLM; đồng thời cũng thảo luận về các tập dữ liệu phổ biến dùng để huấn luyện, tinh chỉnh và đánh giá LLM, cũng như các chỉ số đánh giá LLM; và kết luận bằng các thách thức chưa được giải quyết cùng hướng nghiên cứu trong tương lai.

    Reviews three popular families of llms (gpt, llama, palm), their characteristics, contributions, and limitations; includes a summary of capabilities and techniques developed to build and augment llm; it also discusses popular datasets for llm training, fine-tuning, and evaluation, and llm evaluation metrics; concludes with open challenges and future research directions.

Tóm tắt bài báo (Abstract)

  • Các mô hình ngôn ngữ lớn (LLM) đã thu hút được nhiều sự chú ý kể từ khi ChatGPT được ra mắt vào tháng 11 năm 2022 nhờ hiệu suất mạnh mẽ trên các tác vụ ngôn ngữ tự nhiên đa dạng. Khả năng hiểu và tạo ngôn ngữ đa mục đích của LLM được đạt được bằng cách huấn luyện hàng tỷ tham số mô hình trên lượng dữ liệu văn bản khổng lồ, theo dự đoán của các quy luật mở rộng \cite{kaplan2020scaling,hoffmann2022training}. Mặc dù lĩnh vực nghiên cứu LLM rất mới, nó đang phát triển nhanh chóng theo nhiều hướng khác nhau. Trong bài báo này, chúng tôi xem xét một số LLM nổi bật nhất, bao gồm ba họ LLM phổ biến (GPT, LLaMA, PaLM), và thảo luận về đặc điểm, đóng góp cũng như hạn chế của chúng. Chúng tôi cũng cung cấp tổng quan các kỹ thuật được phát triển nhằm xây dựng và tăng cường LLM. Sau đó, bài viết khảo sát các bộ dữ liệu phổ biến đã được chuẩn bị cho việc huấn luyện, tinh chỉnh và đánh giá LLM, xem xét các chỉ số đánh giá LLM được sử dụng rộng rãi, và so sánh hiệu năng của một số LLM phổ biến trên một số bộ benchmark đại diện. Cuối cùng, bài viết kết thúc bằng việc thảo luận các thách thức còn bỏ ngỏ và hướng nghiên cứu trong tương lai.

    Large Language Models (LLMs) have drawn a lot of attention due to their strong performance on a wide range of natural language tasks, since the release of ChatGPT in November 2022. LLMs' ability of general-purpose language understanding and generation is acquired by training billions of model's parameters on massive amounts of text data, as predicted by scaling laws \cite{kaplan2020scaling,hoffmann2022training}. The research area of LLMs, while very recent, is evolving rapidly in many different ways. In this paper, we review some of the most prominent LLMs, including three popular LLM families (GPT, LLaMA, PaLM), and discuss their characteristics, contributions and limitations. We also give an overview of techniques developed to build, and augment LLMs. We then survey popular datasets prepared for LLM training, fine-tuning, and evaluation, review widely used LLM evaluation metrics, and compare the performance of several popular LLMs on a set of representative benchmarks. Finally, we conclude the paper by discussing open challenges and future research directions.

Liên kết bài báo

https://arxiv.org/abs/2402.06196

Đọc thêm

https://x.com/omarsar0/status/1757049645119799804


Tác tử LLM có thể tự động hack website / LLM Agents can Autonomously Hack Websites

Giới thiệu bài báo

  • Cho thấy các tác tử LLM có thể tự động hack website và thực hiện các tác vụ như SQL injection mà không cần phản hồi của con người hay hiểu biết tường minh trước về lỗ hổng. Điều này có thể thực hiện được nhờ khả năng sử dụng công cụ và ngữ cảnh dài của một LLM; cho thấy GPT-4 có thể thực hiện các cuộc hack như vậy, kể cả việc tìm kiếm lỗ hổng trên website ngoài thực tế; trong khi các mô hình mã nguồn mở lại không thể thể hiện được các khả năng tương tự.

    Shows that llm agents can automatically hack websites and perform tasks like sql injections without human feedback or explicit knowledge about the vulnerability beforehand; this is enabled by an llm’s tool usage and long context capabilities; shows that gpt-4 is capable of such hacks, including finding vulnerabilities in websites in the wild; open-source models did not show the same capabilities.

Tóm tắt bài báo (Abstract)

  • Trong vài năm gần đây, khả năng của các mô hình ngôn ngữ lớn (LLM) liên tục được nâng cấp; giờ đây chúng có thể tương tác với công cụ (tức là gọi hàm), đọc tài liệu, và gọi lại chính mình theo cách đệ quy. Kết quả là, những LLM này giờ có thể hoạt động tự chủ như các tác tử. Khi năng lực của những tác tử này tăng lên, các nghiên cứu gần đây đã suy đoán về tác động của tác tử LLM đến an ninh mạng. Tuy nhiên, chưa có nhiều thông tin về khả năng tấn công của tác tử LLM. Trong nghiên cứu này, chúng tôi chỉ ra rằng các tác tử LLM có thể tự động hack website, thực hiện các tác vụ phức tạp như trích xuất sơ đồ cơ sở dữ liệu mù và SQL injection mà không cần phản hồi của con người. Điều đáng chú ý là tác tử không cần biết lỗ hổng từ trước. Khả năng này được hiện thực hóa một cách độc quyền bởi các mô hình hàng đầu có năng lực cao trong sử dụng công cụ và tận dụng bối cảnh mở rộng. Nói cách khác, chúng tôi cho thấy GPT-4 có thể thực hiện những cuộc hack như vậy, trong khi các mô hình mã nguồn mở hiện tại thì không. Cuối cùng, chúng tôi cho thấy GPT-4 có thể tự động tìm lỗ hổng trên website trong thực tế. Các phát hiện của chúng tôi đặt ra những câu hỏi về việc triển khai rộng rãi LLM.

    In recent years, large language models (LLMs) have become increasingly capable and can now interact with tools (i.e., call functions), read documents, and recursively call themselves. As a result, these LLMs can now function autonomously as agents. With the rise in capabilities of these agents, recent work has speculated on how LLM agents would affect cybersecurity. However, not much is known about the offensive capabilities of LLM agents. In this work, we show that LLM agents can autonomously hack websites, performing tasks as complex as blind database schema extraction and SQL injections without human feedback. Importantly, the agent does not need to know the vulnerability beforehand. This capability is uniquely enabled by frontier models that are highly capable of tool use and leveraging extended context. Namely, we show that GPT-4 is capable of such hacks, but existing open-source models are not. Finally, we show that GPT-4 is capable of autonomously finding vulnerabilities in websites in the wild. Our findings raise questions about the widespread deployment of LLMs.

Liên kết bài báo

https://arxiv.org/abs/2402.06664v1

Đọc thêm

https://x.com/emollick/status/1757937829340967240


Bản gốc

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-325

⚠️Quảng cáo⚠️: Bài viết này do PyTorch Korea User Group tổng hợp có hữu ích cho bạn không? Nếu bạn đăng ký thành viên, chúng tôi sẽ gửi các bài viết nổi bật đến email của bạn! (Mặc định là Weekly, nhưng có thể thay đổi sang Daily.)

Chưa có bình luận nào.

Chưa có bình luận nào.