03] Các bài báo ML nổi bật trong tuần (Top ML Papers of the Week)

(discuss.pytorch.kr)

1 điểm bởi ninebow 2024-03-06 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Chúng tôi đã tự động dịch các bài viết về các bài báo ML được DAIR.AI công bố hằng tuần.
Nhìn vào các bài báo được chọn trong tuần này, có vẻ phần lớn nghiên cứu tập trung vào các mô hình ngôn ngữ lớn (Large Language Models, LLMs). Qua các tiêu đề như "Genie", "Mistral Large", "The Era of 1-bit LLMs", "Dataset for LLMs", "PlanGPT", có thể thấy mối quan tâm lớn đối với mô hình hóa ngôn ngữ cũng như các cách tiếp cận nhằm cải thiện chúng hoặc tận dụng các bộ dữ liệu mới. Điều này có thể xuất phát từ sự phát triển nhanh chóng của công nghệ xử lý ngôn ngữ trong vài năm gần đây và việc các mô hình ngôn ngữ khổng lồ đang thể hiện hiệu năng vượt trội trong nhiều tác vụ xử lý ngôn ngữ tự nhiên.
Các mô hình ngôn ngữ, đặc biệt là những mô hình lớn như GPT-4, đang được ứng dụng trong nhiều ngành công nghiệp và lĩnh vực nghiên cứu khác nhau. Vì vậy, nhu cầu phát triển các kỹ thuật mới để huấn luyện những mô hình này hiệu quả hơn, áp dụng chúng trên dữ liệu đa dạng hơn, thậm chí vẫn duy trì hiệu năng cao với số bit thấp hơn, đang ngày càng tăng. Ngoài ra, một tiêu đề như "On the Societal Impact of Open Foundation Models" cho thấy cũng có những nghiên cứu về tác động xã hội của các mô hình ngôn ngữ, hàm ý rằng bên cạnh tiến bộ công nghệ, nhận thức về những thay đổi xã hội và trách nhiệm đi kèm cũng đang gia tăng.
Trong khi đó, những tiêu đề kém cụ thể hơn như "LearnAct" hay "EMO" cũng gây chú ý; các bài báo này có thể không chỉ giới hạn ở mô hình ngôn ngữ mà còn tập trung vào các ứng dụng rộng hơn hoặc những tiến bộ về mặt lý thuyết. Nhìn chung, có thể thấy trong tuần này, các cách tiếp cận mới đối với mô hình hóa ngôn ngữ và những nghiên cứu ứng dụng đa dạng tận dụng chúng đã trở thành xu hướng trung tâm. Điều này phản ánh sức nóng trong nghiên cứu và phát triển nhằm giải quyết nhiều thách thức quan trọng trong lĩnh vực AI.

Genie: Môi trường tương tác sinh tạo / Genie: Generative Interactive Environments

Giới thiệu bài báo

Genie, một foundation model được huấn luyện từ video trên Internet và có thể tạo ra nhiều thế giới 2D khác nhau có thể điều khiển hành động khi được cung cấp một image prompt, có quy mô 11B tham số và bao gồm bộ mã hóa token video không-thời gian, mô hình động lực học tự hồi quy và mô hình hành động tiềm ẩn có khả năng mở rộng. Thông qua không gian hành động tiềm ẩn, tác nhân đã học có thể bắt chước hành vi trong các video chưa từng thấy, cho thấy tiềm năng trong việc xây dựng các tác nhân tổng quát hơn.

A foundation model trained from internet videos and with the ability to generate a variety of action-controllable 2d worlds given an image prompt; genie has 11b parameters and consists of a spatiotemporal video tokenizer, an autoregressive dynamic model, and a scalable latent action model; the latent action space enables training agents to imitate behaviors from unseen video which is promising for building more generalist agents.

Tóm tắt bài báo (Abstract)

Chúng tôi giới thiệu Genie, môi trường tương tác sinh tạo đầu tiên được huấn luyện theo cách không giám sát từ các video Internet không gán nhãn. Mô hình này có thể được prompt để tạo ra vô số thế giới ảo có thể điều khiển hành động, được mô tả bằng văn bản, hình ảnh tổng hợp, ảnh chụp và thậm chí cả bản phác thảo. Với 11B tham số, Genie có thể được xem là một foundation world model. Nó bao gồm bộ mã hóa token video không-thời gian, mô hình động lực học tự hồi quy và một mô hình hành động tiềm ẩn đơn giản nhưng có khả năng mở rộng. Genie cho phép người dùng hành động trong các môi trường được sinh ra theo từng khung hình, dù được huấn luyện mà không có bất kỳ nhãn hành động ground-truth nào hay các yêu cầu đặc thù miền khác vốn thường thấy trong các nghiên cứu về world model. Ngoài ra, không gian hành động tiềm ẩn được học còn hỗ trợ huấn luyện tác nhân bắt chước hành vi từ các video chưa từng thấy, mở ra con đường để huấn luyện các tác nhân tổng quát trong tương lai.

We introduce Genie, the first generative interactive environment trained in an unsupervised manner from unlabelled Internet videos. The model can be prompted to generate an endless variety of action-controllable virtual worlds described through text, synthetic images, photographs, and even sketches. At 11B parameters, Genie can be considered a foundation world model. It is comprised of a spatiotemporal video tokenizer, an autoregressive dynamics model, and a simple and scalable latent action model. Genie enables users to act in the generated environments on a frame-by-frame basis despite training without any ground-truth action labels or other domain-specific requirements typically found in the world model literature. Further the resulting learned latent action space facilitates training agents to imitate behaviors from unseen videos, opening the path for training generalist agents of the future.

Liên kết bài báo

https://arxiv.org/abs/2402.15391

Đọc thêm

https://discuss.pytorch.kr/t/…

https://sites.google.com/view/genie-2024/home

https://x.com/_rockt/status/1762026090262872161

Mistral Large / Mistral Large

Giới thiệu bài báo

Các đặc điểm của một language engine mới với năng lực mạnh về đa ngôn ngữ, suy luận, toán học và sinh mã gồm: 1) cửa sổ ngữ cảnh 32k token, 2) năng lực đa ngôn ngữ gốc, 3) khả năng mạnh trên các benchmark về suy luận, tri thức, toán học và lập trình, 4) hỗ trợ gốc cho function calling và định dạng JSON.

A new llm with strong multilingual, reasoning, maths, and code generation capabilities; features include: 1) 32k tokens context window, 2) native multilingual capacities, 3) strong abilities in reasoning, knowledge, maths, and coding benchmarks, and 4) function calling and json format natively supported.

Liên kết bài báo

https://mistral.ai/news/mistral-large/

Đọc thêm

https://discuss.pytorch.kr/t/…

https://x.com/omarsar0/status/1762140818654064721

Kỷ nguyên của LLM 1-bit: Mọi mô hình ngôn ngữ lớn đều ở mức 1.58 bit / The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

Giới thiệu bài báo

Giới thiệu BitNet b1.58, một biến thể LLM 1-bit hiệu năng cao và tiết kiệm chi phí, trong đó mọi tham số đều là tam phân {-1, 0, 1}. Với cùng kích thước mô hình và số token huấn luyện, BitNet b1.58 có thể sánh ngang LLM Transformer độ chính xác đầy đủ (tức fp16) về độ phức tạp và hiệu năng tác vụ; ưu điểm của LLM 1-bit này là độ trễ, bộ nhớ, thông lượng và mức tiêu thụ năng lượng được cải thiện đáng kể.

Introduces a high-performing and cost-effective 1-bit llm variant called bitnet b1.58 where every parameter is a ternary {-1, 0, 1}; given the same model size and training tokens, bitnet b1.58 can match the perplexity and task performance of a full precision transformer llm (i.e., fp16); the benefits of this 1-bit llm are significantly better latency, memory, throughout, and energy consumption.

Tóm tắt bài báo (Abstract)

Các nghiên cứu gần đây như BitNet đang mở đường cho một kỷ nguyên mới của các mô hình ngôn ngữ lớn (LLM) 1-bit. Trong bài viết này, chúng tôi giới thiệu một biến thể LLM 1-bit, cụ thể là BitNet b1.58, trong đó mọi tham số đơn lẻ (hoặc trọng số) của LLM đều là tam phân {-1, 0, 1}. Mô hình này sánh ngang LLM Transformer độ chính xác đầy đủ (tức FP16 hoặc BF16) có cùng kích thước mô hình và số token huấn luyện về cả độ phức tạp và hiệu năng tác vụ cuối, đồng thời tiết kiệm chi phí hơn đáng kể về độ trễ, bộ nhớ, thông lượng và mức tiêu thụ năng lượng. Ở mức sâu hơn, LLM 1.58-bit xác lập một định luật mở rộng và công thức huấn luyện mới cho các thế hệ LLM tiếp theo vừa hiệu năng cao vừa tiết kiệm chi phí. Ngoài ra, nó còn cho phép một mô hình tính toán mới và mở ra cánh cửa cho việc thiết kế phần cứng chuyên biệt được tối ưu cho LLM 1-bit.

Recent research, such as BitNet, is paving the way for a new era of 1-bit Large Language Models (LLMs). In this work, we introduce a 1-bit LLM variant, namely BitNet b1.58, in which every single parameter (or weight) of the LLM is ternary {-1, 0, 1}. It matches the full-precision (i.e., FP16 or BF16) Transformer LLM with the same model size and training tokens in terms of both perplexity and end-task performance, while being significantly more cost-effective in terms of latency, memory, throughput, and energy consumption. More profoundly, the 1.58-bit LLM defines a new scaling law and recipe for training new generations of LLMs that are both high-performance and cost-effective. Furthermore, it enables a new computation paradigm and opens the door for designing specific hardware optimized for 1-bit LLMs.

Liên kết bài báo

https://arxiv.org/abs/2402.17764

Đọc thêm

https://x.com/_akhaliq/status/1762729757454618720

Bộ dữ liệu cho mô hình ngôn ngữ lớn: Bài khảo sát toàn diện / Datasets for Large Language Models: A Comprehensive Survey

Giới thiệu bài báo

Tổng quan và phân tích toàn diện về các bộ dữ liệu LLM, dài hơn 180 trang.

A comprehensive overview (180+ pages) and analysis of llm datasets.

Tóm tắt bài báo (Abstract)

Bài báo này bắt đầu khám phá các bộ dữ liệu cho mô hình ngôn ngữ lớn (LLM), vốn đóng vai trò then chốt trong những bước tiến vượt bậc của LLM. Các bộ dữ liệu đóng vai trò là hạ tầng nền tảng, có thể ví như hệ rễ duy trì và nuôi dưỡng sự phát triển của LLM. Vì vậy, việc khảo sát các bộ dữ liệu này đang nổi lên như một chủ đề nghiên cứu quan trọng. Để giải quyết tình trạng hiện thiếu một bức tranh tổng quan toàn diện và phân tích kỹ lưỡng về các bộ dữ liệu LLM, đồng thời rút ra hiểu biết về hiện trạng và xu hướng tương lai, khảo sát này tổng hợp và phân loại các khía cạnh cốt lõi của bộ dữ liệu LLM từ năm góc nhìn: (1) kho ngữ liệu tiền huấn luyện, (2) bộ dữ liệu tinh chỉnh theo chỉ dẫn, (3) bộ dữ liệu sở thích, (4) bộ dữ liệu đánh giá, (5) bộ dữ liệu xử lý ngôn ngữ tự nhiên (NLP) truyền thống. Khảo sát này làm sáng tỏ những thách thức hiện tại và chỉ ra các hướng nghiên cứu tiềm năng trong tương lai. Ngoài ra, bài viết cũng cung cấp một tổng quan toàn diện về các tài nguyên bộ dữ liệu hiện có, bao gồm thống kê của 444 bộ dữ liệu, trải rộng trên 8 nhóm ngôn ngữ và 32 miền lĩnh vực. Thông tin từ 20 chiều được tích hợp vào thống kê bộ dữ liệu. Tổng quy mô dữ liệu được khảo sát đã vượt 774,5TB đối với kho ngữ liệu tiền huấn luyện và 700 triệu mẫu đối với các bộ dữ liệu khác. Chúng tôi hướng tới việc trình bày toàn cảnh các bộ dữ liệu văn bản LLM, qua đó trở thành tài liệu tham khảo toàn diện cho các nhà nghiên cứu trong lĩnh vực này và đóng góp cho các nghiên cứu tương lai. Tài nguyên liên quan có tại https://github.com/lmmlzn/Awesome-LLMs-Datasets.

This paper embarks on an exploration into the Large Language Model (LLM) datasets, which play a crucial role in the remarkable advancements of LLMs. The datasets serve as the foundational infrastructure analogous to a root system that sustains and nurtures the development of LLMs. Consequently, examination of these datasets emerges as a critical topic in research. In order to address the current lack of a comprehensive overview and thorough analysis of LLM datasets, and to gain insights into their current status and future trends, this survey consolidates and categorizes the fundamental aspects of LLM datasets from five perspectives: (1) Pre-training Corpora; (2) Instruction Fine-tuning Datasets; (3) Preference Datasets; (4) Evaluation Datasets; (5) Traditional Natural Language Processing (NLP) Datasets. The survey sheds light on the prevailing challenges and points out potential avenues for future investigation. Additionally, a comprehensive review of the existing available dataset resources is also provided, including statistics from 444 datasets, covering 8 language categories and spanning 32 domains. Information from 20 dimensions is incorporated into the dataset statistics. The total data size surveyed surpasses 774.5 TB for pre-training corpora and 700M instances for other datasets. We aim to present the entire landscape of LLM text datasets, serving as a comprehensive reference for researchers in this field and contributing to future studies. Related resources are available at: https://github.com/lmmlzn/Awesome-LLMs-Datasets.

Liên kết bài báo

https://arxiv.org/abs/2402.18041

Đọc thêm

https://github.com/lmmlzn/Awesome-LLMs-Datasets

https://x.com/omarsar0/status/1763233452852134001

Tăng cường năng lực tác tử mô hình ngôn ngữ lớn thông qua học hành động / Empowering Large Language Model Agents through Action Learning

Giới thiệu bài báo

Khảo sát học hành động mở cho các tác tử ngôn ngữ thông qua chiến lược học lặp tạo và cải thiện hành động bằng các hàm Python; trong mỗi vòng lặp, framework được đề xuất (learnact) mở rộng không gian hành động và nâng cao hiệu quả hành động bằng cách sửa đổi và cập nhật các hành động khả dụng dựa trên phản hồi khi thực thi; kết quả học trên môi trường lập kế hoạch robot và Alfworld cho thấy hiệu năng tác tử trên Alfworld được cải thiện 32% so với react+reflexion.

Explores open-action learning for language agents through an iterative learning strategy that creates and improves actions using python functions; on each iteration, the proposed framework (learnact) expands the action space and enhances action effectiveness by revising and updating available actions based on execution feedback; the learnact framework was tested on robotic planning and alfworld environments; it improves agent performance by 32% in alfworld compared to react+reflexion.

Tóm tắt(Abstract)

Gần đây, các tác tử mô hình ngôn ngữ lớn (LLM) đang thu hút ngày càng nhiều sự quan tâm, nhưng chúng vẫn bị hạn chế về khả năng học qua thử và sai, một yếu tố cốt lõi của hành vi thông minh. Nghiên cứu này lập luận rằng năng lực học các hành động mới từ kinh nghiệm là nền tảng thiết yếu để thúc đẩy khả năng học của các tác tử LLM. Trong khi con người tự nhiên mở rộng không gian hành động và phát triển kỹ năng thông qua học từ trải nghiệm, các tác tử LLM thường chỉ hoạt động trong không gian hành động cố định, làm hạn chế tiềm năng phát triển của chúng. Để giải quyết những thách thức này, nghiên cứu khám phá việc học hành động mở cho các tác tử ngôn ngữ. Nhóm tác giả giới thiệu LearnAct, một framework với chiến lược học lặp nhằm tạo ra và cải thiện các hành động dưới dạng hàm Python. Ở mỗi vòng lặp, LLM sẽ chỉnh sửa và cập nhật các hành động hiện có dựa trên những lỗi được xác định từ các tác vụ huấn luyện thất bại, qua đó nâng cao hiệu quả của hành động. Đánh giá thực nghiệm trong các môi trường Robotic Planning và Alfworld cho thấy sau khi học trên một vài trường hợp tác vụ huấn luyện, cách tiếp cận học hành động mở này cải thiện đáng kể hiệu năng của tác tử đối với loại tác vụ tương ứng (ví dụ: hơn 32% trong AlfWorld so với ReAct+Reflexion). Đây là kết quả nhấn mạnh tầm quan trọng của việc học hành động từ trải nghiệm trong quá trình phát triển các tác tử LLM thông minh hơn.

Large Language Model (LLM) Agents have recently garnered increasing interest yet they are limited in their ability to learn from trial and error, a key element of intelligent behavior. In this work, we argue that the capacity to learn new actions from experience is fundamental to the advancement of learning in LLM agents. While humans naturally expand their action spaces and develop skills through experiential learning, LLM agents typically operate within fixed action spaces, limiting their potential for growth. To address these challenges, our study explores open-action learning for language agents. We introduce a framework LearnAct with an iterative learning strategy to create and improve actions in the form of Python functions. In each iteration, LLM revises and updates the currently available actions based on the errors identified in unsuccessful training tasks, thereby enhancing action effectiveness. Our experimental evaluations across Robotic Planning and Alfworld environments reveal that after learning on a few training task instances, our approach to open-action learning markedly improves agent performance for the type of task (by 32 percent in AlfWorld compared to ReAct+Reflexion, for instance) highlighting the importance of experiential action learning in the development of more intelligent LLM agents.

Liên kết bài báo

https://arxiv.org/abs/2402.15809

Đọc thêm

https://x.com/omarsar0/status/1762533498492010761

EMO: Chân dung cảm xúc sống động - Tạo video chân dung biểu cảm bằng mô hình khuếch tán Audio2Video trong điều kiện ràng buộc yếu / EMO: Emote Portrait Alive -- Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions

Giới thiệu bài báo

EMO là một framework mới tạo video biểu cảm bằng cách sử dụng phương pháp tổng hợp trực tiếp Audio-to-Video với mô hình khuếch tán Audio-to-Video, không cần mô hình 3D trung gian hay facial landmark; phương pháp này có thể tạo ra các video nói chuyện và video hát đầy thuyết phục với nhiều phong cách khác nhau, đồng thời vượt trội hơn các phương pháp trước đây về mức độ biểu cảm và tính chân thực.

A new framework for generating expressive video by utilizing a direct audio-to-video synthesis approach; by leveraging an audio2video diffusion model it bypasses the need for intermediate 3d models or facial landmarks; emo can produce convincing speaking videos and singing videos in various styles while outperforming existing methods in terms of expressiveness and realism.

Tóm tắt bài báo (Abstract)

Nghiên cứu này giải quyết bài toán nâng cao tính chân thực và khả năng biểu cảm trong việc tạo video talking head bằng cách tập trung vào mối quan hệ động và tinh tế giữa tín hiệu âm thanh và chuyển động khuôn mặt. Unity xác định những hạn chế của các kỹ thuật truyền thống, vốn thường không nắm bắt được đầy đủ phổ biểu cảm của con người cũng như sự độc đáo trong phong cách khuôn mặt của từng cá nhân. Để giải quyết các vấn đề này, Unity đề xuất EMO, một framework mới sử dụng phương pháp tổng hợp trực tiếp audio-to-video, bỏ qua nhu cầu về các mô hình 3D trung gian hoặc facial landmark. Phương pháp này đảm bảo chuyển tiếp khung hình mượt mà và duy trì nhất quán danh tính trong suốt video, từ đó tạo ra các hoạt ảnh sống động và giàu biểu cảm. Kết quả thực nghiệm cho thấy EMO không chỉ có thể tạo ra các video nói chuyện thuyết phục mà còn tạo được các video hát với nhiều phong cách khác nhau, vượt trội đáng kể so với các phương pháp hiện đại trước đây về mức độ biểu cảm và tính chân thực.

In this work, we tackle the challenge of enhancing the realism and expressiveness in talking head video generation by focusing on the dynamic and nuanced relationship between audio cues and facial movements. We identify the limitations of traditional techniques that often fail to capture the full spectrum of human expressions and the uniqueness of individual facial styles. To address these issues, we propose EMO, a novel framework that utilizes a direct audio-to-video synthesis approach, bypassing the need for intermediate 3D models or facial landmarks. Our method ensures seamless frame transitions and consistent identity preservation throughout the video, resulting in highly expressive and lifelike animations. Experimental results demonsrate that EMO is able to produce not only convincing speaking videos but also singing videos in various styles, significantly outperforming existing state-of-the-art methodologies in terms of expressiveness and realism.

Liên kết bài báo

https://arxiv.org/abs/2402.17485

Đọc thêm

https://x.com/_akhaliq/status/1762686465777999932

Tác động xã hội của các mô hình nền tảng mở / On the Societal Impact of Open Foundation Models

Giới thiệu bài báo

Một bài viết quan điểm tập trung vào các mô hình nền tảng mở cùng tác động, lợi ích và rủi ro của chúng; đề xuất một khung đánh giá rủi ro để phân tích rủi ro và giải thích vì sao rủi ro cận biên của các mô hình nền tảng mở là thấp trong một số trường hợp; đồng thời đưa ra một đánh giá có cơ sở hơn về tác động xã hội của các mô hình nền tảng mở.

A position paper with a focus on open foundation models and their impact, benefits, and risks; proposes a risk assessment framework for analyzing risk and explains why the marginal risk of open foundation models is low in some cases; it also offers a more grounded assessment of the societal impact of open foundation models.

Liên kết bài báo

https://crfm.stanford.edu/open-fms/

Đọc thêm

https://x.com/sayashk/status/1762508812370551207

StarCoder 2 / StarCoder 2

Giới thiệu bài báo

Một họ mô hình machine learning mở dành cho code với ba kích cỡ khác nhau (3b, 7b và 15b); mô hình 15b được huấn luyện trên 14 nghìn tỷ token và hơn 600 ngôn ngữ lập trình, với cửa sổ ngữ cảnh 16k token và mục tiêu fill-in-the-middle; đạt mức tương đương các mô hình 33b+ trong nhiều bài đánh giá như hoàn thành code, suy luận trên code và suy luận toán học với sự hỗ trợ của PAL.

A family of open llms for code with three different sizes (3b, 7b, and 15b); the 15b model was trained on 14 trillion tokens and 600+ programming languages with a context window of 16k token and employing a fill-in-the-middle objective; it matches 33b+ models on many evaluation like code completion, code reasoning, and math reasoning aided through pal.

Liên kết bài báo

https://huggingface.co/blog/starcoder2

Đọc thêm

https://x.com/_philschmid/status/1762843489220296881

Các mô hình ngôn ngữ lớn (LLM) trên dữ liệu dạng bảng: Dự đoán, sinh dữ liệu và hiểu biết - Bài khảo sát / Large Language Models(LLMs) on Tabular Data: Prediction, Generation, and Understanding - A Survey

Giới thiệu bài báo

Trình bày tổng quan về LLM cho các tác vụ dữ liệu dạng bảng, bao gồm các kỹ thuật chủ chốt, metric, bộ dữ liệu, mô hình và phương pháp tối ưu hóa; đồng thời đề cập đến các hạn chế và những ý tưởng chưa được khai phá, cùng các góc nhìn về hướng nghiên cứu trong tương lai.

An overview of llms for tabular data tasks including key techniques, metrics, datasets, models, and optimization approaches; it covers limitations and unexplored ideas with insights for future research directions.

Tóm tắt bài báo(Abstract)

Những đột phá gần đây trong mô hình hóa ngôn ngữ lớn đã tạo điều kiện cho việc khám phá một cách nghiêm ngặt ứng dụng của chúng trong nhiều tác vụ liên quan đến mô hình hóa dữ liệu dạng bảng, như dự đoán, tổng hợp dữ liệu bảng, hỏi đáp và hiểu bảng. Mỗi tác vụ đều có những thách thức và cơ hội riêng. Tuy nhiên, hiện vẫn thiếu một bài tổng quan toàn diện tóm tắt và so sánh các kỹ thuật chủ chốt, metric, bộ dữ liệu, mô hình và phương pháp tối ưu hóa trong lĩnh vực nghiên cứu này. Bài khảo sát này nhằm lấp đầy khoảng trống đó bằng cách tổng hợp những tiến triển gần đây trong các lĩnh vực này, cung cấp một khảo sát kỹ lưỡng và hệ thống phân loại về các bộ dữ liệu, chỉ số và phương pháp được sử dụng. Bài viết xác định các điểm mạnh, hạn chế, vùng chưa được khám phá và những khoảng trống trong tài liệu hiện có, đồng thời đưa ra một số góc nhìn về các hướng nghiên cứu tương lai trong lĩnh vực quan trọng và đang phát triển rất nhanh này. Bài viết cũng cung cấp các tham chiếu đến code và bộ dữ liệu liên quan. Thông qua bài tổng quan toàn diện này, chúng tôi hy vọng có thể cung cấp cho độc giả quan tâm những tài liệu tham khảo phù hợp và các góc nhìn sâu sắc, giúp họ có được những công cụ và kiến thức cần thiết để điều hướng và giải quyết hiệu quả các thách thức hiện tại trong lĩnh vực này.

Recent breakthroughs in large language modeling have facilitated rigorous exploration of their application in diverse tasks related to tabular data modeling, such as prediction, tabular data synthesis, question answering, and table understanding. Each task presents unique challenges and opportunities. However, there is currently a lack of comprehensive review that summarizes and compares the key techniques, metrics, datasets, models, and optimization approaches in this research domain. This survey aims to address this gap by consolidating recent progress in these areas, offering a thorough survey and taxonomy of the datasets, metrics, and methodologies utilized. It identifies strengths, limitations, unexplored territories, and gaps in the existing literature, while providing some insights for future research directions in this vital and rapidly evolving field. It also provides relevant code and datasets references. Through this comprehensive review, we hope to provide interested readers with pertinent references and insightful perspectives, empowering them with the necessary tools and knowledge to effectively navigate and address the prevailing challenges in the field.

Liên kết bài báo

https://arxiv.org/abs/2402.17944

Đọc thêm

https://x.com/omarsar0/status/1763187964501254492

PlanGPT: Cải thiện quy hoạch đô thị bằng mô hình ngôn ngữ được tinh chỉnh theo nhu cầu và truy xuất hiệu quả / PlanGPT: Enhancing Urban Planning with Tailored Language Model and Efficient Retrieval

Giới thiệu bài báo

Trình bày cách tận dụng LLM và kết hợp nhiều phương pháp như retrieval augmentation, fine-tuning, sử dụng công cụ, v.v.; khung làm việc được đề xuất được áp dụng cho quy hoạch đô thị và không gian, nhưng cũng có nhiều insight và mẹo thực tiễn có thể áp dụng cho các lĩnh vực khác.

Shows how to leverage llms and combine multiple approaches like retrieval augmentation, fine-tuning, tool usage, and more; the proposed framework is applied to urban and spatial planning but there are a lot of insights and practical tips that apply to other domains.

Tóm tắt bài báo(Abstract)

Trong lĩnh vực quy hoạch đô thị, các mô hình ngôn ngữ lớn đa dụng thường gặp khó khăn trong việc đáp ứng những nhu cầu cụ thể của nhà quy hoạch. Những tác vụ như tạo văn bản quy hoạch đô thị, truy xuất thông tin liên quan và đánh giá tài liệu quy hoạch đều đặt ra các thách thức riêng. Để nâng cao hiệu quả cho các chuyên gia đô thị và vượt qua những trở ngại này, chúng tôi giới thiệu PlanGPT, mô hình ngôn ngữ lớn chuyên biệt đầu tiên được thiết kế riêng cho quy hoạch đô thị và không gian. Được phát triển thông qua hợp tác với các tổ chức như Học viện Quy hoạch Đô thị Trung Quốc, PlanGPT tận dụng một khung truy xuất cơ sở dữ liệu cục bộ tùy chỉnh, tinh chỉnh mô hình nền theo miền chuyên biệt và các khả năng công cụ nâng cao. Các thử nghiệm thực nghiệm cho thấy PlanGPT đạt hiệu năng tiên tiến, cung cấp các phản hồi chất lượng vượt trội được điều chỉnh chính xác theo sự phức tạp của quy hoạch đô thị.

In the field of urban planning, general-purpose large language models often struggle to meet the specific needs of planners. Tasks like generating urban planning texts, retrieving related information, and evaluating planning documents pose unique challenges. To enhance the efficiency of urban professionals and overcome these obstacles, we introduce PlanGPT, the first specialized Large Language Model tailored for urban and spatial planning. Developed through collaborative efforts with institutions like the Chinese Academy of Urban Planning, PlanGPT leverages a customized local database retrieval framework, domain-specific fine-tuning of base models, and advanced tooling capabilities. Empirical tests demonstrate that PlanGPT has achieved advanced performance, delivering responses of superior quality precisely tailored to the intricacies of urban planning.

Bài viết này được tổng hợp bằng mô hình GPT, vì vậy có thể có một số điểm chưa chính xác, nên hãy tham khảo thêm bài gốc ở phía dưới! Nếu trong lúc đọc bạn phát hiện nội dung gượng gạo hoặc sai sót, mong bạn để lại bình luận để cho chúng tôi biết.

⚠️Quảng cáo⚠️: Bạn thấy bài viết này do Cộng đồng người dùng PyTorch Hàn Quốc tổng hợp hữu ích chứ? Nếu đăng ký thành viên, bạn sẽ nhận được các bài viết chính qua email! (Mặc định là Weekly, nhưng cũng có thể chuyển sang Daily.)

[2024/02/26 ~ 03/03] Các bài báo ML nổi bật trong tuần (Top ML Papers of the Week)

Genie: Môi trường tương tác sinh tạo / Genie: Generative Interactive Environments

Giới thiệu bài báo

Tóm tắt bài báo (Abstract)

Liên kết bài báo

Đọc thêm

Mistral Large / Mistral Large

Giới thiệu bài báo

Liên kết bài báo

Đọc thêm

Kỷ nguyên của LLM 1-bit: Mọi mô hình ngôn ngữ lớn đều ở mức 1.58 bit / The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

Giới thiệu bài báo

Tóm tắt bài báo (Abstract)

Liên kết bài báo

Đọc thêm

Bộ dữ liệu cho mô hình ngôn ngữ lớn: Bài khảo sát toàn diện / Datasets for Large Language Models: A Comprehensive Survey

Giới thiệu bài báo

Tóm tắt bài báo (Abstract)

Liên kết bài báo

Đọc thêm

Tăng cường năng lực tác tử mô hình ngôn ngữ lớn thông qua học hành động / Empowering Large Language Model Agents through Action Learning

Giới thiệu bài báo

Tóm tắt(Abstract)

Liên kết bài báo

Đọc thêm

EMO: Chân dung cảm xúc sống động - Tạo video chân dung biểu cảm bằng mô hình khuếch tán Audio2Video trong điều kiện ràng buộc yếu / EMO: Emote Portrait Alive -- Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions

Giới thiệu bài báo

Tóm tắt bài báo (Abstract)

Liên kết bài báo

Đọc thêm

Tác động xã hội của các mô hình nền tảng mở / On the Societal Impact of Open Foundation Models

Giới thiệu bài báo

Liên kết bài báo

Đọc thêm

StarCoder 2 / StarCoder 2

Giới thiệu bài báo

Liên kết bài báo

Đọc thêm

Các mô hình ngôn ngữ lớn (LLM) trên dữ liệu dạng bảng: Dự đoán, sinh dữ liệu và hiểu biết - Bài khảo sát / Large Language Models(LLMs) on Tabular Data: Prediction, Generation, and Understanding - A Survey

Giới thiệu bài báo

Tóm tắt bài báo(Abstract)

Liên kết bài báo

Đọc thêm

PlanGPT: Cải thiện quy hoạch đô thị bằng mô hình ngôn ngữ được tinh chỉnh theo nhu cầu và truy xuất hiệu quả / PlanGPT: Enhancing Urban Planning with Tailored Language Model and Efficient Retrieval

Giới thiệu bài báo

Tóm tắt bài báo(Abstract)

Liên kết bài báo

Đọc thêm

Nguyên văn

Bài viết liên quan

Chưa có bình luận nào.