Hiện trạng của các mô hình sinh

xguru · 2025-01-06T10:21:01+09:00

Trong suốt năm 2024, cả lĩnh vực sinh văn bản lẫn sinh ảnh đều có những bước tiến lớn Không còn như giai đoạn đầu khi OpenAI gần như một mình dẫn đầu, đến cuối năm ngoái Anthropic, DeepSeek, Qwen và nhiều phòng nghiên cứu khác đã cạnh tranh mở rộng mặt trận Tổng hợp xu hướng nghiên cứu giai đoạn 2024~2025 và tóm lược ngắn gọn về những lĩnh vực được kỳ vọng trong thời gian tới “Con hào được xây dựng chỉ bằng mã nguồn đóng sẽ không tồn tại lâu Ngay cả OpenAI cũng sẽ không thể ngăn những người khác bắt kịp Cuối cùng, việc phát triển tổ chức và văn hóa của chúng ta để nuôi dưỡng nhân tài có thể đổi mới, đó mới là con hào thực sự” ─ Liang Wenfeng, CEO của DeepSeek # Language Mô hình ngôn ngữ lớn (LLM) là cốt lõi của làn sóng AI hiện nay và là nơi tập trung nhiều nghiên cứu cũng như đầu tư nhất Trong năm 2024 đã có những tiến bộ lớn cả về hiệu năng mô hình lẫn các mô thức scaling mới Architecture Các kiến trúc mới như Mamba, xLSTM đã được thử nghiệm, nhưng ít nhất ở thời điểm hiện tại decoder-only Transformer nhiều khả năng vẫn sẽ là dòng chủ đạo Dense Transformer Llama 3 là ví dụ tiêu biểu, với Meta đang tối ưu vanilla Dense Transformer đến mức cực hạn Dạng thường được gọi là Noam Transformer (Decoder-Only, RMSNorm, Group Query Attention, GLU, RoPE, v.v.) trên thực tế đã trở thành tiêu chuẩn Những hướng như Multi Latent Attention (MLA) do DeepSeek đưa ra sẽ thu hút nhiều chú ý hơn, và cũng có khả năng xuất hiện các kỹ thuật thay thế hoặc sửa đổi RoPE Mixture-of-Experts Tin đồn GPT-4 là một MoE khổng lồ lan rộng, khiến hướng này nổi lên trở lại trong năm 2024 Ở mảng mã nguồn mở, các đại diện tiêu biểu là Mixtral của Mistral và DeepSeek v2·v3 MoE có nhược điểm là không dễ phục vụ triển khai, nhưng DeepSeek đang tích cực nghiên cứu lĩnh vực này Trong tương lai, có thể kỳ vọng nhiều hướng nghiên cứu xoay quanh cơ chế routing, cách áp dụng MoE theo từng layer và khả năng diễn giải của các expert Tokenization Nhiều ý kiến cho rằng cần một đột phá để thay thế Byte Pair Encoding, nhưng hiện chưa có vấn đề quá lớn nên nó vẫn tiếp tục được sử dụng Meta đã thu hút sự chú ý khi đề xuất hai hướng thử nghiệm: xử lý CoT trong latent space (byte-based) hoặc huấn luyện Transformer ở đơn vị bytes Byte Latent Transformer (BLT) sử dụng cấu trúc Encoder/Decoder để xử lý đầu vào theo byte Có lo ngại rằng chất lượng của byte decoder có thể trở thành nút thắt cổ chai Reasoning Trong nửa cuối năm 2024, năng lực suy luận toán học, khoa học và lập trình của mô hình đã tăng vọt (o1, o3, DeepSeek r1, v.v.) Điều này có liên quan đến một mô thức scaling mới gọi là “inference-time compute” Theo đó, mô hình tạo ra Chain of Thought rất dài, rồi tự kiểm chứng và tận dụng quá trình đó Cách OpenAI tạo ra o1, o3 không được công khai, nhưng nhiều khả năng họ đã dùng hướng tiếp cận RL như trong bài báo “Let’s Verify Step by Step” Trong tương lai, Anthropic và các lab khác cũng được kỳ vọng sẽ giới thiệu những reasoner tương tự Cũng có nhiều quan tâm liệu hướng này có vượt ra khỏi sự thiên lệch về STEM để áp dụng cho các miền rộng hơn, chẳng hạn viết sáng tạo, hay không Distillation Có suy đoán rằng việc OpenAI không công bố Chain of Thought khi ra mắt o1 là vì các trường hợp tái huấn luyện bằng chính đầu ra của mô hình (như DeepSeek v3) đóng góp rất lớn vào việc cải thiện hiệu năng DeepSeek v3 không tái hiện nguyên vẹn CoT dài đặc trưng của reasoner, nhưng dường như bên trong có phân tách chế độ để suy luận khi cần Việc các mô hình nhỏ (như o1-mini) có thể tiệm cận hiệu năng mô hình lớn hay không, hoặc liệu có tồn tại kỹ thuật chưng cất bí mật bên trong, cũng là một chủ đề nghiên cứu thú vị # Image Ở mảng hình ảnh, nhiều phòng nghiên cứu quy mô vừa và nhỏ đã tham gia, khiến đổi mới diễn ra rất nhanh Các mô hình chủ chốt hiện nay (Flux, Stable Diffusion 3, MidJourney, Sora, v.v.) đều dựa trên Diffusion Transformer, với Flow Matching là framework chủ đạo Architecture Dạng kết hợp Diffusion Transformer với adaptive normalization, kiến trúc MM-DIT, v.v. hiện được dùng phổ biến Nhiều khả năng trong năm 2025 sẽ có thêm các nỗ lực thay thế text encoder dựa trên CLIP bằng các LLM nhỏ gọn hơn Framework Một xu hướng đã hình thành là ưu tiên Flow Matching thay vì cách tiếp cận xác suất truyền thống Các mô hình AutoRegressive cũng có thể trỗi dậy trở lại, và bài báo Visual Autoregressive Modelling đã nhận được nhiều quan tâm Kỹ thuật sinh ảnh do xAI công bố cũng được cho là autoregressive, nhưng lý do cụ thể vẫn chưa được biết # Multimodality OpenAI, Anthropic và các bên khác từ trước đã cung cấp khả năng đưa hình ảnh vào mô hình, nhưng trong nửa đầu năm 2024 nghiên cứu đa phương thức theo hướng cởi mở hơn đã trở nên sôi động Visual Language Models Nhiều VLM như Qwen, PaliGemma đã xuất hiện và được dùng cho caption ảnh hoặc parsing tài liệu Kiến trúc nối Vision Transformer với LLM đã được huấn luyện trước đã trở thành tiêu chuẩn Trong năm 2025, các VLM như vậy được dự đoán sẽ được hợp nhất thành Omni-Models Omni-Modal Models OpenAI từng có ví dụ tạo cả hình ảnh bằng GPT-4o, nhưng chưa công bố hoàn toàn Chameleon và một số hướng khác đã thử nghiệm mô hình hợp nhất sớm bằng image tokenizer + detokenizer Vẫn đang có tranh luận trái chiều về cách xử lý cả đầu ra phi văn bản dưới dạng discrete token Có tin đồn Llama 4 đang được huấn luyện theo hướng omni-modal từ sớm, nên đang nhận được nhiều kỳ vọng # Agents and Human-AI Interfaces Khái niệm “AI Agent” còn mơ hồ, nhưng ở đây tạm gọi agent là cách trao cho LLM quyền dùng công cụ để tự đạt được mục tiêu Theo thước đo SWE-Bench, đến cuối năm 2025 các hệ thống này được dự đoán sẽ tự động hóa việc debug mã và triển khai tính năng ở một mức độ nhất định Tuy vậy, vẫn còn quá sớm để nói đến mức thay thế kỹ sư, và nhiều khả năng chúng sẽ được áp dụng trước ở những lĩnh vực chấp nhận sai số rộng hơn như lịch trình du lịch hay tìm kiếm thông tin Giao diện kiểu editor như Cursor có thể phù hợp hơn cho việc tận dụng agent Việc gọi agent có chi phí token lớn, nên vẫn chưa rõ các agent hoàn toàn tự trị có hiệu quả về chi phí hay không # 2025 Chúng ta đã quen với câu nói rằng AI phát triển rất nhanh, nhưng trên thực tế mức thay đổi còn lớn đến mức khó cả ước lượng tốc độ đó Bài viết này chỉ lược bàn ngắn gọn về hiện trạng xoay quanh văn bản và hình ảnh, cùng những điểm đáng kỳ vọng trong năm 2025. Trong số các lĩnh vực chưa được đề cập, những mảng đáng chú ý gồm: Tối ưu hóa huấn luyện (Muon, NanoGPT speedruns) Mô hình video (giải quyết vấn đề tính nhất quán và tốc độ suy luận) Quantization (lượng tử hóa 1 bit, độ chính xác dưới FP8, v.v.) Nghiên cứu khả năng diễn giải mô hình Đánh giá·benchmark (hy vọng sẽ có nhiều đánh giá dựa trên công việc thực tế như SWE-Bench hơn) Kỳ vọng sẽ có thêm nhiều tiến bộ trong năm 2025

(nrehiew.github.io)

20 điểm bởi xguru 2025-01-06 | 2 bình luận | Chia sẻ qua WhatsApp

Trong suốt năm 2024, cả lĩnh vực sinh văn bản lẫn sinh ảnh đều có những bước tiến lớn
Không còn như giai đoạn đầu khi OpenAI gần như một mình dẫn đầu, đến cuối năm ngoái Anthropic, DeepSeek, Qwen và nhiều phòng nghiên cứu khác đã cạnh tranh mở rộng mặt trận
Tổng hợp xu hướng nghiên cứu giai đoạn 2024~2025 và tóm lược ngắn gọn về những lĩnh vực được kỳ vọng trong thời gian tới

“Con hào được xây dựng chỉ bằng mã nguồn đóng sẽ không tồn tại lâu
Ngay cả OpenAI cũng sẽ không thể ngăn những người khác bắt kịp
Cuối cùng, việc phát triển tổ chức và văn hóa của chúng ta để nuôi dưỡng nhân tài có thể đổi mới, đó mới là con hào thực sự”
─ Liang Wenfeng, CEO của DeepSeek

# Language

Mô hình ngôn ngữ lớn (LLM) là cốt lõi của làn sóng AI hiện nay và là nơi tập trung nhiều nghiên cứu cũng như đầu tư nhất
Trong năm 2024 đã có những tiến bộ lớn cả về hiệu năng mô hình lẫn các mô thức scaling mới
Architecture
- Các kiến trúc mới như Mamba, xLSTM đã được thử nghiệm, nhưng ít nhất ở thời điểm hiện tại decoder-only Transformer nhiều khả năng vẫn sẽ là dòng chủ đạo
- Dense Transformer
  - Llama 3 là ví dụ tiêu biểu, với Meta đang tối ưu vanilla Dense Transformer đến mức cực hạn
  - Dạng thường được gọi là Noam Transformer (Decoder-Only, RMSNorm, Group Query Attention, GLU, RoPE, v.v.) trên thực tế đã trở thành tiêu chuẩn
  - Những hướng như Multi Latent Attention (MLA) do DeepSeek đưa ra sẽ thu hút nhiều chú ý hơn, và cũng có khả năng xuất hiện các kỹ thuật thay thế hoặc sửa đổi RoPE
- Mixture-of-Experts
  - Tin đồn GPT-4 là một MoE khổng lồ lan rộng, khiến hướng này nổi lên trở lại trong năm 2024
  - Ở mảng mã nguồn mở, các đại diện tiêu biểu là Mixtral của Mistral và DeepSeek v2·v3
  - MoE có nhược điểm là không dễ phục vụ triển khai, nhưng DeepSeek đang tích cực nghiên cứu lĩnh vực này
  - Trong tương lai, có thể kỳ vọng nhiều hướng nghiên cứu xoay quanh cơ chế routing, cách áp dụng MoE theo từng layer và khả năng diễn giải của các expert
Tokenization
- Nhiều ý kiến cho rằng cần một đột phá để thay thế Byte Pair Encoding, nhưng hiện chưa có vấn đề quá lớn nên nó vẫn tiếp tục được sử dụng
- Meta đã thu hút sự chú ý khi đề xuất hai hướng thử nghiệm: xử lý CoT trong latent space (byte-based) hoặc huấn luyện Transformer ở đơn vị bytes
- Byte Latent Transformer (BLT) sử dụng cấu trúc Encoder/Decoder để xử lý đầu vào theo byte
- Có lo ngại rằng chất lượng của byte decoder có thể trở thành nút thắt cổ chai
Reasoning
- Trong nửa cuối năm 2024, năng lực suy luận toán học, khoa học và lập trình của mô hình đã tăng vọt (o1, o3, DeepSeek r1, v.v.)
- Điều này có liên quan đến một mô thức scaling mới gọi là “inference-time compute”
  - Theo đó, mô hình tạo ra Chain of Thought rất dài, rồi tự kiểm chứng và tận dụng quá trình đó
- Cách OpenAI tạo ra o1, o3 không được công khai, nhưng nhiều khả năng họ đã dùng hướng tiếp cận RL như trong bài báo “Let’s Verify Step by Step”
- Trong tương lai, Anthropic và các lab khác cũng được kỳ vọng sẽ giới thiệu những reasoner tương tự
- Cũng có nhiều quan tâm liệu hướng này có vượt ra khỏi sự thiên lệch về STEM để áp dụng cho các miền rộng hơn, chẳng hạn viết sáng tạo, hay không
Distillation
- Có suy đoán rằng việc OpenAI không công bố Chain of Thought khi ra mắt o1 là vì các trường hợp tái huấn luyện bằng chính đầu ra của mô hình (như DeepSeek v3) đóng góp rất lớn vào việc cải thiện hiệu năng
- DeepSeek v3 không tái hiện nguyên vẹn CoT dài đặc trưng của reasoner, nhưng dường như bên trong có phân tách chế độ để suy luận khi cần
- Việc các mô hình nhỏ (như o1-mini) có thể tiệm cận hiệu năng mô hình lớn hay không, hoặc liệu có tồn tại kỹ thuật chưng cất bí mật bên trong, cũng là một chủ đề nghiên cứu thú vị

# Image

Ở mảng hình ảnh, nhiều phòng nghiên cứu quy mô vừa và nhỏ đã tham gia, khiến đổi mới diễn ra rất nhanh
Các mô hình chủ chốt hiện nay (Flux, Stable Diffusion 3, MidJourney, Sora, v.v.) đều dựa trên Diffusion Transformer, với Flow Matching là framework chủ đạo
Architecture
- Dạng kết hợp Diffusion Transformer với adaptive normalization, kiến trúc MM-DIT, v.v. hiện được dùng phổ biến
- Nhiều khả năng trong năm 2025 sẽ có thêm các nỗ lực thay thế text encoder dựa trên CLIP bằng các LLM nhỏ gọn hơn
Framework
- Một xu hướng đã hình thành là ưu tiên Flow Matching thay vì cách tiếp cận xác suất truyền thống
- Các mô hình AutoRegressive cũng có thể trỗi dậy trở lại, và bài báo Visual Autoregressive Modelling đã nhận được nhiều quan tâm
- Kỹ thuật sinh ảnh do xAI công bố cũng được cho là autoregressive, nhưng lý do cụ thể vẫn chưa được biết

# Multimodality

OpenAI, Anthropic và các bên khác từ trước đã cung cấp khả năng đưa hình ảnh vào mô hình, nhưng trong nửa đầu năm 2024 nghiên cứu đa phương thức theo hướng cởi mở hơn đã trở nên sôi động
Visual Language Models
- Nhiều VLM như Qwen, PaliGemma đã xuất hiện và được dùng cho caption ảnh hoặc parsing tài liệu
- Kiến trúc nối Vision Transformer với LLM đã được huấn luyện trước đã trở thành tiêu chuẩn
- Trong năm 2025, các VLM như vậy được dự đoán sẽ được hợp nhất thành Omni-Models
Omni-Modal Models
- OpenAI từng có ví dụ tạo cả hình ảnh bằng GPT-4o, nhưng chưa công bố hoàn toàn
- Chameleon và một số hướng khác đã thử nghiệm mô hình hợp nhất sớm bằng image tokenizer + detokenizer
- Vẫn đang có tranh luận trái chiều về cách xử lý cả đầu ra phi văn bản dưới dạng discrete token
- Có tin đồn Llama 4 đang được huấn luyện theo hướng omni-modal từ sớm, nên đang nhận được nhiều kỳ vọng

# Agents and Human-AI Interfaces

Khái niệm “AI Agent” còn mơ hồ, nhưng ở đây tạm gọi agent là cách trao cho LLM quyền dùng công cụ để tự đạt được mục tiêu
Theo thước đo SWE-Bench, đến cuối năm 2025 các hệ thống này được dự đoán sẽ tự động hóa việc debug mã và triển khai tính năng ở một mức độ nhất định
Tuy vậy, vẫn còn quá sớm để nói đến mức thay thế kỹ sư, và nhiều khả năng chúng sẽ được áp dụng trước ở những lĩnh vực chấp nhận sai số rộng hơn như lịch trình du lịch hay tìm kiếm thông tin
Giao diện kiểu editor như Cursor có thể phù hợp hơn cho việc tận dụng agent
Việc gọi agent có chi phí token lớn, nên vẫn chưa rõ các agent hoàn toàn tự trị có hiệu quả về chi phí hay không

# 2025

Chúng ta đã quen với câu nói rằng AI phát triển rất nhanh, nhưng trên thực tế mức thay đổi còn lớn đến mức khó cả ước lượng tốc độ đó
Bài viết này chỉ lược bàn ngắn gọn về hiện trạng xoay quanh văn bản và hình ảnh, cùng những điểm đáng kỳ vọng trong năm 2025. Trong số các lĩnh vực chưa được đề cập, những mảng đáng chú ý gồm:
- Tối ưu hóa huấn luyện (Muon, NanoGPT speedruns)
- Mô hình video (giải quyết vấn đề tính nhất quán và tốc độ suy luận)
- Quantization (lượng tử hóa 1 bit, độ chính xác dưới FP8, v.v.)
- Nghiên cứu khả năng diễn giải mô hình
- Đánh giá·benchmark (hy vọng sẽ có nhiều đánh giá dựa trên công việc thực tế như SWE-Bench hơn)
Kỳ vọng sẽ có thêm nhiều tiến bộ trong năm 2025

2 bình luận

lonzino 2025-01-06

Cảm ơn bạn

zkdlfrlwl2 2025-01-06

Cảm ơn vì phần tổng hợp gọn gàng.