DeepSeek công bố Janus Pro, mô hình tạo ảnh từ văn bản [PDF]

(github.com/deepseek-ai)

5 điểm bởi GN⁺ 2025-01-28 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Janus-Pro: phiên bản nâng cấp của mô hình hiểu và tạo sinh đa phương thức hợp nhất
Đây là mô hình phát triển từ Janus hiện có, với các cải tiến sau
- Chiến lược huấn luyện được tối ưu hóa
- Dữ liệu huấn luyện được mở rộng
- Mở rộng lên quy mô mô hình lớn hơn
Mục tiêu: cải thiện hiệu năng hiểu đa phương thức và tạo ảnh từ văn bản, đồng thời tăng cường độ ổn định khi tạo sinh

Cải thiện hiệu năng chính

Hiểu đa phương thức

Janus-Pro đạt điểm cao nhất 79.2 trên benchmark hiểu đa phương thức (MMBench)
Đạt hiệu năng vượt trội so với các mô hình hiện có như Janus, TokenFlow, MetaMorph
Tách riêng mã hóa thị giác để giảm xung đột giữa hiểu và tạo sinh

Tạo ảnh từ văn bản

Trên benchmark GenEval, đạt độ chính xác 80%, vượt DALL-E 3 (67%), SD3-Medium (74%) và các mô hình khác
Ghi nhận 84.19 điểm trên DPG-Bench, cho hiệu năng tốt hơn mọi mô hình còn lại

Cấu trúc mô hình và cải tiến

Kiến trúc mô hình

Tách mã hóa thị giác thành hai phần cho hiểu đa phương thức và tạo sinh
Sử dụng bộ mã hóa SigLIP để trích xuất đặc trưng ngữ nghĩa cấp cao
Bộ giải mã ảnh chuyển đổi hình ảnh thành ID để kết nối với đầu vào LLM

Chiến lược huấn luyện tối ưu hóa

Huấn luyện theo từng giai đoạn: cải thiện tính kém hiệu quả của chiến lược 3 giai đoạn trước đây
- Áp dụng thời gian huấn luyện dài hơn trên dữ liệu ImageNet (Stage I)
- Chỉ tập trung huấn luyện với dữ liệu văn bản-hình ảnh (Stage II)
Điều chỉnh tỷ lệ dữ liệu: giảm tỷ lệ dữ liệu văn bản-hình ảnh và tăng cường hiệu năng hiểu đa phương thức

Mở rộng dữ liệu và mô hình

Mở rộng dữ liệu:
- Bổ sung 90 triệu mẫu cho hiểu đa phương thức
- Tăng cường dữ liệu tạo ảnh từ văn bản bằng 70 triệu dữ liệu thẩm mỹ tổng hợp
Mở rộng mô hình:
- Mở rộng từ quy mô 1.5B lên 7B, cải thiện mạnh hiệu quả huấn luyện và hiệu năng
Quảng cáo

Thử nghiệm và đánh giá

So sánh hiệu năng

Janus-Pro-7B cho hiệu năng cao nhất khi so với các mô hình cùng kích thước
- Vượt qua các mô hình quy mô lớn như TokenFlow-XL (13B) ở cả hiểu đa phương thức và tạo sinh
Cả độ ổn định của ảnh được tạo và chất lượng thẩm mỹ đều được cải thiện

Hạn chế

Độ phân giải thấp (384 × 384) còn hạn chế trong các tác vụ chi tiết như OCR
Thiếu chi tiết tinh vi khi tạo ảnh từ văn bản

Kết luận

Janus-Pro đạt bước tiến quan trọng về chiến lược huấn luyện, dữ liệu và kích thước mô hình
Đạt hiệu năng hàng đầu ở cả hiểu đa phương thức lẫn tạo ảnh từ văn bản
Có kế hoạch giải quyết các bài toán chi tiết hơn bằng cách nâng cao độ phân giải trong tương lai

Chưa có bình luận nào.

Chưa có bình luận nào.