- Janus-Pro: phiên bản nâng cấp của mô hình hiểu và tạo sinh đa phương thức hợp nhất
- Đây là mô hình phát triển từ Janus hiện có, với các cải tiến sau
- Chiến lược huấn luyện được tối ưu hóa
- Dữ liệu huấn luyện được mở rộng
- Mở rộng lên quy mô mô hình lớn hơn
- Mục tiêu: cải thiện hiệu năng hiểu đa phương thức và tạo ảnh từ văn bản, đồng thời tăng cường độ ổn định khi tạo sinh
Cải thiện hiệu năng chính
Hiểu đa phương thức
- Janus-Pro đạt điểm cao nhất 79.2 trên benchmark hiểu đa phương thức (MMBench)
- Đạt hiệu năng vượt trội so với các mô hình hiện có như Janus, TokenFlow, MetaMorph
- Tách riêng mã hóa thị giác để giảm xung đột giữa hiểu và tạo sinh
Tạo ảnh từ văn bản
- Trên benchmark GenEval, đạt độ chính xác 80%, vượt DALL-E 3 (67%), SD3-Medium (74%) và các mô hình khác
- Ghi nhận 84.19 điểm trên DPG-Bench, cho hiệu năng tốt hơn mọi mô hình còn lại
Cấu trúc mô hình và cải tiến
Kiến trúc mô hình
- Tách mã hóa thị giác thành hai phần cho hiểu đa phương thức và tạo sinh
- Sử dụng bộ mã hóa SigLIP để trích xuất đặc trưng ngữ nghĩa cấp cao
- Bộ giải mã ảnh chuyển đổi hình ảnh thành ID để kết nối với đầu vào LLM
Chiến lược huấn luyện tối ưu hóa
- Huấn luyện theo từng giai đoạn: cải thiện tính kém hiệu quả của chiến lược 3 giai đoạn trước đây
- Áp dụng thời gian huấn luyện dài hơn trên dữ liệu ImageNet (Stage I)
- Chỉ tập trung huấn luyện với dữ liệu văn bản-hình ảnh (Stage II)
- Điều chỉnh tỷ lệ dữ liệu: giảm tỷ lệ dữ liệu văn bản-hình ảnh và tăng cường hiệu năng hiểu đa phương thức
Mở rộng dữ liệu và mô hình
- Mở rộng dữ liệu:
- Bổ sung 90 triệu mẫu cho hiểu đa phương thức
- Tăng cường dữ liệu tạo ảnh từ văn bản bằng 70 triệu dữ liệu thẩm mỹ tổng hợp
- Mở rộng mô hình:
- Mở rộng từ quy mô 1.5B lên 7B, cải thiện mạnh hiệu quả huấn luyện và hiệu năng
Thử nghiệm và đánh giá
So sánh hiệu năng
- Janus-Pro-7B cho hiệu năng cao nhất khi so với các mô hình cùng kích thước
- Vượt qua các mô hình quy mô lớn như TokenFlow-XL (13B) ở cả hiểu đa phương thức và tạo sinh
- Cả độ ổn định của ảnh được tạo và chất lượng thẩm mỹ đều được cải thiện
Hạn chế
- Độ phân giải thấp (384 × 384) còn hạn chế trong các tác vụ chi tiết như OCR
- Thiếu chi tiết tinh vi khi tạo ảnh từ văn bản
Kết luận
- Janus-Pro đạt bước tiến quan trọng về chiến lược huấn luyện, dữ liệu và kích thước mô hình
- Đạt hiệu năng hàng đầu ở cả hiểu đa phương thức lẫn tạo ảnh từ văn bản
- Có kế hoạch giải quyết các bài toán chi tiết hơn bằng cách nâng cao độ phân giải trong tương lai
Chưa có bình luận nào.