LLaVA: Tinh chỉnh chỉ dẫn thị giác
(llava-vl.github.io)- "LLaVA : Large Language and Vision Assistant"
- Mô hình đa phương thức quy mô lớn kết hợp bộ mã hóa thị giác và Vicuna để hiểu thị giác và ngôn ngữ một cách tổng quát
- Hướng tới năng lực ở mức GPT-4 đa phương thức và độ chính xác SOTA trong hỏi đáp khoa học
- Công bố bài báo, mã nguồn và bản demo
Chưa có bình luận nào.