Dragonfly - mô hình thị giác-ngôn ngữ quy mô lớn hỗ trợ zoom đa độ phân giải

xguru · 2024-06-10T10:10:02+09:00

Mô hình kiến trúc vision-language cho phép chia ảnh độ phân giải cao thành nhiều vùng nhỏ để phân tích, từ đó có thể hiểu chi tiết và suy luận tốt hơn Công bố 2 mô hình mã nguồn mở gồm Llama-3-8b-Dragonfly-v1 (miền tổng quát) và Llama-3-8b-Dragonfly-Med-v1 (miền y tế) Llama-3-8b-Dragonfly-v1 được huấn luyện bằng 5,5 triệu cặp hình ảnh-chỉ thị, còn Llama-3-8b-Dragonfly-Med-v1 được fine-tune thêm với 1,4 triệu dữ liệu hình ảnh-chỉ thị y tế Dragonfly cho thấy hiệu năng xuất sắc trên các benchmark như suy luận thường thức thị giác và image captioning Dragonfly-Med vượt qua các mô hình hiện có như Med-Gemini trong lĩnh vực hiểu ảnh y tế Kiến trúc Dragonfly Mã hóa thị giác đa độ phân giải (Multi-resolution Visual Encoding): Xử lý ảnh ở độ phân giải thấp/trung bình/cao Mỗi ảnh được chia thành nhiều ảnh con theo từng độ phân giải và được mã hóa thành các visual token Các token đã mã hóa được chiếu vào language space, rồi nối lại thành một chuỗi để đưa vào LLM làm đầu vào Nhờ vậy có thể xử lý hiệu quả ảnh dung lượng lớn và tăng độ chi tiết trong xử lý dữ liệu thị giác Zoom-in Patch Selection: Cách tiếp cận chọn lọc nhằm tập trung vào các chi tiết thị giác quan trọng trong ảnh độ phân giải cao Sử dụng chiến lược zoom-in patch selection mới để chỉ chọn các ảnh con độ phân giải cao quan trọng nhất So sánh summary embedding của các ảnh con độ phân giải trung bình/cao để chọn ra những patch có mức liên quan cao nhất Qua đó loại bỏ trùng lặp và tập trung vào vùng nội dung cốt lõi, giúp tăng hiệu quả tổng thể của mô hình và khả năng hiểu các vùng chi tiết Hai chiến lược này giúp mô hình tập trung nhiều hơn vào chi tiết của từng vùng ảnh và cải thiện khả năng suy luận thường thức. Dù được tối ưu để nắm bắt chi tiết, mô hình vẫn cho thấy hiệu năng zero-shot tốt trên các benchmark hiểu ảnh phổ biến như VQA, image captioning. Đánh giá hiệu năng mô hình Dragonfly Được đánh giá trên 5 benchmark vision-language gồm AI2D, ScienceQA, MMMU, MMVet, POPE AI2D, ScienceQA: đánh giá suy luận thường thức thị giác trong miền khoa học MMMU, MMVet: đánh giá tổng hợp năng lực vision-language POPE: đánh giá hallucination ở mức đối tượng Cho thấy hiệu năng xuất sắc, có thể so sánh với các mô hình vision-language nổi tiếng khác Hiệu năng của Dragonfly-Med Phiên bản được huấn luyện bổ sung từ Dragonfly với 1,4 triệu dữ liệu hình ảnh-chỉ thị y tế, hợp tác cùng Stanford Medicine Vượt qua hiệu năng của các mô hình hiện có như Med-Gemini trên các benchmark hỏi đáp thị giác như VQA-RAD, SLAKE, Path-VQA Cũng cho thấy hiệu năng tiệm cận SOTA trên các benchmark image captioning y tế như IU X-Ray, Peir Gross, ROCO, MIMIC CXR Kế hoạch sắp tới Dự định sử dụng LLaMA3-8B-Instruct làm backbone để tiếp tục khám phá kiến trúc mới và các chiến lược mã hóa thị giác Muốn mở rộng phạm vi áp dụng sang nhiều lĩnh vực khoa học hơn để đóng góp cho nghiên cứu đa phương thức mã nguồn mở

(together.ai)

4 điểm bởi xguru 2024-06-10 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Mô hình kiến trúc vision-language cho phép chia ảnh độ phân giải cao thành nhiều vùng nhỏ để phân tích, từ đó có thể hiểu chi tiết và suy luận tốt hơn
Công bố 2 mô hình mã nguồn mở gồm Llama-3-8b-Dragonfly-v1 (miền tổng quát) và Llama-3-8b-Dragonfly-Med-v1 (miền y tế)
Llama-3-8b-Dragonfly-v1 được huấn luyện bằng 5,5 triệu cặp hình ảnh-chỉ thị, còn Llama-3-8b-Dragonfly-Med-v1 được fine-tune thêm với 1,4 triệu dữ liệu hình ảnh-chỉ thị y tế
Dragonfly cho thấy hiệu năng xuất sắc trên các benchmark như suy luận thường thức thị giác và image captioning
Dragonfly-Med vượt qua các mô hình hiện có như Med-Gemini trong lĩnh vực hiểu ảnh y tế

Kiến trúc Dragonfly

Mã hóa thị giác đa độ phân giải (Multi-resolution Visual Encoding):
- Xử lý ảnh ở độ phân giải thấp/trung bình/cao
- Mỗi ảnh được chia thành nhiều ảnh con theo từng độ phân giải và được mã hóa thành các visual token
- Các token đã mã hóa được chiếu vào language space, rồi nối lại thành một chuỗi để đưa vào LLM làm đầu vào
- Nhờ vậy có thể xử lý hiệu quả ảnh dung lượng lớn và tăng độ chi tiết trong xử lý dữ liệu thị giác
Zoom-in Patch Selection:
- Cách tiếp cận chọn lọc nhằm tập trung vào các chi tiết thị giác quan trọng trong ảnh độ phân giải cao
- Sử dụng chiến lược zoom-in patch selection mới để chỉ chọn các ảnh con độ phân giải cao quan trọng nhất
- So sánh summary embedding của các ảnh con độ phân giải trung bình/cao để chọn ra những patch có mức liên quan cao nhất
- Qua đó loại bỏ trùng lặp và tập trung vào vùng nội dung cốt lõi, giúp tăng hiệu quả tổng thể của mô hình và khả năng hiểu các vùng chi tiết
Hai chiến lược này giúp mô hình tập trung nhiều hơn vào chi tiết của từng vùng ảnh và cải thiện khả năng suy luận thường thức.
Dù được tối ưu để nắm bắt chi tiết, mô hình vẫn cho thấy hiệu năng zero-shot tốt trên các benchmark hiểu ảnh phổ biến như VQA, image captioning.

Đánh giá hiệu năng mô hình Dragonfly

Được đánh giá trên 5 benchmark vision-language gồm AI2D, ScienceQA, MMMU, MMVet, POPE
- AI2D, ScienceQA: đánh giá suy luận thường thức thị giác trong miền khoa học
- MMMU, MMVet: đánh giá tổng hợp năng lực vision-language
- POPE: đánh giá hallucination ở mức đối tượng
Cho thấy hiệu năng xuất sắc, có thể so sánh với các mô hình vision-language nổi tiếng khác

Hiệu năng của Dragonfly-Med

Phiên bản được huấn luyện bổ sung từ Dragonfly với 1,4 triệu dữ liệu hình ảnh-chỉ thị y tế, hợp tác cùng Stanford Medicine
Vượt qua hiệu năng của các mô hình hiện có như Med-Gemini trên các benchmark hỏi đáp thị giác như VQA-RAD, SLAKE, Path-VQA
Cũng cho thấy hiệu năng tiệm cận SOTA trên các benchmark image captioning y tế như IU X-Ray, Peir Gross, ROCO, MIMIC CXR

Kế hoạch sắp tới

Dự định sử dụng LLaMA3-8B-Instruct làm backbone để tiếp tục khám phá kiến trúc mới và các chiến lược mã hóa thị giác
Muốn mở rộng phạm vi áp dụng sang nhiều lĩnh vực khoa học hơn để đóng góp cho nghiên cứu đa phương thức mã nguồn mở