10 điểm bởi GN⁺ 2024-05-29 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  • Llama3-V là mô hình đa phương thức đầu tiên dựa trên Llama3
  • Llama3-V được huấn luyện với chi phí dưới 500 đô la
  • Trên các benchmark, mô hình cho thấy hiệu năng tăng 10-20% so với Llava, và đạt hiệu năng tương tự trên phần lớn chỉ số ngay cả khi so với các mô hình đóng lớn hơn 100 lần

Kiến trúc mô hình

  • SigLIP: Mô hình embedding hình ảnh, tương tự CLIP nhưng sử dụng hàm mất mát sigmoid.
  • Căn chỉnh embedding văn bản: Giữ cố định SigLIP và dùng mô-đun chiếu để căn chỉnh embedding hình ảnh với embedding văn bản.
  • Thêm token hình ảnh: Thêm embedding hình ảnh vào trước các token văn bản để đưa vào Llama3.

Tối ưu hóa suy luận

  • Caching: Tính trước embedding hình ảnh của mô hình SigLIP để tăng mức sử dụng GPU, đồng thời tiết kiệm thời gian huấn luyện/suy luận.
  • Tối ưu hóa MPS/MLX: Tối ưu hóa mô hình SigLIP cho MPS để xử lý 32 hình ảnh mỗi giây.

Quy trình huấn luyện

  • Tính trước embedding: Dùng SigLIP để tính trước embedding hình ảnh.
  • Huấn luyện lớp chiếu: Thông qua lớp chiếu để căn chỉnh embedding hình ảnh và văn bản vào không gian embedding đa phương thức.
  • Học có giám sát: Sau giai đoạn tiền huấn luyện, cải thiện hiệu năng mô hình thông qua học có giám sát.

Tóm tắt

  • Thêm bộ mã hóa thị giác vào Llama3 8B.
  • Hiệu năng tăng 10-20% so với Llava.
  • Hiệu năng tương tự các mô hình lớn hơn 100 lần như GPT4v, Gemini Ultra và Claude Opus.
  • Cung cấp pipeline huấn luyện và học có giám sát hiệu quả với chi phí dưới 500 đô la.

Ý kiến của GN⁺

  • Điểm thú vị: Llama3-V gây chú ý ở chỗ hiện thực hóa một mô hình đa phương thức hiệu năng cao với chi phí thấp.
  • Góc nhìn phản biện: Vẫn còn câu hỏi liệu việc giảm kích thước và chi phí mô hình mà vẫn giữ được hiệu năng có bền vững trong dài hạn hay không.
  • Công nghệ liên quan: Các mô hình cung cấp chức năng tương tự gồm có CLIP và DALL-E.
  • Điểm cần cân nhắc khi áp dụng: Khi đưa công nghệ mới vào sử dụng, cần xem xét độ chính xác và hiệu quả chi phí của mô hình.
  • Lợi và hại khi lựa chọn công nghệ: Có thể đạt hiệu năng cao với chi phí thấp, nhưng cũng cần cân nhắc khả năng mở rộng và chi phí bảo trì của mô hình.

Chưa có bình luận nào.

Chưa có bình luận nào.