15 điểm bởi xguru 2023-04-18 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  • Cung cấp các khả năng thị giác-ngôn ngữ mới tương tự như những gì được trình diễn trong GPT-4
    • Mô tả chi tiết về hình ảnh, hướng dẫn cách nấu ăn từ ảnh món ăn, tìm ra vấn đề, tạo câu quảng cáo, hoặc viết truyện và thơ lấy cảm hứng từ hình ảnh
  • Chỉ bằng cách kết nối BLIP-2 và Vicuna thông qua một lớp chiếu duy nhất, hệ thống đã cho thấy hiệu năng vượt trội
  • Được huấn luyện theo 2 giai đoạn
    • Huấn luyện 5 triệu cặp hình ảnh-văn bản trong 10 giờ bằng 4 GPU A100. Chỉ với giai đoạn này, Vicuna đã có thể hiểu hình ảnh, nhưng khả năng tạo sinh bị ảnh hưởng đáng kể
    • Để giải quyết vấn đề và cải thiện tính khả dụng, nhóm nghiên cứu đề xuất một phương pháp mới tạo ra các cặp hình ảnh-văn bản chất lượng cao bằng cách kết hợp chính mô hình với ChatGPT
    • Trên nền tảng đó, tạo ra một bộ dữ liệu chất lượng cao quy mô nhỏ (tổng cộng 3.500 cặp)
    • Ở giai đoạn fine-tuning thứ hai, bộ dữ liệu nhỏ này được huấn luyện bằng mẫu hội thoại để cải thiện độ tin cậy của quá trình tạo sinh và tính khả dụng tổng thể
    • Đáng ngạc nhiên là giai đoạn này có hiệu quả tính toán rất cao, chỉ mất 7 phút với một GPU A100

Chưa có bình luận nào.

Chưa có bình luận nào.