Cách MGIE (MLLM-Guided Image Editing) hoạt động
- Diễn giải lệnh bằng MLLM: MGIE sử dụng MLLM để rút ra các chỉ dẫn rõ ràng và ngắn gọn từ đầu vào của người dùng. Ví dụ, với đầu vào "hãy làm bầu trời xanh hơn", hệ thống có thể tạo ra chỉ dẫn "tăng độ bão hòa của vùng bầu trời lên 20%".
- Tạo trí tưởng tượng thị giác: MGIE tạo ra “trí tưởng tượng thị giác”, tức là biểu diễn tiềm ẩn nắm bắt bản chất của chỉnh sửa mong muốn. Điều này được dùng để hướng dẫn các thao tác ở mức pixel.
- Phương pháp huấn luyện end-to-end: MGIE sử dụng một phương pháp huấn luyện end-to-end mới để cùng tối ưu hóa việc suy ra chỉ dẫn, tạo trí tưởng tượng thị giác và mô-đun chỉnh sửa ảnh.
MGIE có thể làm gì?
- Chỉnh sửa dựa trên chỉ dẫn rõ ràng: MGIE tạo ra các chỉ dẫn rõ ràng và súc tích để hướng dẫn quá trình chỉnh sửa một cách hiệu quả.
- Chỉnh sửa kiểu Photoshop: MGIE có thể thực hiện các chỉnh sửa kiểu Photoshop phổ biến như crop, resize, xoay, lật, thêm filter, đồng thời cũng xử lý được các chỉnh sửa phức tạp hơn như thay đổi nền, thêm hoặc xóa đối tượng và trộn ảnh.
- Tối ưu hóa toàn bộ ảnh: MGIE có thể tối ưu chất lượng tổng thể của ảnh như độ sáng, độ tương phản, độ sắc nét và cân bằng màu, đồng thời áp dụng các hiệu ứng nghệ thuật như phác thảo, hội họa và hiệu ứng hoạt hình.
- Chỉnh sửa cục bộ: MGIE có thể chỉnh sửa các vùng hoặc đối tượng cụ thể trong ảnh như khuôn mặt, mắt, tóc, quần áo và phụ kiện, đồng thời thay đổi các thuộc tính của các vùng hoặc đối tượng này (hình dạng, kích thước, màu sắc, kết cấu, phong cách).
Cách sử dụng MGIE
- Dự án mã nguồn mở: MGIE được cung cấp dưới dạng dự án mã nguồn mở trên GitHub, nơi có thể tìm thấy mã nguồn, dữ liệu và các mô hình đã được huấn luyện trước.
- Notebook demo và web demo: Dự án cung cấp notebook demo cho thấy cách sử dụng MGIE cho nhiều tác vụ chỉnh sửa khác nhau, và người dùng có thể thử MGIE trực tuyến thông qua web demo được lưu trữ trên Hugging Face Spaces.
- Thiết kế thân thiện với người dùng: MGIE được thiết kế để dễ sử dụng và linh hoạt trong tùy biến, cho phép người dùng chỉnh sửa ảnh bằng các chỉ dẫn ngôn ngữ tự nhiên, đồng thời MGIE tạo ra cả chỉ dẫn đã suy ra lẫn ảnh đã chỉnh sửa.
Tầm quan trọng của MGIE
- Đột phá trong lĩnh vực chỉnh sửa ảnh theo chỉ dẫn: MGIE tạo ra bước đột phá trong lĩnh vực chỉnh sửa ảnh theo chỉ dẫn, một bài toán đầy thách thức và quan trọng đối với AI cũng như sự sáng tạo của con người.
- Công cụ thực tiễn: MGIE có thể hỗ trợ tạo, chỉnh sửa và tối ưu ảnh cho các mục đích cá nhân hoặc chuyên nghiệp trong mạng xã hội, thương mại điện tử, giáo dục, giải trí và nghệ thuật.
- Củng cố năng lực nghiên cứu và phát triển AI của Apple: MGIE nhấn mạnh năng lực ngày càng tăng của Apple trong nghiên cứu và phát triển AI, đồng thời cho thấy AI có thể nâng cao các công việc sáng tạo thường nhật như thế nào.
Ý kiến của GN⁺
- MGIE là một mô hình AI đột phá có khả năng chỉnh sửa ảnh dựa trên chỉ dẫn ngôn ngữ tự nhiên, và sẽ là trợ thủ đắc lực trong việc hiện thực hóa ý tưởng sáng tạo của người dùng bằng hình ảnh.
- Công cụ này có thể đơn giản hóa các tác vụ chỉnh sửa ảnh phức tạp về mặt kỹ thuật và góp phần cải thiện trải nghiệm người dùng.
- Một ví dụ cho thấy sự phát triển của Apple trong lĩnh vực nghiên cứu và phát triển AI
Chưa có bình luận nào.