- DALL·E 3 là phiên bản mới nhất của hệ thống chuyển văn bản thành hình ảnh của OpenAI, với khả năng hiểu sắc thái và chi tiết được cải thiện hơn so với các phiên bản trước.
- Hệ thống này hướng tới mục tiêu chuyển đổi chính xác prompt văn bản thành hình ảnh, đồng thời khắc phục vấn đề thường gặp ở các hệ thống text-to-image hiện đại là bỏ qua từ ngữ hoặc mô tả.
- DALL·E 3 được xây dựng dựa trên ChatGPT, cho phép người dùng sử dụng ChatGPT như một đối tác brainstorming và công cụ cải thiện prompt.
- Khi nhận được ý tưởng, ChatGPT sẽ tạo prompt chi tiết cho DALL·E 3, và DALL·E 3 sẽ hiện thực hóa ý tưởng đó dưới dạng hình ảnh.
- Hệ thống này dự kiến sẽ được cung cấp cho khách hàng ChatGPT Plus và Enterprise vào tháng 10, và các hình ảnh được tạo ra sẽ thuộc sở hữu của người dùng để họ sử dụng theo ý muốn.
- Các biện pháp an toàn đã được áp dụng để hạn chế khả năng DALL·E 3 tạo ra nội dung bạo lực, người lớn hoặc gây thù ghét, đồng thời cũng có cơ chế từ chối các yêu cầu về hình ảnh của nhân vật công chúng.
- OpenAI đang nghiên cứu các cách giúp mọi người nhận biết hình ảnh do AI tạo ra, trong đó có công cụ bộ phân loại nguồn gốc.
- DALL·E 3 được thiết kế để từ chối các yêu cầu tạo hình ảnh theo phong cách của những nghệ sĩ còn sống, và các nhà sáng tạo có thể loại trừ hình ảnh của mình khỏi quá trình huấn luyện các mô hình tạo ảnh trong tương lai.
- Quá trình phát triển DALL·E 3 có sự tham gia của một đội ngũ lớn gồm các nhà nghiên cứu, nhà phát triển sản phẩm, chuyên gia an toàn và chuyên gia truyền thông.
1 bình luận
Ý kiến trên Hacker News