DALL·E 3

(openai.com)

1 điểm bởi GN⁺ 2023-09-21 | 1 bình luận | Chia sẻ qua WhatsApp

DALL·E 3 của OpenAI là mô hình tạo ảnh từ văn bản dành cho người dùng ChatGPT và nhà phát triển API, hướng tới việc tạo ra hình ảnh bám sát hơn với câu lệnh đầu vào
Các hệ thống trước đây thường bỏ sót từ ngữ hoặc mô tả, khiến người dùng phải phụ thuộc vào prompt engineering, nhưng DALL·E 3 được thiết kế để cho kết quả cải thiện hơn so với DALL·E 2 ngay cả với cùng một prompt
Với tích hợp ChatGPT, người dùng chỉ cần nhập từ một câu ngắn đến một đoạn mô tả chi tiết, ChatGPT sẽ tự động tạo prompt chi tiết cho DALL·E 3
Nếu thích hình ảnh tạo ra nhưng chi tiết chưa đúng ý, người dùng có thể yêu cầu chỉnh sửa chỉ bằng vài từ, và ảnh được tạo không cần xin phép riêng để tái bản, bán hoặc thương mại hóa
Về an toàn, hệ thống từ chối yêu cầu dùng tên người nổi tiếng có thật và yêu cầu theo phong cách của họa sĩ còn sống; nhà sáng tạo cũng có thể opt-out để hình ảnh của mình không bị dùng trong việc huấn luyện các mô hình tạo ảnh trong tương lai

Tạo ảnh bám sát văn bản chính xác hơn

DALL·E 3 được cung cấp cho người dùng ChatGPT và nhà phát triển thông qua API
Các hệ thống chuyển văn bản thành ảnh có xu hướng bỏ qua từ ngữ hoặc mô tả, nên để có được kết quả mong muốn, người dùng thường phải học prompt engineering
DALL·E 3 hướng tới việc tạo ra hình ảnh bám sát hơn với văn bản do người dùng cung cấp
Được thiết kế để mang lại cải thiện rõ rệt so với DALL·E 2 ngay cả khi dùng cùng một prompt

Kết nối từ tạo prompt đến chỉnh sửa ngay trong ChatGPT

DALL·E 3 được tích hợp native vào ChatGPT, cho phép xử lý việc lên ý tưởng và tinh chỉnh prompt ngay bên trong ChatGPT
Người dùng có thể yêu cầu cảnh mình muốn xem bằng ngôn ngữ tự nhiên, từ một câu đơn giản đến một đoạn mô tả chi tiết
Dựa trên ý tưởng của người dùng, ChatGPT sẽ tự động tạo prompt chi tiết tùy chỉnh cho DALL·E 3
Khi thích một hình ảnh cụ thể nhưng chưa đúng hoàn toàn như mong muốn, người dùng có thể yêu cầu chỉnh sửa chỉ bằng vài từ

Quyền sử dụng ảnh được tạo

Người dùng có thể sử dụng hình ảnh được tạo bằng DALL·E 3
Giống như DALL·E 2, không cần xin phép riêng từ OpenAI để tái bản, bán hoặc thương mại hóa ảnh được tạo

Các biện pháp an toàn nhằm giảm tạo hình người nổi tiếng và thiên lệch có hại

DALL·E 3 có các biện pháp giảm thiểu để từ chối việc tạo ảnh khi yêu cầu trực tiếp bằng tên người nổi tiếng
OpenAI đã hợp tác với đội red team để cải thiện hiệu quả an toàn ở các vùng rủi ro như tạo hình người nổi tiếng và các thiên lệch có hại liên quan đến việc thể hiện quá mức hoặc thiếu vắng về mặt hình ảnh
- Red team là các chuyên gia lĩnh vực thực hiện kiểm thử áp lực cho mô hình
- Công việc này được dùng cho các nỗ lực đánh giá và giảm thiểu rủi ro trong các lĩnh vực như tuyên truyền và thông tin sai lệch
OpenAI cũng đang nghiên cứu các phương pháp tốt hơn để xác định liệu một hình ảnh có được tạo bởi AI hay không
Họ đang thử nghiệm công cụ nội bộ provenance classifier, công cụ này có thể giúp nhận diện liệu một hình ảnh có được tạo bởi DALL·E 3 hay không
OpenAI dự định dùng công cụ này để hiểu rõ hơn cách các hình ảnh tạo ra có thể được sử dụng, và sẽ chia sẻ thêm thông tin sau

Kiểm soát của nhà sáng tạo và tài liệu tham khảo

DALL·E 3 được thiết kế để từ chối các yêu cầu tạo ảnh theo phong cách của họa sĩ còn sống
Nhà sáng tạo có thể opt-out để hình ảnh của mình không bị đưa vào quá trình huấn luyện các mô hình tạo ảnh trong tương lai
Tài liệu liên quan gồm bài báo nghiên cứu và biểu mẫu opt-out hình ảnh

1 bình luận

GN⁺ 2023-09-21

Ý kiến trên Hacker News

Nếu vẫn chưa được công bố công khai thì nó thuộc dạng thông báo về một thông báo (https://hn.algolia.com/?dateRange=all&page=0&prefix=true&sor...)
Khi thực sự có thứ để thảo luận thì mở thread lúc đó cũng được, chờ đợi cũng chẳng thiệt gì (https://hn.algolia.com/?dateRange=all&page=0&prefix=false&so...)
- Đây là lần đầu tôi thấy một bài bị giảm hiển thị mạnh đến vậy, nhưng “thông báo” này vốn quá nhạt nên tôi hoan nghênh
Dành cho những ai quan tâm: năm ngoái tôi đã tạo khoảng 7.000 ảnh bằng DALL·E 2 và đăng lên https://generrated.com/
Tôi muốn thử nghiệm xem DALL·E 2 có thể tạo ra những gì, rồi chia sẻ với người khác như nguồn cảm hứng hoặc điểm khởi đầu
Lúc đó API chưa ra nên mọi thứ đều phải tạo và lưu thủ công, chi phí cũng khá tốn kém, nhưng rất vui
Có lẽ khi có quyền truy cập DALL·E 3 thì tôi sẽ phải cập nhật toàn bộ
- Nếu làm vậy thì sẽ rất tuyệt nếu có thể xem so sánh ảnh giữa v2 và v3
- Giờ không thể dùng tên nghệ sĩ trong prompt nữa, nên có lẽ sẽ khó duy trì trang đó với DALL·E 3
  Sửa: thực ra có vẻ chỉ không được dùng prompt với nghệ sĩ còn sống, ít nhất trong bài viết nói như vậy
- Tôi tò mò không biết có ai biết lý do kỹ thuật cụ thể khiến nó vẽ chữ tệ đến vậy không
  Có những mẫu hình đủ để đặt ra vô số giả thuyết hợp lý, nhưng vì tò mò nên tôi muốn biết nguyên nhân thật sự là gì
  Nhìn các ảnh thì điều đặc biệt thú vị là nó chưa bao giờ viết đúng văn bản một lần nào, lúc nào cũng lệch đi một chút. Đôi khi sai rất xa, nhưng nhìn chung lại khá gần
- Thật kỳ lạ là các nền tảng này lại khiến việc quản lý ảnh, tải xuống và lấy đầy đủ prompt khó đến vậy
  Tôi đã làm một bot Discord cho Midjourney; chỉ cần cấu hình đơn giản là có thể tải ảnh xuống và chú thích kèm nhiều thông tin nhất có thể lấy được như phiên bản, v.v.: https://github.com/ernop/social-ai/tree/main/SocialAI
  Dù vậy vẫn chưa hoàn hảo. Nó lấy thông tin từ lệnh đã gửi, nhưng khi đó có thể bạn đang dựa vào giá trị mặc định, nên nếu diễn giải ở hiện tại thì khó tái dựng phiên bản, seed, v.v. trong quá khứ trừ khi chúng được đưa vào prompt
  Dù sao, ít nhất tôi thích việc có thể lưu vĩnh viễn một thư mục 30.000 ảnh kèm prompt, rồi sau này chạy lại để so sánh theo thời gian
- Khá tốt. Ban đầu tôi nghĩ hơi nhạt vì chỉ có 5 ảnh, nhưng vì có rất nhiều ví dụ về các phong cách và khái niệm đa dạng nên nó trở thành nguồn cảm hứng tuyệt vời
Vài điều nghĩ đến: tích hợp ChatGPT là cực kỳ lớn. Nếu tích hợp với ChatGPT Plus và bản doanh nghiệp ra mắt vào tháng 10, nó có thể gây áp lực lớn lên Midjourney và nhiều công ty SaaS chuyển văn bản thành ảnh, đẩy họ tập trung vào mục đích NSFW
Chất lượng trông có vẻ tương đương Midjourney, nhưng Midjourney cũng có các tính năng hữu ích như upscale hoặc tạo nhiều biến thể. Tôi tò mò liệu DALL·E 3 có theo kịp về mặt trải nghiệm người dùng không
Về UI thì tôi thích ChatGPT hơn Discord rất nhiều, nên hướng này tốt hơn
- Điều có thể thật sự gây kinh ngạc trong tích hợp ChatGPT là khả năng chỉnh sửa ảnh lặp đi lặp lại để đạt kết quả mong muốn, giống như dùng ChatGPT để trau chuốt văn bản
  Hiện tại Midjourney hay Stable Diffusion thỉnh thoảng cho ra ảnh cực kỳ ấn tượng, thỉnh thoảng thì không, cảm giác như casino. Stable Diffusion có thể phủ mask rồi thử lại, nhưng phiền phức và tốn nhiều thời gian
  Nếu có thể nói “ảnh này tốt rồi nhưng tôi chỉ muốn có một con khỉ, và hãy đổi bầu trời sang màu xanh lá”, rồi nó nhận ảnh gốc và chỉnh sửa lại, thì đó sẽ là một thay đổi hoàn toàn cuộc chơi
  Có lẽ thực tế nhiều khả năng nó sẽ không hoạt động như vậy, nhưng tôi hy vọng là có
- DALL·E 2 đã có tạo biến thể và inpainting từ rất lâu trước Midjourney
  Dù vậy, việc xem ai và thứ gì sẽ thắng trong cuộc cạnh tranh này chắc chắn sẽ rất thú vị
- Tôi không nghĩ tích hợp ChatGPT sẽ lớn đến vậy
  Bing Chat vốn đã dùng GPT-4 ở bên trong, Bing Image Creator cũng đã được tích hợp và bên trong dùng khoảng DALL·E 2.5, nhưng không tốt
  Nó chỉ ở mức viết hộ prompt ảnh, gần giống một trò điện thoại vô dụng khi bạn phải truyền đạt thêm một lần việc vốn có thể tự viết trực tiếp
- Công bằng mà nói, thị trường NSFW khá lớn, tự thân nó cũng đủ để nuôi sống nhiều công ty
  Có lẽ cũng có thể có thứ như mô hình ngôn ngữ lớn được huấn luyện bằng Literotica
- Tôi không chắc. Tôi vốn đã dùng ChatGPT để tạo prompt cho Midjourney rồi, chỉ mất vài cú nhấp chuột
  Tôi không cảm thấy khác biệt lớn, nhất là khi Midjourney tốt hơn DALL·E rất nhiều
“DALL·E 3 được thiết kế để từ chối khi có yêu cầu tạo ảnh theo phong cách của một nghệ sĩ còn sống”, “giờ đây người sáng tạo có thể loại trừ hình ảnh của mình khỏi việc huấn luyện các mô hình tạo ảnh trong tương lai”
Vậy thì phiên bản lần này cũng đã huấn luyện không xin phép bằng các tác phẩm có bản quyền
Hơn nữa còn đẩy gánh nặng phải tự nộp đơn xin loại trừ thủ công sang phía nghệ sĩ
Họ không sợ một ngày nào đó tòa án sẽ buộc phải trả tiền cho từng nghệ sĩ trên mỗi ảnh được tạo ra sao
- Tôi cũng được huấn luyện như vậy
- Có vẻ họ đang cược rằng đến lúc chuyện đó xảy ra thì ngựa đã chạy mất rồi
  Tức là tòa án sẽ phải buộc hàng nghìn công ty rất lớn và quyền lực trả tiền cho hàng triệu người, và trên thực tế đó sẽ là một nỗ lực pháp lý khó kham nổi
- Vẫn chưa có bằng chứng chắc chắn cho việc “đã huấn luyện lại bằng tác phẩm có bản quyền”
  Họ không công khai nguồn hay phương pháp luận, và ngoài “huấn luyện” với “bản quyền” ra thì phần còn lại đều là dấu hỏi. Nếu không thì hẳn họ đã phải trả tiền bản quyền rồi
  Cũng có thể họ dùng đầu ra của phiên bản 2 trước đó cùng với prompt do GPT tạo, rồi để con người chỉnh sửa cho khớp với ảnh được tạo
  Hoặc cũng có thể họ dùng thị giác máy tính để phân tích ảnh mới và ảnh hiện có, nếu ảnh có đặc điểm mới thì thêm vào prompt rồi huấn luyện lại
- Nghệ sĩ còn sống phải có quyền yêu cầu ảnh theo phong cách của chính mình
- Việc chuyện này được “cho phép” trong hệ thống bản quyền thông thường, rồi giờ được đưa vào sản phẩm thương mại dành cho công chúng, là hoàn toàn điên rồ
  Nhìn tình trạng tòa án thì cũng chẳng kỳ vọng gì nó sẽ bị đảo ngược
  Rất có khả năng họ đang dàn xếp sau hậu trường với các chủ sở hữu sở hữu trí tuệ lớn như Disney để khỏi chọc vào gấu, còn các chủ thể nhỏ thì bị bỏ mặc không thể tự vệ, chính xác hơn là vốn đã nghèo rồi lại càng không có tiền
Có vẻ đây có thể là mối đe dọa thực sự với Midjourney, nhưng tôi không nghĩ nó sẽ đẩy lùi được Stable Diffusion
Khả năng tuân thủ prompt có vẻ sẽ rất tốt, nhưng việc thiếu khả năng tùy biến và hạn chế phong cách nghệ thuật sẽ làm giảm đáng kể tính hữu dụng
Có lẽ mọi người sẽ dùng DALL·E 3 để tạo ảnh nền cơ bản cho bố cục, rồi đưa sang Stable Diffusion để xử lý phong cách, upscale và chi tiết
- Tôi tò mò vì sao bạn cho rằng nó không phải là mối đe dọa với Stable Diffusion
  Tôi thấy những ảnh chất lượng cực cao, khó phân biệt có phải do AI tạo hay không, xuất hiện ở Midjourney nhiều hơn hẳn Stable Diffusion
- Nói thật, hạn chế phong cách nghệ thuật khiến tôi khó chịu. Tôi không mấy quan tâm
  Bộ lọc của Midjourney đã đủ phiền rồi, và việc ChatGPT liên tục từ chối vô nghĩa các yêu cầu đơn giản chỉ vì có thể bị hiểu sai cũng gây bực bội không dứt
  Nếu kết hợp hai thứ đó lại và còn thêm rõ ràng bộ lọc phong cách nghệ sĩ, thì tôi sẽ bỏ qua luôn
  Nói thêm là tôi không dùng Midjourney để tạo NSFW. Tôi đang nói đến tình huống muốn “ảnh stock một người đang cắt phô mai trên mặt bàn”, nhưng lại không dùng được vì các từ như “cutting” hay “slicing” có thể được dùng để tạo ảnh máu me
Họ nói “giờ đây người sáng tạo có thể loại trừ hình ảnh của mình khỏi việc huấn luyện các mô hình tạo ảnh trong tương lai”, mà liên kết lại là một biểu mẫu gửi từng ảnh một, thật buồn cười
Họ nói có thể chặn GPTBot trên website, nhưng nếu bot đã quét ảnh rồi thì sao cũng là vấn đề
Dù sao thì người khác cũng có thể đăng ảnh của tôi lên một website khác không chặn GPTBot
Gần đây vì một dự án, tôi tạo rất nhiều ảnh Midjourney, và lại nhận ra một điều mà những người theo thuyết tận thế AI art dường như không hiểu: tầm quan trọng của việc tuyển chọn
Chỉ cần lướt qua /r/Midjourney hoặc các ảnh được đề xuất trong liên kết DALL·E ở trên là thấy “kết quả mặc định” của trình tạo ảnh nhàm chán đến mức nào
Việc tạo ảnh có thể trở nên dễ hơn, nhưng để chọn ra ảnh nào hấp dẫn thì vẫn cần cảm quan và kỹ năng nghệ thuật
Nhìn rộng ra, có lẽ nghệ thuật kiểu minh họa sẽ trở nên gần với hoạt động tuyển chọn hơn, và khả năng lọc ra từ một lượng lớn hình ảnh sẽ trở thành kỹ năng cốt lõi
- Có giống nhiếp ảnh không nhỉ
- Tôi không rành lắm về công cụ text-to-image, nhưng chẳng phải có thể đưa ảnh tham chiếu làm đầu vào sao
  Nếu có thể tạo được ảnh tham chiếu để đưa vào đầu vào thì tôi nghĩ kết quả sẽ tốt hơn. Đầu vào càng tốt thì đầu ra càng tốt
  Trong lĩnh vực thương mại, có cảm giác các nghệ sĩ biết tận dụng AI tốt sẽ vượt lên trước
- Tôi không biết giai đoạn đó sẽ kéo dài bao lâu, và tôi nghĩ không ai nên trông cậy vào nó
- Có lẽ cũng có thể huấn luyện AI để lọc dựa trên sở thích của con người
  Dù vậy, nghệ sĩ có gu và tài năng kỹ thuật vẫn còn chỗ để thao tác ảnh tiến gần hơn tới lý tưởng đã được tuyển chọn
  Giống quy trình làm việc Photoshop dựa trên Stable Diffusion hiện nay: kết quả tạo sinh làm nền, và khi quy trình trưởng thành thì đầu vào thủ công sẽ tăng trở lại
  Ví dụ, dùng ControlNet để khóa bố cục bằng một tư thế hoặc cách sắp đặt cụ thể, để AI lấp 90%, rồi con người tinh chỉnh 10% cuối theo gu của mình và lặp lại
Nhìn vào mục “DALL·E 3 được xây dựng native trên ChatGPT”, sự tích hợp chặt chẽ giữa ChatGPT và tạo ảnh, cùng việc không có bài báo nghiên cứu đi kèm khi công bố, tôi rất nghi ngờ rằng đây là một đợt vận hành thử năng lực đa phương thức của GPT-4 và nhiều khả năng chạy trên hạ tầng tương tự
- GPT-4 chỉ làm được text-to-text và image-to-text, không thể trực tiếp tạo ảnh
  Vì vậy có lẽ chỉ dùng lệnh gọi API thôi. Không có gì đặc biệt, Bing cũng làm việc tương tự
- Những bức tranh GPT-4 tạo ra cho đến nay không ở mức này, nhưng cũng có thể là phiên bản mới hơn
  Tham khảo: https://arxiv.org/pdf/2303.12712.pdf
Họ đã loại bỏ tài liệu “huấn luyện” có bản quyền, hay vẫn đang “học” từ công sức của người khác mà không có sự đồng ý rồi bán khi chưa được phép?
- Nếu nhìn phần cuối bài công bố, cách diễn đạt rất thận trọng: “DALL·E 3 được thiết kế để từ chối các yêu cầu tạo hình ảnh theo phong cách của nghệ sĩ còn sống. Giờ đây, nhà sáng tạo có thể loại trừ hình ảnh của mình khỏi việc huấn luyện các mô hình tạo ảnh trong tương lai”
  Nói cách khác, họ vẫn đang dựa vào công sức của người khác, nhưng điểm tốt là bạn có thể đăng ký loại trừ để tác phẩm của mình không trở thành thức ăn cho DALL·E 4
- Về mặt pháp lý thì khả năng cao là không có vấn đề lớn
  Mấu chốt nằm ở việc liệu họ có thể lập luận thành công rằng AI học giống con người, nên đầu ra không sao chép trực tiếp tác phẩm hiện có là một sáng tạo mới hay không
  Điều này cũng áp dụng tương tự khi AI sao chép phong cách nghệ thuật của một tác giả nào đó. Nó giống việc một con người dành cuối tuần xem tác phẩm của một nghệ sĩ rồi vẽ tranh đặt hàng theo cùng phong cách; vì phong cách nghệ thuật không thể được bảo hộ bằng bản quyền nên hoàn toàn hợp pháp
  Tất nhiên Adobe thì muốn điều đó[0]
  0: https://twitter.com/UltraTerm/status/1679294173793628161
- Họ chưa loại bỏ. Về dài hạn, đây có thể là một trong những lý do AI của Adobe sẽ thắng
  Một điều khác tôi cứ nghĩ đến là liệu các sản phẩm AI kiểu này có thể gây ra một sự sụp đổ giống ngành game hay không
  Nếu nội dung AI được quảng bá rầm rộ nhưng vô nghĩa, giá trị thấp bị cung vượt cầu, người tiêu dùng có thể mất hứng thú, ngừng chi tiêu trong các ngành như sách, game, phim, nghệ thuật số, âm nhạc, rồi các ngành đó sụp đổ
- OpenAI cấp phép dữ liệu hình ảnh từ Shutterstock, nên cũng có khả năng họ đã huấn luyện hoàn toàn bằng hình ảnh được cấp phép
  https://investor.shutterstock.com/news-releases/news-release...
  Như mọi khi, sẽ tốt hơn nếu có nhiều minh bạch hơn về dữ liệu huấn luyện
- Tôi luôn ghét việc các nghệ sĩ con người “huấn luyện” bằng cách xem tác phẩm của người khác khi chưa được phép, tải nó xuống bộ não bằng thịt của mình mà không xin phép, rồi huấn luyện mạng nơ-ron hữu cơ bằng thứ nghệ thuật đó
  Không nên làm vậy. Theo quan điểm tối đa hóa bản quyền, đó là hành vi vi phạm bản quyền
Lại một cuộc cạnh tranh nữa bắt đầu
Có vẻ một số người có ác cảm mạnh với OpenAI, nhưng ít nhất OpenAI thực sự rất giỏi trong việc biến mình thành mốc chuẩn cần vượt qua ở những lĩnh vực nhất định
Và trong quá trình đó, dường như họ đẩy cả lĩnh vực tiến khá xa
- Lý do tôi ghét OpenAI là họ được thành lập vì an toàn AI, nhưng việc đi ngược với an toàn nhất chính là kích động cuộc đua năng lực AI, và OpenAI cứ lặp đi lặp lại đúng việc đó
- Đừng quên OpenAI chẳng mấy chốc sẽ là Microsoft
  Người già như tôi còn nhớ những chuyện Microsoft đã làm trong thập niên 90. Nếu bây giờ họ đang dẫn trước ở lĩnh vực nào đó thì họ cũng sẽ làm y hệt, và ở hậu trường đôi khi họ vẫn đang làm vậy
  Tôi không thích FB hay Zuckerberg, nhưng việc phát hành LLAMA miễn phí là một động thái tốt
  Mong sẽ có thêm một vụ rò rỉ khác từ nội bộ OpenAI để mọi người có thể truy cập mọi thứ

DALL·E 3

Tạo ảnh bám sát văn bản chính xác hơn

Kết nối từ tạo prompt đến chỉnh sửa ngay trong ChatGPT

Quyền sử dụng ảnh được tạo

Các biện pháp an toàn nhằm giảm tạo hình người nổi tiếng và thiên lệch có hại

Kiểm soát của nhà sáng tạo và tài liệu tham khảo

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News