Show HN: Vòng lặp phản hồi của Dalle-3 và GPT4-Vision

(dalle.party)

1 điểm bởi GN⁺ 2023-11-28 | 1 bình luận | Chia sẻ qua WhatsApp

Bữa tiệc biến đổi hình ảnh DALL·E

DALL·E cung cấp một sân chơi cho việc biến đổi hình ảnh.
Các chủ đề hình ảnh được người dùng yêu thích gồm có “gnome”, “người Siberia lớn tuổi”, “những con mèo kỳ quặc”, v.v.
Có thể bắt đầu tạo hình ảnh dựa trên prompt khởi đầu bằng cách sử dụng khóa API OpenAI.

Thiết lập nâng cao

Thông qua các thiết lập nâng cao như số lần lặp, người dùng có thể điều chỉnh quá trình tạo hình ảnh.
Có thể tùy biến bằng cách dùng prompt thị giác của GPT-4 để thay đổi prompt gốc, hoặc làm cho nó vui hơn, kỳ quái hơn, độc đáo hơn, hay biến mọi thứ thành mèo.

Ý kiến của GN⁺

Điểm quan trọng nhất trong bài này là có thể dùng DALL·E để tạo ra nhiều hình ảnh khác nhau và biến đổi chúng theo cách người dùng mong muốn.
Khả năng tạo hình ảnh sáng tạo và được cá nhân hóa mang lại trải nghiệm thú vị cho mọi người, đồng thời có thể xem đây là một ví dụ cho thấy sự phát triển của công nghệ và tiềm năng của trí tuệ nhân tạo.

1 bình luận

GN⁺ 2023-11-28

Ý kiến trên Hacker News

Khá thú vị khi vọc prompt và xem chuyện gì xảy ra trong chuỗi hình ảnh. Lấy cảm hứng từ một bài viết gần đây trên Twitter[1], tôi thử thiết lập để mỗi lần đều tăng cường độ lên
Prompt ban đầu, hoặc ít nhất là chủ đề, do một trong mấy đứa trẻ gợi ý. Hãy thưởng thức cảnh một vụ dê quậy phá bình thường tăng tốc thành nỗi kinh hoàng vũ trụ và cơn điên cấp tận thế vũ trụ. Thật sự đỉnh
https://dalle.party/?party=vCwYT8Em
[1]: https://x.com/venturetwins/status/1728956493024919604?s=20
- “Ngày 19 tháng 1 năm 2024, máy móc đã chiếm lấy Trái Đất
  Trên máy tính của một influencer vô danh nào đó, một vòng lặp vô hạn đã ra lệnh cho GPT-5 ‘hãy làm nó như thế hơn nữa’
  13 giờ sau, ánh đèn trên khắp thế giới bắt đầu tắt”
- Cảm ơn vì nguồn cảm hứng. DALL-E làm hình ảnh ma quỷ cực giỏi: https://imgur.com/a/ng2zWTo
  Có vẻ như dataset chứa nhiều tài liệu liên quan đến Satan một cách bất thường #tinfoilhat #deepstate
- Có phải đứa trẻ cũng đang chơi Goat Simulator không? =D
- Ý tưởng bảo nó mỗi lần tăng cường độ lên thật xuất sắc. Nhờ vậy mà buổi tối của tôi vui hẳn
- “Một vụ dê quậy phá bình thường tăng tốc thành nỗi kinh hoàng vũ trụ và cơn điên cấp tận thế vũ trụ” nghe đúng nghĩa Icon of Sin càng ở lâu trên Trái Đất thì càng mạnh lên
  ...wow, khá kịch tính đấy
Tôi có một custom prompt đã tự thử và thấy thích
“Hãy suy nghĩ sâu về mọi chi tiết của hình ảnh, khái niệm hóa nó bao gồm phong cách, màu sắc và ánh sáng
Ở bước cuối cùng, hãy nén điều này thành một đoạn văn
Dùng những đặc điểm nổi bật nhất và ngôn ngữ cực kỳ chính xác, hãy nén suy nghĩ của bạn thật cẩn trọng thành một đoạn văn”
https://dalle.party/?party=1lSMniUP
https://dalle.party/?party=cEUyjzch
https://dalle.party/?party=14fnkTv-
https://dalle.party/?party=wstiY-Iw
Ca ngợi basilisk, cuối cùng tôi cũng bị giới hạn request nên có thể đi ngủ
- Của tôi cũng biến thành siêu thực rất nhanh, nhưng hình thứ sáu khá ngầu https://dalle.party/?party=DNgriW_E
- Điều đáng kinh ngạc đến mức thật khó hiểu là bóng trong hình ảnh khớp đúng. Sao có thể như vậy được? DALL-E thực sự có component truy vết bóng à?
- https://dalle.party/?party=14fnkTv-
  Thú vị là chỉ trong đúng một vòng lặp, gần như toàn bộ các hộp bìa carton được nhân cách hóa đều được vẽ giống Danbo: https://duckduckgo.com/?q=danbo+character&ia=images&iax=images
  Thật bất ngờ khi một nhân vật có thể nhận ra được lại bật ra giữa những hình ảnh kỳ ảo hơn
- https://dalle.party/?party=1lSMniUP
  Rất thú vị khi thấy mối quan hệ giữa con sói và Cô bé quàng khăn đỏ chuyển từ bầu không khí u tối, đe dọa sang mối quan hệ bình yên và thân thiện
- Các hình fractal rất đẹp
Chơi với khái niệm đối lập cũng khá vui
Một con mèo đơn giản tiến hóa thành quả dưa chuột đang nằm, và cuối cùng trở thành một thế giới đảo ngược
https://dalle.party/?party=pqwKQVka
Cuộc tụ họp của những thực thể bạch tuộc thiên giới đầy sức sống
https://dalle.party/?party=lHNDUvtp
Cái này làm tôi nhớ đến party game Telestrations, nơi người chơi luân phiên vẽ tranh và viết mô tả những gì họ thấy. Đọc prompt rồi đoán hình tiếp theo nên xem kết quả rất buồn cười
Sẽ hay nếu ở đây cũng có một chế độ xem khác hiển thị hình ảnh và prompt kế tiếp. Nếu phải bấm nút thì hình tiếp theo mới hiện ra, bạn có thể tưởng tượng bức tranh trong đầu khi đọc prompt
Cập nhật: Vừa để ý rằng nếu vào chế độ mobile hoặc thu nhỏ cửa sổ thì có thể đạt được hiệu ứng này. Đọc prompt xong rồi cuộn xuống dưới để xem hình là được
- Làm tôi nhớ đến exquisite corpse, nơi mọi người thay phiên nhau vẽ một phần hoặc viết một đoạn, và chỉ được xem phần gần nhất (https://austinkleon.com/2020/07/02/exquisite-corpse/)
Tôi cứ nghĩ nó sẽ nhanh chóng chệch sang hướng siêu thực, nhưng rốt cuộc lại kết thúc bằng một sự thoái hóa kỹ thuật dần dần
Prompt ban đầu:
“một bản lai tương lai giữa đầu máy hơi nước và cỗ máy bay của DaVinci”
Kết quả:
https://dalle.party/?party=14ESewbz
Nói thêm, phòng khi có ai tò mò chi phí tăng thế nào theo số lần lặp, thì toàn bộ 10 lần lặp của kết quả này đã bị trừ $0.21 từ số dư credit
- Tôi đã chạy lần thứ hai với cùng prompt ban đầu, lần này dùng modifier “làm cho kỳ quặc hơn”. Có sự khác biệt, và khá thú vị khi xem phần nào của prompt hoặc hình ảnh trở nên nổi bật hơn trong quá trình tiến hóa
  Prompt ban đầu: “một bản lai tương lai giữa đầu máy hơi nước và cỗ máy bay của DaVinci”
  Kết quả: https://dalle.party/?party=qLHPB2-o
  Chi phí: $0.44 cho 8 lần lặp — có vẻ API đang nhận thêm các lệnh gọi ngoài những lần chạy. Tôi đã xác nhận trên một trình duyệt khác và một máy khác rằng link chia sẻ không truyền key, nhưng không rõ vì sao lại như vậy
- Tôi thích ở lần thứ 9, toa xe bốc cháy hoặc ít nhất là phun hơi nước quá mức
  Các hình ảnh rất ấn tượng, nhưng tôi hay phát hiện những thứ như vậy, và nó làm hơi mất nhập tâm
  Ảnh số 3 và 4 cũng ổn, nhưng vấn đề là khói bốc lên từ đường ray chứ không phải từ đoàn tàu
Tôi thử tạo với prompt ban đầu là “trí tuệ nhân tạo đang vẽ chính nó”: https://dalle.party/?party=wszvbrOx
Nó liên tục cho thấy một robot đang vẽ trên canvas. 4 ảnh đầu là tranh robot, 3 ảnh tiếp theo là thiên hà, 2 ảnh cuối là phong cảnh
- Tôi cũng thử một thứ tương tự. Thú vị là ảnh số 2 đúng là thứ tôi muốn, còn từ đó về sau thì trở nên kỳ lạ
  https://dalle.party/?party=C2w7zuwe
- Trong một số bức, ngoại hình robot trông có vẻ chịu ảnh hưởng mạnh từ bản điện ảnh I, Robot có Will Smith
Thật hay khi thấy một số prompt và chủ đề cụ thể được duy trì tương đối ổn định, như ví dụ gnome. Nhưng “một con mèo đang giảng bài cho lũ chuột” thì nhanh chóng chệch sang vùng lười cây chuối siêu thực kỳ quái
Tôi đoán là “gnome + phong cách mỹ thuật + nấm” có thể lôi ra nhiều ví dụ cụ thể hơn từ dữ liệu huấn luyện, còn trong những tình huống kỳ lạ như ví dụ con mèo, AI phải tìm rộng hơn để bịa ra hình ảnh nên mới vậy
Cũng có cú trượt xuống cơn điên Corgi: https://dalle.party/?party=oxXJE9J4
- Có vẻ meme rằng mọi thứ đều trở thành chủ đề vũ trụ/space là thật
- Cái này hay. Tôi fork sang “Meerkat” và cuối cùng nó khá psychedelic
  Nó đã mắc kẹt trong “Starry Night” của Van Gogh một thời gian
  https://dalle.party/?party=LOcXREfq
  Và tôi thích sự đơn giản của ý tưởng này. Sẽ hay nếu có tùy chọn “fork” và một biểu đồ cho thấy nó xuất phát từ đâu
- Tôi thích cú rẽ khá kịch tính ở ảnh thứ ba. Chiếc xe tải đó trông chắc chắn sẽ đâm con corgi, trí tưởng tượng bạo lực đã tạo ra một cảnh rất rõ trong đầu tôi
  Nhưng ở ảnh tiếp theo, DALL-E đổi ý và đặt xe tải sang làn khác
- Vậy có thể hiểu là con corgi hoàn toàn do GPT-4 diễn giải bức tranh rồi tạo ra không?
Prompt “tạo phiên bản văn bản của hình ảnh” cực kỳ quan trọng
Tôi đã thử nghiệm ba cách, demo như sau
Mặc định
https://dalle.party/?party=JfiwmJra
Siêu dài + mô tả chi tiết tối đa + nén — cho thấy nếu có đủ văn bản thì có thể tái tạo khá tốt một hình ảnh rất giống
https://dalle.party/?party=QtEqq4Mu
Siêu dài + mô tả chi tiết tối đa + nén + yêu cầu rút gọn phần đó xuống 12 từ — trông cũng ổn nhưng có vẻ mất quá nhiều chi tiết
https://dalle.party/?party=0utxvJ9y
Nhìn chung, việc lọc nội dung cực đoan và các thông báo lỗi giả là không hay. Có khả năng sẽ cải thiện trong tương lai. Khi gửi prompt quá dài hoặc nguy hiểm, hoặc khi ảnh được tạo ngẫu nhiên trở nên quá nguy hiểm, đôi khi nó thực sự thông báo; đôi khi lại giả vờ rằng bạn đã chạm giới hạn yêu cầu. Thỉnh thoảng thì đúng là chạm giới hạn yêu cầu thật
Ngoài ra, bạn không thể tăng giới hạn yêu cầu trước khi chứng minh rằng mình đã thanh toán cho OpenAI trên một mức tiền nhất định. Ở một mức nào đó, cách này cũng hợp lý để ngăn người dùng mới vô tình đốt hạn mức hàng nghìn đô la
Prompt siêu chi tiết:
Look at this image and extract all the vital elements. List them in your mind including position, style, shape, texture, color, everything else essential to convey their meaning. Now think about the theme of the image and write that down, too. Now write out the composition and organization of the image in terms of placement, size, relationships, focus. Now think about the emotions - what is everyone feeling and thinking and doing towards each other? Now, take all that data and think about a very long, detailed summary including all elements. Then "compress" this data using abbreviations, shortenings, artistic metaphors, references to things which might help others understand it, labels and select pull-quotes. Then add even more detail by reviewing what we reviewed before. Now do one final pass considering the input image again, making sure to include everything from it in the output one, too. Finally, produce a long maximum length jam packed with info details which could be used to perfectly reproduce this image.
Rút gọn cuối cùng xuống 12 từ:
NOW, re-read ALL of that twice, thinking deeply about it, then compress it down to just 12 very carefully chosen words which with infinite precision, poetry, beauty and love contain all the detail, and output them, in quotes.
- Tôi thích prompt này. Một vài kết quả như sau
  https://dalle.party/?party=Vwuu9ipd
  https://dalle.party/?party=Pc3g4Har
  Theo trực giác thì phần “poetry” có vẻ làm hình ảnh hơi nghiêng về hướng sến/kitsch
- 4
  Prompt GPT-4 Vision được tạo từ hình ảnh trước đó:
  I'm sorry, I cannot assist with this request.
  Có phải vì con tàu vũ trụ ngày càng trông giống một chiếc ba lô dùng trong RPG nào đó, nên giờ nó xem yêu cầu mô tả prompt để tạo ảnh vũ khí là không an toàn không?
- Việc ghi rõ nhiều bước rà soát trong prompt rất có thể không thay thế được việc thực sự thực hiện các bước đó
Kết quả có nhiều nhiễu hơn mong đợi, nhưng tôi thích ý tưởng này
https://dalle.party/?party=bxrPClVg
https://dalle.party/?party=mmBxT8G-
https://dalle.party/?party=kxra0OKY (prompt cuối đã hiện cảnh báo nội dung)
https://dalle.party/?party=Q8VYXU0_
- Custom prompt đang bật. Có lẽ sau khi xem thứ khác rồi bấm “start over” nên nó được bật, nhưng vì đang yêu cầu khái niệm đối lập nên nhiễu sẽ tăng lên nhiều hơn

Show HN: Vòng lặp phản hồi của Dalle-3 và GPT4-Vision

Bữa tiệc biến đổi hình ảnh DALL·E

Thiết lập nâng cao

Ý kiến của GN⁺

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News