21 điểm bởi GN⁺ 2025-09-12 | 1 bình luận | Chia sẻ qua WhatsApp
  • Bộ sưu tập mã nguồn mở tập hợp nhiều ví dụ về các tác vụ tạo và chỉnh sửa ảnh đa dạng của Google Nano-banana
  • Trình bày các khả năng biến đổi sáng tạo và chỉnh sửa nhiều ảnh bằng công nghệ tạo ảnh của Google
  • Mỗi trường hợp là ví dụ sử dụng thực tế được thu thập từ các cộng đồng như Twitter/X, Xiaohongshu
  • Cung cấp đa dạng ví dụ biến đổi mang tính thử nghiệm và ứng dụng bằng cách kết hợp prompt văn bản với ảnh đầu vào
  • Tài liệu hóa thiết kế prompt và hướng dẫn đầu vào để ai cũng có thể dùng ngay

Tổng quan

  • Kho lưu trữ này là một thư viện tuyển chọn tập hợp nhiều hình ảnh và ví dụ prompt được tạo bằng công nghệ tạo và chỉnh sửa ảnh của Nano-banana
  • Kho này giúp hiểu rõ hơn về Nano-banana đồng thời cho thấy khả năng tạo và chỉnh sửa ảnh gần như vô hạn của Google, cũng như trải nghiệm sức mạnh của việc hợp nhất nhiều ảnh và chỉnh sửa sáng tạo
  • Các ví dụ chủ yếu được thu thập từ Twitter/X, Xiaohongshu và các nền tảng truyền thông cá nhân khác
  • Ghi lại ngày cập nhật kho lưu trữ mới nhất và lịch sử phiên bản

Menu

Mỗi ví dụ gồm tổ hợp ảnh đầu vào và prompt, cùng với kết quả đầu ra.

Ví dụ đầu vào & prompt

  • Đầu vào: cần nhiều loại khác nhau như ảnh tham chiếu, ảnh Google Maps, ảnh chân dung, bản phác thảo, ảnh chất liệu
  • Prompt: bao gồm các yêu cầu chi tiết bằng tiếng Anh về biến đổi ảnh, chỉnh sửa, thiết kế, cân chỉnh màu sắc

Cấu trúc prompt tiêu biểu

  • Biến đổi phong cách, kiểu tóc, nền của nhân vật hoặc vật thể
  • Có thể dùng cho nhiều mục đích như sản phẩm, tòa nhà, nhân vật, đồ ăn, phong cách truyện tranh, ảnh ID, mockup
  • Phần [ngoặc vuông] có thể được chỉnh sửa theo mục đích sử dụng để hướng dẫn chi tiết hơn

Quy trình ví dụ

  • Tải ảnh lên → nhập prompt → kiểm tra kết quả đầu ra (liên kết ảnh)
  • Một số được trình bày theo bảng 'đầu vào/kết quả', một số chỉ cung cấp riêng kết quả đầu ra

Tóm tắt các ví dụ chính theo case

  • Biến đổi nhân vật/sản phẩm: tạo ảnh chân dung theo phong cách nhân vật, figure, Lego, gói phong cách Gundam
  • Cosplay/thiết kế: tạo ảnh cosplay dựa trên minh họa, tạo ảnh ba mặt nhân vật và sheet biểu cảm
  • Chỉnh sửa/khôi phục ảnh: phục hồi ảnh cũ, xóa nền trong suốt, cải thiện màu sắc/độ sáng, khôi phục nhiễu
  • Ghép ảnh/chuyển đổi phong cách: truyện tranh 4 khung đen trắng không lời thoại, chuyển phong cách truyện tranh, thu nhỏ mô hình, áp dụng chất liệu/bộ lọc, đổi kiểu tóc/trang điểm
  • Trực quan hóa dữ liệu: infographic tóm tắt blog/bài viết, hiển thị calo và thành phần dinh dưỡng
  • Giáo dục/thuyết trình: hình minh họa mô hình ruột, giải bài toán, thêm chú thích giải thích

Hướng dẫn prompt và tham khảo

  • Mỗi prompt và phần mô tả case đều cung cấp hướng dẫn tùy chỉnh cho giá trị đầu vào và [nội dung thay thế]
  • Có thể kết hợp nhiều ảnh để ứng dụng vào story, bảng thời trang, pose sheet
  • Cũng có thể tạo ra các kết quả mang tính kỹ thuật như wireframe, hologram, biểu diễn 3D

Tham gia cộng đồng và lời cảm ơn

  • Tài liệu đang tiếp tục được bổ sung dựa trên những người chia sẻ ví dụ thực tế trong cộng đồng AI
  • Có thể tự do đề xuất ý tưởng ứng dụng hoặc tác phẩm sáng tạo mới

Ý nghĩa và điểm khác biệt của dự án

  • Đây là một kho GitHub tập hợp phong phú các ví dụ ứng dụng thực tế của các thuật toán tạo ảnh mới nhất
  • Có thể xem nhanh các tùy chọn chi tiết của prompt Nano-banana, kết quả đầu ra và cách áp dụng theo từng case
  • Mang lại giá trị tham khảo và tính thực tiễn cao cho mọi đối tượng như nhà thiết kế, nhà nghiên cứu AI, nhà phát triển
  • Mỗi ví dụ đều có thể dễ dàng tái sử dụng cho nhiều mục đích chỉnh sửa, tạo và biến đổi ảnh khác nhau

1 bình luận

 
GN⁺ 2025-09-12
Ý kiến Hacker News
  • Tôi rất ấn tượng khi Nano-Banana cho ra kết quả thật sự đáng kinh ngạc. Tôi đang vận hành một trang web so sánh các mô hình tạo ảnh tiên tiến, nơi tiêu chí ưu tiên hàng đầu là kết quả đầu ra bám sát đến mức nào với nhiều prompt text-to-image khác nhau. Gần đây tôi cũng đã thêm một Editing Comparison Showdown để đánh giá khả năng chỉnh sửa cục bộ một ảnh có sẵn bằng văn bản. Hiện tôi đang so sánh 6 mô hình đa phương thức (Nano-Banana, Kontext Max, Qwen 20b, v.v.). Có thể xem kết quả tại đây. Gemini Flash 2.5 đang đứng đầu với 7/12 điểm, còn Kontext là 5 điểm; xét cả việc mô hình dev có thể chạy cục bộ thì điều đó khá ấn tượng
    • Tôi thường gặp trường hợp Nano Banana tạo lại đúng ảnh cũ ngay cả khi tôi yêu cầu thay đổi lớn một cách rõ ràng. Thỉnh thoảng nó lại cho ra kết quả đúng một cách rất kỳ lạ; nếu ai từng gặp hiện tượng này hoặc biết cách xử lý thì rất mong được chỉ giáo
    • Nó vẫn chưa thể thể hiện đồng hồ đúng cách (ví dụ đồng hồ hiển thị 1:15 am). Ngoài ra, phần chữ được tạo trong ảnh truyện tranh cũng chưa chính xác 100%
    • Tôi khuyên nên thêm gpt-image-1. Về mặt chặt chẽ thì nó không phải mô hình chỉnh sửa vì nó thay đổi pixel trên toàn cục, nhưng khi dùng prompt rất phức tạp và có ảnh tham chiếu thì nó cho cảm giác làm theo chỉ dẫn tốt hơn Nano Banana
  • Tôi thấy ấn tượng ở chỗ mô hình này gần như chỉ bị giới hạn bởi trí tưởng tượng, và giá chỉ $0.04 mỗi ảnh. Trang đó không nói rõ, nhưng đây là mô hình Google Gemini Image Generation (tài liệu chính thức). Bộ ví dụ cũng khá hay. Tuy nhiên, tôi hơi ngạc nhiên vì ví dụ thứ hai có vẻ hơi không phù hợp với môi trường công việc
    • Tôi muốn nhấn mạnh rằng Nano Banana được tối ưu đặc biệt cho chỉnh sửa ảnh (thông tin chi tiết hơn)
    • Tôi tò mò không biết đây là một mô hình đơn lẻ hay là một pipeline mô hình
  • Một số ví dụ có yếu tố NSFW. Việc chia sẻ URL ở đầu trang có thể khá nhạy cảm trong phần lớn ngành công nghệ ở Mỹ, nên có lẽ tốt hơn là chỉ chọn các ví dụ an toàn riêng lẻ để giới thiệu. Để tham khảo, một nửa của case 1 là một phụ nữ phong cách anime/truyện tranh mặc đồ hầu gái đang tạo dáng vén váy để lộ đồ lót. Tôi nghĩ đây là phần gây vấn đề nhất trong số các ví dụ mà khách truy cập có thể thấy ngay ở trang đầu
    • Tôi thực sự ngạc nhiên là ví dụ lộ đồ lót này lại được tạo ra. Khi tôi dùng Nano Banana (bộ lọc an toàn để 'off'), nó từ chối tạo ảnh phong cách truyện tranh có mũ giáp samurai bị nguyền rủa và xác chết nằm dưới đất
    • Điều làm tôi bận tâm hơn là ảnh tham chiếu rõ ràng là digital art chất lượng cao do nghệ sĩ tạo ra. Bỏ qua vấn đề pháp lý trong mảng AI/LLM, việc công khai dùng tác phẩm của người khác trong tài liệu chính thức vẫn khiến tôi khó chịu về mặt đạo đức
  • Tôi thật sự không hiểu vì sao mọi người lại có kết quả tốt. Tôi đã thử chọn Nano Banana (gemini-2.5-flash-image-preview) ở đây, nhưng kết quả tệ khủng khiếp. Nếu tải lên ảnh tham chiếu nhân vật và một bối cảnh rồi yêu cầu đưa nhân vật vào cảnh đó, nó chỉ đơn giản cắt-dán, dù khác style hay màu sắc cũng cứ thế ghép vào. ChatGPT còn cho kết quả tốt hơn (dù đôi khi không quá giống, nhưng vẫn tốt hơn nhiều so với việc làm bằng Paint trong 2 phút). Có phải tôi đang dùng nhầm model không?
    • Tôi cũng gặp đúng hiện tượng đó. Khi Nano Banana hoạt động tốt thì rất tốt, nhưng 90% trường hợp kết quả kỳ quặc hoặc chất lượng thấp. Nó giống kiểu cắt-dán hoặc paint-over, và còn từ chối cả những yêu cầu hợp lý với lý do "an toàn" (theo trải nghiệm của tôi thì gần như không làm được với ảnh có người thật). Thay vì ấn tượng, tôi thấy bực mình hơn
    • Theo trải nghiệm của tôi, nếu Nano Banana thấy ổn thì nó thật sự dùng copy-and-paste rất mạnh tay. Bạn phải prompt thật rõ rằng nhân vật cần được tích hợp tự nhiên vào cảnh. Nói cách khác, nếu prompt đúng cách thì nó vượt trội hơn các mô hình khác rất nhiều, nhưng chính quá trình thiết kế prompt lại phiền và mất công
    • Có lẽ nên thử điều chỉnh prompt từng chút một, hoặc nhờ Gemini 2.5 pro cải thiện prompt rồi đưa sang Gemini 2.5 Flash, lặp lại như vậy để học xem cái gì hiệu quả
    • Tôi cũng vậy, kết quả toàn rác. Tôi tải ảnh vợ tôi (32 tuổi) lên để thử xem nếu có mái bằng thì sẽ thế nào, nhưng hầu hết bị từ chối vì lý do an toàn. Thỉnh thoảng có thành công thì khuôn mặt lại thành người hoàn toàn khác. Chỉ đúng một lần nó làm ra được ảnh ổn, nhưng vẫn không thể chỉnh tóc mái, và cứ liên tục trả về cùng một kết quả kèm nhiều lần báo "nội dung bị chặn"
  • Cá nhân tôi thấy hiệu năng của mô hình này dưới kỳ vọng. Có vẻ các ảnh ví dụ đã được tuyển chọn. Tôi chia sẻ vài ca thất bại mà mình gặp: không xóa được bóng đổ nặng trên mặt trong ảnh, yêu cầu tô màu ảnh đen trắng cũ thành màu sắc nét kiểu DSLR hiện đại thì chỉ ra màu nhợt nhạt, yêu cầu lưới kiểu tóc 3x3 thì cứ lặp 2x3 rồi cuối cùng có 3x3 nhưng lẫn chủng tộc, và cũng không thể hòa trộn ảnh thật với ảnh sinh ra (ví dụ ảnh cá heo mặc váy tutu trông như ghép dán rất thô)
    • Ví dụ tô sáng tòa nhà bằng AR rất ngầu. Với cùng một prompt, nó tô sáng tốt tòa nhà nổi bật nhất trên đường chân trời, nhưng nếu chỉ định tòa nhà khác thì thất bại hoàn toàn. Tôi yêu cầu tìm và tô sáng Chrysler Building trong ảnh Midtown Manhattan thì nó bảo "không có trong ảnh", còn với 432 Park Ave thì lại sinh ra một tòa nhà ngẫu nhiên giữa ảnh. Trong ảnh khu Museum Campus ở Chicago, khi tôi yêu cầu một tòa nhà cụ thể thì nó lại tô sáng Hancock Center vốn không hề thấy trong ảnh. Phần mô tả cũng sai, và có lúc chữ bị vỡ
    • Ngay cả các ví dụ cũng không hoàn hảo. Prompt "ảnh của tôi qua các thời đại" đã thay đổi hoàn toàn khuôn mặt dù có yêu cầu "đừng đổi mặt"; "OOTD Outfit" dùng sai máy ảnh; "Virtual Makeup Try-On" thất bại trong việc thể hiện trang điểm; "Lighting Control" kiểm soát ánh sáng rất tệ; "Design a Chess Set" nói rằng không cần ảnh đầu vào nhưng thực tế lại cần; nói chung có khá nhiều dấu hỏi quanh các kết quả. Dù vậy, với người không dùng Photoshop hoặc muốn có bản nháp để bắt đầu chỉnh tay thì vẫn có ích
    • Thực ra, tôi nghĩ với bất kỳ dự án nào thì demo quảng bá luôn được chọn từ những ví dụ đẹp nhất là điều đương nhiên
  • Gần đây tôi đã phát hành một gói giúp tạo ảnh Nano Banana dễ dàng bằng Python (liên kết github). Trong lúc thử nghiệm, tôi nhận ra một xu hướng prompt engineering khá ấn tượng: a) dùng danh sách Markdown theo kiểu LLM và b) dùng các từ khóa style ảnh AI truyền thống như "award-winning", "DSLR camera" cực kỳ hiệu quả với Gemini 2.5 Flash Image. Mô hình này có text encoder và tập dữ liệu huấn luyện lớn hơn nên phân biệt khá tốt những đặc trưng mà các công thức thực tế đang nhắm tới. Tài liệu dành cho nhà phát triển của Google cũng khuyến nghị dùng các từ khóa như vậy. Ngoài ra, nhờ cửa sổ ngữ cảnh 32k, còn có thể thử những thứ thú vị như render HTML thành ảnh hoặc dùng đầu vào JSON tinh vi để có kết quả nhất quán
  • Tôi nghĩ đây là một bước tiến đáng kinh ngạc. Chỉ cách đây không lâu, việc xuất cùng một nhân vật nhiều lần một cách nhất quán còn rất khó. Giờ chúng ta đã thấy mức độ kết hợp và nhất quán như thế này. Tốc độ tiến bộ của các mô hình sinh thật sự đáng nể. Cảm ơn người tạo và những người đóng góp đã tập hợp rất nhiều ví dụ; nó giúp ích rất nhiều trong việc hiểu công cụ này thực sự là gì
  • Gần đây tôi nhận ra rằng trước đây tôi từng khá thích thú với niềm tin rằng con người có một khả năng đặc biệt là dùng trí tưởng tượng để hình dung những thứ như thay đổi kiểu tóc trong đầu. Giờ thấy máy móc có thể tái hiện khả năng đó ngang bằng hoặc hơn cả trí tưởng tượng của tôi, tôi hơi khó chịu, giống như việc sức tưởng tượng của mình có lẽ cũng chẳng có gì đặc biệt, cũng như tôi không có sức mạnh gì ghê gớm khi nâng một cái móc treo quần áo
    • Tôi lại là kiểu không thể hình dung hình ảnh trong đầu, nên lúc nào cũng chỉ nghĩ theo hướng trí tuệ và logic; trí tưởng tượng của bạn vẫn là một năng lực đặc biệt. Với người bình thường, nó đúng là như siêu năng lực. Tôi muốn ví AI như Batman (có tiền và đai tiện ích thì rất mạnh, nhưng bỏ chúng đi thì bất lực), còn trí tưởng tượng của con người là Superman (là năng lực bẩm sinh nên lúc nào cũng có thể dùng)
    • Tôi nghĩ việc có thể nhìn thấy những hình ảnh mình tưởng tượng trong đầu rồi cảm thấy vui, cười, ngạc nhiên hoặc bị sốc là điều thật sự đặc biệt. Con người có lý do tồn tại và có cảm xúc; ta có thể ngắm hoàng hôn và nghĩ về sự tán xạ ánh sáng, hoặc đơn giản chỉ tận hưởng sự kỳ diệu của nó. Mỗi lần ta đón nhận trọn vẹn một khoảnh khắc đều có cảm giác như phép màu. Việc tôi có thể trả lời bạn, và việc Hacker News tồn tại, đều giống như một phép màu
    • Tôi bị aphantasia (tức không thể tưởng tượng hình ảnh trong đầu), nên tôi thấy vui vì giờ mọi người đều có thể tưởng tượng trong cùng một điều kiện
    • Tôi tò mò liệu sau này máy móc có thể tự tạo ra các phong cách nghệ thuật mới hay không. Ví dụ, phong cách manga/anime thay đổi theo thời đại; nếu con người dừng quá trình tiến hóa đó lại thì liệu máy móc có thể tiếp tục phát triển nó hay không là điều rất đáng theo dõi. Về nguyên tắc thì có lẽ là được (con người cũng là cỗ máy sinh học), nhưng với kiến trúc AI hiện tại tôi nghĩ vẫn còn xa
    • Công bằng mà nói, chính khả năng này của mô hình cũng là nhờ dữ liệu huấn luyện do chúng ta tạo ra
  • Tôi đang dùng Nano Banana cực kỳ hữu ích. Tôi dùng nó để làm sách tô màu dựa trên ảnh cho con trai tôi và con của bạn bè (ví dụ và mã nguồn). Nó giữ được khá tốt cảm giác sách tô màu đen trắng, đồng thời vẫn lưu lại phần nào chi tiết của ảnh gốc
  • Tôi thấy khó chịu vì có quá nhiều ví dụ dàn dựng phụ nữ trẻ theo hướng gợi dục. Case 1/B là cảnh nhân vật nữ vén váy để lộ đồ lót. Đây là một mô hình rất ấn tượng, nhưng có vẻ PR đang bị phá hỏng bởi loại nội dung non nớt này. Tôi đếm được 26 ví dụ phụ nữ trẻ và 9 ví dụ nam giới. Nhân tiện, chỉ còn thiếu mỗi case 'Lena' nữa thôi (tham khảo Lenna)
    • Ban đầu tôi cũng thấy khó chịu y hệt. Không biết có phải vì tất cả chúng ta đều già đi rồi không, nhưng đúng là tôi có cảm giác đó
    • Tôi chấp nhận rằng động lực của tiến bộ công nghệ từ trước đến nay luôn là ham muốn tình dục (dù có thích hay không). VHS, thanh toán trực tuyến, video streaming cuối cùng cũng đều được thúc đẩy bởi nhu cầu này. Tôi còn nhớ cả bài hát nổi tiếng "The Internet is for Porn"
    • Nếu bạn tìm hiểu xem các nhà điêu khắc thời tiền sử từng tạc những gì thì còn bất ngờ hơn nữa. Trước khi mở trang web, tôi đọc bình luận thấy case 1 là một đứa trẻ rồi ngay sau đó là một cô hầu gái gợi cảm, nên phản ứng đầu tiên của tôi là: "Ôi làm ơn, đừng nói là hai thứ đó bị ghép vào cùng một ảnh nhé".