1 bình luận

 
GN⁺ 2024-02-23
Bình luận trên Hacker News
  • Hôm qua tôi đã thử dùng thứ này cùng với Groq để tăng cường trò chơi vui vô tận của Neal Agrawal bằng một tiện ích mở rộng Chrome, và khiến nó tạo ra hình ảnh thật chứ không chỉ emoji
    Việc tạo ảnh gần như theo thời gian thực kết hợp với sinh nội dung bằng LLM mang lại cảm giác như tương lai. Tôi dùng Mixtral của Groq để viết prompt, còn Fal API cho phần sinh ảnh thời gian thực
    https://x.com/altryne/status/1760561501096575401?s=20

    • Sẽ hay nếu biến nó thành một game cuộn ngang, để khi chơi tiếp thì phần nền chuyển đổi dần dần và tự nhiên thành bản dựng của những từ mà trò chơi đang đề cập tới
      Tôi hình dung phong cảnh xanh ở đầu bản demo từ từ chuyển thành địa hình núi khô cằn ở các hình ảnh sau, đồng thời một nhân vật mới xuất hiện ở tiền cảnh
    • Tôi cũng tò mò liệu có thể biến nó thành một game dạng thẻ bài không
    • Trông thật sự rất tuyệt. Tôi muốn biết liệu có khả năng chia sẻ tiện ích mở rộng Chrome đó không
  • Ghi lại để tham khảo, SDXL Lightning là mã nguồn mở được phát hành trên Hugging Face với giấy phép tương đối dễ dãi: https://huggingface.co/ByteDance/SDXL-Lightning
    Ngoài ra còn có vài UI khác. Ví dụ: https://replicate.com/lucataco/sdxl-lightning-4step

    • Đúng vậy. Ở bên trong, nó dùng SDXL Lightning mà ByteDance đã huấn luyện trên nền Stable Diffusion XL rồi phát hành mã nguồn mở
      Sau đó bổ sung engine suy luận riêng và hạ tầng thời gian thực để mang lại trải nghiệm mượt hơn các UI khác. Xét về tốc độ thì gần như không có gì để so sánh: ở đây 4 bước mất khoảng 370ms, trong khi ví dụ replicate được link ở trên vào khoảng 2~3 giây
    • Tôi cũng làm một bản demo bằng Gradio, nhưng chậm hơn fal.ai 2 lần. Nó dùng stable-fast compile trên một A10G đơn
      https://huggingface.co/spaces/radames/Real-Time-Text-to-Imag...
      Nếu có GPU/CUDA/Docker thì bạn cũng có thể chạy thử cục bộ
      docker run -it -p 7860:7860 --platform=linux/amd64 --gpus all -e SFAST_COMPILE="1" -e USE_TAESD="0" registry.hf.space/radames-real-time-text-to-image-sdxl-lightning:latest python app.py
    • Tôi muốn biết mức sử dụng bộ nhớ và tốc độ khi suy luận cục bộ là thế nào
  • Tốc độ thì rất xuất sắc
    Còn về chất lượng, hôm nay tôi mượn một prompt mà mọi người đã dùng để thử Stable Diffusion 3 và các mô hình khác: "Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat"
    Đây là kết quả tôi nhận được: https://imgur.com/a/XrAuqCB
    So với Stable Diffusion 3: https://pbs.twimg.com/media/GG8mm5va4AA_5PJ?format=jpg&name=...

    1. https://news.ycombinator.com/item?id=39467526
    • Mức độ tuân thủ prompt không gian nhìn chung là điểm yếu của SDXL và các dòng Stable Diffusion trước đó. Tôi hy vọng Stable Diffusion sẽ trau chuốt tốt phần này như ví dụ trên
      Tôi cũng đã thử ví dụ tương tự trên Stable Cascade, là mô hình Stability phát hành trọng số công khai mới nhất, và kết quả cũng không tốt lắm: https://fal.ai/models/stable-cascade?share=eab44060-690b-497...
    • Kết quả tôi nhận được khá chính xác: https://imgur.com/a/vH0zq5b
      Seed: 3919562
    • Nếu đổi seed liên tục thì kết quả thay đổi rất nhiều
  • Bản demo thực sự ấn tượng, nhưng nếu mượt hơn nữa thì chắc còn đáng kinh ngạc hơn nhiều. Hiện tại, ví dụ khi xóa một từ hoặc thêm khoảng trắng, nó sẽ suy luận 4 lần trong một khoảng thời gian ngắn nên tạo cảm giác khựng lại
    Có thể họ cố tình hiển thị kết quả theo từng bước. Nhân tiện, đây là demo của fal.ai, và tôi biết đến họ lần đầu vào sáng hôm Stable Cascade được công bố, khi họ đăng bản demo đó lên
    Nếu bạn chạy suy luận ở bên ngoài OpenAI thì tôi rất khuyến nghị fal.ai. Tôi đã ở trong ngành AI gần 3 năm và gần như bám sát 24/7 từ năm ngoái, và Fal có vẻ là dịch vụ đầu tiên thực sự chăm chút chi tiết để đạt được tốc độ như thế này trong sử dụng thực tế, chứ không chỉ là con số trong bài báo
    Ví dụ như kết nối WebSocket, hay JWT sống ngắn để không cần đi qua edge function chỉ để ký request bằng API key

    • Nếu nhanh đến mức này thì có lẽ sẽ tốt hơn nếu tạo các ảnh trung gian theo một quỹ đạo mượt trong không gian tiềm ẩn, thay vì nhảy thẳng đến ảnh mục tiêu ngay lập tức
  • Tôi thật sự rất thích bản demo này. Nó dễ tiếp cận, nhanh và trực quan. Thật đáng kinh ngạc khi có thể đạt được chất lượng như thế này một cách dễ dàng đến vậy

    • Bản demo này và Groq thật sự gây kinh ngạc. Mới cách đây không lâu, tôi còn nhớ mình phải đợi rất lâu chỉ để nhận được một hình ảnh lỗi từ một trang cho khoảng 20 lượt tạo miễn phí nếu đăng ký tài khoản
      Giờ thì có thể vào thẳng một trang web và tạo văn bản lẫn hình ảnh với tốc độ chớp nhoáng mà không cần đăng ký hay CAPTCHA, điều đó thật ấn tượng. Đặc biệt là khi Groq và fal.ai thậm chí có thể mở hoàn toàn bản demo, tôi đã không ngờ tới mức cải thiện hiệu năng như vậy vào đầu năm 2024
      Tôi nghĩ việc tạo nhanh cũng bù đắp đáng kể cho nhược điểm về chất lượng hình ảnh. Ngay cả khi thất bại, kết quả tốt thường chỉ cách một seed hoặc một chỉnh sửa nhỏ trong prompt
  • Tôi thắc mắc làm sao nó có thể nhanh đến vậy. Và tôi không biết hình ảnh blob:[https://blbahblah](<https://blbahblah>;) là gì
    Thêm nữa, nếu thay đổi prompt một chút thì gấu mèo rất dễ có hai cái đuôi

  • Thật sự ấn tượng. Giảm độ trễ ảnh hưởng rất lớn đến cách tương tác với những công cụ như thế này
    Lợi thế về tốc độ ở đây không chỉ dừng lại ở việc tạo được nhiều ảnh hơn, mà còn giúp bạn thử nhiều lần mà vẫn giữ được mạch suy nghĩ liền mạch

  • Rất ấn tượng, nhưng tôi muốn hỏi có ai biết cách tạo nhân vật nhất quán bằng Stable Diffusion không
    Nếu prompt đầu tiên là một cô gái đang nói chuyện với con mèo, và prompt thứ hai là cô gái đó đang chơi với con mèo ấy, thì tôi muốn cô gái và con mèo trông giống nhau trong cả hai bức hình
    Nếu có thể, các liên kết hoặc hướng dẫn liên quan sẽ rất hữu ích

    • Nếu tôi nhớ không nhầm thì Dashtoon Studio cho phép tạo truyện tranh với các nhân vật nhất quán bằng Stable Diffusion: https://dashtoon.com/create
    • Có thể làm điều đó trong Dashtoon Studio. Chỉ cần tải lên một hình ảnh là nó sẽ huấn luyện LoRA nhân vật nhất quán. Đây là phần mềm làm truyện tranh AI, và tôi đã tìm thấy video này trên YouTube: https://www.youtube.com/watch?v=EEQwEvKQGvE
      LoRA có lẽ là phương án đa dụng nhất. Vì bạn có thể lấy được nhân vật một cách nhất quán ở tư thế và góc máy mong muốn. IP-Adapter sao chép quá nhiều đặc điểm từ ảnh đầu vào, và rất khó chọn yếu tố nào không nên sao chép, như tư thế. Vì vậy có thể sẽ khó khiến nhân vật từ ảnh chân dung đầu vào thực hiện hành động khác
      Reactor cần một ảnh được tạo ra để thay mặt vào. Nó hoạt động tốt với ảnh chân thực, nhưng với ảnh cách điệu thì không giữ được phong cách và cũng không sao chép kiểu tóc
      Trong những gì tôi tìm được cho đến nay, Dashtoon là ổn định và dễ dùng nhất. Việc thu thập 20 ảnh mới của nhân vật cũng đã khó, và trong bộ dữ liệu huấn luyện LoRA thì các thuộc tính ảnh như số lượng cận cảnh hay số lượng biểu cảm khá quan trọng
    • Có thể xem thử https://scenario.gg. Bạn có thể tự huấn luyện LoRA bằng các ảnh tùy chỉnh của nhân vật, và để có độ nhất quán tốt thì cần khoảng 20 ảnh từ nhiều góc độ
      Một cách đơn giản hơn nhưng vẫn khá ổn là IP-Adapter, dịch vụ này cũng hỗ trợ. Có vẻ sẽ khó giữ cho con mèo nhất quán nếu không có LoRA tùy chỉnh. Tài liệu tham khảo: https://help.scenario.com/training-a-character-lora
    • Thường thì chỉ cần dùng tên là đủ. Với các mô hình SD tốt, Maria Smith gần như lúc nào cũng trông giống Maria Smith
    • Mickey trông khá nhất quán: https://fastsdxl.ai/share/4us7hrp3jm20
  • Cách nó hoạt động khi nhập một ký tự đơn khá thú vị. Trong trường hợp của tôi, nó thường hội tụ thành những tòa nhà nhỏ và khá chi tiết
    Càng lặp lại cùng một ký tự nhiều hơn, ví dụ 11111111 thay vì 111, thì tòa nhà càng kỳ quặc hơn. Giờ tôi thấy có vẻ nó khá nhạy với seed

    • Những từ hoặc khái niệm không xác định về cơ bản không ảnh hưởng đến đầu ra. Hãy thử thay baby raccoon trong prompt bằng maxolhx, nó sẽ bỏ qua từ đó và render một cô dâu Ý
      Nói chính xác thì nó vẫn có tác động, nhưng không theo cách mà chúng ta có thể dễ dàng giải thích. Gần như là đang nghịch với seed vậy
  • Rất thích. Ước gì có thể chia sẻ URL
    late 90s movie poster, 24 hour clock movie "2: Electric Boogaloo" dan aykroyd1
    Kết quả với prompt này rất xuất sắc