Easy Stable Diffusion XL có thể dùng ngoại tuyến trên thiết bị

(noiselith.com)

2 điểm bởi GN⁺ 2023-12-03 | 1 bình luận | Chia sẻ qua WhatsApp

Giới thiệu ứng dụng Noiselith

Công cụ tạo ảnh ngoại tuyến: Noiselith cho phép bạn tự do tạo hình ảnh trên thiết bị mà không cần đám mây.
Bảo vệ quyền riêng tư: Mọi tác vụ tạo sinh đều diễn ra cục bộ và không có thông tin nào được gửi lên đám mây.
Tạo không giới hạn: Cung cấp khả năng tạo không giới hạn, có thể tạo 100, 200, thậm chí 1000 hình ảnh mỗi ngày.
Tốc độ: Có thể tạo hình ảnh ngay trên thiết bị mà không cần chờ tài nguyên máy chủ.

Yêu cầu hệ thống

Windows: Cần Windows 10 hoặc 11, GPU NVIDIA RTX dòng 20 trở lên (VRAM từ 8GB), RAM từ 16GB và dung lượng lưu trữ từ 20GB.
macOS: Cần macOS 12.3 trở lên, Apple Silicon, RAM từ 32GB và dung lượng lưu trữ từ 20GB.

Trải nghiệm người dùng

Cài đặt đơn giản: Chỉ với vài cú nhấp chuột là Noiselith đã sẵn sàng để sử dụng.
Sử dụng trực quan: Cung cấp giao diện trực quan giúp biến ý tưởng thành hình ảnh mà không cần lo lắng về các chi tiết kỹ thuật.
Quản lý mô hình: Có thể dễ dàng tải xuống, xóa, cập nhật mô hình, đồng thời cung cấp thư viện để sắp xếp hình ảnh đã tạo một cách gọn gàng.

Lộ trình phát triển

Hỗ trợ nhiều tính năng: Dự kiến hỗ trợ mô hình SDXL, SDXL LoRA, quản lý lịch sử, quản lý dự án, quản lý mô hình, v.v.
Cộng đồng và khả năng mở rộng: Bao gồm các tính năng như cộng đồng người dùng, hỗ trợ mô hình SD 1.5 và 2.1, cơ sở dữ liệu mô hình, upscaler, smart prompt, v.v.
Noiselith App Store: Có kế hoạch phát triển app store bao gồm GPU đám mây và tính năng cộng tác từ xa.

Ý kiến của GN⁺

Điều quan trọng nhất trong bài viết này là ứng dụng Noiselith là một công cụ mới cho phép tạo hình ảnh không giới hạn ngay trên thiết bị của người dùng, đồng thời bảo vệ quyền riêng tư mà không cần sự hỗ trợ của đám mây.
Ứng dụng này thú vị ở chỗ giảm bớt sự phức tạp trong việc cài đặt và sử dụng phần mềm, đồng thời giúp bất kỳ ai cũng có thể dễ dàng bắt đầu tạo hình ảnh thông qua giao diện trực quan, từ đó tập trung hơn vào công việc sáng tạo.

1 bình luận

GN⁺ 2023-12-03

Các ý kiến trên Hacker News

Vừa cài thử và thấy khá hay. AI cục bộ là tương lai mình muốn, và mình cũng đang làm việc theo hướng đó
Ưu điểm là nó hoạt động khá độc lập, trình cài đặt mô hình tích hợp được làm tốt nên dễ tải bất cứ thứ gì từ CivitAI (mình đã thử cài https://civitai.com/models/183354/sdxl-ms-paint-portraits), chất lượng tạo ảnh cao và ổn định, đồng thời hiển thị các bước trung gian trong quá trình tạo
Nhược điểm là nó tải tệp mô hình SDXL 6.94GB xuống đâu đó mà không hỏi, cũng không cho biết vị trí hay dung lượng; về sau mình mới biết có thể tìm và đổi vị trí trong phần cài đặt. Lần tạo đầu tiên rất chậm vì phải tải mô hình, và dù thời gian tạo không được ghi lại, trên MacBook M1 Max 64GB có vẻ mất khoảng vài phút
Có nhiều mô-đun phản hồi nên ô chat ở góc dưới trái rất khó chịu và mình chắc chắn sẽ không dùng; góc trên phải cũng có yêu cầu phản hồi beta. Khác với các sản phẩm cạnh tranh, nó không phải mã nguồn mở, có 7 tiến trình đang chạy và dùng khoảng 1GB RAM khi nhàn rỗi. UX không phải kiểu native của macOS, thiếu các phím tắt và menu trợ giúp như mong đợi nên trông giống một ứng dụng Electron. Tổng thể 4/5 điểm và mình sẵn sàng mở lại để dùng
- Trên macOS, Draw Things cũng đáng để xem qua. SDXL chạy đủ tốt ngay cả trên thiết bị macOS 8GiB
- Nếu tò mò về stack công nghệ thì ở đây: https://noiselith.notion.site/License-61290d5ed7ab4c918402fd2510533a9b
  Nên đúng vậy. Đây là ứng dụng Electron và dùng Svelte, headless-ui, tailwindcss, v.v.
- Cần phải cho người dùng chọn vị trí tải xuống
- Một nhược điểm khác là nó chỉ chạy trên Apple Silicon Mac
- Không rõ 1GB bộ nhớ nhàn rỗi đó là cho mỗi tiến trình hay là tổng cộng của cả 7 tiến trình
Các tùy chọn suy luận cục bộ vốn đã khá nhiều rồi, và điều quan trọng là chúng là mã nguồn mở, tính năng cũng vững hơn
Dù có biện hộ rằng “nhưng Auto1111 hay Comfy có UI không thân thiện với người dùng”, chuyện đó cũng đã được giải quyết rồi: https://github.com/invoke-ai/InvokeAI
- Mình đã chuyển sang InvokeAI và có lẽ sẽ không quay lại webui a1111 mặc định nữa. Mình thích bố cục tổng thể, nó có tính năng workflow, và có thể dễ dàng gọi lại mọi thuộc tính như prompt, mô hình, LoRA đã dùng khi tạo ảnh
  Cũng có thể sắp xếp bằng board, và board, ảnh, metadata đều được lưu trong một cơ sở dữ liệu SQLite được thiết kế tốt, có thể truy cập bằng DataGrip
- Cũng có cách gắn plugin AI khuếch tán vào Krita để dùng: https://github.com/Acly/krita-ai-diffusion
- Câu quảng bá “chạy Stable Diffusion cục bộ” hơi kỳ. Nói thật thì đây vốn đã là việc có thể làm dễ dàng rồi
- Không rõ UI có thân thiện với người dùng không, nhưng chỉ riêng quy trình cài InvokeAI đã là rào cản với 99,9% người trên thế giới. Điều đó không có nghĩa Noiselith không thể trở thành mã nguồn mở, nhưng rõ ràng nó đang cung cấp thứ gì đó khác với InvokeAI
Rất khuyến nghị Fooocus cho những ai chưa thử: https://github.com/lllyasviel/Fooocus
Pipeline Stable Diffusion cục bộ thì có vô số, nhưng cái này cho chất lượng đầu ra mặc định vượt trội ngay cả chỉ với prompt ngắn. Thật sự ấn tượng
Lý do là nó tích hợp rất nhiều tính năng bổ trợ SDXL mà các UI khác không triển khai hoặc không bật mặc định. Mình đã dùng từ thời Stable Diffusion 1.5 và cũng theo dõi lĩnh vực này khá sát, nhưng việc thiết lập một pipeline tương đương trong diffusers, chứ chưa nói ComfyUI, có lẽ sẽ rất cực. Cảm giác như “tuyển tập các chiêu ăn khách và mặc định tối ưu” cho SDXL
- Mình từng sợ phần thiết lập Python, dù bản thân là lập trình viên Python. Nhưng cuối cùng chỉ cần tạo virtual environment và cài dependency là xong. Thật sự rất ấn tượng, ảnh tạo ra đẹp ngay từ đầu
  Tuy nhiên như bình luận bên cạnh nói, việc gói kèm GTM là không hay
  Ví dụ:
  https://imgz.org/i9oicVqo/
  https://imgz.org/i8Ur3WjW/
  https://imgz.org/i5j6r6TZ/
- Bản cài đặt web UI tự host của Fooocus trông như đang bán đứng người dùng cho Google Tag Manager
  Mình mong cả ngành của chúng ta nhận ra rằng chạy kiểu theo dõi này là một lựa chọn tệ và cứ thế dừng lại
- Trên Mac phải tự build, mà ai cũng biết build dự án Python “vui” đến mức nào
- Nếu muốn kết quả tạo ảnh cục bộ tốt nhất thì Fooocus tốt hơn nhiều. Lvmin đang dồn toàn bộ năng lượng vào việc tạo ra những bức tranh đẹp. Giấy phép GPL cũng là điểm cộng với mình
- Không biết nó có dùng ổn trên hệ thống chỉ dùng CPU nhưng có rất nhiều RAM không
Thú vị. Mình định so sánh với https://diffusionbee.com mà mình đã dùng cho vui trong vài tháng qua
- Mình đã thử cả hai và Noiselith cho kết quả tốt hơn rất, rất nhiều
Có thể tốt cho marketing, nhưng việc lấy chạy trên thiết bị và offline làm điểm khác biệt chính thì hơi lạ. Vì rất có khả năng đa số mọi người vốn đã dùng Stable Diffusion theo cách đó rồi
Có lẽ nên tập trung hơn vào việc dễ cài đặt và dễ sử dụng. Đó vẫn là phần chưa làm tốt. Theo tiêu chuẩn của tôi, nếu không có ControlNet, upscale, các kiểu face detailer, và nếu được thì cả prompting theo vùng, thì tôi sẽ không dùng
Tôi cũng nghĩ sẽ tốt hơn nếu những người muốn làm trình tạo SD riêng đóng góp cho một trong các dự án mã nguồn mở đã tồn tại
App store có thể là một ý tưởng hay, nhưng trong một thế giới có Auto1111 và vô số extension của nó, tôi không nghĩ cộng đồng Stable Diffusion sẽ đón nhận tích cực
- Câu “tốt cho marketing” mới là điểm mấu chốt. Nên đẩy mạnh hơn nữa. Chính chỗ trông có vẻ lạ đó cho biết đối tượng mục tiêu của sản phẩm này là ai. Không phải những người đã dùng SD, mà là để chuyển đổi những người đang dùng các dịch vụ chỉ online như Dall-E
- Tôi nghĩ có khá nhiều người không dùng những thứ như A1111. Vì mô hình cài đặt phức tạp kiểu tải cái này xuống thì nó lại tải cái kia, rồi cái kia lại tải thứ khác nữa, sau đó còn phải tự tải thủ công file này file nọ
  Dù không hấp dẫn với người dùng hiện tại, một sản phẩm đơn giản hơn vẫn có thể đủ sức thu hút người dùng mới
- Tôi thấy có khá nhiều cloud wrapper cho Stable Diffusion một cách kỳ lạ. Vì vậy tôi thích việc họ nói rõ ngay từ đầu là trên thiết bị/offline
  Khi mới thử SD, tôi thấy kỳ lạ vì thay vì chỉ tải vài file về rồi chạy, lại có nhiều gói dùng kiểu gọi về máy chủ rất nặng hoặc VM
- Tôi đã thử dùng SD trên thiết bị, nhưng cảm thấy trả tiền cho bản hosted là đáng giá. Vì nó nhanh hơn nhiều
Prompt để bán hàng là “một phụ nữ trẻ tóc vàng xoăn, ánh mắt quyến rũ trước bối cảnh thế giới fantasy, ngồi dang chân, mặc áo sơ mi trắng và quần hot pants jeans”
Thật sự có ổn không vậy
- Nếu prompt không có phần nào đó mang tính tình dục, gây tranh cãi hoặc khó chịu, thì nó sẽ bị phơi thẳng trước điệp khúc “dù sao vẫn không bằng midjourney/dall-e/imagen”. Tự do khỏi các giới hạn là một trong những điểm bán hàng chính
- Tôi thật sự tò mò có bao nhiêu người trong cộng đồng mã nguồn mở đã đổ mồ hôi và máu để tạo ra những dự án như thế này. Dù kết quả cuối cùng là giúp đàn ông biến MacBook thành sách khiêu dâm Instagram
- May là không chỉ mình tôi thấy nó không phù hợp. Cảm giác khá giống dog whistle
- Cái đó thật sự rợn người
Sau khi cài đặt, để chạy trên máy Windows, tôi phải cấp quyền truy cập mạng công cộng và riêng tư. Họ gọi là “offline” mà lại như vậy nên tôi hơi lấn cấn
- Tôi cũng gặp chuyện tương tự
  Lần chạy đầu tiên nó tải khoảng 30GB dữ liệu. Không biết các lần chạy sau có hoạt động offline không. Vì với tôi, sau đó nó cứ crash liên tục và không chạy lại được nữa
  Khi gỡ cài đặt, nó cũng để lại toàn bộ dữ liệu. Không phải dữ liệu người dùng, mà là chính file thực thi, môi trường ảo Python, updater, tất cả model đều còn. Việc gỡ cài đặt thực chất chỉ như xóa shortcut trong Start menu
- Tôi tò mò không biết nếu ngắt Internet hoàn toàn thì nó có tiếp tục chạy không
  Nếu việc chạy cần kết nối Internet đang hoạt động, thì quảng cáo là “offline” là hoàn toàn sai
Chắc chắn rất vui khi có thêm nhiều client local xuất hiện. Như các bình luận khác đã nhắc đến, đã có những thứ rất tốt rồi. Tôi đã thử automatic1111, nó nhanh và không cần tinh chỉnh quá nhiều, nhưng vẫn có nhiều núm chỉnh và tùy chọn nên ban đầu cảm thấy khó
Fooocus thì rất nhanh nhưng tất nhiên ít tùy biến hơn
Và còn có ComfyUI. Nó giống như chén thánh của sự phức tạp, nhưng chính nhờ độ phức tạp đó mà bạn có thể làm được rất nhiều thứ. Vì là ứng dụng dựa trên node, bạn có thể tạo workflow tùy chỉnh, và sau khi ảnh được tạo, có thể gửi “node” đó sang nơi khác để hậu xử lý như upscale
Tôi muốn xem Noiselith hoặc các công cụ khác có hỗ trợ SDXLTurbo không. Nó mới ra được vài ngày, nhưng theo tôi đây là thứ thay đổi hoàn toàn cuộc chơi. Trên GPU phổ thông, có thể tạo ảnh 512x512 trong khoảng 0,5 giây. Chất lượng không phải kinh khủng, nhưng khả năng gõ “con cáo trong rừng” để thấy ngay lập tức, rồi thêm “đội mũ” và lại tạo ngay lập tức là rất có giá trị. Trước đây phải chờ 12 giây cho một ảnh. Nghe có vẻ không to tát, nhưng khả năng lặp nhanh như vậy khiến việc tạo ảnh local thú vị hơn nhiều
Tôi vẫn chưa thử, nhưng vì Comfy đang dùng CoreML, tôi tò mò liệu khi có frontend hữu dụng hơn xuất hiện thì các tối ưu backend và công việc cải thiện hiệu năng cho những nền tảng này có tăng lên không
1~4it/s ở ảnh 512 là quá đáng tiếc, và 2~3s/it ở 1024 cũng quá chậm theo tiêu chuẩn hiện nay. Thậm chí ANE cũng không chạy nổi ảnh SD 1024x1024 trên MacBook Pro M3 thì thật đáng tiếc

Easy Stable Diffusion XL có thể dùng ngoại tuyến trên thiết bị

Giới thiệu ứng dụng Noiselith

Yêu cầu hệ thống

Trải nghiệm người dùng

Lộ trình phát triển

Ý kiến của GN⁺

Bài viết liên quan

1 bình luận

Các ý kiến trên Hacker News