9 điểm bởi xguru 2024-02-23 | 1 bình luận | Chia sẻ qua WhatsApp
  • Stable Diffusion 3 là mô hình text-to-image hàng đầu, mang lại hiệu năng cải thiện rõ rệt về prompt đa chủ đề, chất lượng hình ảnh và khả năng chính tả.
  • Mặc dù chưa thể sử dụng rộng rãi, việc đăng ký vào danh sách chờ cho Early Preview đã bắt đầu.
  • Giai đoạn preview này, giống như các mô hình trước, có vai trò quan trọng trong việc thu thập hiểu biết để cải thiện hiệu năng và độ an toàn.

Phạm vi mô hình và công nghệ

  • Bộ mô hình Stable Diffusion 3 bao gồm dải tham số từ 800M đến 8B.
  • Cách tiếp cận này phù hợp với giá trị cốt lõi của chúng tôi là khả năng tiếp cận cho mọi người, đồng thời cung cấp nhiều lựa chọn về khả năng mở rộng và chất lượng phù hợp nhất với yêu cầu sáng tạo của người dùng.
  • SD3 kết hợp kiến trúc Diffusion Transformer với Flow Matching.
  • Một báo cáo kỹ thuật chi tiết sẽ sớm được công bố.

Thực hành AI an toàn và có trách nhiệm

  • Chúng tôi rất coi trọng việc thực hành AI an toàn và có trách nhiệm.
  • Chúng tôi đang triển khai các biện pháp hợp lý để ngăn chặn việc lạm dụng Stable Diffusion 3; các biện pháp này được duy trì liên tục từ giai đoạn đầu huấn luyện mô hình đến thử nghiệm, đánh giá và triển khai.
  • Trong giai đoạn preview đầu tiên, nhiều lớp bảo vệ đã được áp dụng.
  • Chúng tôi kỳ vọng sẽ tiếp tục đổi mới khi tiếp cận việc công bố mô hình thông qua hợp tác liên tục với các nhà nghiên cứu, chuyên gia và cộng đồng.

Cam kết và thúc đẩy sáng tạo

  • Cam kết của chúng tôi về AI tạo sinh mở, an toàn và dễ tiếp cận cho mọi người là vững chắc.
  • Với Stable Diffusion 3, chúng tôi sẽ cung cấp các giải pháp có tính thích ứng để cá nhân, nhà phát triển và doanh nghiệp có thể phát huy sáng tạo.
  • Nếu muốn sử dụng thương mại các mô hình hình ảnh khác trước khi ra mắt Stable Diffusion 3, hãy truy cập trang Membership của Stability AI hoặc truy cập API qua nền tảng dành cho nhà phát triển.

1 bình luận

 
xguru 2024-02-23

Ý kiến từ Hacker News

  • Dùng một loại bộ chuyển đổi khuếch tán mới, kết hợp với flow matching và các cải tiến khác.

    • Nhờ tận dụng các cải tiến của bộ chuyển đổi, mô hình có thể mở rộng lớn hơn và tiếp nhận đầu vào đa phương thức.
    • Nó sẽ được công bố để nâng cao chất lượng và tính an toàn, và sẽ ra mắt cùng toàn bộ hệ sinh thái công cụ.
    • Đây là một nền tảng mới tận dụng phần cứng tiên tiến, được phát hành ở mọi kích thước.
    • Cho phép tạo video, 3D, v.v.
    • Cần nhiều GPU hơn.
    • Chi tiết kỹ thuật sẽ sớm được công bố.
    • Nếu có đủ GPU và dữ liệu chất lượng, có thể tạo video tương tự Sora.
    • Được cung cấp với nhiều kích cỡ khác nhau từ 8 triệu đến 8 tỷ tham số, nên có thể sử dụng trên mọi loại GPU.
  • Việc quá ám ảnh bởi an toàn có vẻ như là bỏ lỡ cơ hội tiếp thị, nếu xét đến sự cố Gemini gần đây.

    • Tính an toàn quá mức làm cho hầu hết ảnh bị mờ, và các prompt từng hoạt động ở phiên bản trước trong SDXL giờ lại cho ra ảnh mờ.
    • Nếu phiên bản tiếp theo cũng như vậy, tôi sẽ ngừng sử dụng Stability API.
    • Tò mò xem có dịch vụ text-to-image nào khác cung cấp giá trị và chất lượng tương đương Stable Diffusion mà không bị làm mờ quá mức hay không.
  • Xét trong bối cảnh kiểm duyệt hiện tại, sẽ rất thú vị để xem lần này họ định nghĩa "an toàn" ra sao.

    • Tôi gặp khó khăn đáng kể khi cố tạo hình ảnh vũ khí cho tài sản game bằng DallE.
  • Một nửa thông báo ra mắt là dành cho nội dung "chúng tôi thực sự có trách nhiệm và an toàn".

  • Tất cả các hình demo đều là 'artwork'.

    • Tò mò không biết mô hình có thể tạo tốt ảnh chụp, bản vẽ kỹ thuật và các phương tiện đồ họa khác hay không.
  • Phần văn bản/chép chính tả có tiến bộ lớn.

  • Họ viết lại phần "an toàn", nhưng thay nó bằng một con dao tưởng tượng tên 'Big Knife' thay vì công cụ AI.

    • "Chúng tôi tin vào việc sử dụng dao một cách an toàn và có trách nhiệm. Điều này có nghĩa là chúng tôi đã thực hiện các biện pháp hợp lý để ngăn chặn việc Big Knife bị lạm dụng bởi các tác nhân xấu."