8 điểm bởi GN⁺ 2024-08-02 | 1 bình luận | Chia sẻ qua WhatsApp
  • Mô hình văn bản-thành-hình ảnh mã nguồn mở SOTA lớn nhất do Black Forest Labs phát triển
    • Đội ngũ gốc đã phát triển Stable Diffusion
  • Với 12B tham số, mô hình mở rộng ranh giới về khả năng sáng tạo và hiệu năng, mang lại khả năng tạo ảnh tương tự Midjourney

Cung cấp dưới 3 mô hình

  • FLUX.1 [dev]: Mô hình cơ bản được mã nguồn mở theo giấy phép phi thương mại. Cộng đồng có thể xây dựng dựa trên mô hình này
  • FLUX.1 [schnell]: Phiên bản chưng cất của mô hình cơ bản, chạy nhanh hơn tới 10 lần. Giấy phép Apache 2.
  • FLUX.1 [pro]: Phiên bản đóng, chỉ có thể sử dụng qua API

Tính năng chính

  • Chất lượng hình ảnh được cải thiện: Có thể tạo ra hình ảnh độ phân giải cao với phần nhìn ấn tượng
  • Giải phẫu người nâng cao và tính chân thực ảnh cao: Có thể tạo ra hình ảnh rất chân thực và chính xác về mặt giải phẫu
  • Tuân thủ prompt tốt hơn: Có thể tạo ra hình ảnh chính xác và liên quan hơn dựa trên đầu vào
  • Tốc độ vượt trội: Tốc độ và hiệu quả của Flux Schnell rất lý tưởng cho các ứng dụng nhu cầu cao

Tích hợp của fal

  • Tích hợp engine suy luận tiên tiến của fal giúp chạy các mô hình Flux nhanh hơn tối đa 2 lần so với eager torch
  • Thời gian xử lý nhanh trong khi vẫn duy trì chất lượng và chi tiết vượt trội

Tổng kết của GN⁺

  • Flux là mô hình văn bản-thành-hình ảnh mới nhất do Black Forest Labs phát triển, đặt ra tiêu chuẩn mới về khả năng sáng tạo và hiệu năng
  • Thông qua nhiều biến thể mô hình, Flux cung cấp các giải pháp tùy biến cho nhiều trường hợp sử dụng khác nhau
  • Với chất lượng hình ảnh được cải thiện và khả năng biểu đạt chân thực, mô hình phù hợp với các ứng dụng có nhu cầu cao
  • Nhờ engine suy luận của fal, mô hình có thể chạy nhanh hơn và hiệu quả hơn
  • Các dự án khác có chức năng tương tự gồm có DALL-E và Midjourney

1 bình luận

 
GN⁺ 2024-08-02
Ý kiến trên Hacker News
  • burkay từ fal.ai: mô hình này không phải do fal tạo ra mà được phát triển bởi Black Forest Labs

    • fal.ai chạy mô hình trên một inference engine được tối ưu hóa nên hoạt động rất nhanh
    • có thể thử mô hình trong playground
    • mô hình [schnell] được phát hành mã nguồn mở trên Hugging Face theo giấy phép Apache
    • khả năng render văn bản rất nhanh và xuất sắc, đồng thời có text encoder xử lý văn bản và vị trí tốt hơn
    • khi khả năng render văn bản được cải thiện, các watermark văn bản trong dữ liệu huấn luyện cũng hiện ra rõ hơn
    • cung cấp các liên kết để thử mô hình
      • FLUX.1 [schnell]: Apache 2.0, open weights, step distillation
      • FLUX.1 [dev]: phi thương mại, open weights, guidance distillation (cần đăng nhập)
      • FLUX.1 [pro]: mã nguồn đóng, SOTA, dữ liệu thô (chỉ dùng được qua API)
  • Người dùng khác: phần lớn các so sánh đều không kiểm thử đúng cách mô hình mới

    • hiện tại khả năng bám sát prompt tốt nhất trên thị trường là DALL-E 3, nhưng với các khái niệm phức tạp thì vẫn còn yếu và bị kiểm duyệt nhiều
    • sau khi so sánh Flux với DALL-E 3, Flux cho thấy rất ấn tượng và hiệu năng cao
    • đã đăng kết quả so sánh lên blog
  • Người dùng khác: đã thử bằng prompt của ideogram và Flux tạo ra hình ảnh rất tốt

    • đã dùng thử ideogram nhưng không thích bộ lọc của nó
    • nếu có thể chạy cục bộ thì về chất lượng ảnh và độ bám prompt là rất sát
    • khi văn bản phức tạp thì vẫn không thể viết rõ ràng
    • cung cấp prompt của ảnh ideogram làm ví dụ
    • đã ngừng dùng các mô hình stable diffusion từ lâu vì công nghệ trở nên quá phức tạp nên mất vui
    • muốn có một hệ thống kiểu ideogram có thể chạy cục bộ mà không có bộ lọc
    • mô hình này rất tốt
  • Người dùng khác: mỗi khi thấy mô hình mới đều kiểm tra xem nó có thể tạo sơ đồ kỹ thuật hay không

    • mô hình này vẫn chưa xử lý tốt sơ đồ kỹ thuật
    • hy vọng các công ty AI sẽ giải quyết được bài toán sơ đồ kỹ thuật
    • rất có thể loại dữ liệu này chưa được đưa vào tập dữ liệu huấn luyện hiện tại
    • muốn tạo một bộ dữ liệu/bộ benchmark tổng hợp
  • Người dùng khác: quy trình đăng ký khá phiền phức

    • việc tạo tài khoản Github hiện đang lỗi nên phải thử hai lần và dùng hai trình duyệt
  • Người dùng khác: các startup được tài trợ bằng vốn đầu tư mạo hiểm đang liên tục phát hành mô hình miễn phí mà không có mô hình kinh doanh

    • ủng hộ mã nguồn mở nhưng lo rằng về lâu dài điều này sẽ không bền vững
  • Người dùng khác: chất lượng rất ấn tượng

  • Người dùng khác: xử lý quan hệ không gian chưa tốt

    • "ngôi nhà bị lộn ngược" -> một ngôi nhà bình thường
    • "con ngựa ngồi trên con chó" -> ngựa và chó đứng cạnh nhau
    • "Lockheed Martin F-22 Raptor bị lật ngược" -> kết quả sai