Moebius: đạt hiệu năng tầm 10B với mô hình inpainting ảnh 0.2B

(hustvl.github.io)

5 điểm bởi GN⁺ 4 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp

Mô hình chuyên gia gọn nhẹ triển khai image inpainting chất lượng cao, vốn do các foundation model công nghiệp quy mô 10B dẫn dắt, với chất lượng tương đương hoặc cao hơn dù nén số tham số xuống dưới 2%
Hoạt động với 0.22B (226M) tham số và đạt tốc độ suy luận nhanh hơn hơn 15 lần so với FLUX.1-Fill-Dev quy mô 11.9B
Tái cấu trúc backbone diffusion bằng khối Local-λ Mix Interaction (LλMI) để nén ngữ cảnh không gian và thông tin ngữ nghĩa toàn cục thành ma trận tuyến tính kích thước cố định
Chuyển năng lực biểu diễn của teacher model cỡ lớn sang mô hình nhẹ bằng chiến lược adaptive multi-granularity distillation chỉ hoạt động trong latent space
Cách tiếp cận task-specific specialist cho thấy thay vì cứ phóng to quy mô, khi bài toán được xác định rõ thì có thể tạo ra mô hình thông minh hơn, nhẹ hơn và nhanh hơn

Bối cảnh và định nghĩa vấn đề

Các foundation model công nghiệp quy mô 10B đã nâng trần của image inpainting, nhưng chi phí tính toán khổng lồ khiến việc triển khai thực tế bị hạn chế đáng kể
Xây dựng mô hình chuyên gia đặc thù cho tác vụ là một phương án thay thế đầy hứa hẹn, nhưng nén kiến trúc quá mức gây ra nút thắt biểu diễn (representation bottleneck) nghiêm trọng
Để vượt qua điều này, nhóm tác giả đề xuất framework inpainting hiệu quả cao và gọn nhẹ Moebius

Method — toàn bộ pipeline

Áp dụng kiến trúc kết hợp framework Latent Diffusion Model (LDM) với Latent Categories Guidance (LCG)
Tái cấu trúc denoising U-Net một cách có hệ thống bằng khối LλMI được đề xuất để đạt hiệu quả kiến trúc ở mức cực hạn
Trong giai đoạn huấn luyện, áp dụng chiến lược adaptive multi-granularity distillation để căn chỉnh specialist gọn nhẹ với teacher dung lượng lớn, giảm thiểu tổn thất năng lực do nén cấu trúc quá mức

Thành quả chính (Highlights)

Hiệu quả tham số cực cao (< 2%)
- Chỉ hoạt động với 0.22B (226M) tham số, tức nhỏ hơn 2% so với mô hình lớn FLUX.1-Fill-Dev (11.9B)
- Phá vỡ quan niệm rằng tính toán nặng là điều bắt buộc, cho phép inpainting chất lượng cao ngay cả trên thiết bị tiêu dùng và edge device
Tăng tốc suy luận 15 lần (26ms/step)
- Đạt độ trễ suy luận rất thấp là 26.01ms cho mỗi step trên một GPU đơn
- Kết hợp với các bước sampling tối ưu hóa để tăng tốc tổng runtime hơn 15 lần so với mô hình tầm 10B
Chất lượng inpainting ngang tầm 10B
- Chứng minh rằng việc thu nhỏ kích thước không đồng nghĩa với suy giảm năng lực biểu diễn
- Nhờ tối ưu sức mạnh cộng hưởng giữa kiến trúc và distillation, ở một số kịch bản như texture phức tạp hoặc độ tự nhiên của khuôn mặt, mô hình còn vượt qua các mô hình SOTA tầm 10B (FLUX.1-Fill-Dev, SD3.5 Large-Inpainting)
- Được kiểm chứng trên 6 benchmark bao trùm cả cảnh tự nhiên (Places2) và cảnh chân dung (CelebA-HQ, FFHQ)
Đổi mới cốt lõi dựa trên synergy
- Thiết kế kiến trúc (khối LλMI): tái cấu trúc self-attention và cross-attention để nén ngữ cảnh không gian và thông tin ngữ nghĩa toàn cục thành ma trận tuyến tính kích thước cố định, tránh gánh nặng tính toán bậc hai (quadratic)
- Adaptive multi-granularity distillation: chuyển năng lực biểu diễn của teacher model PixelHacker chỉ trong latent space, tránh bước giải mã pixel-space tốn kém
  - Căn chỉnh giám sát đa hạt độ từ đặc trưng trung gian vi mô đến quỹ đạo diffusion vĩ mô, đồng thời cân bằng huấn luyện động bằng cơ chế trọng số loss thích ứng dựa trên gradient norm
- Cân bằng synergy tối ưu: khám phá một cách có hệ thống các ràng buộc tương hỗ và giới hạn trên giữa cấu trúc nén và distillation
  - Lập bản đồ ranh giới synergy kiến trúc-distillation để bảo đảm Moebius 0.22B (student) hấp thụ tối đa năng lực suy luận ngữ nghĩa của PixelHacker (teacher) mà không bị bão hòa biểu diễn
Chuyên gia đặc thù cho tác vụ thay vì mô hình đa dụng phình to
- Đây là cách tiếp cận trả lời câu hỏi nền tảng: "khi tác vụ được xác định rõ ràng, liệu mô hình có thể thông minh hơn, nhẹ hơn và nhanh hơn không"
- Đóng vai trò là specialist được tối ưu hóa cao, giải phóng image inpainting và AI object removal thực tế khỏi xu hướng phình to tham số

Đánh giá và so sánh

Thực hiện thí nghiệm trên diện rộng cho cả cảnh tự nhiên (Places2) và cảnh chân dung (CelebA-HQ, FFHQ)
Xác nhận kết quả ngang bằng hoặc vượt FLUX.1-Fill-Dev, mô hình đa dụng công nghiệp tầm 10B, về chất lượng sinh ảnh
Với quy mô dưới 2% số tham số (0.22B so với 11.9B) nhưng tăng tốc thời gian suy luận hơn 15 lần, công trình đặt ra chuẩn hiệu quả mới cho inpainting độ trung thực cao

1 bình luận

GN⁺ 4 giờ trước

Ý kiến trên Hacker News

Đã làm cho nó chạy bằng ONNX (nhờ Claude Opus 4.8), và giờ có một bản demo tương tác nơi toàn bộ mô hình chạy ngay trong trình duyệt. Tải xuống khoảng 1.3GB: https://simonw.github.io/moebius-web/
Mã nguồn ở đây: https://github.com/simonw/moebius-web
Nhật ký Claude Code: https://gisthost.github.io/?58039ba5c1ca3ed177e8659168996ee4
Có bài blog tổng hợp chi tiết hơn ở đây: https://simonwillison.net/2026/Jun/22/porting-moebius/
- Tôi cũng đã định thử đúng việc này (dùng gpt 5.5 + code), nhưng chưa thành công đến bước chạy mô hình trong ONNX
- Làm tốt lắm. Thấy trọng số unet đang là fp32, không biết bạn đã thử độ chính xác thấp hơn như fp16 chưa
Tôi thử một chút rồi, và với một mô hình 0.2B thì đúng là rất ấn tượng, nhưng khó mà bị thuyết phục rằng nó ngang hàng với các mô hình 10B
Với ảnh tự nhiên thì nó hoạt động khá ổn, nhưng vùng được inpainting trông mịn thấy rõ so với xung quanh, và nó rất yếu khi thêm đối tượng mới. Đầu ra cũng bị giới hạn ở 512x512 nên giảm tính thực dụng
- Không biết các ví dụ được đưa ra có đại diện cho hiệu năng thực tế không, hay là có vẻ như đã được cherry-pick
Vài năm trước tôi từng làm một dự án inpainting cho khách hàng. Mục tiêu là inpainting các banner quảng cáo cho nhà tổ chức hòa nhạc để dễ tạo quảng cáo cho nhiều kích thước mặt bằng khác nhau, và tôi phụ trách quảng cáo chủ đề Giáng sinh cho vài ca sĩ nổi tiếng
Điều kỳ quặc nhất là lúc công cụ inpainting thêm những người lạ vào ảnh. Ca sĩ được trang trí bằng đồ lấp lánh và màu đỏ, mà mô hình lại thêm một ông già cau có đội mũ chóp lụa. Tôi không nhớ là mình đã bấm nút “thêm ông già rùng rợn”
Hồi đó backend là Stable Diffusion, và tôi đã đi qua nhiều dịch vụ host mô hình khác nhau, gồm cả Amazon, nhưng yêu cầu với ảnh đầu vào mỗi nơi một kiểu nên rất phức tạp. Có nơi không thể xử lý tỷ lệ như banner 200x60 nên thất bại, có nơi lại bắt phải resize trước khi đưa vào nên ngay từ đầu đã phải dùng ảnh độ phân giải thấp. Rác vào thì rác ra
Cuối cùng cần rất nhiều công đoạn chuẩn bị trước, và khách hàng thực tế không dùng các bản tôi làm thử
- Nếu ca sĩ được trang trí bằng đồ lấp lánh và màu đỏ mà mô hình lại thêm một ông già cau có đội mũ chóp lụa, thì nghe rất giống A Christmas Carol của Dickens
  Chắc hẳn ở Anh có hẳn một quy định yêu cầu phải đặt một nhân vật kiểu Scrooge ở hậu cảnh mỗi sự kiện Giáng sinh để mọi người khỏi phấn khích quá mức
- Những mô hình do cộng đồng làm thời đó, các mô hình merge hay fine-tune, đều bị overtrain và tối ưu cho chân dung cùng ảnh chính diện. Chúng cố biến mọi thứ thành con người
  Ngay cả inpainting khuôn mặt cũng phải xoay qua nhiều công cụ mới tạm dùng được, còn inpainting thứ khác thì gần như bất khả thi. Những mô hình đó cũng đặc biệt yếu trong việc đặt vật thể vào cảnh một cách tự nhiên. Mấy thứ đơn giản như vòng cổ hay thắt lưng làm ẩu thì còn tạm được, nhưng hễ đưa một vật thể mới vào cảnh là nó sẽ thất bại theo vô số cách
  Độ phân giải 512x512 cũng là mức chúng hoạt động tốt hơn nhiều, và càng lệch xa thì vấn đề càng tăng
  Nếu bạn định inpainting banner quảng cáo thì khả năng cao là nó đã bị méo nghiêm trọng. Những mô hình đó không xử lý được phông chữ và cũng yếu ở việc chép lại chính xác đến từng pixel. Cách thực tế hồi đó có lẽ là chèn banner thủ công rồi chỉ dùng AI để sửa phần rìa. Dĩ nhiên vẫn cần chút cảm quan mỹ thuật
  Nếu bạn chỉ đưa vào hai tấm ảnh rồi mong mô hình tự lo hết, thì đó là một nỗ lực táo bạo nhưng là việc bất khả thi
- Đó là vì các mô hình nhỏ như SD được huấn luyện ở độ phân giải rất cụ thể. Những mô hình cao cấp hơn được huấn luyện với chất lượng cao hơn hoặc tập độ phân giải đa dạng hơn
  Khi tạo ảnh độ phân giải thấp bằng mô hình chất lượng cao, cảm giác thực tế như nó đang cắt ra một phần từ ảnh lớn hơn nhiều để xuất ra. Tôi có cảm nhận đó sau nhiều giờ thử nghiệm, và ngay cả khi cố đặt một vật ở chính giữa bằng mô hình lớn thì nó cũng thường không hiện đúng giữa. GPU của tôi cũng có giới hạn chịu tải
Có vài demo space dùng cái này. Bản này trông có vẻ ổn nhất và cho phép tự vẽ mask, nhưng nó thất bại với mọi ảnh tôi thử: https://huggingface.co/spaces/multimodalart/Moebius
- Tôi nghịch một lúc thì làm cho nó chạy được, nhưng chất lượng hơi tệ. Vẫn đang thử nghiệm các thiết lập được mở ra, có thể xem ở đây: https://huggingface.co/spaces/jonatei/MoebiusDemo
  Hiện tôi đang tích cực chỉnh sửa nên đôi lúc nó có thể bị hỏng :)
  Nó chạy trên CPU miễn phí nên mất khoảng 80 giây cho mỗi ảnh
Tôi đã làm một ứng dụng nhỏ chạy hoàn toàn trong trình duyệt và cho phép thử tất cả các mô hình fine-tune: https://inpaintlab.com/
Tôi không biết inpainting là gì. Trong phần bình luận thì ai cũng có vẻ biết thuật ngữ này, nhưng ở trang được liên kết tôi không thấy giải thích
- Nếu bấm vào ảnh minh họa trực quan thì bạn có thể thấy cách nó thực sự hoạt động. Vùng màu tím là phần người dùng đánh dấu để hệ thống inpainting, và khi bấm vào ảnh bạn sẽ thấy kết quả
  Về cơ bản, mô hình nhìn vào ngữ cảnh của vùng không phải màu tím rồi quyết định thứ gì phù hợp nhất để điền vào vùng tím, tức là vẽ lại một phần của ảnh. Nó thường được dùng để xóa vật thể, nhưng như ví dụ cho thấy thì cũng làm được việc khác
Không tốt lắm. Vùng được inpainting, như thường thấy, quá mịn so với kết cấu tần số cao chi tiết của ảnh tự nhiên
Cùng lắm chỉ đủ dùng để xóa thứ gì đó trong thumbnail
- Cái này và cả các ví dụ nữa đều là cherry-pick. Ví dụ xóa đường dây điện cao thế trong ảnh tự nhiên đặc biệt tệ. Dải vết vẫn còn nguyên ở chỗ đã xóa
  Ngay cả công cụ phục hồi mặc định của Photoshop vài năm trước cũng xử lý được ở mức tương tự
Tôi ước có mô hình như thế này cho việc dịch truyện tranh. Hiện tại trong mảng anime và manga, mô hình inpainting nhẹ gần như mặc định có vẻ vẫn là LaMa, mà đó đã là mô hình từ vài năm trước nên có vẻ còn nhiều chỗ để cải thiện
- Tôi đang làm thử outpainting rồi upscale một chương trình hoạt hình cho con trai (nếu tò mò thì là Leapfrog Letter Factory), nhưng làm cục bộ khá khó
  Không biết có thể huấn luyện lại hay fine-tune mô hình này không. Họ nói về việc tạo ra “chuyên gia”, nên tôi nghĩ biết đâu chuyên gia đó có thể hiểu tốt hơn về việc dịch nhiều loại nhân vật khác nhau
Đây mới là kiểu AI hữu ích. Có rất nhiều trường hợp sử dụng có thể trở thành hiện thực
- Đúng vậy, nên mới thấy bực. Có rất nhiều trường hợp mà mô hình chạy cục bộ, nhắm đúng mục đích cụ thể và làm ổn định một việc duy nhất thật tốt mới tạo ra khác biệt thực sự
  Nhưng sẽ chẳng ai đầu tư 1 tỷ đô chỉ để có tính năng xóa bụi siêu đỉnh hay tách cảnh hoàn hảo
  Thay vào đó, ta phải tải lên cloud rồi lịch sự nhờ một mô hình frontier đa phương thức khổng lồ làm đúng thứ mình muốn
- Tôi tự hỏi trong 7 ngày qua bạn đã chỉnh sửa ảnh chụp bằng điện thoại bao nhiêu lần
Tôi không hiểu. Có chỗ nào để thử không, hay đây chỉ là quảng cáo
- Trông hay đấy nhưng tôi không biết dùng thế nào
  Sửa: hình như tôi tìm thấy rồi
  https://huggingface.co/hustvl/Moebius

Moebius: đạt hiệu năng tầm 10B với mô hình inpainting ảnh 0.2B

Bối cảnh và định nghĩa vấn đề

Method — toàn bộ pipeline

Thành quả chính (Highlights)

Hiệu quả tham số cực cao (< 2%)

Tăng tốc suy luận 15 lần (26ms/step)

Chất lượng inpainting ngang tầm 10B

Đổi mới cốt lõi dựa trên synergy

Chuyên gia đặc thù cho tác vụ thay vì mô hình đa dụng phình to

Đánh giá và so sánh

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News