Moebius: đạt hiệu năng tầm 10B với mô hình inpainting ảnh 0.2B
(hustvl.github.io)- Mô hình chuyên gia gọn nhẹ triển khai image inpainting chất lượng cao, vốn do các foundation model công nghiệp quy mô 10B dẫn dắt, với chất lượng tương đương hoặc cao hơn dù nén số tham số xuống dưới 2%
- Hoạt động với 0.22B (226M) tham số và đạt tốc độ suy luận nhanh hơn hơn 15 lần so với FLUX.1-Fill-Dev quy mô 11.9B
- Tái cấu trúc backbone diffusion bằng khối Local-λ Mix Interaction (LλMI) để nén ngữ cảnh không gian và thông tin ngữ nghĩa toàn cục thành ma trận tuyến tính kích thước cố định
- Chuyển năng lực biểu diễn của teacher model cỡ lớn sang mô hình nhẹ bằng chiến lược adaptive multi-granularity distillation chỉ hoạt động trong latent space
- Cách tiếp cận task-specific specialist cho thấy thay vì cứ phóng to quy mô, khi bài toán được xác định rõ thì có thể tạo ra mô hình thông minh hơn, nhẹ hơn và nhanh hơn
Bối cảnh và định nghĩa vấn đề
- Các foundation model công nghiệp quy mô 10B đã nâng trần của image inpainting, nhưng chi phí tính toán khổng lồ khiến việc triển khai thực tế bị hạn chế đáng kể
- Xây dựng mô hình chuyên gia đặc thù cho tác vụ là một phương án thay thế đầy hứa hẹn, nhưng nén kiến trúc quá mức gây ra nút thắt biểu diễn (representation bottleneck) nghiêm trọng
- Để vượt qua điều này, nhóm tác giả đề xuất framework inpainting hiệu quả cao và gọn nhẹ Moebius
Method — toàn bộ pipeline
- Áp dụng kiến trúc kết hợp framework Latent Diffusion Model (LDM) với Latent Categories Guidance (LCG)
- Tái cấu trúc denoising U-Net một cách có hệ thống bằng khối LλMI được đề xuất để đạt hiệu quả kiến trúc ở mức cực hạn
- Trong giai đoạn huấn luyện, áp dụng chiến lược adaptive multi-granularity distillation để căn chỉnh specialist gọn nhẹ với teacher dung lượng lớn, giảm thiểu tổn thất năng lực do nén cấu trúc quá mức
Thành quả chính (Highlights)
-
Hiệu quả tham số cực cao (< 2%)
- Chỉ hoạt động với 0.22B (226M) tham số, tức nhỏ hơn 2% so với mô hình lớn FLUX.1-Fill-Dev (11.9B)
- Phá vỡ quan niệm rằng tính toán nặng là điều bắt buộc, cho phép inpainting chất lượng cao ngay cả trên thiết bị tiêu dùng và edge device
-
Tăng tốc suy luận 15 lần (26ms/step)
- Đạt độ trễ suy luận rất thấp là 26.01ms cho mỗi step trên một GPU đơn
- Kết hợp với các bước sampling tối ưu hóa để tăng tốc tổng runtime hơn 15 lần so với mô hình tầm 10B
-
Chất lượng inpainting ngang tầm 10B
- Chứng minh rằng việc thu nhỏ kích thước không đồng nghĩa với suy giảm năng lực biểu diễn
- Nhờ tối ưu sức mạnh cộng hưởng giữa kiến trúc và distillation, ở một số kịch bản như texture phức tạp hoặc độ tự nhiên của khuôn mặt, mô hình còn vượt qua các mô hình SOTA tầm 10B (FLUX.1-Fill-Dev, SD3.5 Large-Inpainting)
- Được kiểm chứng trên 6 benchmark bao trùm cả cảnh tự nhiên (Places2) và cảnh chân dung (CelebA-HQ, FFHQ)
-
Đổi mới cốt lõi dựa trên synergy
- Thiết kế kiến trúc (khối LλMI): tái cấu trúc self-attention và cross-attention để nén ngữ cảnh không gian và thông tin ngữ nghĩa toàn cục thành ma trận tuyến tính kích thước cố định, tránh gánh nặng tính toán bậc hai (quadratic)
- Adaptive multi-granularity distillation: chuyển năng lực biểu diễn của teacher model PixelHacker chỉ trong latent space, tránh bước giải mã pixel-space tốn kém
- Căn chỉnh giám sát đa hạt độ từ đặc trưng trung gian vi mô đến quỹ đạo diffusion vĩ mô, đồng thời cân bằng huấn luyện động bằng cơ chế trọng số loss thích ứng dựa trên gradient norm
- Cân bằng synergy tối ưu: khám phá một cách có hệ thống các ràng buộc tương hỗ và giới hạn trên giữa cấu trúc nén và distillation
- Lập bản đồ ranh giới synergy kiến trúc-distillation để bảo đảm Moebius 0.22B (student) hấp thụ tối đa năng lực suy luận ngữ nghĩa của PixelHacker (teacher) mà không bị bão hòa biểu diễn
-
Chuyên gia đặc thù cho tác vụ thay vì mô hình đa dụng phình to
- Đây là cách tiếp cận trả lời câu hỏi nền tảng: "khi tác vụ được xác định rõ ràng, liệu mô hình có thể thông minh hơn, nhẹ hơn và nhanh hơn không"
- Đóng vai trò là specialist được tối ưu hóa cao, giải phóng image inpainting và AI object removal thực tế khỏi xu hướng phình to tham số
Đánh giá và so sánh
- Thực hiện thí nghiệm trên diện rộng cho cả cảnh tự nhiên (Places2) và cảnh chân dung (CelebA-HQ, FFHQ)
- Xác nhận kết quả ngang bằng hoặc vượt FLUX.1-Fill-Dev, mô hình đa dụng công nghiệp tầm 10B, về chất lượng sinh ảnh
- Với quy mô dưới 2% số tham số (0.22B so với 11.9B) nhưng tăng tốc thời gian suy luận hơn 15 lần, công trình đặt ra chuẩn hiệu quả mới cho inpainting độ trung thực cao
1 bình luận
Ý kiến trên Hacker News
Đã làm cho nó chạy bằng ONNX (nhờ Claude Opus 4.8), và giờ có một bản demo tương tác nơi toàn bộ mô hình chạy ngay trong trình duyệt. Tải xuống khoảng 1.3GB: https://simonw.github.io/moebius-web/
Mã nguồn ở đây: https://github.com/simonw/moebius-web
Nhật ký Claude Code: https://gisthost.github.io/?58039ba5c1ca3ed177e8659168996ee4
Có bài blog tổng hợp chi tiết hơn ở đây: https://simonwillison.net/2026/Jun/22/porting-moebius/
Tôi thử một chút rồi, và với một mô hình 0.2B thì đúng là rất ấn tượng, nhưng khó mà bị thuyết phục rằng nó ngang hàng với các mô hình 10B
Với ảnh tự nhiên thì nó hoạt động khá ổn, nhưng vùng được inpainting trông mịn thấy rõ so với xung quanh, và nó rất yếu khi thêm đối tượng mới. Đầu ra cũng bị giới hạn ở 512x512 nên giảm tính thực dụng
Vài năm trước tôi từng làm một dự án inpainting cho khách hàng. Mục tiêu là inpainting các banner quảng cáo cho nhà tổ chức hòa nhạc để dễ tạo quảng cáo cho nhiều kích thước mặt bằng khác nhau, và tôi phụ trách quảng cáo chủ đề Giáng sinh cho vài ca sĩ nổi tiếng
Điều kỳ quặc nhất là lúc công cụ inpainting thêm những người lạ vào ảnh. Ca sĩ được trang trí bằng đồ lấp lánh và màu đỏ, mà mô hình lại thêm một ông già cau có đội mũ chóp lụa. Tôi không nhớ là mình đã bấm nút “thêm ông già rùng rợn”
Hồi đó backend là Stable Diffusion, và tôi đã đi qua nhiều dịch vụ host mô hình khác nhau, gồm cả Amazon, nhưng yêu cầu với ảnh đầu vào mỗi nơi một kiểu nên rất phức tạp. Có nơi không thể xử lý tỷ lệ như banner 200x60 nên thất bại, có nơi lại bắt phải resize trước khi đưa vào nên ngay từ đầu đã phải dùng ảnh độ phân giải thấp. Rác vào thì rác ra
Cuối cùng cần rất nhiều công đoạn chuẩn bị trước, và khách hàng thực tế không dùng các bản tôi làm thử
Chắc hẳn ở Anh có hẳn một quy định yêu cầu phải đặt một nhân vật kiểu Scrooge ở hậu cảnh mỗi sự kiện Giáng sinh để mọi người khỏi phấn khích quá mức
Ngay cả inpainting khuôn mặt cũng phải xoay qua nhiều công cụ mới tạm dùng được, còn inpainting thứ khác thì gần như bất khả thi. Những mô hình đó cũng đặc biệt yếu trong việc đặt vật thể vào cảnh một cách tự nhiên. Mấy thứ đơn giản như vòng cổ hay thắt lưng làm ẩu thì còn tạm được, nhưng hễ đưa một vật thể mới vào cảnh là nó sẽ thất bại theo vô số cách
Độ phân giải 512x512 cũng là mức chúng hoạt động tốt hơn nhiều, và càng lệch xa thì vấn đề càng tăng
Nếu bạn định inpainting banner quảng cáo thì khả năng cao là nó đã bị méo nghiêm trọng. Những mô hình đó không xử lý được phông chữ và cũng yếu ở việc chép lại chính xác đến từng pixel. Cách thực tế hồi đó có lẽ là chèn banner thủ công rồi chỉ dùng AI để sửa phần rìa. Dĩ nhiên vẫn cần chút cảm quan mỹ thuật
Nếu bạn chỉ đưa vào hai tấm ảnh rồi mong mô hình tự lo hết, thì đó là một nỗ lực táo bạo nhưng là việc bất khả thi
Khi tạo ảnh độ phân giải thấp bằng mô hình chất lượng cao, cảm giác thực tế như nó đang cắt ra một phần từ ảnh lớn hơn nhiều để xuất ra. Tôi có cảm nhận đó sau nhiều giờ thử nghiệm, và ngay cả khi cố đặt một vật ở chính giữa bằng mô hình lớn thì nó cũng thường không hiện đúng giữa. GPU của tôi cũng có giới hạn chịu tải
Có vài demo space dùng cái này. Bản này trông có vẻ ổn nhất và cho phép tự vẽ mask, nhưng nó thất bại với mọi ảnh tôi thử: https://huggingface.co/spaces/multimodalart/Moebius
Hiện tôi đang tích cực chỉnh sửa nên đôi lúc nó có thể bị hỏng :)
Nó chạy trên CPU miễn phí nên mất khoảng 80 giây cho mỗi ảnh
Tôi đã làm một ứng dụng nhỏ chạy hoàn toàn trong trình duyệt và cho phép thử tất cả các mô hình fine-tune: https://inpaintlab.com/
Tôi không biết inpainting là gì. Trong phần bình luận thì ai cũng có vẻ biết thuật ngữ này, nhưng ở trang được liên kết tôi không thấy giải thích
Về cơ bản, mô hình nhìn vào ngữ cảnh của vùng không phải màu tím rồi quyết định thứ gì phù hợp nhất để điền vào vùng tím, tức là vẽ lại một phần của ảnh. Nó thường được dùng để xóa vật thể, nhưng như ví dụ cho thấy thì cũng làm được việc khác
Không tốt lắm. Vùng được inpainting, như thường thấy, quá mịn so với kết cấu tần số cao chi tiết của ảnh tự nhiên
Cùng lắm chỉ đủ dùng để xóa thứ gì đó trong thumbnail
Ngay cả công cụ phục hồi mặc định của Photoshop vài năm trước cũng xử lý được ở mức tương tự
Tôi ước có mô hình như thế này cho việc dịch truyện tranh. Hiện tại trong mảng anime và manga, mô hình inpainting nhẹ gần như mặc định có vẻ vẫn là LaMa, mà đó đã là mô hình từ vài năm trước nên có vẻ còn nhiều chỗ để cải thiện
Không biết có thể huấn luyện lại hay fine-tune mô hình này không. Họ nói về việc tạo ra “chuyên gia”, nên tôi nghĩ biết đâu chuyên gia đó có thể hiểu tốt hơn về việc dịch nhiều loại nhân vật khác nhau
Đây mới là kiểu AI hữu ích. Có rất nhiều trường hợp sử dụng có thể trở thành hiện thực
Nhưng sẽ chẳng ai đầu tư 1 tỷ đô chỉ để có tính năng xóa bụi siêu đỉnh hay tách cảnh hoàn hảo
Thay vào đó, ta phải tải lên cloud rồi lịch sự nhờ một mô hình frontier đa phương thức khổng lồ làm đúng thứ mình muốn
Tôi không hiểu. Có chỗ nào để thử không, hay đây chỉ là quảng cáo
Sửa: hình như tôi tìm thấy rồi
https://huggingface.co/hustvl/Moebius