Qwen VLo - Từ việc 'hiểu' thế giới đến 'mô tả' nó

(qwenlm.github.io)

1 điểm bởi GN⁺ 2025-06-29 | 1 bình luận | Chia sẻ qua WhatsApp

Qwen VLo là mô hình hiểu và tạo sinh đa phương thức hợp nhất, không chỉ hiểu hình ảnh mà còn tạo ra hình ảnh chất lượng cao
Người dùng có thể đưa ra mệnh lệnh sáng tạo bằng ngôn ngữ tự nhiên, đồng thời trực tiếp tạo và chỉnh sửa nhiều loại hình ảnh như chuyển đổi phong cách, thay đổi nền, v.v.
Hỗ trợ nhiều ngôn ngữ, giúp người dùng trên toàn thế giới dễ dàng sử dụng mà không gặp rào cản ngôn ngữ
Áp dụng phương thức tạo sinh lũy tiến để liên tục cải thiện và tối ưu hóa hình ảnh, mang lại chất lượng hình ảnh cao hơn và khả năng kiểm soát tốt hơn
Hiện vẫn đang ở giai đoạn preview nên có thể có một số tính năng chưa ổn định, nhưng đang được cải thiện liên tục

Giới thiệu

Sự phát triển của các mô hình lớn đa phương thức đang không ngừng mở rộng giới hạn của công nghệ
Bắt đầu từ QwenVL cho đến Qwen2.5 VL, khả năng hiểu nội dung hình ảnh đã liên tục được tăng cường; giờ đây Qwen VLo xuất hiện như một mô hình đa phương thức mới bao trùm cả hiểu lẫn tạo sinh
Qwen VLo không chỉ dừng ở việc "hiểu" thế giới mà còn có thể "tạo" ra hình ảnh chi tiết dựa trên sự hiểu đó
Mô hình này thực sự kết nối ranh giới giữa tri giác và sáng tạo
Hiện là phiên bản preview và có thể dùng trên Qwen Chat; người dùng có thể tạo ảnh bằng lệnh như "tạo hình một con mèo dễ thương", đồng thời sau khi tải ảnh lên còn có thể chỉnh sửa bằng các yêu cầu như "đội mũ cho con mèo".

Quy trình tạo sinh sáng tạo

Như có thể thấy trong video trình diễn khả năng tạo ảnh của Qwen VLo, mô hình này sử dụng phương pháp tạo sinh lũy tiến
Nó dần xây dựng hình ảnh theo hướng từ góc trên bên trái đến góc dưới bên phải, liên tục tinh chỉnh dự đoán để đạt được kết quả nhất quán và hài hòa
Cơ chế tạo sinh này nâng cao chất lượng hình ảnh và giúp người dùng kiểm soát quá trình sáng tạo linh hoạt, tinh vi hơn.

Từ khả năng hiểu đến tính sáng tạo: năng lực tạo sinh đa phương thức được nâng cao

Các điểm nâng cấp chính của Qwen VLo

Hiểu và tái hiện nội dung một cách chính xác
- Các mô hình đa phương thức trước đây thường gặp hiện tượng lệch nghĩa trong quá trình tạo sinh, chẳng hạn nhận diện sai ô tô hoặc làm mất cấu trúc
- Qwen VLo đã tăng cường khả năng nắm bắt chi tiết và duy trì mức độ khớp nghĩa cao
- Ví dụ, nếu yêu cầu đổi màu một bức ảnh ô tô, mô hình có thể thay đổi màu sắc một cách tự nhiên trong khi vẫn giữ nguyên kiểu xe và cấu trúc thực tế, tạo ra kết quả chân thực
Hỗ trợ chỉnh sửa dựa trên chỉ thị mở
- Người dùng có thể nhập các mệnh lệnh sáng tạo tự do bằng ngôn ngữ tự nhiên như "biến bức tranh này thành phong cách Van Gogh", "giống một bức ảnh thế kỷ 19", hoặc "thêm bầu trời trong xanh"
- Không chỉ chuyển đổi phong cách, tái cấu trúc cảnh và chỉnh sửa chi tiết, mà cả các tác vụ thị giác truyền thống trong deep learning như bản đồ độ sâu, phân đoạn, ước lượng cạnh cũng có thể thực hiện chỉ bằng lệnh đơn giản
- Các chỉ thị phức hợp, chẳng hạn chỉnh sửa đối tượng + chỉnh sửa văn bản + thay đổi nền, cũng có thể được thực hiện cùng lúc
Hỗ trợ chỉ thị đa ngôn ngữ
- Qwen VLo hỗ trợ thao tác bằng tiếng Trung, tiếng Anh và nhiều ngôn ngữ khác
- Mang lại sự tiện dụng trên toàn cầu mà không bị cản trở bởi ngôn ngữ

Các trường hợp sử dụng demo

Qwen VLo hiện thực hóa trí tưởng tượng dựa trên năng lực thấu hiểu giống như một nghệ sĩ con người. Nó có thể thay nền, thêm chủ thể, chuyển đổi phong cách, thực hiện chỉnh sửa quy mô lớn theo chỉ thị mở cũng như xử lý các yêu cầu phát hiện/phân đoạn.

Đặc biệt, với tính năng tái tạo dựa trên hiểu biết, nó hỗ trợ các biến đổi phong cách sáng tạo rất rộng, như truyện tranh → ảnh thật, hay biến một nhân vật cụ thể thành quả bóng bay.

Nhờ năng lực phân tích hình ảnh và chỉ thị nâng cao, mô hình có thể thực hiện các lệnh phức hợp trong một lần, ví dụ thiết kế poster, kết hợp nhiều đối tượng và hoàn thành nhiều bước công việc chỉ trong một lần

Ngoài ra, Qwen VLo còn hỗ trợ chức năng chú thích/đánh dấu trên thông tin sẵn có như phát hiện, phân đoạn và phát hiện cạnh.

Tính năng xử lý đầu vào nhiều hình ảnh cũng đang được chuẩn bị (sẽ phát hành chính thức trong tương lai)
Không chỉ hỗ trợ đầu vào văn bản + hình ảnh mà còn hỗ trợ tạo sinh văn bản → hình ảnh (ảnh thông thường, poster pha trộn Trung-Anh, v.v.)
Hỗ trợ tạo ảnh với định dạng tỷ lệ ngang/dọc rất dài (tối đa 4:1, 1:3, v.v.) (sẽ phát hành chính thức)
Mô hình cũng có thể hiểu/phân tích lại chính hình ảnh mà nó tạo ra để thực hiện các tác vụ như phân biệt giống chó, giống mèo

Cách sử dụng

Qwen VLo sử dụng huấn luyện và tạo sinh độ phân giải động, cho phép tự do dùng độ phân giải và tỷ lệ của ảnh đầu vào/đầu ra. Nhờ đó, có thể tạo hình ảnh ở kích thước mong muốn thay vì bị giới hạn trong định dạng cố định, như poster, minh họa, web banner, ảnh bìa mạng xã hội, v.v.

Cơ chế tạo sinh: tạo sinh lũy tiến từ trên trái → dưới phải (Progressive generation)
Với các tác vụ cần điều khiển chi tiết như quảng cáo hoặc khung truyện tranh có văn bản dài, người dùng có thể tinh chỉnh vi mô quá trình theo thời gian thực

Hạn chế

Qwen VLo hiện ở giai đoạn preview, nên vẫn còn một số thiếu sót. Trong quá trình tạo sinh có thể xảy ra các vấn đề như độ chính xác chưa cao, không khớp với ảnh gốc, không tuân thủ chỉ thị, khả năng hiểu ảnh chưa ổn định. Mô hình đang tiếp tục được cải thiện và cập nhật để ổn định hơn.

Bước tiếp theo

Khi các mô hình lớn đa phương thức có được khả năng vào/ra hai chiều giữa văn bản và thị giác, những phương thức biểu đạt và tương tác mới đang mở ra
Trong tương lai, các mô hình sẽ không chỉ trả lời bằng văn bản mà còn có thể truyền đạt ý tưởng bằng sơ đồ, đường phụ trợ, đánh dấu nhấn mạnh và các nội dung trực quan khác.

Các khả năng tạo sinh tiên tiến hơn cũng sẽ được dùng để kiểm chứng và cải thiện mức độ hiểu của chính mô hình
Ví dụ, mô hình có thể trực tiếp tạo ra kết quả trung gian như segmentation map, detection map để chứng minh và bổ sung cho sự hiểu của mình
Hướng nghiên cứu này đang tiếp tục được khám phá

1 bình luận

GN⁺ 2025-06-29

Ý kiến trên Hacker News

Thật đáng tiếc là Qwen không công bố open weights. Từ trước đến nay, một trong những điểm mạnh lớn nhất của Qwen chính là chiến lược open weights. Mong là sẽ có một mô hình open weights thực sự có thể cạnh tranh với khả năng tự động tạo ảnh của 4o. Có rất nhiều hướng nghiên cứu thú vị chỉ khả thi khi có thể truy cập trực tiếp vào weights. Nếu vấn đề là thu hồi chi phí phát triển, có thể tham khảo mô hình phát hành Flux Kontext Dev của BFL. Họ công bố weights miễn phí cho nhà nghiên cứu và cá nhân, còn startup thì mua giấy phép thương mại với mức giá hợp lý
- Có thể thấy rõ ảnh của Qwen được huấn luyện từ đầu ra của OpenAI. Chỉ cần nhìn ánh cam hơi ám trong ảnh là biết (ví dụ 1, ví dụ 2, ví dụ 3). Cũng tự hỏi không biết họ có từng cố gắng tự thu thập dữ liệu hay không. Kết cục là vẫn đi theo OAI y nguyên rồi lại ẩn sau API. Không chỉ khép kín như OAI mà hiệu năng còn kém hơn. Thật khó hiểu chiến lược này
- Nếu vừa nhấn mạnh open weights nhưng lại đề xuất weights riêng cho nhà nghiên cứu và cá nhân, còn startup thì phải mua giấy phép thương mại, thì cảm giác vẫn rất xa với open weights thực sự. Cũng như "mã nguồn mở", phải có quyền tự do sử dụng theo ý muốn thì mới đúng nghĩa là mở. Nếu không, từ "mở" có thể mất đi ý nghĩa
- Tôi không nghĩ có thể thu hồi khoản đầu tư hàng chục triệu USD, chi phí GPU và lương kỹ sư chỉ bằng phí tạo ảnh
- Có cảm giác kỷ nguyên open weights từ Trung Quốc đã đột ngột kết thúc. Alibaba đã ngừng công bố Qwen, Tencent cũng dừng công bố Hunyuan, còn Bytedance thì đóng Seedream. Việc huấn luyện trên các mô hình phương Tây rõ ràng vẫn tiếp diễn. Ngược lại, tôi nghĩ chiến lược 100% mở rồi kiếm tiền bằng hạ tầng và dịch vụ sẽ khôn ngoan hơn
Ảnh được nén thành 256 token trước khi truyền vào mô hình ngôn ngữ. Ví dụ khi yêu cầu thêm mũ, toàn bộ khuôn mặt sẽ được vẽ lại. Từng đối tượng riêng lẻ không được lưu riêng, và cả nhân vật gấu cũng chỉ tồn tại tạm thời. Tất cả được lưu trong một không gian latent hợp nhất rồi được lấy mẫu lại dưới điều kiện mới. Chỉ cần sửa prompt một chút là toàn bộ ảnh thay đổi. Nói cách khác, đây là cách tạo lại toàn bộ cảnh mỗi lần, nên có vẻ phù hợp với nhiều trường hợp sử dụng khác nhau
- Ở Flux Kontext, các chi tiết thường được giữ lại khá tốt như một mô hình đa phương thức, nên tôi thích điều đó. Với GPT-Image-1, nó ổn cho các thay đổi phong cách tổng thể như "biến thành phong cách Ghibli", nhưng với các chỉnh sửa tinh vi như thêm kính vào ảnh photorealistic thì lại không giữ được chi tiết tốt
Khi xem ví dụ chỉnh sửa ảnh con gấu, tôi nhận ra nhiều phần bị thay đổi hơn mức yêu cầu. Chỉ bảo đổi nền thôi mà con gấu cũng thay đổi hẳn, còn khi yêu cầu biến con gấu thành bóng bay thì cả nền (gạch lát vỉa hè) biến mất hoặc hạt dưa hấu cũng mất theo, xuất hiện cả những thay đổi lạ khác. Tôi tò mò không biết đây là vấn đề có thể giải quyết bằng cách viết prompt tốt hơn, hay là giới hạn của kiến trúc mô hình
- Cả hai đều đúng. Tối ưu prompt có thể giúp kết quả khá hơn một chút, nhưng nguyên nhân gốc vẫn là kiến trúc mô hình và cách huấn luyện, tức giới hạn của kiến trúc và phương pháp luận
Tôi đã thử tạo ảnh bồ nông đi xe đạp, và cũng tạo ảnh đàn accordion. Mô hình yếu ở các chi tiết nhỏ như ngón tay hoặc màu đen của các phím đàn bị thể hiện sai. Tốc độ tạo khá nhanh liên kết ví dụ
- Có vẻ bạn đã bỏ lỡ điểm cốt lõi của bài kiểm tra Simon là định dạng SVG. Ảnh bồ nông đi xe đạp là bài toán đã được giải khá dễ từ thời Stable Diffusion 2/3. Thách thức nằm ở chỗ cần suy luận logic và độ chính xác trong SVG chứ không phải ảnh pixel
Trong các ví dụ thay đổi ảnh như chỉnh sửa hay chuyển phong cách, tôi nhận thấy có hiện tượng ám vàng nhẹ. GPT Image 1 cũng có hiện tượng này, còn Flux Kontext thì không. Tôi tò mò lý do là gì
Tất cả ảnh đều cho cảm giác uncanny valley. Màu sắc và đổ bóng đều rất gượng gạo
- Kết quả nhìn chung khá thô. Nếu không phải để nghiên cứu thì khó nghĩ ra trường hợp sử dụng thực tế nào cho những hình ảnh như vậy
Là một nhà nghiên cứu machine learning và có bằng vật lý, tôi thấy không thoải mái khi dùng các từ như "hiểu" hay "giải thích" cho những mô hình kiểu này. Thực tế điều đó không giúp ích mà còn gây rối thêm. Lý do vật lý dùng toán là vì tính chính xác, còn lập trình cũng cực kỳ cụ thể. Cuộc sống của chúng ta bị chi phối bởi vô số chi tiết, nhưng mô hình lại không thể nắm được những sắc thái đó. Tôi rất mong mọi người đọc Asimov, "Relativity of Wrong"(liên kết). Nếu thực sự muốn nói là "đã hiểu", thì mô hình phải tạo ra được những kết quả chưa từng nghe tới như khám phá / suy luận / tái định nghĩa khái niệm. Con người thì tự nhiên có tư duy phản thực tế (liên kết), còn các mô hình ML hiện đại thì không. Những lỗi như sai số ngón tay trong ảnh OP hay bố cục phím sai trên bàn phím là ví dụ điển hình. Bề ngoài có vẻ hợp lý, nhưng càng nhìn lâu càng lộ ra sự kỳ cục, đúng kiểu uncanny valley điển hình
- Với những người thực sự làm ra thứ gì đó, kiểu tranh luận này khá mệt mỏi. Chỉ riêng việc giải thích khái niệm đầu vào và đầu ra theo cách dễ hiểu đã đủ giá trị rồi. Nếu đọc tài liệu phát hành, có thể thấy Qwen ban đầu là VLM đảm nhiệm vai trò "hiểu / nhận diện / nhận thức", và giờ khả năng đã mở rộng sang "tạo sinh / mô tả / vẽ". Không cần thêm những lời báo động khủng hoảng hay gán ghép ý nghĩa quá mức
Tôi muốn biết cách tắt tính năng đọc giọng nói tự động. Khi vào website, tôi chỉ muốn nó ở trạng thái chờ và chỉ hoạt động khi tôi tự thao tác. Trên Firefox, video tự phát toàn màn hình rồi đột nhiên bắt đầu đọc luôn (môi trường iOS)
- Vào Cài đặt > Cài đặt trang web > chặn tự động phát âm thanh và video. Trên Firefox Android có thể dùng tính năng đó. Trên iOS hoặc desktop cũng có tùy chọn tương tự, và cũng có thể chặn hoàn toàn yêu cầu cấp quyền thông báo
Tôi tò mò không biết có báo cáo kỹ thuật nào về kiến trúc tạo ảnh theo kiểu 4o hay không. Tôi cũng muốn tìm hiểu chi tiết hơn về các mô hình khác tạo ảnh theo cách tương tự
Cá nhân tôi nghĩ machine learning đã tiến bộ vượt xa ở phía "mô tả" hơn là phía "hiểu"
- Tôi muốn biết cơ sở nào để cho rằng con người hiểu thế giới tốt hơn. Con người có rất nhiều phản ứng cảm xúc với thế giới, nhưng bản thân cảm xúc không mang lại sự hiểu biết. Từ "hiểu" thực ra cũng chỉ là một tiêu chí rất chủ quan mà thôi