Qwen VLo - Từ việc 'hiểu' thế giới đến 'mô tả' nó
(qwenlm.github.io)- Qwen VLo là mô hình hiểu và tạo sinh đa phương thức hợp nhất, không chỉ hiểu hình ảnh mà còn tạo ra hình ảnh chất lượng cao
- Người dùng có thể đưa ra mệnh lệnh sáng tạo bằng ngôn ngữ tự nhiên, đồng thời trực tiếp tạo và chỉnh sửa nhiều loại hình ảnh như chuyển đổi phong cách, thay đổi nền, v.v.
- Hỗ trợ nhiều ngôn ngữ, giúp người dùng trên toàn thế giới dễ dàng sử dụng mà không gặp rào cản ngôn ngữ
- Áp dụng phương thức tạo sinh lũy tiến để liên tục cải thiện và tối ưu hóa hình ảnh, mang lại chất lượng hình ảnh cao hơn và khả năng kiểm soát tốt hơn
- Hiện vẫn đang ở giai đoạn preview nên có thể có một số tính năng chưa ổn định, nhưng đang được cải thiện liên tục
Giới thiệu
- Sự phát triển của các mô hình lớn đa phương thức đang không ngừng mở rộng giới hạn của công nghệ
- Bắt đầu từ QwenVL cho đến Qwen2.5 VL, khả năng hiểu nội dung hình ảnh đã liên tục được tăng cường; giờ đây Qwen VLo xuất hiện như một mô hình đa phương thức mới bao trùm cả hiểu lẫn tạo sinh
- Qwen VLo không chỉ dừng ở việc "hiểu" thế giới mà còn có thể "tạo" ra hình ảnh chi tiết dựa trên sự hiểu đó
- Mô hình này thực sự kết nối ranh giới giữa tri giác và sáng tạo
- Hiện là phiên bản preview và có thể dùng trên Qwen Chat; người dùng có thể tạo ảnh bằng lệnh như "tạo hình một con mèo dễ thương", đồng thời sau khi tải ảnh lên còn có thể chỉnh sửa bằng các yêu cầu như "đội mũ cho con mèo".
Quy trình tạo sinh sáng tạo
- Như có thể thấy trong video trình diễn khả năng tạo ảnh của Qwen VLo, mô hình này sử dụng phương pháp tạo sinh lũy tiến
- Nó dần xây dựng hình ảnh theo hướng từ góc trên bên trái đến góc dưới bên phải, liên tục tinh chỉnh dự đoán để đạt được kết quả nhất quán và hài hòa
- Cơ chế tạo sinh này nâng cao chất lượng hình ảnh và giúp người dùng kiểm soát quá trình sáng tạo linh hoạt, tinh vi hơn.
Từ khả năng hiểu đến tính sáng tạo: năng lực tạo sinh đa phương thức được nâng cao
Các điểm nâng cấp chính của Qwen VLo
-
Hiểu và tái hiện nội dung một cách chính xác
- Các mô hình đa phương thức trước đây thường gặp hiện tượng lệch nghĩa trong quá trình tạo sinh, chẳng hạn nhận diện sai ô tô hoặc làm mất cấu trúc
- Qwen VLo đã tăng cường khả năng nắm bắt chi tiết và duy trì mức độ khớp nghĩa cao
- Ví dụ, nếu yêu cầu đổi màu một bức ảnh ô tô, mô hình có thể thay đổi màu sắc một cách tự nhiên trong khi vẫn giữ nguyên kiểu xe và cấu trúc thực tế, tạo ra kết quả chân thực
-
Hỗ trợ chỉnh sửa dựa trên chỉ thị mở
- Người dùng có thể nhập các mệnh lệnh sáng tạo tự do bằng ngôn ngữ tự nhiên như "biến bức tranh này thành phong cách Van Gogh", "giống một bức ảnh thế kỷ 19", hoặc "thêm bầu trời trong xanh"
- Không chỉ chuyển đổi phong cách, tái cấu trúc cảnh và chỉnh sửa chi tiết, mà cả các tác vụ thị giác truyền thống trong deep learning như bản đồ độ sâu, phân đoạn, ước lượng cạnh cũng có thể thực hiện chỉ bằng lệnh đơn giản
- Các chỉ thị phức hợp, chẳng hạn chỉnh sửa đối tượng + chỉnh sửa văn bản + thay đổi nền, cũng có thể được thực hiện cùng lúc
-
Hỗ trợ chỉ thị đa ngôn ngữ
- Qwen VLo hỗ trợ thao tác bằng tiếng Trung, tiếng Anh và nhiều ngôn ngữ khác
- Mang lại sự tiện dụng trên toàn cầu mà không bị cản trở bởi ngôn ngữ
Các trường hợp sử dụng demo
Qwen VLo hiện thực hóa trí tưởng tượng dựa trên năng lực thấu hiểu giống như một nghệ sĩ con người. Nó có thể thay nền, thêm chủ thể, chuyển đổi phong cách, thực hiện chỉnh sửa quy mô lớn theo chỉ thị mở cũng như xử lý các yêu cầu phát hiện/phân đoạn.
Đặc biệt, với tính năng tái tạo dựa trên hiểu biết, nó hỗ trợ các biến đổi phong cách sáng tạo rất rộng, như truyện tranh → ảnh thật, hay biến một nhân vật cụ thể thành quả bóng bay.
- Nhờ năng lực phân tích hình ảnh và chỉ thị nâng cao, mô hình có thể thực hiện các lệnh phức hợp trong một lần, ví dụ thiết kế poster, kết hợp nhiều đối tượng và hoàn thành nhiều bước công việc chỉ trong một lần
Ngoài ra, Qwen VLo còn hỗ trợ chức năng chú thích/đánh dấu trên thông tin sẵn có như phát hiện, phân đoạn và phát hiện cạnh.
- Tính năng xử lý đầu vào nhiều hình ảnh cũng đang được chuẩn bị (sẽ phát hành chính thức trong tương lai)
- Không chỉ hỗ trợ đầu vào văn bản + hình ảnh mà còn hỗ trợ tạo sinh văn bản → hình ảnh (ảnh thông thường, poster pha trộn Trung-Anh, v.v.)
- Hỗ trợ tạo ảnh với định dạng tỷ lệ ngang/dọc rất dài (tối đa 4:1, 1:3, v.v.) (sẽ phát hành chính thức)
- Mô hình cũng có thể hiểu/phân tích lại chính hình ảnh mà nó tạo ra để thực hiện các tác vụ như phân biệt giống chó, giống mèo
Cách sử dụng
Qwen VLo sử dụng huấn luyện và tạo sinh độ phân giải động, cho phép tự do dùng độ phân giải và tỷ lệ của ảnh đầu vào/đầu ra. Nhờ đó, có thể tạo hình ảnh ở kích thước mong muốn thay vì bị giới hạn trong định dạng cố định, như poster, minh họa, web banner, ảnh bìa mạng xã hội, v.v.
- Cơ chế tạo sinh: tạo sinh lũy tiến từ trên trái → dưới phải (Progressive generation)
- Với các tác vụ cần điều khiển chi tiết như quảng cáo hoặc khung truyện tranh có văn bản dài, người dùng có thể tinh chỉnh vi mô quá trình theo thời gian thực
Hạn chế
Qwen VLo hiện ở giai đoạn preview, nên vẫn còn một số thiếu sót. Trong quá trình tạo sinh có thể xảy ra các vấn đề như độ chính xác chưa cao, không khớp với ảnh gốc, không tuân thủ chỉ thị, khả năng hiểu ảnh chưa ổn định. Mô hình đang tiếp tục được cải thiện và cập nhật để ổn định hơn.
Bước tiếp theo
- Khi các mô hình lớn đa phương thức có được khả năng vào/ra hai chiều giữa văn bản và thị giác, những phương thức biểu đạt và tương tác mới đang mở ra
- Trong tương lai, các mô hình sẽ không chỉ trả lời bằng văn bản mà còn có thể truyền đạt ý tưởng bằng sơ đồ, đường phụ trợ, đánh dấu nhấn mạnh và các nội dung trực quan khác.
- Các khả năng tạo sinh tiên tiến hơn cũng sẽ được dùng để kiểm chứng và cải thiện mức độ hiểu của chính mô hình
- Ví dụ, mô hình có thể trực tiếp tạo ra kết quả trung gian như segmentation map, detection map để chứng minh và bổ sung cho sự hiểu của mình
- Hướng nghiên cứu này đang tiếp tục được khám phá
1 bình luận
Ý kiến trên Hacker News
Thật đáng tiếc là Qwen không công bố open weights. Từ trước đến nay, một trong những điểm mạnh lớn nhất của Qwen chính là chiến lược open weights. Mong là sẽ có một mô hình open weights thực sự có thể cạnh tranh với khả năng tự động tạo ảnh của 4o. Có rất nhiều hướng nghiên cứu thú vị chỉ khả thi khi có thể truy cập trực tiếp vào weights. Nếu vấn đề là thu hồi chi phí phát triển, có thể tham khảo mô hình phát hành Flux Kontext Dev của BFL. Họ công bố weights miễn phí cho nhà nghiên cứu và cá nhân, còn startup thì mua giấy phép thương mại với mức giá hợp lý
Có thể thấy rõ ảnh của Qwen được huấn luyện từ đầu ra của OpenAI. Chỉ cần nhìn ánh cam hơi ám trong ảnh là biết (ví dụ 1, ví dụ 2, ví dụ 3). Cũng tự hỏi không biết họ có từng cố gắng tự thu thập dữ liệu hay không. Kết cục là vẫn đi theo OAI y nguyên rồi lại ẩn sau API. Không chỉ khép kín như OAI mà hiệu năng còn kém hơn. Thật khó hiểu chiến lược này
Nếu vừa nhấn mạnh open weights nhưng lại đề xuất weights riêng cho nhà nghiên cứu và cá nhân, còn startup thì phải mua giấy phép thương mại, thì cảm giác vẫn rất xa với open weights thực sự. Cũng như "mã nguồn mở", phải có quyền tự do sử dụng theo ý muốn thì mới đúng nghĩa là mở. Nếu không, từ "mở" có thể mất đi ý nghĩa
Tôi không nghĩ có thể thu hồi khoản đầu tư hàng chục triệu USD, chi phí GPU và lương kỹ sư chỉ bằng phí tạo ảnh
Có cảm giác kỷ nguyên open weights từ Trung Quốc đã đột ngột kết thúc. Alibaba đã ngừng công bố Qwen, Tencent cũng dừng công bố Hunyuan, còn Bytedance thì đóng Seedream. Việc huấn luyện trên các mô hình phương Tây rõ ràng vẫn tiếp diễn. Ngược lại, tôi nghĩ chiến lược 100% mở rồi kiếm tiền bằng hạ tầng và dịch vụ sẽ khôn ngoan hơn
Ảnh được nén thành 256 token trước khi truyền vào mô hình ngôn ngữ. Ví dụ khi yêu cầu thêm mũ, toàn bộ khuôn mặt sẽ được vẽ lại. Từng đối tượng riêng lẻ không được lưu riêng, và cả nhân vật gấu cũng chỉ tồn tại tạm thời. Tất cả được lưu trong một không gian latent hợp nhất rồi được lấy mẫu lại dưới điều kiện mới. Chỉ cần sửa prompt một chút là toàn bộ ảnh thay đổi. Nói cách khác, đây là cách tạo lại toàn bộ cảnh mỗi lần, nên có vẻ phù hợp với nhiều trường hợp sử dụng khác nhau
Khi xem ví dụ chỉnh sửa ảnh con gấu, tôi nhận ra nhiều phần bị thay đổi hơn mức yêu cầu. Chỉ bảo đổi nền thôi mà con gấu cũng thay đổi hẳn, còn khi yêu cầu biến con gấu thành bóng bay thì cả nền (gạch lát vỉa hè) biến mất hoặc hạt dưa hấu cũng mất theo, xuất hiện cả những thay đổi lạ khác. Tôi tò mò không biết đây là vấn đề có thể giải quyết bằng cách viết prompt tốt hơn, hay là giới hạn của kiến trúc mô hình
Tôi đã thử tạo ảnh bồ nông đi xe đạp, và cũng tạo ảnh đàn accordion. Mô hình yếu ở các chi tiết nhỏ như ngón tay hoặc màu đen của các phím đàn bị thể hiện sai. Tốc độ tạo khá nhanh liên kết ví dụ
Trong các ví dụ thay đổi ảnh như chỉnh sửa hay chuyển phong cách, tôi nhận thấy có hiện tượng ám vàng nhẹ. GPT Image 1 cũng có hiện tượng này, còn Flux Kontext thì không. Tôi tò mò lý do là gì
Tất cả ảnh đều cho cảm giác uncanny valley. Màu sắc và đổ bóng đều rất gượng gạo
Là một nhà nghiên cứu machine learning và có bằng vật lý, tôi thấy không thoải mái khi dùng các từ như "hiểu" hay "giải thích" cho những mô hình kiểu này. Thực tế điều đó không giúp ích mà còn gây rối thêm. Lý do vật lý dùng toán là vì tính chính xác, còn lập trình cũng cực kỳ cụ thể. Cuộc sống của chúng ta bị chi phối bởi vô số chi tiết, nhưng mô hình lại không thể nắm được những sắc thái đó. Tôi rất mong mọi người đọc Asimov, "Relativity of Wrong"(liên kết). Nếu thực sự muốn nói là "đã hiểu", thì mô hình phải tạo ra được những kết quả chưa từng nghe tới như khám phá / suy luận / tái định nghĩa khái niệm. Con người thì tự nhiên có tư duy phản thực tế (liên kết), còn các mô hình ML hiện đại thì không. Những lỗi như sai số ngón tay trong ảnh OP hay bố cục phím sai trên bàn phím là ví dụ điển hình. Bề ngoài có vẻ hợp lý, nhưng càng nhìn lâu càng lộ ra sự kỳ cục, đúng kiểu uncanny valley điển hình
Tôi muốn biết cách tắt tính năng đọc giọng nói tự động. Khi vào website, tôi chỉ muốn nó ở trạng thái chờ và chỉ hoạt động khi tôi tự thao tác. Trên Firefox, video tự phát toàn màn hình rồi đột nhiên bắt đầu đọc luôn (môi trường iOS)
Tôi tò mò không biết có báo cáo kỹ thuật nào về kiến trúc tạo ảnh theo kiểu 4o hay không. Tôi cũng muốn tìm hiểu chi tiết hơn về các mô hình khác tạo ảnh theo cách tương tự
Cá nhân tôi nghĩ machine learning đã tiến bộ vượt xa ở phía "mô tả" hơn là phía "hiểu"