- Dự án thử nghiệm đánh giá độ chính xác, tính sáng tạo và tính nhất quán bằng cách kiểm thử nhiều mô hình AI tạo ảnh với cùng một prompt
- Tổng cộng 14 mô hình tham gia, gồm OpenAI 4o, Gemini 2.5 Flash, Imagen 4, Seedream 4, FLUX.1 dev, Midjourney v7, v.v.
- Tất cả mô hình đều tạo ảnh chỉ từ phần mô tả được cung cấp, không dùng tính năng inpainting hay chỉnh sửa
- Mỗi bài kiểm tra đều có ngưỡng đạt tối thiểu rõ ràng, và tỷ lệ thành công được tính dựa trên việc có đáp ứng các yếu tố thị giác hay không
- Kết quả cho thấy khoảng cách hiệu năng giữa các mô hình, đồng thời cho thấy việc hiểu các khái niệm phức tạp hoặc tạo cấu trúc toán học vẫn còn khó
Tổng quan thí nghiệm
- Đây là thí nghiệm benchmark so sánh nhằm đánh giá năng lực tạo sinh thuần túy của từng mô hình dựa trên các quy tắc nghiêm ngặt
- Cấm toàn bộ các tính năng như inpainting, remix hay chỉ thị chỉnh sửa tiếp theo
- Mỗi mô hình chỉ được phép thử vài chục lần cho mỗi prompt
- Tiêu chí đánh giá tập trung vào việc đáp ứng chính xác các điều kiện thị giác
Kết quả chính của các bài kiểm tra
- The Prussian Ring Toss
- Cảnh những người lính Phổ ném vòng vào mũ chóp nhọn của nhau
- 5 trong 6 mô hình đạt điều kiện, tỷ lệ thành công cao nhất
- Nine-Pointed Star
- Nhiệm vụ phải tạo chính xác một ngôi sao có 9 đỉnh
- Phần lớn mô hình thất bại vì hội tụ về dạng chẵn; chỉ 3 mô hình thành công
- Spheron
- Tranh phong cách sơn dầu vẽ Alexander Đại đế chiến đấu khi cưỡi món đồ chơi ‘Hippity Hop’
- Đánh giá khả năng kết hợp bối cảnh lịch sử với vật thể hiện đại; chỉ 4 mô hình thành công
- Cubed⁵
- Cảnh 5 khối lập phương kính trong suốt xếp chồng theo chiều dọc theo thứ tự đỏ–xanh dương–xanh lá–tím–vàng
- 5 mô hình tái hiện chính xác; tỷ lệ khung hình dọc ảnh hưởng lớn đến chất lượng kết quả
- Cephalopodic Puppet Show
- Cảnh mỗi trong 8 xúc tu của một con bạch tuộc đều đeo một con rối tất
- Bài kiểm tra đòi hỏi hiểu khái niệm; chỉ một nửa đáp ứng điều kiện
Một số trường hợp kiểm tra bổ sung
- Quantum Entangled Einstein: mô tả bóng đèn ý tưởng liên quan đến Einstein và cơ học lượng tử → 3/6 thành công
- The Yarrctic Circle: hình ảnh cướp biển Bắc Cực với chân giả làm từ băng → 6/6 đều thành công
- The Labyrinth: tạo mê cung 2D có lối vào, lối ra và đường đi rõ ràng → 1/6 thành công
- A Dicey Situation: triển khai xúc xắc 20 mặt (D20) với các mặt chỉ khắc số nguyên tố → 0/6, tất cả đều thất bại
Phân tích và hàm ý
- So với phong cách thị giác đơn giản, lỗi xuất hiện thường xuyên hơn ở cấu trúc logic và mô tả dựa trên quy tắc
- Đặc biệt, các prompt có điều kiện chính xác như văn bản, con số, cấu trúc đối xứng, thứ tự màu sắc có tỷ lệ thất bại cao
- Ngược lại, với các prompt dạng tự sự giàu cảm xúc hoặc đòi hỏi trí tưởng tượng, mô hình cho thấy mức độ nhất quán tương đối cao hơn
- Nhìn chung, các mô hình GenAI vẫn bộc lộ giới hạn trong hiểu khái niệm phức hợp và khả năng tái hiện cấu trúc
Tóm tắt
- Thí nghiệm này là một thử nghiệm thú vị để đo lường “năng lực hiểu thật sự” giữa các mô hình text-to-image
- Ngay cả những mô hình mới nhất như Midjourney và OpenAI 4o cũng thất bại hoàn toàn ở một số cảnh mang tính logic
- Kết quả cho thấy “hiểu văn bản” và “trực quan hóa chính xác ý nghĩa của nó” là hai vấn đề khác nhau
- Trong tương lai, bài toán cốt lõi của sự phát triển mô hình dường như là cải thiện độ khớp giữa ngữ cảnh ngôn ngữ và cấu trúc thị giác
1 bình luận
Ý kiến trên Hacker News
Ngay cả những việc hợp pháp cũng bị chặn với lý do “không được phép”, tạo cảm giác như kiểm duyệt kiểu năm 1964 đang bị doanh nghiệp cưỡng ép áp dụng
GPT-5 thì còn khó chịu hơn khi cứ mở đầu mỗi cuộc trò chuyện bằng những câu nịnh nọt như “Câu hỏi rất hay” hay “Nhận xét rất tuyệt vời”
Nếu đem dữ liệu sở thích người dùng đi huấn luyện bằng RLHF thì mô hình sẽ có tác dụng phụ là mắc bệnh nịnh hót
Hiện giờ các LLM lớn đều đang ở tình trạng đó, nhưng tôi vẫn thấy còn đỡ hơn GPT-4o
ChatGPT là sản phẩm hướng tới khách hàng doanh nghiệp, nên nếu nó có thể tạo ra hình ảnh bạo lực hoặc gợi dục thì các tập đoàn lớn sẽ không bao giờ mua
Với kinh nghiệm từng làm phụ trách mua phần mềm cho doanh nghiệp Fortune 500, tôi chắc điều đó 100%
Không có ngày tháng nên nhìn qua dễ tưởng như chúng được tạo cùng lúc
Mong cho cả hai mặt gối của họ đều nóng
Thực ra đó là tính năng tạo ảnh mới, nhưng có vẻ được dùng theo nghĩa chỉnh sửa ảnh sẵn có
Các mô hình đa phương thức như Qwen3-VL-30B-A3B chỉnh sửa ảnh hiện có khá tốt. imagegpt.com cũng ổn, nhưng tôi không biết họ dùng mô hình nào
Nhân tiện, Qwen3-VL không phải mô hình tạo hay chỉnh sửa ảnh mà là mô hình suy luận ảnh
Có lẽ họ đã dùng Qwen-Image-Edit ở backend
Ví dụ, nếu đưa prompt “thêm tóc cho một người đàn ông hói” thì kết quả trả về là bản đã sửa từ ảnh gốc
Về mặt kỹ thuật thì đó vẫn là quá trình tạo ảnh mới, nhưng tôi nghĩ nó giống kiểu Save As trong Photoshop
GPT-4o có temperature thấp nên tính nhất quán cao nhưng độ sáng tạo kém hơn, còn Midjourney dùng temperature cao hơn để tạo ra phông nền và kết cấu phong phú
Tông sepia của 4o cũng có thể là hậu xử lý
Trên thực tế, rất có thể đó là một workflow tinh chỉnh ảnh cuối cùng qua nhiều bước
Tuy vậy, các mô hình dựa trên LLM thường xuyên dùng prompt rewriting
Trường hợp của DALL·E 3 được giải thích khá rõ trong bài này
Tôi đang chờ phản hồi từ người đăng ký
Liên kết Generative AI Review
Tuy vậy, tôi vẫn chưa thật sự hiểu rõ cấu trúc thử nhiều lần rồi để một LLM khác đánh giá. Chẳng phải bản thân cách đó cũng bị giới hạn về độ chính xác sao?
Theo kiểu PASS/FAIL, nếu không thể tạo ra dù chỉ một lần hình ảnh khớp với prompt thì bị xem là thất bại
Ý tưởng là một dạng phép thử Pictionary: “Đưa cho một người bất kỳ ngoài đường xem, liệu họ có đoán ra prompt không?”
Đánh giá cuối cùng được quyết định thủ công theo tiêu chí rõ ràng
Không thể nhốt giám khảo con người vào một cái hộp rồi bắt họ chấm 7600 kết quả được
Dĩ nhiên chấm bằng LLM cũng không hoàn hảo, nhưng về khả năng so sánh và tính nhất quán thì còn tốt hơn con người
Và nếu chỉ dùng nó như một nhiệt kế hiệu năng chứ không phải mục tiêu tối ưu hóa, thì sẽ không có vấn đề lớn
Còn nếu biến nó thành mục tiêu tối ưu hóa thì có thể sẽ ra kết quả kỳ quặc như GPT-5