1 điểm bởi GN⁺ 2025-10-28 | 1 bình luận | Chia sẻ qua WhatsApp
  • Dự án thử nghiệm đánh giá độ chính xác, tính sáng tạo và tính nhất quán bằng cách kiểm thử nhiều mô hình AI tạo ảnh với cùng một prompt
  • Tổng cộng 14 mô hình tham gia, gồm OpenAI 4o, Gemini 2.5 Flash, Imagen 4, Seedream 4, FLUX.1 dev, Midjourney v7, v.v.
  • Tất cả mô hình đều tạo ảnh chỉ từ phần mô tả được cung cấp, không dùng tính năng inpainting hay chỉnh sửa
  • Mỗi bài kiểm tra đều có ngưỡng đạt tối thiểu rõ ràng, và tỷ lệ thành công được tính dựa trên việc có đáp ứng các yếu tố thị giác hay không
  • Kết quả cho thấy khoảng cách hiệu năng giữa các mô hình, đồng thời cho thấy việc hiểu các khái niệm phức tạp hoặc tạo cấu trúc toán học vẫn còn khó

Tổng quan thí nghiệm

  • Đây là thí nghiệm benchmark so sánh nhằm đánh giá năng lực tạo sinh thuần túy của từng mô hình dựa trên các quy tắc nghiêm ngặt
    • Cấm toàn bộ các tính năng như inpainting, remix hay chỉ thị chỉnh sửa tiếp theo
    • Mỗi mô hình chỉ được phép thử vài chục lần cho mỗi prompt
  • Tiêu chí đánh giá tập trung vào việc đáp ứng chính xác các điều kiện thị giác

Kết quả chính của các bài kiểm tra

  • The Prussian Ring Toss
    • Cảnh những người lính Phổ ném vòng vào mũ chóp nhọn của nhau
    • 5 trong 6 mô hình đạt điều kiện, tỷ lệ thành công cao nhất
  • Nine-Pointed Star
    • Nhiệm vụ phải tạo chính xác một ngôi sao có 9 đỉnh
    • Phần lớn mô hình thất bại vì hội tụ về dạng chẵn; chỉ 3 mô hình thành công
  • Spheron
    • Tranh phong cách sơn dầu vẽ Alexander Đại đế chiến đấu khi cưỡi món đồ chơi ‘Hippity Hop’
    • Đánh giá khả năng kết hợp bối cảnh lịch sử với vật thể hiện đại; chỉ 4 mô hình thành công
  • Cubed⁵
    • Cảnh 5 khối lập phương kính trong suốt xếp chồng theo chiều dọc theo thứ tự đỏ–xanh dương–xanh lá–tím–vàng
    • 5 mô hình tái hiện chính xác; tỷ lệ khung hình dọc ảnh hưởng lớn đến chất lượng kết quả
  • Cephalopodic Puppet Show
    • Cảnh mỗi trong 8 xúc tu của một con bạch tuộc đều đeo một con rối tất
    • Bài kiểm tra đòi hỏi hiểu khái niệm; chỉ một nửa đáp ứng điều kiện

Một số trường hợp kiểm tra bổ sung

  • Quantum Entangled Einstein: mô tả bóng đèn ý tưởng liên quan đến Einstein và cơ học lượng tử → 3/6 thành công
  • The Yarrctic Circle: hình ảnh cướp biển Bắc Cực với chân giả làm từ băng → 6/6 đều thành công
  • The Labyrinth: tạo mê cung 2D có lối vào, lối ra và đường đi rõ ràng → 1/6 thành công
  • A Dicey Situation: triển khai xúc xắc 20 mặt (D20) với các mặt chỉ khắc số nguyên tố → 0/6, tất cả đều thất bại

Phân tích và hàm ý

  • So với phong cách thị giác đơn giản, lỗi xuất hiện thường xuyên hơn ở cấu trúc logic và mô tả dựa trên quy tắc
  • Đặc biệt, các prompt có điều kiện chính xác như văn bản, con số, cấu trúc đối xứng, thứ tự màu sắc có tỷ lệ thất bại cao
  • Ngược lại, với các prompt dạng tự sự giàu cảm xúc hoặc đòi hỏi trí tưởng tượng, mô hình cho thấy mức độ nhất quán tương đối cao hơn
  • Nhìn chung, các mô hình GenAI vẫn bộc lộ giới hạn trong hiểu khái niệm phức hợp và khả năng tái hiện cấu trúc

Tóm tắt

  • Thí nghiệm này là một thử nghiệm thú vị để đo lường “năng lực hiểu thật sự” giữa các mô hình text-to-image
  • Ngay cả những mô hình mới nhất như Midjourney và OpenAI 4o cũng thất bại hoàn toàn ở một số cảnh mang tính logic
  • Kết quả cho thấy “hiểu văn bản”“trực quan hóa chính xác ý nghĩa của nó” là hai vấn đề khác nhau
  • Trong tương lai, bài toán cốt lõi của sự phát triển mô hình dường như là cải thiện độ khớp giữa ngữ cảnh ngôn ngữ và cấu trúc thị giác

1 bình luận

 
GN⁺ 2025-10-28
Ý kiến trên Hacker News
  • Khi dùng GPT-4o, điều thực sự gây khó chịu là công ty hành xử như một người phán xử đạo đức và thường xuyên từ chối yêu cầu của người dùng
    Ngay cả những việc hợp pháp cũng bị chặn với lý do “không được phép”, tạo cảm giác như kiểm duyệt kiểu năm 1964 đang bị doanh nghiệp cưỡng ép áp dụng
    GPT-5 thì còn khó chịu hơn khi cứ mở đầu mỗi cuộc trò chuyện bằng những câu nịnh nọt như “Câu hỏi rất hay” hay “Nhận xét rất tuyệt vời”
    • Mọi người đã chỉ trích Altman vì cho phép NSFW trên ChatGPT, nhưng tôi nghĩ đó là hướng đi đúng để nới lỏng kiểm duyệt doanh nghiệp
      Nếu đem dữ liệu sở thích người dùng đi huấn luyện bằng RLHF thì mô hình sẽ có tác dụng phụ là mắc bệnh nịnh hót
      Hiện giờ các LLM lớn đều đang ở tình trạng đó, nhưng tôi vẫn thấy còn đỡ hơn GPT-4o
    • Dùng các mô hình gốc Trung Quốc thì thấy ít hạn chế hơn nhiều, dù tất nhiên vẫn có vài ngoại lệ
    • Tôi chưa từng thấy phần mềm doanh nghiệp nào cho phép NSFW
      ChatGPT là sản phẩm hướng tới khách hàng doanh nghiệp, nên nếu nó có thể tạo ra hình ảnh bạo lực hoặc gợi dục thì các tập đoàn lớn sẽ không bao giờ mua
      Với kinh nghiệm từng làm phụ trách mua phần mềm cho doanh nghiệp Fortune 500, tôi chắc điều đó 100%
  • Tôi thấy lạ vì bài viết không có ngày tháng, nhưng xem Wayback thì xác nhận được trang text-to-image được thêm vào tháng 4, còn trang image editing được thêm vào tháng 9
    Không có ngày tháng nên nhìn qua dễ tưởng như chúng được tạo cùng lúc
    • Có lẽ vì đội SEO đã thuyết phục rằng bài không ghi ngày sẽ được công cụ tìm kiếm ưu tiên hơn
      Mong cho cả hai mặt gối của họ đều nóng
    • Đúng vậy, đây là nội dung khá cũ rồi. Trong AI dạo này thì chỉ sau một tuần là đã lỗi thời
  • Ban đầu tôi thấy thuật ngữ “image editing” hơi khó hiểu
    Thực ra đó là tính năng tạo ảnh mới, nhưng có vẻ được dùng theo nghĩa chỉnh sửa ảnh sẵn có
    Các mô hình đa phương thức như Qwen3-VL-30B-A3B chỉnh sửa ảnh hiện có khá tốt. imagegpt.com cũng ổn, nhưng tôi không biết họ dùng mô hình nào
    • Tôi đã nhận được kiểu phản hồi này vài lần, nên nghĩ rằng cần làm cho thanh điều hướng phía trên nổi bật hơn
      Nhân tiện, Qwen3-VL không phải mô hình tạo hay chỉnh sửa ảnh mà là mô hình suy luận ảnh
      Có lẽ họ đã dùng Qwen-Image-Edit ở backend
    • Ở trang tôi xem thì trông giống như chỉnh sửa ảnh hiện có
      Ví dụ, nếu đưa prompt “thêm tóc cho một người đàn ông hói” thì kết quả trả về là bản đã sửa từ ảnh gốc
      Về mặt kỹ thuật thì đó vẫn là quá trình tạo ảnh mới, nhưng tôi nghĩ nó giống kiểu Save As trong Photoshop
  • Liên kết thực tế là https://genai-showdown.specr.net/image-editing
    • Đúng vậy, đây là liên kết dành cho chỉnh sửa. Cái còn lại là cho text-to-image
  • Tôi đoán các mô hình bên trong sẽ tạo ảnh nhiều lần rồi chỉ hiển thị kết quả tốt nhất
    GPT-4o có temperature thấp nên tính nhất quán cao nhưng độ sáng tạo kém hơn, còn Midjourney dùng temperature cao hơn để tạo ra phông nền và kết cấu phong phú
    Tông sepia của 4o cũng có thể là hậu xử lý
    Trên thực tế, rất có thể đó là một workflow tinh chỉnh ảnh cuối cùng qua nhiều bước
    • Nếu tự chạy mô hình ảnh ở máy local, bạn sẽ thấy phần lớn các mô hình được host không tạo nhiều lần mà chỉ chạy một lần
      Tuy vậy, các mô hình dựa trên LLM thường xuyên dùng prompt rewriting
      Trường hợp của DALL·E 3 được giải thích khá rõ trong bài này
    • Sẽ thú vị hơn nếu họ công khai số lần thử tạo và kết quả cho từng prompt
  • Tôi vừa thấy “Alexander the Great on a Hippity Hop” là bấm upvote ngay
    • Tôi cũng đã quên hẳn món đồ chơi đó rồi, nhưng nhìn cái này lại gợi lên ký ức tuổi thơ
    • Dù vậy tôi vẫn thích ảnh chimera ngựa hơn
  • Nếu muốn thử so sánh các mô hình ảnh thì có thể dùng miễn phí tại BrandImageGen.com
    Tôi đang chờ phản hồi từ người đăng ký
  • Có người hỏi meme “đừng vẽ con voi xanh” ở đâu, rồi phát hiện ra nó đã được đề xuất trong thảo luận GitHub
  • Tôi đã đăng một bài đánh giá so sánh nhiều công cụ tạo ảnh
    Liên kết Generative AI Review
  • Nhờ “Editing Showdown” mà tôi lần đầu biết đến mô hình Seedream
    Tuy vậy, tôi vẫn chưa thật sự hiểu rõ cấu trúc thử nhiều lần rồi để một LLM khác đánh giá. Chẳng phải bản thân cách đó cũng bị giới hạn về độ chính xác sao?
    • Trong FAQ họ có ghi rõ tiêu chí đánh giá
      Theo kiểu PASS/FAIL, nếu không thể tạo ra dù chỉ một lần hình ảnh khớp với prompt thì bị xem là thất bại
      Ý tưởng là một dạng phép thử Pictionary: “Đưa cho một người bất kỳ ngoài đường xem, liệu họ có đoán ra prompt không?”
      Đánh giá cuối cùng được quyết định thủ công theo tiêu chí rõ ràng
    • LLM đánh giá LLM là chuẩn chung của ngành
      Không thể nhốt giám khảo con người vào một cái hộp rồi bắt họ chấm 7600 kết quả được
      Dĩ nhiên chấm bằng LLM cũng không hoàn hảo, nhưng về khả năng so sánh và tính nhất quán thì còn tốt hơn con người
      Và nếu chỉ dùng nó như một nhiệt kế hiệu năng chứ không phải mục tiêu tối ưu hóa, thì sẽ không có vấn đề lớn
      Còn nếu biến nó thành mục tiêu tối ưu hóa thì có thể sẽ ra kết quả kỳ quặc như GPT-5