6 điểm bởi GN⁺ 6 ngày trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Khi so sánh Qwen3.6-35B-A3BClaude Opus 4.7 trong bài toán tạo ảnh ‘bồ nông đi xe đạp’, Qwen cho ra hình minh họa hoàn thiện hơn
  • Mô hình Qwen là phiên bản mới nhất của Alibaba, chạy cục bộ bằng LM Studio trên MacBook Pro M5 với mô hình lượng tử hóa 20.9GB do Unsloth phát hành
  • Claude Opus 4.7 gặp lỗi thể hiện khung xe đạp, và ngay cả khi dùng tùy chọn thinking_level: max thì chất lượng cũng hầu như không cải thiện
  • ‘Benchmark bồ nông’ ban đầu là một phép thử mang tính châm biếm để so sánh mô hình, nhưng kết quả lần này cho thấy LLM chạy cục bộ có thể vượt qua mô hình thương mại
  • Qwen3.6-35B-A3B là một ví dụ chứng minh năng lực cạnh tranh của các mô hình lớn có thể chạy trong môi trường cục bộ

Thử nghiệm so sánh Qwen3.6-35B-A3B và Claude Opus 4.7

  • Đã tiến hành một thử nghiệm so sánh giữa Qwen3.6-35B-A3BClaude Opus 4.7 để tạo hình ảnh ‘bồ nông đi xe đạp’
    • Mô hình Qwen là phiên bản mới nhất do Alibaba công bố, sử dụng mô hình quantized 20.9GB do Unsloth cung cấp
    • Chạy cục bộ trên MacBook Pro M5 thông qua LM Studioplugin llm-lmstudio
    • Claude Opus 4.7 sử dụng mô hình đám mây mới nhất của Anthropic
  • Kết quả là Qwen3.6-35B-A3B tạo ra hình ảnh bồ nông hoàn thiện hơn
    • Claude Opus 4.7 mắc lỗi thể hiện sai khung xe đạp
    • Đã thử lại bằng cách thêm tùy chọn thinking_level: max, nhưng chất lượng gần như không cải thiện
  • Một số ý kiến đặt nghi vấn rằng các mô hình đã được huấn luyện để khớp với ‘benchmark bồ nông’ này
    • Tác giả phủ nhận điều đó, nhưng để kiểm chứng độ tin cậy của kết quả, đã thực hiện thêm một bài test mới là ‘hồng hạc đi xe một bánh’
    • Qwen3.6-35B-A3B một lần nữa cho kết quả tốt hơn, và phần chú thích “” trong mã SVG được đánh giá là rất ấn tượng

Ý nghĩa và giới hạn của benchmark bồ nông

  • ‘Benchmark bồ nông đi xe đạp’ ban đầu là một bài test mang tính đùa cợt nhằm châm biếm sự phi lý của việc so sánh mô hình
    • Tuy nhiên trên thực tế, vẫn luôn tồn tại một mức độ tương quan nhất định giữa chất lượng hình bồ nông và hiệu năng tổng thể của mô hình
    • Các kết quả đầu tiên vào tháng 10/2024 còn khá thô, nhưng về sau các mô hình dần tạo được minh họa ở mức có thể sử dụng thực tế
  • Trong thử nghiệm lần này, mối tương quan đó đã lần đầu tiên bị phá vỡ
    • Dù mô hình Qwen cho kết quả vượt trội, vẫn khó có thể nói bản lượng tử hóa 21GB mạnh hơn mô hình thương mại mới nhất của Anthropic
    • Tuy vậy, nếu cần tạo ‘SVG bồ nông đi xe đạp’, thì ở thời điểm hiện tại Qwen3.6-35B-A3B có thể chạy cục bộ là lựa chọn tốt hơn
  • Nhìn chung, phép so sánh lần này được xem là một ví dụ cho thấy mức độ tiến bộ của LLM cục bộkhoảng cách đang thu hẹp với các mô hình thương mại lớn
    • Đặc biệt, việc chứng minh khả năng chạy mô hình lớn trong môi trường LM Studio là một điểm rất đáng chú ý

1 bình luận

 
Ý kiến trên Hacker News
  • Khó mà đồng ý với bài kiểm tra dự phòng này. Opus flamingo thể hiện được cả bàn đạp, yên xe, nan hoa lẫn mỏ của một chiếc xe đạp thật theo cách có chức năng. Xét về tính hiện thực thì Qwen lệch hoàn toàn. Việc ai đó lại thích kết quả của Qwen hơn khiến tôi khá ngạc nhiên. Trông giống như Qwen đã quá khớp (overfitting) với dữ liệu pelican hơn

    • Con hồng hạc của Qwen thú vị hơn hẳn về mặt nghệ thuật. Đó là một con hồng hạc một mắt đeo kính râm và nơ đang hút thuốc. Trong khi đó Opus vẽ một con hồng hạc nhàm chán và có gì đó hơi gượng. Bầu trời và mặt đất ở hậu cảnh của Qwen cũng thú vị hơn. Nhưng nếu xét kết quả hợp lý về mặt vật lý thì Opus gần hơn rất nhiều
    • Ít nhất Qwen cũng vẽ được một khung xe đạp hoàn chỉnh. Khung của Opus trông như sắp gãy đôi và có vẻ cũng không thể điều khiển được
    • Qwen có thêm chi tiết ở hậu cảnh, nhưng bản thân con bồ nông lại trông như một con cò mỏ cong và chân thì bị cắt cụt. Với một mô hình chạy cục bộ thì rất ấn tượng, nhưng không phải người chiến thắng
    • Đây là mô hình 3B. Chỉ riêng việc cho ra kết quả sát đến vậy đã là đáng kinh ngạc rồi. Tranh luận về tính nghệ thuật không phải trọng tâm
  • Nếu xét theo hiệu năng lập trình thì Qwen 3.6 35b a3b giải được 11 trong 98 bài của Power Ranking. Qwen 3.5 cùng kích thước giải được 10 bài, Qwen 3.5 27b dense giải được 26 bài, còn Opus giải được 95 bài. Tức là Qwen 3.6 chỉ cải thiện rất nhỏ

    • Benchmark này có vấn đề chồng lấn giữa dữ liệu huấn luyện và dữ liệu benchmark giống như Brokk Power Ranking
    • Tốc độ thì đúng là nhanh hơn hẳn. Trên M1 Max, khi mô tả hình ảnh, Qwen 3.6 35b a3b đạt 34 token/giây, Qwen 3.5 27b đạt 10 token/giây, còn Qwen 3.5 35b a3b không hỗ trợ đầu vào hình ảnh
    • So sánh một mô hình nhỏ để suy luận cục bộ với một mô hình frontier đắt tiền là không công bằng. Nên so với các mô hình cùng tầm giá hoặc các frontier model cỡ nhỏ như Haiku, Flash, GPT Nano
  • Tôi hiểu yếu tố vui nhộn của ‘bài kiểm tra pelican’, nhưng giờ thì tôi không còn biết bài test này chứng minh được điều gì nữa. Nếu muốn xem mô hình thích nghi tốt đến đâu với các tình huống ngoài phân phối, có lẽ nên thử các tổ hợp động vật và hoạt động khác hơn, ví dụ cá voi đi ván trượt

    • Vì vậy tôi đã thử hồng hạc đi xe một bánh. Trong chốc lát tôi từng nghi nhà cung cấp mô hình đã huấn luyện riêng cho pelican, nhưng sau khi xem kết quả với hồng hạc thì tôi chắc là không phải vậy
    • Benchmark càng nổi tiếng thì càng có khả năng được xử lý đặc biệt trong quá trình huấn luyện mô hình. Tôi muốn thử các prompt như “voi lái ô tô” hay “sư tử ngủ trên giường”
    • Nếu đọc bài viết thì sẽ thấy bài test này được nói rõ là được tạo ra với ý đồ hài hước. Nó chỉ đơn giản bám theo xu hướng hiệu năng mô hình một cách lỏng lẻo, và kết quả lần này cho thấy xu hướng đó đã bị phá vỡ
    • Có thể các mô hình đã nhận ra bài test này, nhưng những thứ như “con rùa kickflip trên ván trượt” chắc hẳn không được huấn luyện. Như tweet của Jeff Dean cho thấy, chính thất bại với pelican của Opus 4.7 mới là bằng chứng cho điều đó
    • Trò đùa này đã hết vòng đời rồi. Nhưng giữa sự cường điệu quá mức của ngành AI, vẫn có những người tiếp tục xem nó một cách nghiêm túc. Cứ lặp đi lặp lại cảnh một bức vẽ pelican đẹp được đưa ra làm bằng chứng rằng mô hình đó xuất sắc
  • Hôm nay tôi đã phí thời gian rồi bỏ cuộc khi cố sửa sơ đồ slide bằng Gemini. Nó rất giỏi tạo ra thứ gì đó buồn cười trong một lần, nhưng những chỉnh sửa tinh như “hãy đổi nhẹ chỗ này thôi” thì gần như bất khả thi. Tôi cảm nhận rất rõ khoảng cách giữa đồ chơi và công cụ

  • Trên HN, cứ nói “laptop của tôi” là dường như luôn ám chỉ MacBook hiệu năng cao. Nó mạnh hơn hầu hết máy tính khác

  • Nếu hỏi thẳng Opus rằng “bạn có giỏi tạo hình ảnh không”, nó sẽ trả lời “không”. Ngay từ đầu nó chưa từng được marketing như một mô hình tạo ảnh

    • Gần đây tôi bắt đầu nghi OpenAI đang thao túng bình luận trên HN để lái hướng thảo luận. Tôi liên tục thấy những bình luận chỉ bênh OpenAI ở một số chủ đề nhất định hoặc chỉ trích quá mức các mô hình khác
    • Claude rất giỏi tạo SVG. Tôi hay dùng Claude để làm các icon nhỏ. Nhưng một minh họa SVG kiểu pelican đi xe đạp thì thực tế chẳng hữu ích gì. Vì pelican đâu có đi xe đạp được
  • Ngôn ngữ vốn dĩ chứa rất nhiều ẩn dụ không gian (spatial metaphor). Ví dụ, thay vì nói tiền “tăng”, người ta nói nó “đi lên”. Cấu trúc ẩn dụ như vậy có thể cũng được phản chiếu trong cấu trúc không gian trọng số của mô hình. Vì thế, khi mô hình học các chiến lược phức tạp hơn, những mẫu này có thể ăn sâu hơn nữa. Sau này tôi muốn làm một dự án so sánh hình học kích hoạt giữa các mô hình cũ và mới

  • Opus và Sonnet đang giảm dần hiệu năng ở các tác vụ không phải lập trình kể từ phiên bản 4.1 trở đi

  • Tôi không hiểu những bản demo kiểu này chứng minh được gì. LLM chỉ mạnh ở các tác vụ đã được huấn luyện hoặc tương tự như vậy. Tạo SVG vốn không phải loại tác vụ như thế. Trước đây nó không làm được vì dữ liệu huấn luyện có ít ví dụ, về sau người ta thêm ví dụ để phục vụ quảng bá nên nó mới làm được tàm tạm. Nhưng vẫn không thực dụng. Những cải thiện kiểu này cũng không dẫn đến việc các năng lực khác tốt lên. Giờ đây khi việc tăng kích thước mô hình đã chững lại, trọng tâm là tối ưu hóa cho các tác vụ cụ thể. Nếu có một bộ bài bí mật không nằm trong huấn luyện thì có thể dùng nó để đánh giá khả năng khái quát hóa thật sự, nhưng đây không phải dạng bài test đó

  • Tôi là một con cự đà và phải đưa xe đạp đi rửa ở tiệm rửa xe. Tôi đang phân vân nên đi bộ hay đi xe buýt

    • Có người gợi ý giao xe đạp cho pelican để nó mang đi rửa hộ
    • Cũng có lời khuyên kiểu “xa quá đấy. Hãy đặt $PartnerRideshareCo”