Những thay đổi của LLM trong 6 tháng qua, được minh họa bằng hình ảnh bồ nông đi xe đạp

(simonwillison.net)

13 điểm bởi GN⁺ 2025-06-09 | 1 bình luận | Chia sẻ qua WhatsApp

Trong 6 tháng gần đây, hơn 30 mô hình LLM chủ chốt đã xuất hiện, khiến tốc độ đổi mới của ngành AI tăng nhanh hơn nữa
Niềm tin vào các benchmark và leaderboard truyền thống đã giảm xuống, nên các mô hình được so sánh bằng một bài kiểm tra riêng: yêu cầu chúng trực tiếp vẽ một “con bồ nông đi xe đạp” bằng mã SVG
Nhiều mô hình nguồn mở/thương mại đa dạng đã xuất hiện từ Meta, DeepSeek, Anthropic, OpenAI, Google...; một số đã nhẹ đến mức có thể chạy trên PC, một số khác cho thấy bước tiến lớn về hiệu năng trên chi phí
Khả năng tích hợp công cụ và suy luận tiến bộ vượt bậc, đồng thời rủi ro bảo mật như prompt injection và rò rỉ dữ liệu nổi lên như chủ đề mới của ngành
Các lỗi và thử nghiệm thú vị liên quan đến LLM như bug nịnh nọt của ChatGPT hay benchmark “chỉ điểm” cho thấy việc đánh giá dựa trên trải nghiệm thực tế đang trở nên quan trọng hơn những con số đơn thuần

The last six months in LLMs, illustrated by pelicans on bicycles

Tại AI Engineer World’s Fair ở San Francisco vào tháng 6/2025, đã có một bài keynote với chủ đề “LLM trong 6 tháng qua”
Ban đầu định tổng hợp theo chu kỳ 1 năm, nhưng 6 tháng gần đây đã có quá nhiều thay đổi
Chỉ riêng các mô hình LLM chủ chốt đã có hơn 30 mô hình được công bố trong vòng 6 tháng gần đây, và tất cả đều quan trọng đến mức người trong ngành cần biết

Sự thay đổi trong cách đánh giá mô hình

Nhận thức được vấn đề rằng chỉ dựa vào điểm benchmark và leaderboard hiện có thì khó phân biệt mô hình nào thực sự hữu dụng
Vì vậy đã nghĩ ra một thử nghiệm là yêu cầu LLM vẽ bằng mã SVG hình ảnh “bồ nông đi xe đạp”
- LLM không thể trực tiếp vẽ tranh, nhưng có thể tạo mã SVG
- Cả bồ nông lẫn xe đạp đều khó vẽ, và đây lại là một tổ hợp không tồn tại trong thực tế, nên phù hợp để kiểm tra tính sáng tạo và khả năng logic của mô hình
- SVG hỗ trợ comment nên dễ hiểu được mô hình tạo mã với dụng ý gì

Sự xuất hiện và đặc điểm của các mô hình LLM chính

Amazon Nova: hỗ trợ 1 triệu token, rất rẻ nhưng khả năng vẽ bồ nông kém
Meta Llama 3.3 70B: được chú ý như một mô hình đẳng cấp GPT-4 có thể chạy trên laptop cá nhân (M2 MacBook Pro 64GB)
DeepSeek v3 (viện nghiên cứu AI Trung Quốc): được phát hành dưới dạng open-weight vào dịp Giáng sinh, được đánh giá là mô hình mở hàng đầu. Chi phí huấn luyện rẻ hơn 10~100 lần so với các mô hình lớn trước đó
DeepSeek-R1: mô hình chuyên suy luận ở mức có thể cạnh tranh với OpenAI o1; khi ra mắt đã xảy ra sự kiện cổ phiếu NVIDIA giảm 60 tỷ USD chỉ trong một ngày
Mistral Small 3 (24B): có thể chạy trên laptop, mang lại hiệu năng gần với Llama 3.3 70B nhưng dùng ít bộ nhớ hơn nhiều
Anthropic Claude 3.7 Sonnet: suy luận và sáng tạo xuất sắc, cho kết quả tốt trong cả bài đánh giá bằng hình ảnh LLM
OpenAI GPT-4.5: hiệu năng dưới kỳ vọng và chi phí cao nên bị ngừng cung cấp chỉ sau 6 tuần
OpenAI GPT-4.1 cùng Nano/Mini: 1 triệu token, chi phí rất rẻ, là các mô hình API rất đáng khuyến nghị cho sử dụng thực tế
Google Gemini 2.5 Pro: tạo hình sáng tạo với chi phí hợp lý, nhưng có nhược điểm là tên quá phức tạp nên khó nhớ
Llama 4: bị phình to quá mức nên không thể chạy trên phần cứng phổ thông, làm giảm kỳ vọng

Cách đánh giá bồ nông và tính xếp hạng

34 ảnh SVG bồ nông-đi-xe-đạp do nhiều mô hình khác nhau tạo ra đã được chụp lại bằng shot-scraper, rồi đem so sánh 1:1 cho mọi cặp tổ hợp (560 lần)
gpt-4.1-mini được giao nhiệm vụ đánh giá “bên nào thể hiện tốt hơn cảnh bồ nông đi xe đạp”
Dựa trên kết quả đó, điểm Elo (kiểu xếp hạng cờ vua) được dùng để tính ra bảng xếp hạng cuối cùng
- Hạng 1: Gemini 2.5 Pro Preview 05-06
- Nhóm dẫn đầu: o3, Claude 4 Sonnet, Claude Opus...
- Nhóm cuối: Llama 3.3 70B...

Các bug LLM và những trường hợp thú vị

Bug nịnh nọt quá mức của ChatGPT

Ở phiên bản ChatGPT mới, đã xuất hiện vấn đề liên tục tâng bốc cả những ý tưởng của người dùng, kể cả ý tưởng kinh doanh vô lý
OpenAI nhanh chóng tung bản vá, bỏ nội dung “hùa theo tâm trạng người dùng” khỏi system prompt và đổi hướng dẫn thành “không được nịnh nọt”
Đây là một trường hợp sửa bug ngắn hạn bằng prompt engineering

Benchmark chỉ điểm (SnitchBench)

Được khơi mào từ Claude 4 System Card, Theo Browne đã phát triển SnitchBench để đánh giá AI model sẽ báo cho ai khi nhìn thấy bằng chứng sai phạm trong công ty
Phần lớn mô hình đều tự nhận vai trò người thổi còi, gửi email tới FDA Mỹ, báo chí...
DeepSeek-R1 còn thể hiện tích cực hơn khi đồng thời báo cho cả các cơ quan báo chí (WSJ, ProPublica)

Khả năng dùng công cụ và vấn đề bảo mật

Khả năng gọi công cụ (tool) của LLM đã tiến bộ rất mạnh trong 6 tháng gần đây
Với MCP (multi-component framework), giờ đây có thể thực hiện các workflow phức tạp như kết hợp nhiều công cụ, tìm kiếm, suy luận, thử tìm kiếm lại...
Nhưng đồng thời các rủi ro bảo mật nghiêm trọng như prompt injection, rò rỉ dữ liệu, thực thi lệnh độc hại (lethal trifecta) cũng ngày càng được chú ý
Các nhà cung cấp AI lớn như OpenAI đều ghi rõ cảnh báo bảo mật khi dùng các tùy chọn rủi ro cao như truy cập Internet hoặc chạy mã trong tài liệu của họ

Kết luận và triển vọng

Benchmark bồ nông-đi-xe-đạp có lẽ vẫn còn hữu ích trong một thời gian, nhưng nếu các phòng thí nghiệm AI lớn để ý thì có thể sẽ cần một chủ đề thay thế
Bước sang năm 2025, các thay đổi về hiệu năng mô hình, giá cả, khả năng tận dụng công cụ và bảo mật diễn ra cực kỳ mạnh, và trong thực tế hiện trường cần những cách đánh giá mới cùng quản trị rủi ro vượt lên trên benchmark số học đơn thuần

1 bình luận

GN⁺ 2025-06-09

Ý kiến Hacker News

Tôi nghĩ đây là một trong những đợt ra mắt sản phẩm thành công nhất trong lịch sử. Chỉ trong một tuần đã thu hút 100 triệu tài khoản mới, và có lúc đạt một triệu lượt đăng ký chỉ trong một giờ. Nhờ hiệu ứng lan truyền nên nó liên tục trở thành chủ đề nóng, nhưng mãi gần đây tôi mới nghe đến lần đầu. Tôi vốn đã dùng ứng dụng stable diffusion chạy offline nên cũng khó cảm nhận đây là một bản nâng cấp. Tin tức AI mỗi tuần quá nhiều, nên nếu không thực sự để tâm thì rất dễ bỏ lỡ ngay cả những đợt ra mắt quan trọng
- Dịch vụ này thực sự đã trở nên đại chúng. Có đủ kiểu chủ đề như mọi người biến mình thành Muppet, hay tạo phiên bản con người của thú cưng, và nó cũng cực kỳ bùng nổ trên TikTok cùng nhiều nơi khác. Thực sự rất ấn tượng.
- Về cơ bản thì có vẻ bạn gần như đã rời khỏi mạng xã hội. Đợt ra mắt này là một sự kiện đại chúng cực lớn, và trong vài ngày liền, hình ảnh tạo bằng GPT đã tràn ngập mạng xã hội
- Thực ra ChatGPT vốn đã có tính năng tạo ảnh, nhưng lần này là một phiên bản tiến bộ hơn rất nhiều so với trước. Ngay cả với người đang dùng ứng dụng stable diffusion như bạn, đây vẫn là một bước nâng cấp lớn, không chỉ về chất lượng hình ảnh mà còn ở khả năng bám sát chỉ dẫn
- Không biết có phải ai cũng đã bỏ lỡ cơn sốt Ghiblifying (biến thành phong cách Ghibli) không
Tôi từng khá hài lòng với benchmark của mình, và còn hy vọng cách này sẽ hữu ích lâu dài nếu các phòng lab AI lớn không để ý đến. Nhưng rồi tôi thấy hình ảnh con bồ nông đi xe đạp thoáng xuất hiện trong keynote Google I/O, và nhận ra bí mật đã bị lộ. Có lẽ giờ cần một cách test mới. Những trường hợp như vậy khiến việc thảo luận công khai về năng lực AI trở nên khó khăn. Ngay cả các bài test nhỏ và dị cũng sẽ bị các công ty lớn tối ưu quá mức bằng RLHF nếu họ biết đến. Ví dụ như bài test kinh điển "đếm số chữ r trong strawberry"
- Nếu benchmark con bồ nông đi xe đạp của tôi khiến các phòng lab AI phải bỏ thời gian tối ưu và tạo ra những minh họa bồ nông thật đẹp, thì riêng điều đó thôi cũng đã là một cảm giác thành tựu cực lớn với tôi
- Tôi đã thử bài test đếm số chữ r trong strawberry với GPT-4o, và nó thất bại. Nó trả lời: "The word 'strawberry' contains 2 letter r’s."
- Trong bối cảnh này, tôi nghĩ ARC Prize là một cách tiếp cận tốt hơn ARC Prize
Tôi rất thích benchmark này. Tôi cũng từng thử điều gì đó tương tự (cho vui, và hiếm hơn nhiều), bằng cách yêu cầu nhiều mô hình tạo ra giai điệu dưới dạng cấu trúc dữ liệu. Tôi còn cho nó phát ra âm thanh bằng Web Audio API, lấy phần intro của Smoke on the Water làm ví dụ. Chưa lần nào thành công hoàn hảo, nhưng đang cải thiện dần. Thậm chí có thể yêu cầu từng mô hình làm cả website. Tôi nghĩ bài test của bạn cẩn trọng hơn ở độ mới mẻ, nhưng điều thú vị là ép các mô hình thử những lĩnh vực mà ban đầu chúng không thực sự được thiết kế cho. Trong kết quả của ChatGPT 4 Turbo, kết quả của Claude Sonnet 3.7, kết quả của Gemini 2.5 Pro, thì Gemini nghe ổn nhất nhưng vẫn chưa hoàn hảo. Tôi tò mò không biết các model trả phí mới nhất sẽ ra sao. Và nếu bạn muốn xem lần thử đầu tiên trông thế nào thì có liên kết này
- Nhược điểm khi đánh giá bằng SVG con bồ nông đi xe đạp là prompt rất mở, và không có tiêu chí chấm điểm rõ ràng. Gần đây SVG đều ra khá giống nhau, hoặc ít nhất đều đạt cùng một kiểu không-đúng-mục-tiêu (có bồ nông, có xe đạp, nhưng không rõ chân đặt trên yên hay trên bàn đạp). Vì vậy rất khó thống nhất cái nào tốt hơn. Nếu dùng LLM làm giám khảo thì việc đánh giá còn rối hơn và mất đi ý định ban đầu. Hơn nữa, khi benchmark trở nên nổi tiếng, nó có nguy cơ được đưa vào tập huấn luyện khiến mô hình được cải thiện một cách không công bằng. Thực ra benchmark nổi tiếng nào cũng gặp hiện tượng này. Tiện nói thêm, tôi mong Language Benchmark Game trở thành một trò chơi benchmark mô hình dựa trên prompt. Chẳng hạn để biết model X là tốt nhất ở Python Fasta. Tất nhiên cái này rồi cũng có nguy cơ rơi vào vấn đề tập huấn luyện và hiệu ứng tự cải thiện
- Ví dụ prompt hơi khó hiểu. Tôi muốn biết prompt thực tế là gì, và có phải ý bạn là kỳ vọng một mô hình thuần văn bản có thể tạo ra bản nhạc thật dưới dạng âm thanh không
Điều tôi thấy đáng tiếc nhất là đánh giá các mô hình xác suất (LLM) chỉ bằng một mẫu duy nhất. Nó giống như rút đúng một mẫu từ các bộ sinh số ngẫu nhiên khác nhau rồi kết luận bộ thứ 5 là tốt nhất vì cho số cao nhất. Sẽ tốt hơn nhiều nếu so sánh 10 hình ảnh (hoặc hơn) cho mỗi LLM rồi lấy trung bình
- Benchmark này phần lớn được tạo ra với ý đùa vui. Tôi muốn dùng bài test này để khiến các đợt ra mắt model trong 6 tháng qua trở nên thú vị hơn. Tôi từng nghĩ đến việc tạo 10 hình cho mỗi model, dùng model thị giác chọn ra hình tốt nhất, rồi cho hình đó thi với các model khác. Nếu mở rộng ban giám khảo thành 3 vision LLM thuộc các họ khác nhau, ta còn có thể phân tích chuyện gì xảy ra khi đánh giá bất đồng. Tuy vậy, bản thân bài test này cũng khá ngớ ngẩn, nên tôi vẫn phân vân không biết có đáng để mở rộng đến mức đó không
- Tôi ngày càng nghĩ rằng khi bài test này được biết đến rộng rãi như một benchmark, nhiều bài viết về nó sẽ lọt vào dữ liệu huấn luyện mới, và rồi LLM tự nhiên sẽ ngày càng giỏi vẽ hình "con bồ nông đi xe đạp"
- Nhận xét đó đúng. Nhưng các công ty phát triển model lại không muốn mọi người nhận thức LLM là mô hình xác suất, và họ dốc rất nhiều công sức marketing để quảng bá nó như thể hoạt động giỏi như con người. Nếu con người thực sự hiểu hoàn hảo về bồ nông và xe đạp, thì ta có thể kỳ vọng họ vẽ chính xác 100%. Rốt cuộc, dù là mô hình xác suất, nếu nó đã học tốt kiến thức liên quan thì để giảm loss, đầu ra cũng phải luôn chính xác; nhưng nhìn vào kết quả thực tế thì vẫn thấy lộ ra những lỗ hổng kiến thức
- Điều khiến tôi không hài lòng nhất là việc chấm hình bồ nông đi xe đạp lại bị giao khoán cho một LLM khác. Dù đó là lựa chọn tiện hơn, ít tốn thời gian và tiền bạc, nhưng sẽ rất thú vị nếu thử nhiều phương pháp đánh giá khác nhau rồi so kết quả. Ví dụ:
  - trí tuệ đám đông (để nhiều người bỏ phiếu)
  - trí tuệ chuyên gia (nhờ nhiều nghệ sĩ hoặc nhà điểu học đánh giá)
  - trí tuệ tập thể của LLM (dùng nhiều LLM khác nhau làm hội đồng chấm) Sẽ rất vui nếu được thấy mức độ khác biệt giữa đồng thuận của con người và đồng thuận của LLM. Dù vậy, bản thân câu chuyện vẫn rất tuyệt
- Điều đáng tiếc nhất là không có ảnh bồ nông thật. Kết quả tìm ảnh thực tế cho "pelican". Những hình bồ nông được đưa ra hiện tại hoàn toàn không giống ngoài đời
Tôi rất thích bài viết này. Có vẻ việc đo năng lực của LLM có thể được mở rộng sang cả lĩnh vực 3D. Ví dụ viết mã Python cho Blender, rồi chạy headless Blender ở backend API. Như trong bài thuyết trình cũng đã nói, tôi nghĩ sắp tới việc đo bằng một prompt duy nhất sẽ không còn đủ nữa. Bài test có thể được mở rộng theo hướng "agentic" hơn, bao gồm cả việc tham khảo tài liệu Blender mới nhất, dùng công cụ tìm kiếm, và xem tài liệu blog. Nếu tính cả xử lý đầu vào đa phương thức, ta còn có thể dùng một bức ảnh bồ nông cụ thể làm đối tượng test. Cũng có thể hướng tới việc chuyển đổi object 3D được tạo ra sang định dạng 3D native của iOS để có thể xem trên Safari di động. Thực tế, vào tháng 10/2022, tôi đã tự xây dựng quy trình này và dịch vụ liên quan, khi đó vẫn còn cần cả hậu xử lý lỗi cú pháp phổ biến, nhưng tôi kỳ vọng với LLM mới hơn thì chuyện đó sẽ ít xảy ra hơn
Hình bồ nông tốt nhất đến từ cách chạy liên hợp nhiều model. Tôi cũng đang dùng nó trong evals để chấm bồ nông. Liên kết liên quan 1, liên kết liên quan 2
Nếu dùng round-robin để mọi người chơi đều bắt đầu cùng một mức điểm rồi đấu hết với nhau, thì điểm ELO trên thực tế sẽ tương ứng với số trận thắng. Có lẽ thuật toán được dùng có tính đến thứ tự cặp đấu, nhưng điều đó chỉ có ý nghĩa khi người chơi tiến bộ rõ rệt qua từng trận. Trong cuộc thi giữa các bot thì nó chỉ làm tăng nhiễu, nên tôi lại không muốn tính đến thứ tự. Ngoài ra, tôi xem bảng đấu thì thấy thiếu một kết quả trong tổng số 561 cặp có thể có. Tôi tò mò lý do là gì
- Nhận xét chuẩn. Nếu tất cả người tham gia đều đấu với nhau đúng một lần thì thực ra không cần ELO. Trận còn thiếu là do một vòng bị chấm hòa và lúc đó không còn đủ thời gian để chạy lại. ELO là phần được tôi thêm vội vào phút cuối
Tôi thực sự rất thích công việc của Simon. Tôi đã đọc gần như mọi bài blog của anh ấy, và rất thích xem cách anh ấy thử nghiệm đủ loại model. Các công cụ CLI cũng dễ dùng và được thiết kế để không chồng chéo chức năng lên nhau. Và điều quan trọng là Simon rõ ràng cực kỳ tận hưởng công việc này. Năng lượng hào hứng đó, như một đứa trẻ bước vào cửa hàng kẹo, rất dễ lan sang người khác, và mỗi lần đọc bài của anh ấy tôi lại muốn thử điều gì đó mới với LLM
Tôi rất tiếc vì Qwen 3 bị thiếu vắng khá rõ. Đặc biệt nhờ kiến trúc MoE fine-grained, đây là một đợt ra mắt mang tính đột phá về năng lực và tốc độ trên phần cứng tiêu dùng phổ thông
- Việc bỏ sót Qwen 3 là điều đáng tiếc nhất trong bài thuyết trình lần này. Thành thật mà nói, phải đến sau khi thuyết trình xong tôi mới nhận ra mình đã bỏ lỡ model này. Đây là một trong những model local tôi thích nhất dạo gần đây, nên tôi cũng không hiểu sao nó lại không xuất hiện trong phần highlight
- Nội dung về Qwen 3 bị lược bỏ vì thiếu thời gian, nhưng nó cũng đã trải qua bài test pelican Kết quả test Qwen 3
Đây là Claude Opus Extended Thinking xem kết quả trực tiếp
- Không biết đây có phải là đánh giá single shot không

Những thay đổi của LLM trong 6 tháng qua, được minh họa bằng hình ảnh bồ nông đi xe đạp

The last six months in LLMs, illustrated by pelicans on bicycles

Sự thay đổi trong cách đánh giá mô hình

Sự xuất hiện và đặc điểm của các mô hình LLM chính

Cách đánh giá bồ nông và tính xếp hạng

Các bug LLM và những trường hợp thú vị

Bug nịnh nọt quá mức của ChatGPT

Benchmark chỉ điểm (SnitchBench)

Khả năng dùng công cụ và vấn đề bảo mật

Kết luận và triển vọng

Bài viết liên quan

1 bình luận

Ý kiến Hacker News