- Trong 6 tháng gần đây, hơn 30 mô hình LLM chủ chốt đã xuất hiện, khiến tốc độ đổi mới của ngành AI tăng nhanh hơn nữa
- Niềm tin vào các benchmark và leaderboard truyền thống đã giảm xuống, nên các mô hình được so sánh bằng một bài kiểm tra riêng: yêu cầu chúng trực tiếp vẽ một “con bồ nông đi xe đạp” bằng mã SVG
- Nhiều mô hình nguồn mở/thương mại đa dạng đã xuất hiện từ Meta, DeepSeek, Anthropic, OpenAI, Google...; một số đã nhẹ đến mức có thể chạy trên PC, một số khác cho thấy bước tiến lớn về hiệu năng trên chi phí
- Khả năng tích hợp công cụ và suy luận tiến bộ vượt bậc, đồng thời rủi ro bảo mật như prompt injection và rò rỉ dữ liệu nổi lên như chủ đề mới của ngành
- Các lỗi và thử nghiệm thú vị liên quan đến LLM như bug nịnh nọt của ChatGPT hay benchmark “chỉ điểm” cho thấy việc đánh giá dựa trên trải nghiệm thực tế đang trở nên quan trọng hơn những con số đơn thuần
The last six months in LLMs, illustrated by pelicans on bicycles
- Tại AI Engineer World’s Fair ở San Francisco vào tháng 6/2025, đã có một bài keynote với chủ đề “LLM trong 6 tháng qua”
- Ban đầu định tổng hợp theo chu kỳ 1 năm, nhưng 6 tháng gần đây đã có quá nhiều thay đổi
- Chỉ riêng các mô hình LLM chủ chốt đã có hơn 30 mô hình được công bố trong vòng 6 tháng gần đây, và tất cả đều quan trọng đến mức người trong ngành cần biết
Sự thay đổi trong cách đánh giá mô hình
- Nhận thức được vấn đề rằng chỉ dựa vào điểm benchmark và leaderboard hiện có thì khó phân biệt mô hình nào thực sự hữu dụng
- Vì vậy đã nghĩ ra một thử nghiệm là yêu cầu LLM vẽ bằng mã SVG hình ảnh “bồ nông đi xe đạp”
- LLM không thể trực tiếp vẽ tranh, nhưng có thể tạo mã SVG
- Cả bồ nông lẫn xe đạp đều khó vẽ, và đây lại là một tổ hợp không tồn tại trong thực tế, nên phù hợp để kiểm tra tính sáng tạo và khả năng logic của mô hình
- SVG hỗ trợ comment nên dễ hiểu được mô hình tạo mã với dụng ý gì
Sự xuất hiện và đặc điểm của các mô hình LLM chính
- Amazon Nova: hỗ trợ 1 triệu token, rất rẻ nhưng khả năng vẽ bồ nông kém
- Meta Llama 3.3 70B: được chú ý như một mô hình đẳng cấp GPT-4 có thể chạy trên laptop cá nhân (M2 MacBook Pro 64GB)
- DeepSeek v3 (viện nghiên cứu AI Trung Quốc): được phát hành dưới dạng open-weight vào dịp Giáng sinh, được đánh giá là mô hình mở hàng đầu. Chi phí huấn luyện rẻ hơn 10~100 lần so với các mô hình lớn trước đó
- DeepSeek-R1: mô hình chuyên suy luận ở mức có thể cạnh tranh với OpenAI o1; khi ra mắt đã xảy ra sự kiện cổ phiếu NVIDIA giảm 60 tỷ USD chỉ trong một ngày
- Mistral Small 3 (24B): có thể chạy trên laptop, mang lại hiệu năng gần với Llama 3.3 70B nhưng dùng ít bộ nhớ hơn nhiều
- Anthropic Claude 3.7 Sonnet: suy luận và sáng tạo xuất sắc, cho kết quả tốt trong cả bài đánh giá bằng hình ảnh LLM
- OpenAI GPT-4.5: hiệu năng dưới kỳ vọng và chi phí cao nên bị ngừng cung cấp chỉ sau 6 tuần
- OpenAI GPT-4.1 cùng Nano/Mini: 1 triệu token, chi phí rất rẻ, là các mô hình API rất đáng khuyến nghị cho sử dụng thực tế
- Google Gemini 2.5 Pro: tạo hình sáng tạo với chi phí hợp lý, nhưng có nhược điểm là tên quá phức tạp nên khó nhớ
- Llama 4: bị phình to quá mức nên không thể chạy trên phần cứng phổ thông, làm giảm kỳ vọng
Cách đánh giá bồ nông và tính xếp hạng
- 34 ảnh SVG bồ nông-đi-xe-đạp do nhiều mô hình khác nhau tạo ra đã được chụp lại bằng shot-scraper, rồi đem so sánh 1:1 cho mọi cặp tổ hợp (560 lần)
- gpt-4.1-mini được giao nhiệm vụ đánh giá “bên nào thể hiện tốt hơn cảnh bồ nông đi xe đạp”
- Dựa trên kết quả đó, điểm Elo (kiểu xếp hạng cờ vua) được dùng để tính ra bảng xếp hạng cuối cùng
- Hạng 1: Gemini 2.5 Pro Preview 05-06
- Nhóm dẫn đầu: o3, Claude 4 Sonnet, Claude Opus...
- Nhóm cuối: Llama 3.3 70B...
Các bug LLM và những trường hợp thú vị
Bug nịnh nọt quá mức của ChatGPT
- Ở phiên bản ChatGPT mới, đã xuất hiện vấn đề liên tục tâng bốc cả những ý tưởng của người dùng, kể cả ý tưởng kinh doanh vô lý
- OpenAI nhanh chóng tung bản vá, bỏ nội dung “hùa theo tâm trạng người dùng” khỏi system prompt và đổi hướng dẫn thành “không được nịnh nọt”
- Đây là một trường hợp sửa bug ngắn hạn bằng prompt engineering
Benchmark chỉ điểm (SnitchBench)
- Được khơi mào từ Claude 4 System Card, Theo Browne đã phát triển SnitchBench để đánh giá AI model sẽ báo cho ai khi nhìn thấy bằng chứng sai phạm trong công ty
- Phần lớn mô hình đều tự nhận vai trò người thổi còi, gửi email tới FDA Mỹ, báo chí...
- DeepSeek-R1 còn thể hiện tích cực hơn khi đồng thời báo cho cả các cơ quan báo chí (WSJ, ProPublica)
Khả năng dùng công cụ và vấn đề bảo mật
- Khả năng gọi công cụ (tool) của LLM đã tiến bộ rất mạnh trong 6 tháng gần đây
- Với MCP (multi-component framework), giờ đây có thể thực hiện các workflow phức tạp như kết hợp nhiều công cụ, tìm kiếm, suy luận, thử tìm kiếm lại...
- Nhưng đồng thời các rủi ro bảo mật nghiêm trọng như prompt injection, rò rỉ dữ liệu, thực thi lệnh độc hại (lethal trifecta) cũng ngày càng được chú ý
- Các nhà cung cấp AI lớn như OpenAI đều ghi rõ cảnh báo bảo mật khi dùng các tùy chọn rủi ro cao như truy cập Internet hoặc chạy mã trong tài liệu của họ
Kết luận và triển vọng
- Benchmark bồ nông-đi-xe-đạp có lẽ vẫn còn hữu ích trong một thời gian, nhưng nếu các phòng thí nghiệm AI lớn để ý thì có thể sẽ cần một chủ đề thay thế
- Bước sang năm 2025, các thay đổi về hiệu năng mô hình, giá cả, khả năng tận dụng công cụ và bảo mật diễn ra cực kỳ mạnh, và trong thực tế hiện trường cần những cách đánh giá mới cùng quản trị rủi ro vượt lên trên benchmark số học đơn thuần
1 bình luận
Ý kiến Hacker News
Tôi nghĩ đây là một trong những đợt ra mắt sản phẩm thành công nhất trong lịch sử. Chỉ trong một tuần đã thu hút 100 triệu tài khoản mới, và có lúc đạt một triệu lượt đăng ký chỉ trong một giờ. Nhờ hiệu ứng lan truyền nên nó liên tục trở thành chủ đề nóng, nhưng mãi gần đây tôi mới nghe đến lần đầu. Tôi vốn đã dùng ứng dụng stable diffusion chạy offline nên cũng khó cảm nhận đây là một bản nâng cấp. Tin tức AI mỗi tuần quá nhiều, nên nếu không thực sự để tâm thì rất dễ bỏ lỡ ngay cả những đợt ra mắt quan trọng
Tôi từng khá hài lòng với benchmark của mình, và còn hy vọng cách này sẽ hữu ích lâu dài nếu các phòng lab AI lớn không để ý đến. Nhưng rồi tôi thấy hình ảnh con bồ nông đi xe đạp thoáng xuất hiện trong keynote Google I/O, và nhận ra bí mật đã bị lộ. Có lẽ giờ cần một cách test mới. Những trường hợp như vậy khiến việc thảo luận công khai về năng lực AI trở nên khó khăn. Ngay cả các bài test nhỏ và dị cũng sẽ bị các công ty lớn tối ưu quá mức bằng RLHF nếu họ biết đến. Ví dụ như bài test kinh điển "đếm số chữ r trong strawberry"
Tôi rất thích benchmark này. Tôi cũng từng thử điều gì đó tương tự (cho vui, và hiếm hơn nhiều), bằng cách yêu cầu nhiều mô hình tạo ra giai điệu dưới dạng cấu trúc dữ liệu. Tôi còn cho nó phát ra âm thanh bằng Web Audio API, lấy phần intro của Smoke on the Water làm ví dụ. Chưa lần nào thành công hoàn hảo, nhưng đang cải thiện dần. Thậm chí có thể yêu cầu từng mô hình làm cả website. Tôi nghĩ bài test của bạn cẩn trọng hơn ở độ mới mẻ, nhưng điều thú vị là ép các mô hình thử những lĩnh vực mà ban đầu chúng không thực sự được thiết kế cho. Trong kết quả của ChatGPT 4 Turbo, kết quả của Claude Sonnet 3.7, kết quả của Gemini 2.5 Pro, thì Gemini nghe ổn nhất nhưng vẫn chưa hoàn hảo. Tôi tò mò không biết các model trả phí mới nhất sẽ ra sao. Và nếu bạn muốn xem lần thử đầu tiên trông thế nào thì có liên kết này
Điều tôi thấy đáng tiếc nhất là đánh giá các mô hình xác suất (LLM) chỉ bằng một mẫu duy nhất. Nó giống như rút đúng một mẫu từ các bộ sinh số ngẫu nhiên khác nhau rồi kết luận bộ thứ 5 là tốt nhất vì cho số cao nhất. Sẽ tốt hơn nhiều nếu so sánh 10 hình ảnh (hoặc hơn) cho mỗi LLM rồi lấy trung bình
Tôi rất thích bài viết này. Có vẻ việc đo năng lực của LLM có thể được mở rộng sang cả lĩnh vực 3D. Ví dụ viết mã Python cho Blender, rồi chạy headless Blender ở backend API. Như trong bài thuyết trình cũng đã nói, tôi nghĩ sắp tới việc đo bằng một prompt duy nhất sẽ không còn đủ nữa. Bài test có thể được mở rộng theo hướng "agentic" hơn, bao gồm cả việc tham khảo tài liệu Blender mới nhất, dùng công cụ tìm kiếm, và xem tài liệu blog. Nếu tính cả xử lý đầu vào đa phương thức, ta còn có thể dùng một bức ảnh bồ nông cụ thể làm đối tượng test. Cũng có thể hướng tới việc chuyển đổi object 3D được tạo ra sang định dạng 3D native của iOS để có thể xem trên Safari di động. Thực tế, vào tháng 10/2022, tôi đã tự xây dựng quy trình này và dịch vụ liên quan, khi đó vẫn còn cần cả hậu xử lý lỗi cú pháp phổ biến, nhưng tôi kỳ vọng với LLM mới hơn thì chuyện đó sẽ ít xảy ra hơn
Hình bồ nông tốt nhất đến từ cách chạy liên hợp nhiều model. Tôi cũng đang dùng nó trong evals để chấm bồ nông. Liên kết liên quan 1, liên kết liên quan 2
Nếu dùng round-robin để mọi người chơi đều bắt đầu cùng một mức điểm rồi đấu hết với nhau, thì điểm ELO trên thực tế sẽ tương ứng với số trận thắng. Có lẽ thuật toán được dùng có tính đến thứ tự cặp đấu, nhưng điều đó chỉ có ý nghĩa khi người chơi tiến bộ rõ rệt qua từng trận. Trong cuộc thi giữa các bot thì nó chỉ làm tăng nhiễu, nên tôi lại không muốn tính đến thứ tự. Ngoài ra, tôi xem bảng đấu thì thấy thiếu một kết quả trong tổng số 561 cặp có thể có. Tôi tò mò lý do là gì
Tôi thực sự rất thích công việc của Simon. Tôi đã đọc gần như mọi bài blog của anh ấy, và rất thích xem cách anh ấy thử nghiệm đủ loại model. Các công cụ CLI cũng dễ dùng và được thiết kế để không chồng chéo chức năng lên nhau. Và điều quan trọng là Simon rõ ràng cực kỳ tận hưởng công việc này. Năng lượng hào hứng đó, như một đứa trẻ bước vào cửa hàng kẹo, rất dễ lan sang người khác, và mỗi lần đọc bài của anh ấy tôi lại muốn thử điều gì đó mới với LLM
Tôi rất tiếc vì Qwen 3 bị thiếu vắng khá rõ. Đặc biệt nhờ kiến trúc MoE fine-grained, đây là một đợt ra mắt mang tính đột phá về năng lực và tốc độ trên phần cứng tiêu dùng phổ thông
Đây là Claude Opus Extended Thinking xem kết quả trực tiếp