Xem 6 tháng qua của LLM trong 5 phút

(simonwillison.net)

9 điểm bởi GN⁺ 2026-05-20 | 1 bình luận | Chia sẻ qua WhatsApp

Tháng 11 năm 2025 đã trở thành mốc tham chiếu cho những thay đổi gần đây của LLM, với điểm nhấn chính là việc tác nhân lập trình trở nên thực dụng hơn và các mô hình chạy trên laptop bứt phá
Sau Claude Sonnet 4.5, GPT-5.1, Gemini 3 và Claude Opus 4.5 nhanh chóng cạnh tranh quyết liệt, trong đó Opus 4.5 dường như dẫn đầu trong vài tháng
Học tăng cường dựa trên phần thưởng có thể kiểm chứng của OpenAI và Anthropic đã thể hiện qua chất lượng mã được cải thiện trong các harness như Codex và Claude Code
Các thử nghiệm trong mùa nghỉ lễ tạo ra những kết quả thú vị như micro-javascript, nhưng nhu cầu thực tế vẫn hạn chế vì lỗi, tốc độ và độ an toàn
Các mô hình open-weight như Gemma 4, GLM-5.1 và Qwen3.6-35B-A3B tuy vẫn yếu hơn nhóm frontier nhưng đã bắt đầu vượt xa kỳ vọng

Hai xu hướng định hình 6 tháng qua

Bước ngoặt tháng 11 năm 2025 là mốc rất phù hợp để nhìn lại những thay đổi của LLM trong 6 tháng gần đây, đặc biệt là ở lĩnh vực lập trình
Có thể cô đọng thay đổi cốt lõi của 6 tháng qua thành hai điểm
- Tác nhân lập trình đã trở nên đủ tốt để dùng trong công việc hằng ngày thực sự
- Các mô hình có thể chạy trên laptop, dù vẫn yếu hơn các mô hình frontier, đã bắt đầu vượt xa kỳ vọng
Bài so sánh mô hình sử dụng bài kiểm tra tạo SVG con bồ nông đi xe đạp
- Bối cảnh của bài kiểm tra là: bồ nông vốn đã khó vẽ, xe đạp cũng khó vẽ, bồ nông thì không thể đi xe đạp, và khó có khả năng bất kỳ phòng thí nghiệm AI nào đã huấn luyện mô hình riêng cho kiểu nhiệm vụ này

Cuộc đua mô hình frontier trong tháng 11

Vào đầu tháng 11, mô hình được công nhận rộng rãi là “tốt nhất” là Claude Sonnet 4.5, ra mắt ngày 29 tháng 9
Sau đó, vị trí mô hình “tốt nhất” nhanh chóng thay đổi giữa ba nhà cung cấp lớn
Gemini 3 đã vẽ con bồ nông đẹp nhất trong nhóm so sánh này, nhưng không thể dùng riêng bài test bồ nông để đánh giá toàn bộ mô hình
Claude Opus 4.5 dường như là mô hình giữ vị trí dẫn đầu trong vài tháng tiếp theo

Tác nhân lập trình vượt qua rào cản chất lượng

Thay đổi thực sự của tháng 11 nằm ở sự cải thiện chất lượng của tác nhân lập trình
OpenAI và Anthropic đã dành phần lớn năm 2025 cho học tăng cường dựa trên phần thưởng có thể kiểm chứng (Reinforcement Learning from Verifiable Rewards) nhằm nâng cao chất lượng mã do mô hình tạo ra
Sự cải thiện này đặc biệt nổi bật khi kết hợp với các agent harness như Codex và Claude Code
Trong tháng 11, tác nhân lập trình đã chuyển từ mức “thỉnh thoảng hoạt động” sang mức “phần lớn là hoạt động ổn”
Chúng đã đạt tới cấp độ công cụ thường nhật đủ để giao việc thực tế mà người dùng không còn phải dành phần lớn thời gian sửa những lỗi ngớ ngẩn

Thử nghiệm trong mùa nghỉ lễ và sự quá nhiệt

Từ tháng 12 đến tháng 1, nhiều người dùng đã tận dụng kỳ nghỉ để thử nghiệm xem các mô hình mới và tác nhân lập trình có thể làm được gì
Mô hình và tác nhân đã làm được rất nhiều việc, và một số người dùng bắt đầu tạo ra các dự án đầy tham vọng rất nhanh
micro-javascript là một bản triển khai JavaScript được port khá lỏng lẻo từ MicroQuickJS sang Python
Playground trên trình duyệt có cấu trúc trong đó mã JavaScript chạy bằng thư viện micro-javascript, phần mã Python của nó lại chạy trong Pyodide, bên trong WebAssembly, bên trong JavaScript, bên trong trình duyệt
Thành phẩm thì thú vị, nhưng thực tế không ai thật sự cần một bản triển khai JavaScript bằng Python còn dở dang, có lỗi, chậm và không an toàn, và các dự án khác được tạo trong cùng thời gian đó cũng lặng lẽ nghỉ hưu

OpenClaw và cơn sốt trợ lý AI cá nhân

Kho lưu trữ “Warelay”, vốn ít được biết đến khi commit đầu tiên xuất hiện vào cuối tháng 11, sau đó nhanh chóng thu hút chú ý
Sau nhiều lần đổi tên trong khoảng từ tháng 12 đến tháng 1, đến tháng 2 nó nhận được sự quan tâm lớn dưới tên cuối cùng là OpenClaw
OpenClaw là một “trợ lý AI cá nhân”, và cách gọi Claws xuất hiện như một danh từ chung bao gồm cả các dự án như NanoClaw và ZeroClaw
Ở khu vực quanh Silicon Valley, mọi người bắt đầu mua Mac Mini để chạy Claw, khiến Mac Mini rơi vào tình trạng cháy hàng
Drew Breunig ví Claw như một thú cưng số mới, đùa rằng Mac Mini là chiếc bể hoàn hảo dành cho Claw
Một phép so sánh khác cho Claws là Doc Ock do Alfred Molina thủ vai trong bộ phim Spider-Man 2 năm 2004
- Những chiếc vuốt của ông được vận hành bằng AI và vẫn an toàn miễn là con chip ức chế chưa hỏng; nhưng sau khi chip hỏng, chúng trở nên tà ác và kiểm soát luôn ông

Gemini 3.1 Pro và sự mở rộng của bài test bồ nông

Tháng 2 chứng kiến Gemini 3.1 Pro ra mắt, và nó vẽ con bồ nông đi xe đạp cực kỳ tốt
Kết quả còn bao gồm cả một con cá trong giỏ xe
Jeff Dean của Google đã đăng một video bồ nông hoạt hình đi xe đạp
Trong cùng video đó còn có ếch đi xe penny-farthing, hươu cao cổ lái ô tô nhỏ, đà điểu đi giày trượt patin, rùa kickflip trên ván trượt và chó dachshund lái limousine kéo dài
Kết quả này khiến người ta nửa đùa nửa thật nghĩ rằng các phòng thí nghiệm AI có thể cũng đã chú ý đến những nhiệm vụ kỳ quặc như bài test bồ nông

Các mô hình open-weight trong tháng 4

Google đã công bố dòng mô hình Gemma 4
Gemma 4 được đánh giá là mô hình open-weight có năng lực nhất từng thấy từ một công ty Mỹ
Phòng nghiên cứu AI Trung Quốc GLM đã công bố GLM-5.1
- GLM-5.1 là mô hình open-weight dung lượng 1.5TB
- Nếu bạn có đủ phần cứng để chạy nó, đây là một mô hình rất hiệu quả
GLM-5.1 đã vẽ con bồ nông đi xe đạp khá thành thạo, nhưng trong nỗ lực tạo hoạt ảnh thì chiếc xe đạp bị bật lên phía trên và méo dạng
Với bài toán “North Virginia Opossum đi xe scooter điện” do Charles đề xuất trên Bluesky, nó cho ra kết quả mà các mô hình khác không thể tiệm cận
- Câu “Cruising the commonwealth since dusk” xuất hiện trong kết quả
- Thành phẩm cũng được cung cấp dưới dạng hoạt ảnh

Các mô hình chạy trên laptop vượt xa kỳ vọng

Một mô hình open-weight đáng chú ý khác của Trung Quốc trong tháng 4 đến từ Qwen
Qwen3.6-35B-A3B đã vẽ con bồ nông tốt hơn Claude Opus 4.7 ngay trên laptop
Đây là một mô hình open-weight 20.9GB và có thể chạy trên laptop
Kết quả này cũng cho thấy “con bồ nông đi xe đạp” đã vượt quá giới hạn của nó như một benchmark hữu ích
Các mô hình có thể chạy trên laptop vẫn yếu hơn rất nhiều so với các mô hình frontier, nhưng trong 6 tháng gần đây chúng đã bắt đầu tạo ra kết quả vượt xa kỳ vọng

1 bình luận

GN⁺ 2026-05-20

Ý kiến trên Hacker News

Mọi người nói bài test bồ nông đi xe đạp này là một thước đo lố bịch, nhưng hình như nhiều người không nhớ rõ rằng thực ra nó đã được giới thiệu trong báo cáo GPT thời kỳ đầu của Microsoft khoảng 3 năm trước, "Sparks of Artificial General Intelligence: Early experiments with GPT-4" [1]
Sau đó nó lập tức được mạng lưới các tài khoản quảng bá lan truyền, và trở thành thứ mà những người thổi phồng AI dùng mỗi khi “kiểm tra” mô hình
100% marketing, 0% khoa học
[1] https://arxiv.org/pdf/2303.12712
- Bổ sung cho ai tò mò thì có vẻ lần đầu Simon dùng công khai thứ này là ngày 25/10/2024[0]
  Tôi không biết ví dụ nào trong bài báo kiểm tra cụ thể prompt “bồ nông đi xe đạp”[1], nhưng bài GPT có nhiều bài test SVG và tikz, còn hình ảnh thực tế thì khá tùy ý
  Tối ưu cho một hình cụ thể thì không hay, nhưng nếu việc huấn luyện tương đối tử tế thì bồ nông đi xe đạp cũng không nên là thứ quá khó, và nếu xem vài trang ở [0] thì cũng có khá nhiều ví dụ tốt
  [0] https://simonwillison.net/tags/pelican-riding-a-bicycle/?pag...
  [1] Với mức độ nổi tiếng của Simon thì chắc hẳn nó có ở đâu đó
- Từ khi generative AI xuất hiện, bài test không chính thức tôi tự dùng là “bức tranh một ông già đi xe đạp trên sông”
  Vừa thử với model mặc định của ChatGPT (5.5), kết quả là ông già đi chiếc xe đạp cũ, chiếc xe nằm trên một sợi dây lỏng lẻo, sợi dây đó bắc qua sông và phía sau là một ngôi làng thời trung cổ
  Điểm mấu chốt là prompt này có sự nhập nhằng tinh tế. Ở chỗ “ông già băng qua sông như thế nào?”, đa số con người sẽ lập tức hình dung một cây cầu bình thường với con đường bắc ngang sông, và có lẽ sẽ tưởng tượng bối cảnh con sông ở một khu vực đủ phát triển để có cây cầu như vậy
  Vì thế tôi nghĩ các mô hình này đang giỏi hơn trong việc tìm hoặc tạo thứ đại khái thỏa điều kiện, nhưng vẫn còn những chỗ bỏ sót các giả định theo lẽ thường mà con người tự nhiên suy ra
Tôi thắc mắc liệu “điểm bẻ” có phải hiện tượng thật hay chỉ là marketing
Đúng là mô hình có khá hơn phần nào, nhưng ngay cả bây giờ nếu cố vibe coding một trò chơi với các model mới nhất (Codex + gpt5.5, tổ hợp gpt5.3-codex) thì vẫn vật lộn khá nhiều
Chúng chắc chắn có thể dựng bộ khung và làm cho nó chạy được, nhưng còn xa mới thành ứng dụng hoàn chỉnh
- Trước Opus 4.5 thì tôi phải cầm tay chỉ việc rất nhiều và cũng tự code nhiều, còn sau ngày đó thì tôi nhớ rất rõ là gần như không còn tự viết code nữa
  Tôi có từng tự viết vài thứ để học cách máy Enigma hoạt động, nhưng đó là vì mục đích học tập
  Còn về công việc thì coi như tôi ngừng code từ tháng 11
- Nghịch lý là ngay cả khi hiệu dụng biên của năng lực cốt lõi bắt đầu giảm, vẫn có thể xuất hiện nhiều điểm bẻ
  Vì khi vượt qua ngưỡng đủ tốt cho một mục đích cụ thể, chức năng có thể đột ngột mở ra
  Súng bắn đinh ngày xưa nặng, cần dây điện nguồn to và rất đắt
  Khi chúng nhẹ hơn, rẻ hơn và dùng pin, đến một lúc nào đó chúng hòa vào quy trình làm việc của thợ lợp mái một cách tự nhiên và làm tăng mạnh khối lượng việc có thể làm
  Những cải thiện tiếp theo về giới hạn có thể không tạo ra cùng mức “mở khóa” đó nữa, vì ngưỡng đã bị vượt qua rồi
- Gần đây tôi đã dùng kết hợp Codex 5.5 và Claude Code Opus 4.7 để làm “vibe” cả những thứ khá phức tạp
  Điểm mấu chốt là dành khá nhiều thời gian ban đầu cho tài liệu thiết kế tổng thể, rồi chia nó thành các bước cụ thể và có giới hạn
  Tôi đưa tài liệu đó qua lại giữa hai mô hình cho đến khi cả hai đều thấy ổn
  Ở mỗi bước, tôi lập kế hoạch triển khai, và khi xong thì để lại một tài liệu tóm tắt những gì đã giao và những gì đã phát hiện. Nó trở thành đầu vào cho bước kế tiếp
  Tôi kiểm tra tài liệu và công việc thực tế, xem cả test và xem kỹ hơn một số phần. Tôi cũng kiểm tra từng phần xem cấu trúc code có hợp ý không
  Tôi chủ yếu dùng Claude để code, Codex cho thiết kế và review code theo từng bước, và cứ mỗi bước xong lại bảo cả hai kiểm tra độ phủ test
  Theo cách này tôi đã triển khai công cụ và thư viện mà không tự viết một dòng code nào, và thực sự khá hữu ích
  Vì làm việc bất đồng bộ nên trong lúc các model xử lý chậm, tôi có thể làm việc khác
  Tuy vậy tôi không nghĩ nó phổ quát. Nó rất ấn tượng trong các việc dễ test, nơi tôi hiểu rõ mục tiêu cần đạt nhưng chưa chốt chính xác cách làm
- Chúng đưa bạn vượt qua vạch xuất phát, nhưng nếu nhìn vào code thì thấy code trùng lặp, trách nhiệm lẫn lộn, cấu trúc tệ, những file 10 nghìn dòng nuốt token như quái vật
  Tôi đang dùng LLM để cào dữ liệu sự kiện phi cấu trúc trộn cả văn bản lẫn hình ảnh từ web và mạng xã hội, và để có kết quả nhất quán 100% với chi phí hợp lý thì tôi chỉ còn cách chia việc thành những mẩu rất nhỏ để giảm mạnh phạm vi lỗi
  Với các công việc phức tạp vừa phải hiện nay, Codex/Claude hoàn toàn có thể vui vẻ dẫn người dùng vào ngõ cụt đắt đỏ
- Opus 4.5 của tháng 11/2025 thực sự là một điểm bẻ, không mỉa mai gì cả, và theo tôi đó là lý do duy nhất tạo ra cơn sốt hiện tại
  GPT 5.5 cải thiện đáng kể so với GPT 5.4, nhưng tôi sẽ không gọi đó là điểm bẻ
Khi nghe nói “các coding agent đã thực sự tốt hơn nhiều”, tôi vẫn tự hỏi là tốt hơn với ai, ngay cả sau cái gọi là “điểm bẻ” vào đầu tháng 11/2025
Theo những gì tôi quan sát, chúng tốt hơn ở gọi công cụ và trả lời câu hỏi về codebase lớn, đặc biệt là các câu hỏi có mẫu cần tìm khá mơ hồ, và cho mục đích đó thì rất hữu ích
Nhưng ngay cả khi thêm rất nhiều chỉ dẫn và chăm sóc, chuyện sinh code production thì hoàn toàn chưa tới, ít nhất theo kinh nghiệm cá nhân của tôi là còn chưa chạm gần
Chúng ta nên thôi nói chuyện kiểu 1 và 0 trong cơn sốt marketing này. Năng lực của agent nằm trên một phổ liên tục, và phụ thuộc rất nhiều vào độ phức tạp của codebase đang làm
Tôi nghĩ mọi người vẫn đang tìm cách áp dụng tốt hơn các công cụ này vào công việc hằng ngày
Nhưng điều đó va chạm với câu chuyện đang thịnh hành, vốn làm phẳng công việc của chúng ta thành thứ lúc nào cũng giống nhau và dễ tự động hóa, trong khi thực tế không phải vậy
Vì thế tôi nghĩ tranh luận mới bị phân cực đến vậy. Không có trải nghiệm chung
- Sự phân cực đến từ việc trải nghiệm code và chất lượng đầu ra mà những người khác nhau gặp khi dùng công cụ này chênh lệch rất lớn
  Chẳng hạn trải nghiệm của tôi hoàn toàn ngược lại, và tôi đã làm ra thứ có chất lượng rất cao với Claude (https://github.com/kstenerud/yoloai)
  Trong quá trình xử lý bug và các điểm kỳ quặc của những công nghệ đang dùng, agent giúp rất nhiều trong việc phát hiện và lập danh sách để khỏi tiếp tục vấp ở giai đoạn triển khai: https://github.com/kstenerud/yoloai/blob/main/docs/dev/backe...
  Agent vẫn đang tiếp tục tốt lên. Chỉ trong một tháng qua, khả năng dự đoán vấn đề và suy luận đúng các hàm ý khi làm tài liệu nghiên cứu, thiết kế, kiến trúc, kế hoạch đã khá xuất sắc
  Đến giai đoạn coding thì phần lớn chỉ còn là quá trình cơ học, giao cho Sonnet cũng có tỷ lệ lỗi rất nhỏ
- Tôi khá ngạc nhiên khi bạn thấy các model mới nhất vẫn chưa đủ tốt để làm code production dù đã thêm chỉ dẫn và chăm sóc
  Trải nghiệm của tôi là Claude Code, chủ yếu là Opus 4.6, làm việc này rất tuyệt. Ít nhất là với JS, TS, Elixir và Ruby
  Chắc chắn vẫn cần giám sát, và mô hình trong đầu tôi không phải “junior developer” mà gần với bộ xương ngoài hơn. Nhưng cảm giác là một bộ xương ngoài cực kỳ mạnh, dễ dàng tăng tốc 10 lần cho phần lớn công việc
  Đặc biệt là tôi cũng không dùng --dangerously-skip-permissions, cũng không dùng chế độ tự động của Claude Code. Tôi lướt qua từng dòng được viết ra và quản lý rất sát, nên số phiên sinh đồng thời thường không quá 2
  Tôi nghi phần lớn thất vọng xuất hiện khi người ta cố giao phó việc này và tin rằng nó sẽ không đi chệch hướng. Với tôi thì nó chưa giành được mức tin cậy đó, và hiện tại cũng chưa cần phải thế
  Tuy nhiên tôi chủ yếu làm trên các codebase cỡ nhỏ đến trung bình, khoảng 20 nghìn đến 30 nghìn dòng gồm cả test. Tôi tự hỏi liệu đó có phải yếu tố tạo ra trải nghiệm tích cực không
- Cái gọi là tốt trong coding đơn giản là phân bố không đồng đều
  Thực tế là (a) cách mọi người làm việc với AI rất khác nhau, như vô số hòn đảo nhỏ, và (b) điểm nghẽn khác nhau rất nhiều tùy lập trình viên và codebase/công việc
  Ngoài ra tôi nghĩ thời đại chúng ta có thiên kiến ngầm rằng thay đổi = tiến bộ, năng suất
  Nếu nhìn “cuộc cách mạng điện toán mạng” giai đoạn 1990~2000, máy tính đã vào mọi bàn làm việc và túi quần, và cực mạnh với công việc hành chính
  Nhưng kết quả cuối cùng là “thay đổi”. Chúng ta gửi email nhiều hơn rất nhiều so với viết thư, giao tiếp nhiều hơn rất nhiều, thư ký biến mất nhưng bản thân “hành chính” lại tăng lên
  Khoa giảng viên ở đại học thường có nhiều nhân viên hành chính hơn, công ty tuyển nhiều kế toán, nhân sự và quản lý dự án hơn
  Có lẽ ngay từ đầu hành chính chưa từng là điểm nghẽn thật sự
  Code cũng có nhiều điểm như thế. Ai cũng có roadmap và wishlist, nên “năng lực sản xuất code” trông như điểm nghẽn
  Nhưng có thể phần lớn công ty không tạo ra nhiều giá trị hơn chỉ vì làm ra nhiều phần mềm hơn
  Cảm giác của tôi là nhiều công ty tầm trung đang bận làm các việc như chuyển stack hoặc hiện đại hóa. Tôi ít nghe chuyện họ đẩy thêm tính năng rồi tăng giá hay tăng doanh thu
  Phần lớn điểm nghẽn chỉ là thượng nguồn của một điểm nghẽn khác; “con đập” thực sự thì hiếm
- Tôi không biết có điểm bẻ hay không, nhưng rõ ràng trong một năm qua chúng đã hữu ích vượt quá mức autocomplete
  Dự án cá nhân gần đây của tôi là một transpiler chuyển Wasm sang Go, và điều rất ấn tượng là các model mới nhất (tôi dùng Sonnet, Opus, Gemini và chúng thành công hơn GPT rất nhiều) có thể nắm lấy dự án và xử lý qua nhiều tầng khác nhau
  Chúng xử lý cả code Go triển khai transpiler (parse Wasm, dựng AST), code Go được sinh ra khi serialize AST thành file .go, code Go thao tác AST để tối ưu và ảnh hưởng của nó lên code được sinh, code Go ghép thêm vào code sinh ra để triển khai các lệnh cao cấp hơn cùng sự tương tác của nó trong AST, luồng C code được biên dịch thành Wasm rồi dịch sang Go và được gọi từ Go, code Go được C code đó gọi để triển khai thư viện chuẩn C, cho tới cả các file WAT/WAST triển khai test đặc tả Wasm
  Tôi thấy rất ấn tượng vì để nghĩ được hết các tầng này thì chính tôi cũng phải căng não, và nhiều lập trình viên chắc cũng thấy khó
  Và thường thì viết kiểu “tôi muốn sinh ra đoạn code này, vậy hãy tạo AST làm việc đó” dễ hơn nhiều so với đếm ngoặc trong Go code. Dù có chút kinh nghiệm LISP thì bên này vẫn dễ hơn
  Rất hoan nghênh review hay phê bình code. Không phải vibe coding, nhưng tôi nhận rất nhiều hỗ trợ từ generative AI
  https://github.com/ncruces/wasm2go
- Hôm qua nhờ giới hạn gói đăng ký 20 đô phổ thông của Anthropic mà tôi được nghịch cả ngày không đụng trần, rất vui
  Đây là một game trình duyệt nhỏ nên yêu cầu về bảo mật và độ hoàn hảo rất thấp, nhưng yêu cầu về “thực sự làm được thứ này” và “vui” thì cao, nên có thể xem như một dạng code production
  Code được sinh ra có 0 lỗi biên dịch, và ngay cả khi tôi mô tả 10 đầu việc trong một task thì nó vẫn xử lý hết
  Để trở nên hữu ích thì nó không cần phải tốt hơn quá nhiều. Nó đã rất hữu ích cho những người như các nhà nghiên cứu, vốn dù sao cũng phải tự kiểm chứng toán học, nhưng lại không giỏi viết code lọc, biến đổi và chạy dữ liệu test
  Nó cũng đã tốt cho các việc như website nhỏ, dự án vui vẻ, công cụ phụ trợ
  Đồng thời ở hậu trường vẫn đang có thêm compute, thuật toán tốt hơn, thêm reinforcement learning, v.v.
  Có thể chúng ta đã ở mốc 95% của chuyện “AI sẽ lấy việc coding” mà không hề nhận ra, bởi vì 5% còn lại quá quan trọng
Có lẽ lúc này ở đâu đó đang có một nghệ sĩ con người vẽ bồ nông đi xe đạp để rồi bị dùng làm dữ liệu huấn luyện cho phòng thí nghiệm AI lớn
- Các model sinh ảnh hiện đại đều có thể dễ dàng tạo ra bồ nông trên xe đạp
  Điểm cốt lõi của bài test này là sinh ra văn bản SVG biểu diễn hình ảnh, và việc đó phức tạp hơn
  Đúng là có thể chuyển ảnh raster sang SVG để dùng làm dữ liệu huấn luyện, nhưng đó không phải cách dùng thời gian tốt đẹp cho bất kỳ ai
- Chất lượng bồ nông của Gemini đã nhảy vọt quá mạnh chỉ trong một vòng lặp, trong khi các benchmark khác vẫn khá phẳng, nên tôi nghĩ nhận xét đó có thể đúng
  Chỉ là tôi không biết họ nhắm riêng vào bồ nông, hay chỉ nhắm vào SVG nói chung
Sáu tháng qua trông như khoảng thời gian loài người đánh mất quyền kiểm soát đối với LLM
Dù đã có những model mở rất tốt có thể giảm bớt việc phụ thuộc vào AI cục bộ, nhưng lại xảy ra thâu tóm thị trường bộ nhớ, và các công cụ làm rò rỉ sở hữu trí tuệ đã nhanh chóng xâm nhập doanh nghiệp toàn cầu
Lập trình viên đang tạo ra nhiều code hơn mức họ có thể đọc
Agent tự động đang hút cạn nền kinh tế chú ý, giết chết mã nguồn mở, làm hỏng cộng đồng trực tuyến (bao gồm HN), và còn được dùng trong chiến tranh nữa (chỉ thị mục tiêu, tuyên truyền, v.v.)
Các lỗ hổng diện rộng đang bị phát hiện, và các cuộc tấn công chuỗi cung ứng quy mô lớn vẫn nối tiếp
Bất bình đẳng tăng lên, nhận thức bị chia cắt, các chỉ số xanh và hiện thực u ám cùng tồn tại
- Nếu chỉ đọc tin xấu, nhất là loại tin đại chúng đang bán chạy hơn dạo này, thì bạn có thể vẽ ra bức tranh như vậy
  Nhưng cá nhân tôi đã thấy những điều điên rồ đang diễn ra trong biotech. Thật khó tin là chúng ta có thể sống trong tương lai như thế này
  Những liệu pháp thực sự được phát triển bằng AlphaFold đã được thử nghiệm trong các thử nghiệm lâm sàng thật, và thế hệ tiếp theo đi vào lâm sàng trong 3~5 năm tới sẽ còn kinh khủng hơn nữa
  Sau này có lẽ ta sẽ nhìn lại y học hiện tại như cách ngày nay ta nhìn thời trung cổ
- Tôi nghĩ cơn sốt AI chỉ đang phơi bày rõ hơn những vết nứt trong kỹ nghệ phần mềm vốn luôn tồn tại
  Lý tưởng nhất là sau khi đi qua chu kỳ thổi phồng này, chúng ta sẽ học được các thực hành tốt hơn
- Việc phát hiện lỗ hổng trên diện rộng là chuyện tốt
- Metal Gear Solid 2 cho đến năm 2025 vẫn là một tác phẩm kỳ quặc và buồn cười
- “Thâu tóm thị trường bộ nhớ” là gì vậy, khoan đã?
  Còn “các công cụ làm rò rỉ sở hữu trí tuệ xâm nhập nhanh vào doanh nghiệp toàn cầu” thì theo tôi lại nghiêng về phía lợi ích
  Bất cứ thứ gì thuộc nền kinh tế chú ý mà biến mất thì với tôi đều gần như là “vĩnh biệt nhé”
Tôi tò mò sáu tháng qua trông như thế nào từ góc nhìn của người không phải lập trình viên
Những người ở lĩnh vực khác đã trải qua loại công cụ cộng tác hay tối ưu hóa tương tự nào chưa?
- Tôi là giảng viên điều hành chương trình học nghề, và sếp mới của tôi là người đã làm trong ngành khoảng 20 năm, thuộc hàng được kính trọng nhất công ty
  Gần đây ông ấy gia nhập nhóm chúng tôi để giảng dạy và đang tham gia một khóa 2 tuần; ngay ngày đầu đã nhận chỉ thị là để AI viết toàn bộ giáo án, rồi lại đưa giáo án đó vào AI để tạo slide
  Tôi thật sự mong ông ấy sẽ kiên quyết từ chối, vì nếu không thì học viên sẽ chẳng nhận được gì từ kinh nghiệm, tính người hay những điều ông ấy có thể truyền đạt
  Cứ 6 tháng tôi lại được review với tư cách giảng viên, và lần nào cũng nghe cùng một câu: “Làm sao chúng ta có thể dùng AI trong lớp học?”
  Họ thậm chí còn không thấy cần giải thích vì sao việc đó là mong muốn hay cần thiết. Đơn giản chỉ là chạy theo phong trào thuần túy
  Khó tin là đa số đồng nghiệp rất tích cực với AI, nhưng chẳng ai nói họ dùng vào việc gì ngoài chuẩn bị bài dạy. Họ chỉ dùng nó để khỏi phải dành thời gian suy nghĩ hay chuẩn bị, trong khi đó lại là việc duy nhất thực sự quan trọng ở chỗ làm
  Với tôi điều này hoàn toàn vô lý
- Trong toán thuần túy, trước GPT-5.4 thì ứng dụng rất hạn chế
  Những người thông minh có thể moi ra được chút thành quả từ model, nhưng lúc nào cũng đòi hỏi công việc rất nghiêm túc và bài toán cực kỳ phù hợp
  Dĩ nhiên nó giải được bài tập về nhà, nhưng ở vị trí người dạy thì tôi lại thấy đó là điểm trừ
  Sau GPT-5.4 (tháng 3/2026) thì đúng là một bản phát hành “wow”. Nó đột nhiên bắt đầu trả lời được các bài ở tầm MathOverflow mà trước đó làm cả chuyên gia bí
  Nó vẫn còn hallucination, nhưng đủ thông minh để dùng khả năng Python tích hợp nhằm kiểm tra các mệnh đề bằng ví dụ nhỏ khi có thể
  Có vẻ nó mạnh hơn nhiều ở loại toán nhiều công thức so với toán trừu tượng và “triết học”
  GPT-5.5 đã đưa ra một chứng minh kiểu sách giáo khoa cho một bài khó cấp MO, vừa lôi cuốn, khá phi tầm thường và rất giàu tính sư phạm, và tôi đang viết lại nó thành văn bản
  Có thể đó là nhờ may mắn và prompt tốt. Nó không tạo cảm giác là một cú nhảy chất lượng so với 5.4, nhưng cải thiện định lượng thì lúc nào cũng đáng hoan nghênh
  Vẫn cần đúng loại bài toán, nhưng giờ khó mà gạt bỏ ngay từ đầu rằng nó không phù hợp
  Claude và Gemini thì vẫn thuộc nhóm 2, và đến giờ vẫn vậy. Tôi dùng Claude cho các việc kiểu trợ lý, đôi lúc tìm được chứng minh dễ, nhưng thường là vì tôi bỏ sót điều hiển nhiên
  Và GPT, ít hơn một chút là Claude, cũng rất giỏi trong việc tìm lỗi toán học. Tới giờ chắc khoảng 90% prompt của tôi là để hiệu đính bài mình viết
- Tôi làm ở một công ty triển khai AI cho doanh nghiệp
  Nhân viên văn phòng trung bình rất kinh ngạc trước Copilot. Không phải Copilot trong IDE mà là ứng dụng được đóng gói sẵn trong Windows
  Họ chủ yếu copy-paste tài liệu vào ChatGPT/Gemini do công ty cung cấp, rồi lấy mẹo từ Facebook/Instagram kiểu “5 prompt tốt nhất để tăng năng suất công việc”
  Nếu bạn cho họ xem agent tự động hóa công việc ở quy mô lớn, họ gần như xem đó là ma thuật
- Với những người không kỹ thuật quanh tôi, Claude in Office là bước ngoặt
  Giờ slide deck của ai cũng bóng bẩy hơn, và đội tài chính cần ít hỗ trợ BI hơn hẳn. Khá ấn tượng
- Trong kinh doanh, họ dùng công cụ cộng tác để rà soát email và đề xuất cách lưu trữ, quản lý file và thư mục, rồi mỗi ngày lướt intranet để tìm các nội dung thú vị và liên quan
  Còn ở nhà, vợ tôi dạy tiếng mẹ đẻ của cô ấy cho học sinh phổ thông không nói tiếng đó là tiếng mẹ đẻ, và giờ bọn trẻ đều dùng các công cụ này để tạo nội dung luyện tập mới theo đúng kế hoạch bài học ở trường
  Trình độ của bọn trẻ hiện cải thiện nhanh hơn nhiều so với vài tháng trước
Xét việc blog của Simon nổi tiếng đến vậy, giờ thật khó mà chắc rằng không có phòng lab AI nào huấn luyện mô hình cho những bài toán lố bịch như thế
- Ngay trong bài cũng thừa nhận rằng “có lẽ các phòng lab AI cuối cùng đã chú ý”, và rằng “bồ nông đi xe đạp chủ yếu cho thấy nó chắc chắn đã vượt quá giới hạn của một benchmark hữu ích”
- Ở phần sau bài viết, Simon nói rằng với việc Jeff Dean đã nhắc đến bài toán bồ nông đi xe đạp và các model hiện tại làm tốt đến mức nào, thì giờ nó không còn là benchmark tốt nữa
  Giờ là lúc của chuột túi đi xe scooter điện
- Đoạn đó có lẽ hợp với bài thuyết trình hơn. Nó là phần dạo đầu cho một câu đùa ở phía sau
- Về cơ bản nó đã trở thành benchmark rồi. Vài người bạn của tôi đang huấn luyện model cụ thể để đếm số chữ R trong “strawberry”
Đọc thread này, tôi có cảm giác phần lớn tranh cãi về điểm bẻ đến từ việc mọi người đang nói lệch nhau về cái gì đã tốt hơn
Cách tôi hiểu là vào khoảng tháng 11, năng lực của bản thân model không hẳn nhảy vọt, mà bộ khung điều phối xung quanh nó đã ổn định hơn rất nhiều, còn công việc RLVR đầu năm 2025 thì đã huấn luyện model để cư xử tốt bên trong bộ khung đó
Vì vậy khi hai thứ này gặp nhau, xét riêng từng cái thì không quá kịch tính nhưng hiệu ứng tổng hợp lại có thể tạo cảm giác như một thay đổi theo bậc
Đây có lẽ là lý do trải nghiệm trong thread này khác nhau đến vậy. Ai làm theo luồng hỏi model xin code rồi copy-paste thì sẽ thấy cải thiện dần dần, và hoàn toàn có lý khi ngạc nhiên trước mức ồn ào này
Ngược lại, ai đã chạy agent theo vòng lặp 20 bước thì có lẽ cảm nhận thay đổi lớn hơn nhiều. Trước đây vấn đề là thất bại ở bước 12 rồi lan thành đống rác ở bước 20, và đúng phần đó đã được cải thiện mạnh
Điều Simon lướt qua về model local cũng thú vị vì cùng lý do đó. Một model 20GB vẽ ra con bồ nông khá ổn trên laptop tự nó chỉ là một điểm dữ liệu dễ thương
Điều đáng chú ý là một model local có năng lực trong một harness tốt giờ đã tiến gần hơn đến hiệu năng tuyến đầu so với việc chạy model tuyến đầu mà không có harness
Tôi yêu cầu Gemini tạo video “bồ nông đi xe một bánh ở Hyde Park”, và thực sự rất bất ngờ với kết quả
https://gemini.google.com/share/55e250c99693
- Theo mô tả của tác giả bài gốc, lý do dùng bài test này là vì bồ nông khó vẽ, xe đạp cũng khó vẽ, bồ nông thì không thể đi xe đạp, và không có phòng lab AI nào có khả năng huấn luyện model cho một nhiệm vụ lố bịch như vậy
  Đến thời điểm này tôi lại nghĩ: tại sao các phòng lab AI cạnh tranh lại không huấn luyện theo “bài test” giờ đã nổi tiếng này chứ?
- Về mặt đồ họa thì hoàn hảo, nhưng về nội dung thì vô lý
  Trọng tâm của con bồ nông rõ ràng nằm phía sau bánh xe. Nó phải nằm trên bánh hoặc hơi nhích ra trước mới đúng
- Grok cũng làm tôi bất ngờ
  https://grok.com/imagine/post/8d1eab88-737f-4d46-ba92-9b6502...
  Thú vị là ở sinh video, nó thể hiện con bồ nông đạp bàn đạp tốt hơn sinh ảnh
- Google/Gemini có năng lực nghe nhìn khá ấn tượng
  Tôi từng bảo Claude thêm lớp mùn phủ vào một bức ảnh cảnh quan, và nó trông như bị xịt bằng công cụ phun sơn màu cam trong MS Paint
  Nano Banana cho kết quả khá sát thực tế
- Thật sự ấn tượng, và cũng hơi đáng lo cho những người làm sáng tạo trong điện ảnh, hoạt hình và mô hình hóa
Có người nói “tôi đã làm các slide có chú thích cho một lightning talk 5 phút ở PyCon US 2026”, nên tôi tò mò không biết có video hay audio nào của bài nói này không

Xem 6 tháng qua của LLM trong 5 phút

Hai xu hướng định hình 6 tháng qua

Cuộc đua mô hình frontier trong tháng 11

Tác nhân lập trình vượt qua rào cản chất lượng

Thử nghiệm trong mùa nghỉ lễ và sự quá nhiệt

OpenClaw và cơn sốt trợ lý AI cá nhân

Gemini 3.1 Pro và sự mở rộng của bài test bồ nông

Các mô hình open-weight trong tháng 4

Các mô hình chạy trên laptop vượt xa kỳ vọng

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News