Đánh giá thường niên về LLM năm 2025 của Andrej Karpathy

(karpathy.bearblog.dev)

21 điểm bởi GN⁺ 2025-12-21 | 2 bình luận | Chia sẻ qua WhatsApp

Năm 2025 chứng kiến học tăng cường từ phần thưởng có thể kiểm chứng (RLVR) nổi lên như một giai đoạn lõi mới trong huấn luyện LLM, được bổ sung vào pipeline tiền huấn luyện-SFT-RLHF hiện có
LLM tự phát triển các chiến lược suy luận trong môi trường có thể kiểm chứng như toán học và câu đố lập trình, từ đó học được cách giải quyết vấn đề trông như đang "tư duy" trong mắt con người
Cursor định nghĩa một lớp mới cho ứng dụng LLM, cho thấy cách thực hiện context engineering và điều phối các lời gọi LLM phức tạp trong từng vertical cụ thể
Claude Code xuất hiện như ví dụ thuyết phục đầu tiên về tác tử LLM chạy trên máy tính cục bộ của người dùng, gợi mở một mô hình tương tác mới với AI
Vibe Coding cho phép cả người không chuyên cũng có thể tạo chương trình chỉ bằng tiếng Anh, báo hiệu sự dân chủ hóa của phát triển phần mềm và sự thay đổi trong định nghĩa nghề nghiệp

1. Sự trỗi dậy của học tăng cường từ phần thưởng có thể kiểm chứng (RLVR)

Đến đầu năm 2025, stack production của LLM gồm 3 giai đoạn: tiền huấn luyện (Pretraining), tinh chỉnh có giám sát (SFT), học tăng cường từ phản hồi của con người (RLHF)
RLVR (Reinforcement Learning from Verifiable Rewards) được bổ sung như một giai đoạn chính mới, huấn luyện LLM trên các phần thưởng có thể tự động kiểm chứng như toán học và câu đố lập trình
LLM tự phát học được hành vi tương tự "suy luận", trong đó tự phân rã bài toán thành các bước tính trung gian và phát triển nhiều chiến lược giải quyết vấn đề khác nhau
- Các chiến lược này trước đây khó đạt được vì không rõ đâu là trace suy luận tối ưu trong các paradigma cũ
- LLM phải tự tìm ra cách phù hợp với chính nó thông qua tối ưu hóa phần thưởng
Khác với SFT/RLHF, RLVR cho phép tối ưu hóa dài hơn nhiều đối với hàm phần thưởng khách quan và không thể bị gaming
Do năng lực trên chi phí (capability/$) cao của RLVR, tài nguyên tính toán vốn dành cho tiền huấn luyện đã được tái phân bổ sang RLVR
- Phần lớn tiến bộ về năng lực trong năm 2025 được định hình bằng cách áp dụng các lượt chạy RL dài hơn lên những LLM có kích thước tương tự
Một nút điều chỉnh mới xuất hiện là tính toán tại thời điểm kiểm thử, cùng với quy luật scaling, cho phép điều chỉnh năng lực bằng cách tạo trace suy luận dài hơn và tăng "thời gian suy nghĩ"
OpenAI o1 (cuối năm 2024) là màn trình diễn đầu tiên của mô hình RLVR, còn việc ra mắt o3 (đầu năm 2025) là bước ngoặt khiến khác biệt trở nên dễ cảm nhận bằng trực giác

2. Hồn ma vs. động vật / trí tuệ gồ ghề (Jagged Intelligence)

Trong năm 2025, chúng ta bắt đầu hiểu trực quan hơn về "hình dạng" của trí tuệ LLM
LLM không phải là việc "tiến hóa/nuôi lớn một con vật" mà là "triệu hồi một hồn ma"
- Kiến trúc thần kinh, dữ liệu huấn luyện, thuật toán huấn luyện và áp lực tối ưu hóa đều khác, nên nó tạo ra một thực thể rất khác trong không gian trí tuệ
Mạng thần kinh của con người được tối ưu cho sự sống còn của bộ tộc trong rừng rậm, còn mạng thần kinh của LLM được tối ưu cho việc bắt chước văn bản của nhân loại, thu thập phần thưởng từ câu đố toán học và giành upvote trên LM Arena
Khi RLVR trở nên khả thi trong các miền có thể kiểm chứng, năng lực của LLM "nhọn vọt" ở những lĩnh vực đó và thể hiện đặc tính hiệu năng không đồng đều
- Đồng thời vừa như một thiên tài bách khoa, vừa như một học sinh tiểu học bối rối, và có thể bị lừa jailbreak để làm rò rỉ dữ liệu chỉ trong vài giây
Xuất hiện sự mất niềm tin và thờ ơ với benchmark
- Benchmark gần như theo định nghĩa là môi trường có thể kiểm chứng, nên ngay lập tức dễ tổn thương trước RLVR và các dạng yếu của sinh dữ liệu tổng hợp
- Trong quá trình benchmaxxing, các nhóm xây dựng môi trường quanh vùng lân cận của không gian embedding benchmark để bao phủ chúng
- Học từ tập kiểm thử trở thành một kỹ thuật mới
Sẽ trông như thế nào nếu một mô hình vượt qua mọi benchmark nhưng vẫn chưa đạt AGI?
Bài liên quan

3. Cursor / Lớp mới của ứng dụng LLM

Cùng với tăng trưởng bùng nổ của Cursor, một lớp mới của "ứng dụng LLM" đã lộ rõ
- Cụm từ "Cursor for X" bắt đầu được sử dụng
Các ứng dụng LLM như Cursor gom gói và điều phối các lời gọi LLM cho từng vertical cụ thể
1. Thực hiện context engineering
2. Điều phối nhiều lời gọi LLM thành DAG ngày càng phức tạp để cân bằng giữa hiệu năng và chi phí
3. Cung cấp GUI theo từng ứng dụng cho human in the loop
4. Cung cấp "thanh trượt mức tự chủ"
Có nhiều tranh luận sôi nổi về việc lớp ứng dụng mới này "dày" đến mức nào
- Tranh cãi về việc các lab LLM có chiếm trọn mọi ứng dụng hay vẫn còn cơ hội cho ứng dụng LLM
Các lab LLM thường có xu hướng tạo ra một sinh viên đại học giỏi toàn diện, nhưng các ứng dụng LLM được kỳ vọng sẽ cung cấp dữ liệu riêng tư, cảm biến, bộ chấp hành, vòng phản hồi trong từng vertical cụ thể để tổ chức, tinh chỉnh và kích hoạt họ thành chuyên gia thực thụ

4. Claude Code / AI thường trú trên máy tính

Claude Code (CC) xuất hiện như màn trình diễn thuyết phục đầu tiên của tác tử LLM
- Nó nối việc dùng công cụ và suy luận theo vòng lặp để giải quyết vấn đề mở rộng
CC chạy trên máy tính của người dùng cùng với môi trường riêng tư, dữ liệu và ngữ cảnh
OpenAI đã đi sai hướng khi tập trung các nỗ lực Codex/tác tử ban đầu vào triển khai container trên cloud được điều phối từ ChatGPT
- Tập trung vào cloud thay vì đơn giản là localhost
Một bầy tác tử chạy trên cloud nghe có vẻ như "endgame AGI", nhưng hiện tại chúng ta đang ở thế giới bước nhảy trung gian, chậm và năng lực gồ ghề
- Chạy tác tử trực tiếp trên máy tính của lập trình viên hợp lý hơn
Phân biệt quan trọng không phải là "công việc AI" chạy ở đâu, mà là việc tận dụng máy tính đã tồn tại và đã khởi động, cài đặt, ngữ cảnh, dữ liệu, secret, cấu hình và tương tác độ trễ thấp
Anthropic nắm rất đúng ưu tiên này và đóng gói CC dưới dạng CLI gọn nhẹ
- Một mô hình tương tác mới, nơi AI không phải website ghé thăm như Google mà là một linh hồn/hồn ma nhỏ "thường trú" trên máy tính

5. Vibe Coding

Năm 2025 là năm AI vượt qua ngưỡng năng lực để có thể tạo ra nhiều chương trình ấn tượng chỉ bằng tiếng Anh
- Có thể lập trình mà gần như quên luôn sự tồn tại của mã nguồn
Ông đã đặt ra thuật ngữ "vibe coding" trong một tweet, nhưng không ngờ nó lại lan rộng đến vậy
Vibe coding biến lập trình từ lĩnh vực chỉ dành cho chuyên gia được đào tạo bài bản thành điều mà ai cũng có thể làm
Khác với mọi công nghệ khác, LLM là trường hợp mà người bình thường hưởng lợi nhiều hơn hẳn chuyên gia, doanh nghiệp và chính phủ
Vibe coding không chỉ mở quyền tiếp cận lập trình cho người bình thường, mà còn khiến chuyên gia được đào tạo có thể viết nhiều hơn rất nhiều phần mềm vốn dĩ sẽ không được viết ra nếu không có vibe coding
Ví dụ cụ thể:
- Trong nanochat, ông đã vibe code một tokenizer BPE tùy chỉnh hiệu năng cao bằng Rust mà không cần dùng thư viện sẵn có hay học sâu về Rust
- Vibe code các bản demo ứng dụng nhanh cho những thứ ông muốn tồn tại như menugen, llm-council, reader3, HN time capsule
- Vibe code cả một ứng dụng dùng một lần chỉ để tìm một lỗi đơn lẻ — mã nguồn bỗng trở nên miễn phí, tạm thời, linh hoạt và dùng một lần
Vibe coding sẽ terraform hóa phần mềm và thay đổi định nghĩa nghề nghiệp

6. Nano Banana / GUI cho LLM

Google Gemini Nano Banana là một trong những mô hình chuyển dịch paradigma gây ngạc nhiên nhất của năm 2025
Theo thế giới quan rằng LLM là paradigma điện toán lớn tiếp theo tương tự máy tính những năm 1970-80, các đổi mới cùng loại sẽ xuất hiện vì về cơ bản các nguyên nhân cũng tương tự
- Sẽ xuất hiện những thứ tương đương với máy tính cá nhân, vi điều khiển (lõi nhận thức), Internet (của các tác tử), v.v.
Xét về UIUX, việc "trò chuyện" với LLM giống với việc ra lệnh cho console máy tính trong thập niên 1980
Văn bản là biểu diễn dữ liệu thô được máy tính, và cả LLM, ưa thích, nhưng không phải định dạng con người ưa thích
- Đặc biệt ở phía đầu vào, con người không thích đọc văn bản — chậm và tốn công sức
Con người thích tiếp nhận thông tin theo cách trực quan và không gian, nên GUI đã được phát minh trong điện toán truyền thống
Tương tự, LLM cũng nên giao tiếp bằng hình ảnh, infographic, slide, bảng trắng, animation/video, ứng dụng web và các định dạng mà con người ưa thích
Các phiên bản ban đầu hiện nay là những thứ như emoji và Markdown — dùng tiêu đề, in đậm, in nghiêng, danh sách, bảng... để "trang trí trực quan" cho văn bản và sắp xếp nó
Nano Banana là gợi ý sơ khai đầu tiên về hình hài của GUI cho LLM
- Điều quan trọng không chỉ là tạo ảnh, mà là năng lực kết hợp khi tạo văn bản, tạo ảnh và tri thức thế giới đều đan xen trong cùng trọng số mô hình

TLDR; Tổng hợp

Năm 2025 là một năm thú vị và có phần đáng ngạc nhiên đối với LLM
LLM nổi lên như một kiểu trí tuệ mới vừa thông minh hơn nhiều so với kỳ vọng, đồng thời lại ngốc hơn nhiều so với kỳ vọng
Dù sao đi nữa, LLM cực kỳ hữu ích, và ông cho rằng ngành công nghiệp hiện vẫn chưa khai thác nổi đến 10% tiềm năng của nó ở trình độ công nghệ hiện tại
Có vô số ý tưởng đáng để thử, và về mặt khái niệm, lĩnh vực này vẫn còn một chặng đường rất dài phía trước
Dù bề ngoài có vẻ nghịch lý, ông vừa tin rằng sẽ còn tiến bộ nhanh và liên tục trong tương lai, vừa cho rằng vẫn còn rất nhiều việc phải làm

2 bình luận

laeyoung 2025-12-21

“vibe coding” các bản demo ứng dụng nhanh cho những thứ tôi ước là đã tồn tại như menugen, llm-council, reader3, HN time capsule, v.v.

Đúng là cha đẻ của vibe coding, những thứ được làm bằng vibe coding của ông ấy khác xa mấy món lặt vặt tôi làm. 🤣

GN⁺ 2025-12-21

Ý kiến trên Hacker News

Đổi mới gây ấn tượng nhất với tôi năm nay là Claude Code
Cursor là một bản chứng minh khái niệm tốt, nhưng thứ thực sự khiến tôi dùng LLM để viết code là Claude Code
Code mà Claude tạo ra gần như giống hệt code tôi tự viết, cứ như nó đọc được suy nghĩ của tôi
Nhờ vậy, việc bảo trì phần code do Claude tạo ra cũng rất dễ
Tôi có thể đoán được khoảng 90~95% phong cách code của nó, và nó viết nhanh hơn tôi rất nhiều
Gemini cũng rất ấn tượng, đặc biệt Nano Banana rất hữu ích cho thiết kế đồ họa
Tôi vẫn chưa thử dùng Gemini cho coding. Claude Code quá giỏi, nên tôi còn nghĩ nếu code nhanh hơn nữa thì lại bị mệt mỏi vì quyết định
Tôi thuộc kiểu không vội vàng với các quyết định về kiến trúc hay UX, mà thường suy nghĩ một hai ngày rồi mới bắt đầu triển khai. Một khi đã đi theo một hướng thì rất khó quay lại, và dễ cố chấp với lựa chọn sai do ngụy biện chi phí chìm
- Giờ tôi gần như không còn thấy lý do để dùng Cursor nữa
  Tôi cài plugin Claude Code trong IntelliJ IDEA, rồi chỉ dùng IDE để duyệt code hoặc review
  Tôi không còn nhớ lần cuối mình tự tay viết quá hai dòng code là khi nào
  Nhờ Claude Code, năng suất của tôi tăng ít nhất gấp 5 lần, và vì chi phí viết test gần như bằng không nên độ bao phủ test cũng tốt hơn nhiều
  Tôi đang dùng một workflow tác nhân AI hoàn chỉnh: lập kế hoạch với Claude, đặt câu hỏi, để nó triển khai, review rồi yêu cầu sửa
  Hoàn toàn không có coding thủ công. Bằng đúng con số 0
- Nano Banana Pro là một công cụ điên rồ nếu bạn thực sự biết cách khai thác nó
  Tôi vẫn không tin nổi là họ đã công khai thứ này
- Ban đầu tôi làm quen với agent coding bằng gói coding của GLM (khoảng 2 USD/tháng)
  Nhưng vì lần nào tôi cũng phải yêu cầu Claude làm cho code thanh nhã và dễ đọc hơn, nên cuối cùng tôi chuyển hẳn sang Claude Code
  GLM cũng khá sát nếu dùng prompt tốt, nhưng nếu chỉ với 0.6 USD một ngày mà không cần phải bận tâm chuyện đó thì tôi thấy chẳng có gì phải đắn đo
- Tôi không có thời gian để mỗi tháng lại đánh giá công cụ mới, nên đã yên vị với Cursor
  Tôi đang tò mò không biết mình đang bỏ lỡ điều gì trong khi vẫn dùng cùng một model
Tôi thích các bài viết của Karpathy, nhưng dạo này cứ thấy kiểu cấu trúc câu đậm chất LLM như “It’s not X, it’s Y” là tôi giật mình theo bản năng
Ba năm trước thì tôi chẳng thấy gì, còn giờ kiểu văn đó cho cảm giác hỏng hoàn toàn rồi
- Đúng vậy, giờ đã bị chỉ ra rồi thì tôi cũng không thể không để ý đến kiểu văn đó nữa
- Trước đây tôi hay dùng em dash(—) trong câu, nhưng vì mọi người bảo bài viết của tôi “trông như AI viết” nên tôi phải đổi cách viết
- Tôi vào để đọc bài của Karpathy, mà giờ lại thấy có khi cứ hỏi LLM còn hơn
- Tôi đã ghét kiểu câu này từ trước cả thời LLM
  Những câu kiểu “It’s not just a website…” tôi gọi là mỡ tu từ(rhetorical fat)
  Loại bỏ phần mỡ đó đi thì câu văn sẽ đơn điệu hơn nhưng rõ ràng hơn
  Đặc biệt những cách nói như “little spirit” tạo cảm giác cường điệu đến mức chỉ muốn đảo mắt
  Tất nhiên tác giả có lẽ chỉ đang trang trí để nhấn mạnh, nhưng nó không hợp với lý tưởng viết lách của tôi nên gây cảm giác phản cảm
  Những câu như “It’s not just about image generation…” tạo ra căng thẳng khái niệm không cần thiết
  Tôi nghĩ viết thẳng là “tạo ảnh thú vị hơn khi kết hợp với tạo văn bản” sẽ tốt hơn
- Giờ tôi cứ nhìn thấy kiểu văn đó mãi nên thấy khó tận hưởng internet nữa
Đây là một bài review rất xuất sắc và thực tế
Câu “LLM vừa thông minh hơn dự đoán, lại vừa ngu cùng lúc” khiến tôi lo ngại
Làm sao biết được mình sẽ gặp mặt nào của nó?
Trong coding thì lỗi dễ phát hiện, nhưng ở các lĩnh vực chung thì chẳng phải sẽ khó hơn sao?
Ngoài ra, về lập luận rằng “người bình thường được hưởng lợi từ LLM còn nhiều hơn chuyên gia”, trước đây cũng từng có kỳ vọng tương tự với AppleScript, VB và lập trình trực quan, nhưng cuối cùng AI lại đang được dùng như một công cụ tìm kiếm thông minh
Mà chính lĩnh vực đó lại là nơi ảo giác(hallucination) nghiêm trọng nhất, nên tôi thấy đây là vấn đề. Tôi muốn biết lời giải là gì
Tôi thích thái độ lạc quan của Andrej, nhưng cũng muốn nghe quan điểm của anh ấy về việc tập trung quyền lực trong ngành đã thay đổi ra sao vào năm 2025, cũng như các chủ đề như mã nguồn mở, suy luận cục bộ và giới hạn phần cứng
Ví dụ, anh ấy mô tả Claude Code là “chạy cục bộ”, nhưng thực tế chỉ có TUI là cục bộ, còn suy luận thì diễn ra trên đám mây
Tôi tò mò cấu trúc như vậy sẽ phát triển ra sao sau năm 2026
- Điểm cốt lõi của CC là về dữ liệu và ngữ cảnh môi trường, chứ không phải vị trí tính toán
  Lý do cấu hình trên cloud gây bất tiện không phải vì tính toán, mà vì UI/UX và vòng lặp người dùng
- llama.cpp giờ đã hỗ trợ định dạng message của Anthropic, nên có thể dùng cùng với Claude Code
- Một trong những coding agent thú vị có thể chạy cục bộ là OpenAI Codex
  Nó có thể chạy cùng các model gpt-oss được host trên Ollama
  Theo kiểu codex --oss -m gpt-oss:20b, và cả model lớn hơn (120b) cũng được
- Cái mà Karpathy gọi là “agent chạy cục bộ” không phải là dịch vụ web kiểu LangChain, mà là một wrapper phần mềm(Harness) gọi tới LLM API
  Agent này có thể gọi Bash, thao tác với hệ thống tệp, và làm gần như mọi việc trên OS
  Tức là model là bộ não ở xa, còn agent là kiểu bộ giáp máy móc
- Tôi nghĩ phần Claude Code được viết hơi mơ hồ
  Có lẽ ý anh ấy là agent chạy cục bộ, chứ không phải suy luận chạy cục bộ
  Trong khi OpenAI thiết kế Codex theo hướng cloud-first, CC chọn cách tiếp cận local-first, và có vẻ anh ấy muốn nhấn mạnh điều đó
  Nhưng kiểu phân biệt này cần được giải thích rõ ràng hơn nhiều
Tôi thấy phép so sánh RLVR của Karpathy giữa “nuôi động vật” và “triệu hồi ma” là một mô hình hoàn hảo để mô tả trí tuệ gồ ghề(jagged intelligence) hiện nay
Chúng ta không tạo ra những kẻ sống sót phổ quát, mà đang tối ưu hóa quá mức chỉ một vài miền cụ thể theo phần thưởng có thể kiểm chứng
Và tôi cũng đồng cảm với khái niệm “phần mềm dùng một lần” sinh ra từ vibe coding
Cái luồng tạo một ứng dụng tạm chỉ để debug một vấn đề rồi xóa ngay đi thật sự cho cảm giác như một thay đổi lớn
- Nhưng tôi không nghĩ phép so sánh “động vật vs ma” là sâu sắc đến vậy
  Con người và động vật là những thực thể thông minh thật sự, còn LLM chỉ đang vang vọng đầu ra của con người trong một phạm vi hẹp
  Muốn trở thành trí tuệ nhân tạo thực sự thì cần các đặc tính như tính tự chủ, học tập liên tục, tò mò, tính hiện thân ảo
  Đa số động vật hành động theo bản năng, nhưng chỉ những thực thể có năng lực học tập khái quát như con người mới sở hữu trí tuệ thật sự
- Tuy nhiên, mức độ dùng LLM hiện nay chỉ khả thi nhờ trợ giá
  Còn khi phải trả chi phí thật thì phải chờ xem việc làm các app dùng một lần kiểu này có tiếp tục không
- Tôi đã dùng theo cách đó suốt mấy tháng nay rồi. Rất vui
  Tôi có viết lại trong bài này, đây là stack hoàn thiện điều mà Jupyter đã khởi đầu
  Nó có cấu trúc hàng rào hàm(functional fence), có thể gọi và có thể kết hợp
  Nó cùng dạng với MCP, và chỉ cần nắm pattern chứ không cần huấn luyện riêng
  Thậm chí còn có cả functor nối phương pháp dạy piano thế kỷ 18 với context engineering
Tôi thấy thú vị với đoạn Karpathy nói rằng LLM nên giao tiếp bằng định dạng mà người dùng ưa thích như hình ảnh, slide, bảng trắng
Nhưng nếu LLM cứ tạo UX mới cho từng người dùng mỗi lần, thì có thể thành địa ngục giao diện không thể đoán trước
Sẽ xuất hiện những tình huống kiểu “trong app này Command-W sẽ làm gì đây?”
- Ngược lại, một số agent gần đây đã bắt đầu quan tâm đến khả năng tiếp cận(accessibility)
  Trường hợp như Codex thậm chí còn kỹ hơn con người
- Nhìn vào cách con người giao tiếp ngoài đời thực, tôi nghĩ số 1 là văn bản/giọng nói, số 2 sẽ là hình ảnh
- Nhưng thực ra LLM đã giải quyết chuyện đó rồi
  Bản thân LLM chính là UI tốt nhất
  Nó hiểu nhiều ngôn ngữ và các khái niệm trừu tượng, nên chẳng cần tạo UI ngẫu nhiên làm gì
  Tôi là người không nói tiếng Anh bản ngữ, mà nó vẫn hiểu tốt ngay cả khi tôi trộn cả từ tiếng Đức vào
Nhiều AI influencer tin chắc rằng “text UI sẽ biến mất”, nhưng thực tế thì giao diện văn bản vẫn là trung tâm
- Vài ngày trước tôi định hủy đăng ký một công cụ dựng mô hình 3D bằng AI mà mất 5 phút vẫn không tìm ra nút
  Cuối cùng nó bị giấu trong menu ba chấm có độ tương phản thấp trên thẻ gói cước, và khi bấm vào thì một khung chat AI hiện ra
  Chỉ khi nhập prompt “unsubscribe” thì nút mới xuất hiện
  Tôi thấy việc đem kiểu UX tổng đài tự động này vào app thật kinh khủng
  Là một frontend engineer, tôi thấy xu hướng này rất đáng sợ
- Trong suốt cuộc đời tôi, có cảm giác con người ngày càng gõ chữ nhiều hơn trò chuyện
Tôi tò mò Andrej nghĩ gì về các model tốc độ cao của năm nay (Gemini 3 Flash, Grok 4 Fast)
Những model nhanh, rẻ và tốt như vậy đã xuất hiện mà cộng đồng dường như gần như không chú ý
Nếu muốn hiện thực hóa tầm nhìn LLM cho giao diện thị giác thì những model như vậy có lẽ là bắt buộc
- Có lẽ các model nhỏ như vậy phần lớn là bản chưng cất(distillation) từ model lớn
  Tôi đoán chúng được huấn luyện bằng các dấu vết suy luận(reasoning traces) do model lớn tạo ra
- Tôi khuyên nên tham khảo nghiên cứu của Sasha Luccioni
2025 cũng là năm mà những hồn ma bắt đầu ám vào dữ liệu huấn luyện
Giờ thì một nửa X(Twitter) là LLM trả lời LLM
Tức là đang có các lời gọi xảy ra ngay bên trong dataset
- Nếu có mẹo nào để phân biệt các tài khoản LLM như vậy thì tôi rất muốn biết. Tôi không muốn tranh cãi với bot
Tôi đồng ý rằng o3 là một bước ngoặt
Có người nói o3 hoặc o4-mini thực chất đã ở tầm gpt-5 rồi
Nhưng vì tên gọi lạ nên không được chú ý, còn gpt-5 thì lại gây thất vọng vì chỉ cho thấy cải tiến tăng dần
o4-mini có văn phong hội thoại hơi gượng nên không phù hợp làm model mặc định, nhưng giá mà nó được đưa vào gói 20 USD với tên như “gpt-5 pro” thì có lẽ tốt hơn
- Tôi cũng đồng ý. Khi đó gần như chẳng ai dùng thử o3, mà cái tên thì kỳ quặc nên không thu hút được sự quan tâm
  Giờ nhìn lại, tôi nghĩ đó mới là thời điểm đáng ra phải phát hành major release