GPT-5: Trì hoãn phát hành, bị thổi phồng và không đạt kỳ vọng, và vấn đề nghiêm trọng hơn
(garymarcus.substack.com)- GPT-5 không đáp ứng kỳ vọng như mong đợi, và sau khi công bố thực tế đã làm mức thất vọng của cộng đồng tăng lên đáng kể
- GPT-5 gần như không có sự khác biệt thực chất so với các mô hình trước, và ở một số benchmark còn xác nhận hiệu năng còn tệ hơn
- Nghiên cứu mới nhất cho thấy giới hạn tổng quát hóa và vấn đề dịch chuyển phân phối của các mô hình ngôn ngữ lớn (LLM) vẫn còn nghiêm trọng
- Việc mất vị thế dẫn dắt công nghệ của OpenAI, sự ra đi của nhân sự chủ chốt và các đối thủ bám sát khiến triển vọng duy trì giá trị doanh nghiệp trở nên mơ hồ
- Khi hoài nghi về tuyên bố hiện thực hóa AGI gia tăng, nhận thức về giới hạn của tiếp cận “mở rộng quy mô thuần túy” đang lan rộng trong toàn ngành
Ra mắt GPT-5 và kỳ vọng
- OpenAI cuối cùng đã công bố GPT-5 sau một thời gian dài dự đoán trước đó
- CEO Sam Altman đã tận dụng mạnh mẽ các phát biểu đầy tự tin và hình ảnh marketing trước và sau khi công bố
- Tuy nhiên, sau khi GPT-5 ra mắt, ngoại trừ một số influencer, phần lớn cộng đồng vẫn chủ yếu thể hiện sự thất vọng
- Người dùng thất vọng sâu sắc về mô hình mới, thậm chí xuất hiện cả việc đề xuất khôi phục bản cũ và được thông qua
- Khác với marketing và tuyên bố của Altman, phản hồi sau khi sử dụng thực tế nghiêng rõ ràng về đánh giá tiêu cực
Phản ứng của cộng đồng và truyền thông
- Trên nhiều cộng đồng như OpenAI Reddit, Hacker News, vấn đề của GPT-5 như lỗi, hallucination (ảo giác)... đã được nêu rất tập trung
- Ở các benchmark hiệu năng chính, GPT-5 cũng từng thua kém so với các mô hình đối thủ như Grok 4
- Các tính năng mới như auto-routing (định tuyến tự động) cũng bộc lộ sự lộn xộn và thiếu tinh tế
- Trong bối cảnh kỳ vọng của cộng đồng tăng nhanh, GPT-5 lại để lại nỗi thất vọng lớn
- Trong khảo sát Polymarket ngày phát hành, sự tin tưởng vào vai trò dẫn đầu AI của OpenAI đã giảm từ 75% xuống 14% chỉ trong 1 giờ
Hạn chế cấu trúc: Vấn đề về cờ vua, khả năng thị giác và suy luận
- Vấn đề sai lầm suy luận cơ bản và không tuân thủ quy tắc cờ vua mà tác giả và nhiều chuyên gia đã chỉ ra vẫn vẫn tồn tại
- Trong các lĩnh vực như tạo ảnh, giới hạn rõ ràng bộc lộ ở mối quan hệ phần-toàn bộ, tính nhất quán thị giác, v.v.
- GPT-5 mắc lỗi trong những vấn đề mà cả tiến sĩ cơ khí lẫn người dùng phổ thông cũng không thường mắc phải
- Nhiều trường hợp sai sót cũng được báo cáo ở các nhiệm vụ nền tảng như tóm tắt và đọc hiểu
- GPT-5 là một mô hình cải tiến theo từng bước, nhưng không có đột phá đáng chú ý so với năm ngoái
Tình hình và triển vọng của OpenAI hiện tại
- GPT-5 chỉ dừng ở mức cải tiến dần so với các phiên bản trước, trong khi các điểm yếu nghiêm trọng vẫn lặp lại
- Độ tin cậy vào sự dẫn dắt công nghệ của OpenAI trong thị trường và ngành đang giảm
- Nhiều nhân sự chủ chốt đã rời đi để thành lập đối thủ hoặc chuyển việc, và Anthropic, Google, Elon Musk đang nhanh chóng đuổi kịp
- Áp lực giảm giá, vấn đề lợi nhuận và quan hệ xấu đi với Microsoft làm gia tăng rủi ro cấu trúc
- Nghi ngờ về tính khả thi AGI dựa trên LLM cùng sự giảm niềm tin vào CEO Sam Altman tiếp tục đi sâu
Giới hạn nền tảng của LLM: tổng quát hóa và phân phối chuyển dịch
- Một nghiên cứu mới của Đại học Arizona State xác nhận rằng ngay cả suy luận Chain of Thought cũng sụp đổ khi thoát khỏi phân phối huấn luyện
- Cấu trúc nhạy cảm với dịch chuyển phân phối (distribution shift) mà các hãng khác như Apple đã chỉ ra vẫn được phát hiện tương tự ở các mô hình mới nhất
- Đây là nguyên nhân nền tảng khiến LLM liên tục chạm trần giới hạn định tính, và không thể vượt qua chỉ bằng quy mô tham số lớn
- Chiến lược mở rộng quy mô đã được đầu tư hàng tỷ đô la nhưng cho thấy thất bại trong việc giải quyết vấn đề bản chất
- Nhận thức về nhu cầu tìm kiếm một khung tiếp cận mới đang lan rộng
Toàn ngành AI và giới hạn của ‘mở rộng quy mô’
- Marketing phóng đại về AGI, tự động hóa lái xe, timeline viển vông và... đang tràn lan
- Các benchmark bóp méo hiệu năng, đánh giá kiểu hộp đen và thiếu minh bạch đều rất nghiêm trọng
- Nhiều người bắt đầu nhận ra rằng thuật ngữ AGI là công cụ để làm mê hoặc nhà đầu tư và công chúng
- Cả kỳ vọng lạc quan về AI và sự thúc ép cùng lúc đều gia tăng
- Thực tế cho thấy cách tiếp cận mở rộng quy mô thuần túy đã chạm tới bức tường khiêng
Lựa chọn thay thế và kết luận
- GPT-5 có thể rẻ hơn, nhưng các hạn chế về chất lượng về cờ vua, suy luận, thị giác và toán học vẫn còn
- Grok, Claude, Gemini và các mô hình cạnh tranh khác cũng lặp lại các vấn đề tương tự
- Vấn đề dịch chuyển phân phối (distribution shift) vẫn còn chưa được giải quyết
- Mọi người đưa ra quan điểm rằng giờ đây cần những tiếp cận mới như AI neurosymbolic (neuro-symbolic) và phương thức dựa trên world model
- Xác nhận lại rằng đổi mới thuật toán kết hợp, chứ không phải mở rộng thuần túy, là phần tử bắt buộc để đạt được AGI
Dự báo vấn đề kế tiếp và PS
- Ngoài các hạn chế của LLM được phát hiện trong tuần này, bài viết gợi ý còn sẽ có một vấn đề khoa học nghiêm trọng khác sắp được làm rõ
- Dự kiến sẽ chia sẻ nội dung riêng trong bài đăng tiếp theo
Tóm tắt
- Trước và sau khi ra mắt GPT-5, kỳ vọng và phản ứng của ngành/cộng đồng, giới hạn cấu trúc của LLM, tương lai của OpenAI và thực tế của khung AGI đã được bàn luận rộng rãi
- Toàn bộ nội dung chỉ ra những hàm ý quan trọng cho startup và nhân sự IT về LLM, giới hạn thực chất của GPT-5, chu kỳ đầu tư/kỳ vọng/thất vọng AI, vấn đề đổi mới và xu hướng nghiên cứu
5 bình luận
Có vẻ hơi bi quan quá.
Những điểm lo ngại này thì có thể hiểu được, nhưng tiến trình phát triển công nghệ không thể nào luôn đi lên mãi rồi.
Dù sao thì, tác giả đã đăng bài này lại là Gary Marcus — một người chỉ hay nói những điều vô nghĩa — nên...
Nếu như Google chỉ âm thầm làm kiểu show&prove như vậy thì đã không đến mức này đâu; dạo này cứ ầm ĩ nói đủ thứ: lo sợ, bảo là 'sao chết' gì đó, rồi như thể đã chế tạo ra bom hạt nhân, rồi lại chất đầy đủ thứ hype kiểu đó, nên hóa ra đúng là tự chuốc lấy cho mình.
Và việc đưa ra benchmark trong phần trình bày cũng như một sai lầm thật ngớ ngẩn đã góp phần làm xấu đi ấn tượng chung.
Ý kiến trên Hacker News
Mình vẫn nghĩ GPT-5 thực sự là một chiến lược tiết kiệm chi phí, vì đây là một công ty tăng trưởng muốn giành được 1 tỷ người dùng cho sản phẩm cần GPU.
Không ai nhắc đến GPT-5 Pro cả, nhưng mình đã tự thử và thấy nó vượt trội hơn hẳn Grok 4 Heavy, Opus 4.1.
Đây là công nghệ mới nhất; nếu chạy mô hình ở hiệu năng tối đa thực tế thì có thể tốn tới vài nghìn USD mỗi người mỗi tháng.
Vì vậy nó đang được phát hành ở mức giới hạn; OpenAI đang theo đuổi tăng trưởng để đối đầu Google, chứ không chỉ nhắm vào phân khúc thị trường này.
Vì không hề nhắc tới model Pro nên mình không tin ý kiến này.
Mình không cảm thấy GPT-5 Pro thật sự tốt hơn o3-pro nhiều hơn (cũng có thể không hề); thậm chí nó chậm hơn khá nhiều và chất lượng đầu ra tương đương.
Mình kiểm tra mạng lưới của mình thì không có ai đang dùng GPT-5 Pro.
Mình đồng ý với ý này, nhưng cũng thấy có mục tiêu công bố một mô hình tốt hơn cho đại chúng.
Mình nghe nói model Pro không dùng được qua API, đúng không?
Đồng ý.
Mình thường thấy loại bài như thế này rất dễ gây bực bội.
Thay vì trực tiếp phân tích vì sao bản thân thấy GPT-5 tệ và viết bài nói rõ, người ta chỉ gom phản ứng mạng xã hội rồi phóng đại mọi chỉ trích thành “sốc” hay “công kích mạnh”, nhằm thuyết phục người đọc.
Quá thiên lệch nên không phải báo chí, cũng chẳng phải phân tích gốc.
Dường như bài viết về AI cơ bản thiếu tính tò mò và có xu hướng tập trung vào châm biếm hoặc hạ thấp hơn.
Gary Marcus thường hay phân tích nông.
Gary Marcus luôn, luôn nói AI không hoạt động được trong thực tế; điều anh ấy đúng thường chỉ ở mức tình cờ.
Đây là bài blog về việc GPT-5 có tương xứng với marketing quá đà hay không và đang nhận phản ứng gì.
Mình nghĩ vấn đề thực tế là càng khó tìm được ý kiến thật.
Theo trải nghiệm của mình, “nâng cấp” này là một cú downgrade lớn cho người dùng Plus.
GPT-5 kém chất lượng trả lời so với O3; tần suất suy luận đủ mức cũng ít hơn và không dùng tìm kiếm web như O3.
Dù tự chọn 'thinking' và chỉ thị rõ ràng vẫn không giải quyết được.
Giờ muốn có chất lượng tương đương thì phải dùng Gemini.
Custom GPTs (thông tin liên quan) cũng hỏng, GPT kiểm tra chính tả do mình tự tạo bỏ qua lệnh dù model nào.
Tùy chọn Deep research cũng lạ, chọn vào vẫn trả cùng một kiểu và không đổi khi ra lệnh.
Projects cũng dường như hỏng.
Có vẻ cố tình ép người dùng về plan miễn phí, có vẻ sẽ gắn quảng cáo từ đầu năm sau, hoặc đẩy lên gói $200.
Hallucination (thông tin bịa) rất nghiêm trọng.
Cộng đồng AI cần thêm chuyên gia độc lập kiểu Marcus.
Cần giữ tính trung thực và minh bạch, không bị cuốn theo sự cường điệu của ngành hay sự thay đổi tiêu chí nội bộ (ví dụ “đã đạt AGI nội bộ”, v.v.).
Dù gu của anh ấy thế nào, Marcus có tiền lệ chỉ ra đúng các vấn đề như giới hạn của scaling law, hay thiếu reasoning thực sự của AI kiểu LLM (khả năng tổng quát hóa ngoài phân phối).
Ngành thường ban đầu phủ nhận, rồi lúc sau khi bán thứ gì đó mới (Prompt Chain, LLM dựa trên RL, v.v.) thì lại khoe như là phát hiện riêng của mình.
Mình phản đối mạnh.
Những hạn chế sai lệch của AI phần lớn không nên quy cho Marcus.
Cải tiến lớn nhất cần cho GPT lúc này là nó nói “không biết” khi không biết.
Hôm nay mình muốn tìm cách tạo NPC tự động bằng redscript trong mod của Cyberpunk 2077, rất khó mà tự tìm.
ChatGPT 5 tuy nói là làm “research” nhưng lại bịa API, và dù chỉ ra nhiều lần sai sự thật vẫn cứ lặp hallucination.
Mình mất 30 phút của mình; nếu nó chỉ nói không biết thì chỉ mất 1 phút.
Đừng để bị ảo tưởng rằng ChatGPT “biết”.
Đúng vậy!
Thực ra nó không “biết” gì cả.
Mình đồng ý rằng nhu cầu bức thiết nhất là “nó nói không biết khi không biết”.
Những nỗ lực cải tiến này đang diễn ra thật sự, có nêu trong tài liệu chính thức của OpenAI.
“Sự ám ảnh phải trúng đích” của ông ấy khiến bản thân sự thật bị lu mờ.
Thảo luận về hệ thống symbolic/transformer lai rất thú vị.
Bài được liên kết cho thấy nhờ giao toán cho Python mà Grok 4 thành công ở toán.
Cá nhân mình muốn thấy nhiều hơn hướng symbolic-first, tức toán “hard” làm bằng symbolic, chỉ dùng monad cho phần cần reasoning.
Hệ thống neuro-symbolic của Aloe vượt OpenAI deep research GAIA tới 20 điểm.
GPT-5 xuất hiện một vấn đề riêng, không có ở GPT-4.
“Mọi người chờ kỳ tích, nhưng GPT-5 chỉ là tiến bộ incremental mới.”
Giờ thì không còn dư thừa dữ liệu huấn luyện.
Mọi cải tiến AI từ đây phụ thuộc vào việc biến đổi kiến trúc.
Mọi model mới nhất đều đạt trần cục bộ đối với thông tin mới.
Nghiên cứu trước cho thấy việc kết hợp dữ liệu thật có mục tiêu và chủ yếu dữ liệu tổng hợp là hiệu quả khi huấn luyện frontier LLM.
Mình đã nói câu này ở đây hai năm trước rồi.
Có phải GPT-5 đã học toàn bộ dữ liệu video toàn cầu rồi không?
Dữ liệu huấn luyện mới đâu phải cứ mỗi ngày lại được tạo mới sao?
Ngay cả khi OpenAI làm ra model tốt nhất, việc dán nhãn GPT-5 đã khiến cộng đồng và OpenAI tự gắn hype làm nên thất bại gần như chắc.