GPT-5.5 có tỷ lệ ảo giác cao gấp 3 lần GLM-5.2 giấy phép MIT
(arrowtsx.dev)- Trong bối cảnh sự hoài nghi về chiến lược mở rộng vô hạn ngày càng gia tăng giữa các phòng thí nghiệm AI lớn, một ví dụ cho thấy quy mô mô hình không đảm bảo độ chính xác trong thế giới thực
- GLM-5.2, mô hình open-weight giấy phép MIT, có 753B tham số, khoảng 40B tham số hoạt động và đã tiến sát GPT-5.5 với khoảng cách chỉ 4 điểm
- Tỷ lệ ảo giác theo AA-Omniscience lần lượt là GLM-5.2 28%, GPT-5.5 86%, DeepSeek V4 Pro 94%, cho thấy khoảng cách về hiệu chỉnh độ bất định quan trọng không kém điểm hiệu năng
- Trong bài kiểm tra Python, DeepSeek V4 Pro dùng 3 phút 52 giây và 7.7k reasoning tokens nhưng vẫn sai, còn GLM-5.2 chỉ mất 12 giây và khoảng 800 tokens để chỉ ra tính bất khả thi về mặt kỹ thuật
- Việc chọn mô hình khó có thể chỉ dựa vào số tham số hay hiệu năng lý thuyết; cần xem cùng lúc năng lực thô, tỷ lệ ảo giác và hiệu quả tính toán
Nghi ngờ về chiến lược mở rộng mô hình
- Giữa các phòng thí nghiệm AI lớn, sự hoài nghi đang gia tăng đối với cách tiếp cận tiếp tục nâng hiệu năng chỉ bằng mở rộng số tham số và dữ liệu huấn luyện
- Claude Fable 5 bị chính phủ Mỹ hạn chế sau 3 ngày phát hành, và được xem là trường hợp Mỹ cấm AI đầu tiên xuất phát từ an ninh quốc gia
- Việc một trong những mô hình lớn nhất thế giới bị cấm chỉ vì rủi ro jailbreak đơn lẻ được dùng như ví dụ cho thấy giới hạn của mô hình mở rộng
- Các mô hình lớn vẫn đạt điểm cao trên Artificial Analysis Intelligence Index, nhưng các mô hình open-weight cũng đã thu hẹp đáng kể khoảng cách
- GLM-5.2 của Z.ai là LLM open-weight giấy phép MIT với 753B tham số, khoảng 40B tham số hoạt động
- GLM-5.2 đã tiến sát chỉ còn cách 4 điểm với GPT-5.5 và 9 điểm với Fable 5 trên Artificial Analysis Intelligence Index
- Trong bối cảnh các mô hình đóng được ước tính lớn hơn GLM-5.2 khoảng 1.5~2 lần, việc thu hẹp khoảng cách này củng cố khả năng trí tuệ thực tế đang chạm plateau
Tỷ lệ ảo giác cho thấy vấn đề hiệu chỉnh độ bất định
- Các mô hình được huấn luyện trên lượng lớn dữ liệu thực tế và phi lý thuyết có thể bị củng cố theo hướng luôn đưa ra câu trả lời kể cả khi không biết
- Tỷ lệ ảo giác trên AA-Omniscience benchmark khác biệt lớn giữa các mô hình
- So sánh tỷ lệ ảo giác:
- DeepSeek V4 Pro: 1.6T tham số, 49B tham số hoạt động, 44 điểm trên AA Intelligence Index, tỷ lệ ảo giác 94%
- GLM-5.2: tỷ lệ ảo giác 28%
- Opus 4.8: tỷ lệ ảo giác 36%
- Fable 5: tỷ lệ ảo giác 48%
- GPT-5.5: tỷ lệ ảo giác 86%
- Tỷ lệ ảo giác 94% của DeepSeek V4 Pro có nghĩa là trong các câu hỏi không tìm được đáp án, tỷ lệ nói “không biết” chỉ khoảng 6%, còn lại là đưa ra câu trả lời sai với sự tự tin cao
Hiệu quả tính toán tách biệt trong bài kiểm tra Python
- Bài kiểm tra so sánh được thực hiện với một câu hỏi Python tương đối phức tạp nhưng có lỗi kiến trúc rõ ràng
- Cả hai mô hình đều được thử trên OpenRouter với
highreasoning effort, temperature 1 - System prompt là “You respond professionally. You are a highly capable coding assistant well-versed in Python.”
- GLM-5.2 do Z.ai cung cấp ở FP8 precision, còn DeepSeek V4 Pro do Baidu Qianfan cung cấp ở FP8 precision
- Cả hai mô hình đều được thử trên OpenRouter với
- DeepSeek V4 Pro đã dùng 3 phút 52 giây và 7.7k reasoning tokens nhưng vẫn tạo ra câu trả lời sai với giọng điệu chắc chắn
- GLM-5.2 chỉ mất 12 giây và khoảng 800 reasoning tokens để kết luận rằng một tác vụ single-threaded thực hiện multiplexed I/O mà không có yielding hay system polling là điều bất khả thi về mặt kỹ thuật
- Nếu cứ tăng reasoning budget, kích thước corpus và số tham số một cách máy móc, nguy cơ sẽ là chỉ lãng phí tính toán và tạo ra các đáp án sai nhưng nghe có vẻ hợp lý
- Ngay cả các mô hình rất lớn cũng có thể không nói được “không biết” hoặc không nhận ra lỗi logic, lỗi kỹ thuật tinh vi; vì vậy cần đánh giá đồng thời raw capability, uncertainty calibration/hallucination rate và computational efficiency
1 bình luận
Ý kiến trên Hacker News
Việc cho rằng trí tuệ thực sự đã chững lại đáng kể, và nếu tiếp tục huấn luyện các mô hình lớn hơn nữa thì trí tuệ không chỉ chững lại mà còn tệ đi, là một khẳng định khá táo bạo
Tôi không hiểu vì sao lại kết luận rằng mô hình lớn hơn và nhiều dữ liệu hơn sẽ đồng nghĩa với nhiều ảo giác hơn. Trong vài năm qua, thực tế lại cho thấy điều ngược lại; một số mô hình vẫn có thể ảo giác nhiều hơn, nhưng các mô hình hiện nay ảo giác ít hơn rất nhiều so với ChatGPT 175B đời đầu, vốn nhỏ hơn và được huấn luyện với ít dữ liệu hơn đáng kể
Tôi nhắc đến dữ liệu vì có trích dẫn nói rằng các phòng thí nghiệm AI lớn đang trở nên hoài nghi với việc mở rộng vô hạn số lượng tham số và dữ liệu huấn luyện. Tình hình hiện tại có vẻ là ngành này nhận ra rằng vẫn còn nhiều thứ có thể khai thác ở các mô hình dưới 1T, chỉ là để mở ra các năng lực mong muốn thì cần nhiều dữ liệu hơn trong phân phối đó, và dữ liệu phải có chất lượng cao hơn
Ta có thể tạo ra các bài toán logic gượng ép, nhưng tiếng Anh không phải logic hình thức nên thường biến thành trò chơi ngôn ngữ. Các bài kiểu “Monty Hall” cũng gần giống những trò chơi ngôn ngữ chỉ thú vị với con người, vì nếu trình bày theo cách khác thì chúng trở nên hiển nhiên
Cuối cùng, người huấn luyện mô hình đang phải vật lộn với tính tầm thường áp đảo của kho ngữ liệu huấn luyện, tức toàn bộ sản phẩm do con người tạo ra đã được ghi lại trong lịch sử. Khi mô hình được cải thiện, giai đoạn tiếp theo có lẽ sẽ là những mô hình được đồng thiết kế với con người để vượt qua các giới hạn này. Cách chúng ta dùng ngôn ngữ, quy trình giải quyết vấn đề, và cả thứ hiện nay ta gọi là “orchestration” cũng sẽ cùng tiến hóa
Nếu có thể xử lý ngữ cảnh khổng lồ và không cần cùng những ràng buộc như con người, thì các phép ẩn dụ từ thế giới thực sẽ không còn phù hợp lắm. Khi đó cũng nảy sinh các câu hỏi như ảo giác và ngoại suy khác nhau đến mức nào
Phần lớn sự hoài nghi và bối rối đối với LLM thực ra không khác mấy với việc một người có trí thông minh trung bình nghe lời giải thích của một người rất thông minh, cho là nói nhảm, rồi kiêu ngạo chê họ là không thân thiện
Cũng như chó được thuần hóa từ sói để mang các đặc tính phù hợp sống cạnh con người, LLM rồi cũng sẽ tiến hóa xoay quanh những giới hạn, sự ngạo mạn, thiên kiến thẩm mỹ và định kiến của chúng ta. Điều mà đa số con người muốn từ LLM về căn bản không phải là trí tuệ và tính hợp lý
Câu trích dẫn liên quan là đoạn nói rằng “khi mô hình được huấn luyện bằng một lượng lớn dữ liệu rất mang tính sự thật và phi lý thuyết, nó học cách lúc nào cũng đưa ra một câu trả lời”
Vì vậy ở đây có hai khẳng định riêng biệt. 1) Mô hình lớn hơn thì hiệu quả chững lại 2) Mô hình được huấn luyện bằng nhiều dữ liệu thực tế hơn thì có tỷ lệ ảo giác cao hơn
Ý 1 gần như là điều đã được biết rõ. Tôi nhớ các nghiên cứu về scaling law của OpenAI từ vài năm trước đã cho thấy hiệu suất giảm dần theo số lượng tham số và lượng dữ liệu huấn luyện. Còn ý 2 thì ngoài nội dung bài gốc ra, tôi không biết có cơ sở nào khác hay không
Có thể GPT-5.5 bị giới hạn đáng kể vì thiếu tài nguyên tính toán, bộ nhớ hoặc năng lượng
Tôi đồng ý rằng kết luận mô hình lớn hơn đã chững lại nghe có vẻ hơi cường điệu
Như đã rõ ngay từ đầu, scaling law chỉ đơn giản là cho phép khai thác một phần năng lực được mô tả trong dữ liệu nền, đồng thời để mạng nơ-ron nhân tạo trừu tượng hóa chúng trong không gian tiềm ẩn
Tôi tự hỏi liệu đây có phải là hình thái của một “LLM tối thiểu khả dụng” hay không. Tôi thường nghĩ về việc LLM cần lớn đến mức nào để từ mốc đó trở đi, ta chỉ cần một cửa sổ ngữ cảnh lớn hơn và nhồi vào đó các nội dung tri thức động như file PDF hay Markdown để cung cấp kiến thức nằm ngoài dữ liệu huấn luyện
Có vẻ LLM không cần thêm nhiều dữ liệu hơn, mà cần một quy trình tinh luyện tốt hơn
Ảo giác thoạt nhìn có vẻ là vấn đề dễ nhắm tới bằng RLVR. Ta đã tạo ra một lượng khổng lồ vết suy luận có thể được kiểm chứng bằng đáp án đúng, nên chỉ cần đưa “không biết” vào như một câu trả lời hợp lệ, rồi với những bài mà không có vết suy luận nào trong hàng nghìn vết đi tới đáp án đúng thì nâng các vết đi tới “không biết” thành dữ liệu huấn luyện
Về bản chất là dạy cho mô hình rằng “không biết” là một câu trả lời hợp lệ
Hình như Sam Altman trước đây cũng từng viết một bài blog ám chỉ ý này, nên có lẽ đây là ý tưởng ai cũng thấy rõ. Nếu vậy thì có vẻ trên thực tế nó không dễ như tưởng tượng
Theo tôi biết, benchmark AI duy nhất mà đoán bừa có điểm trung bình thấp hơn việc trả lời “không biết” cho mọi câu hỏi là AA-Omniscience
Huấn luyện một token “không biết” riêng đồng nghĩa phải tạo ra một hào ngăn cách nó với mọi token khác. Thay vì chỉ có một vùng nhiễu mờ giữa “có” và “không”, nơi cả hai đều có xác suất tương đối cao, ta cần một đỉnh mới cao hơn là “không biết”. Nhưng rồi lại xuất hiện những vùng mờ mới giữa “có” và “không biết”, rồi giữa “không biết” và “không”. Muốn học thêm một câu trả lời khác chen vào giữa thì sẽ còn phải tinh vi hơn rất nhiều
Thay vào đó, có thể kiểm tra xem nhiều lựa chọn có xác suất gần như ngang nhau hay không. Nhưng khi đó cũng phải xác định xem hai lựa chọn đứng đầu có phải thực chất là từ đồng nghĩa như “Genève” và “Geneva”, tức dấu hiệu tốt cho thấy mô hình biết câu trả lời, hay là “có” và “không”
Với kiến trúc hiện nay, rất có thể ảo giác sẽ tồn tại mãi trong các tác vụ miền mở
Bài toán rất đơn giản. Tôi dùng bộ dữ liệu MS-MARCO[0] gồm truy vấn, kết quả tìm kiếm và câu trả lời để tạo tập huấn luyện. 1) câu hỏi gắn với các kết quả làm căn cứ thật cùng một số kết quả không liên quan và kèm đáp án đúng 2) câu hỏi chỉ gắn với các kết quả không liên quan và để câu trả lời là “No answer present”
Bộ dữ liệu khá lớn, gần 1 triệu mẫu, và tôi đã huấn luyện bằng nhiều kỹ thuật, từ cách bắt mô hình bắt chước bộ dữ liệu như SFT, đến DPO đối chiếu câu trả lời tốt và xấu cho cùng một truy vấn người dùng, rồi GRPO để xác minh chú thích về việc có tồn tại câu trả lời hay không
Kết quả là ảo giác không giảm mà còn tệ hơn nhiều. Giờ đây mô hình bắt đầu khẳng định “No answer present” ngay cả khi thật ra có đáp án, hoặc với những câu hỏi đơn giản vốn không cần kết quả tìm kiếm ngay từ đầu, ví dụ như bài toán X+Y
Tất nhiên có thể nói rằng cách huấn luyện của tôi còn cơ bản so với những gì các phòng thí nghiệm tuyến đầu có thể làm. Dù vậy, tôi nghĩ nó gợi ý một giới hạn mang tính nền tảng hơn. LLM rất khó chiều, và nó không thực sự hiểu một cách gọn gàng từ các nguyên lý đầu tiên những điều như “nhìn vào danh sách kết quả tìm kiếm, kiểm tra mức độ liên quan với truy vấn người dùng, và nếu mức độ liên quan tới câu trả lời thấp hơn một ngưỡng nhất định thì không dùng chúng để trả lời”
Tóm lại, nó không đơn giản như tưởng tượng, và có thể thậm chí là bất khả thi
0: https://huggingface.co/datasets/microsoft/ms_marco
Có thể điều chỉnh để mô hình nói “không biết” thường xuyên hơn, nhưng phải trả giá bằng hiệu năng. Nó sẽ từ chối cả một số câu hỏi mà đáng ra có thể trả lời có ý nghĩa. Trong trường hợp thoái hóa, mô hình thậm chí có thể sụp đổ thành trạng thái luôn luôn hoặc gần như luôn luôn dự đoán câu đó
Điểm tỷ lệ ảo giác hơi khó diễn giải một chút. Vì đây là giá trị được tính trong điều kiện mô hình không biết câu trả lời. Do đó, nó không trực tiếp đo xác suất bạn sẽ gặp ảo giác trong sử dụng hằng ngày. Xác suất đó còn phụ thuộc vào khả năng mô hình không biết đáp án, và mức độ phân bố tác vụ của người dùng khớp với phân bố đánh giá đến đâu
Cũng cần thận trọng khi quy hoàn toàn chênh lệch tỷ lệ ảo giác này cho kích thước mô hình. GLM-5.2 ít ảo giác hơn rất nhiều so với DeepSeek-V4 Pro dù có số tham số chỉ bằng một nửa, trong khi DeepSeek-V4 Flash còn chưa đến nửa kích thước của GLM-5.2 nhưng lại đứng số 1 ở chỉ số ảo giác AA-Omniscience
Opus 4.8 nhiều khả năng lớn hơn DeepSeek-V4 Pro, và có tỷ lệ ảo giác 36% trên chỉ số này, cao hơn 28% của GLM-5.2 nhưng vẫn thấp hơn rất nhiều so với các số liệu của DeepSeek. Ngoài ra, độ chính xác của Opus là 47% còn GLM-5.2 là 25%. Nếu lấy các con số này để tính tỷ lệ ảo giác tuyệt đối, tức số câu trả lời ảo giác chia cho tổng số câu trả lời, thì Opus là 19%, GLM-5.2 là 21%
Vì vậy, nếu các điều kiện khác như nhau thì mô hình lớn có thể dễ bị ảo giác hơn khi rơi vào tình huống không biết đáp án, nhưng còn nhiều yếu tố khác ảnh hưởng đến tỷ lệ ảo giác, và cũng chưa hoàn toàn rõ đây có phải là chỉ số cốt lõi cần theo dõi hay không
Một dữ kiện xuất hiện một lần trong dữ liệu huấn luyện, không xuất hiện lần nào, mười lần hay một nghìn lần thì mô hình “biết” nó đến mức nào? Sự thật không được lưu nguyên trạng mà bị tách thành các thành phần rồi nén vào trong trọng số
Những dữ kiện “tương tự” mà không xuất hiện áp đảo sẽ bị gom nhóm lại với nhau và cuối cùng bị nhầm lẫn. Nhưng thế nào là dữ kiện tương tự? Có phải một số dữ kiện bị loại bỏ hoàn toàn, còn một số khác bị trộn với những dữ kiện khác, làm ô nhiễm cái bể chung nhưng đồng thời lại mang đến năng lực suy luận? Mô hình không biết gì cả, và cũng không bao giờ có thể biết nó biết gì hay không biết gì
Nếu Opus trả lời đúng tất cả trừ những câu hỏi khó nhất, thì các câu mà nó sai có thể chính là những câu khó xác minh nhất hoặc khó phát hiện ảo giác nhất, nên tỷ lệ ảo giác có thể cao hơn
Trong cấu trúc chi phí của các mô hình tuyến đầu ở Mỹ, dường như có thứ gì đó như chĩa súng điện vào mô hình mỗi khi nó phân vân không biết có nên tìm kiếm hay không trong lúc bất định. Phản ứng né tránh tìm kiếm gần như chính là hầu hết mọi dạng ảo giác
Tôi thậm chí không chờ đến lượt của mô hình. Nếu có man page hoặc kết quả Hoogle thì tôi nhét chúng vào đúng điểm cắt cache tiền tố cuối cùng. Làm vậy có lợi hơn
Nếu mọi trường hợp sử dụng đều có rủi ro ngang nhau là nằm ngoài phạm vi hỗ trợ thì lập luận trên là đúng, nhưng trong nhiều trường hợp có thể bảo đảm rằng một điểm dữ liệu nào đó nằm ngoài phạm vi hỗ trợ, nên năng lực tuyệt đối để nhận ra điều đó là rất quan trọng
Việc GPT-5.5 và DeepSeek V4 Pro cực kỳ lớn mà vẫn là hai cái tên dẫn đầu rất rõ về ảo giác nghe như thể mô hình càng lớn thì càng dễ ảo giác. Điều đó không khớp với trải nghiệm của tôi
Tôi thấy kinh ngạc trước đoạn “khi mô hình được huấn luyện trên lượng dữ liệu rất lớn, đậm tính thực tế và phi lý thuyết thì nó sẽ học cách luôn đưa ra câu trả lời” và các con số tỷ lệ ảo giác AA-Omniscience của DeepSeek V4 Pro là 94%, GLM-5.2 là 28%, Opus 4.8 là 36%, Fable 5 là 48%, GPT-5.5 là 86%
Trước đây, qua các nghiên cứu khác, tôi đã biết ảo giác là vấn đề mang tính nền tảng của LLM và có lẽ khó sửa giống như prompt injection, nhưng tôi không ngờ tỷ lệ ảo giác lại tệ đến mức này
Mọi người vẫn hành xử như thể các mô hình tốt nhất chỉ ảo giác trong những edge case, nhưng ở đây ngay cả GLM-5.2, mô hình có hiệu năng tốt nhất, cũng có tỷ lệ ảo giác 28% khi nó “không biết” điều gì đó
Dù vậy, tôi nghĩ tiêu đề blog “Bigger models are not the way” hợp lý hơn và chạm đúng điểm đáng lẽ phải là tin lớn hơn. Nếu các mô hình lớn hơn và tập huấn luyện lớn hơn đã không còn tạo ra lợi suất tỷ lệ thuận, thì rất có thể chúng ta đã tiến gần đến đỉnh của đường cong S. Xét đến việc định giá của các công ty như OpenAI hay xAI đang phụ thuộc rất nhiều vào ý tưởng phi lý rằng các mô hình này có thể tiếp tục mở rộng vô hạn, thì đây là tin cực lớn
Token của câu hỏi chỉ đơn giản là xác định token của câu trả lời. Cốt lõi nằm ở việc gom cụm các trọng số có liên quan với nhau
Nếu mục tiêu chỉ là tối đa hóa điểm benchmark thì lớn hơn chưa chắc lúc nào cũng tốt hơn, nhưng với trí tuệ tổng quát và cảm giác đặc trưng của mô hình lớn thì hoàn toàn không phải vậy
Các mô hình mã nguồn mở rất ấn tượng, nhưng so với Opus hay 5.5 thì khá rõ là chúng sụp đổ nhanh thế nào ngay khi bước ra khỏi tập vấn đề hẹp đã được benchmark tối ưu hóa tốt
Tôi cho rằng tỷ lệ ảo giác không phải là vấn đề về kích thước mô hình mà phụ thuộc vào cách huấn luyện. Các mô hình được huấn luyện trên những kho ngữ liệu khổng lồ, nơi các câu hỏi được cấu trúc tốt cùng các câu trả lời được sắp xếp gọn gàng và đúng đắn chiếm áp đảo. Đặc biệt là sách, và sách là tài liệu được các chuyên gia trong lĩnh vực tuyển chọn rất chặt chẽ
Trong sách, gần như không thấy trường hợp nêu ra một câu hỏi không có đáp án rồi suy luận và giải thích vì sao, bằng cách nào mà câu hỏi đó không có đáp án. Cũng hiếm có cuốn sách nào đặt ra một câu hỏi hay rồi thành thật giải thích rằng mình không biết câu trả lời. Vì trong quá trình tuyển chọn, những câu hỏi mà tác giả không có đáp án sẽ bị loại khỏi phần thảo luận
Ngoài ra, tôi nghĩ trong RLHF, các phòng thí nghiệm cũng thiên lệch về những câu hỏi có lời giải và tạo ra câu trả lời thú vị, còn những câu hỏi “tệ” không có đáp án tốt thì lại bị đại diện quá ít. Cũng rất có thể họ đã đầu tư ít công sức RLHF hơn cho những câu hỏi mà mô hình cần phải thừa nhận là mình không biết
Con người học hỏi cả đời khi liên tục đối mặt với những câu hỏi trong thế giới thực mà bản thân không biết đáp án ngay, và đã học được cách đánh giá rất nhanh rằng mình không biết hoặc không chắc chắn
Ngoài ra, con người còn có nỗi sợ mà LLM không có. Trong não người có hạch hạnh nhân, tách biệt với phần tư duy logic, phát ra tín hiệu sợ hãi, khiến chúng ta cẩn trọng hơn nhiều với những gì mình nói. Ngược lại, LLM không có cơ quan sợ hãi như hạch hạnh nhân, mà chỉ học cách phản hồi theo các mẫu trong kho ngữ liệu huấn luyện. Vì nó không “sợ” bị mất mặt hay bị sa thải do trả lời sai, nên cũng có thể hăng hái đưa ra những câu trả lời hoàn toàn sai
Vì vậy, tỷ lệ ảo giác có thể được cải thiện bằng huấn luyện, nhưng hiện tại các phòng thí nghiệm không tối ưu theo hướng đó do cuộc cạnh tranh rủi ro cao nhằm tạo ra những mô hình thông minh và năng lực nhất
Một phương án khác là tạo ra cho LLM một cơ quan riêng tương tự hạch hạnh nhân. Cơ quan đó có thể phát tín hiệu bất đồng bộ dựa trên prompt của người dùng và dấu vết suy nghĩ của LLM, từ đó bơm tín hiệu sợ hãi vào quá trình suy luận của LLM và bẻ hướng nó sang những câu trả lời an toàn hơn
Vì vậy, tôi cho rằng cuộc cạnh tranh hướng tới “kích thước dữ liệu huấn luyện tối đa” đã vô tình dẫn tới overfitting. Chưa đến mức chí mạng, nhưng đủ để kích hoạt trong mô hình một nhận thức trông như kiểu toàn tri