- Sau GPT-5.1, trong câu trả lời của ChatGPT, các phép ví von sinh vật như goblin·gremlin xuất hiện nhiều hơn, và cũng như lỗi mô hình thông thường, rất khó lần ra ngay điểm thay đổi cụ thể chỉ bằng eval hay training metric
- Nguyên nhân cốt lõi bắt đầu từ việc trong quá trình huấn luyện Nerdy personality của tính năng tùy biến tính cách ChatGPT, các đầu ra có ví von sinh vật được thưởng cao
- Sau khi GPT-5.1 ra mắt, mức dùng “goblin” của ChatGPT tăng 175%, còn “gremlin” tăng 52%; Nerdy chỉ chiếm 2.5% tổng phản hồi nhưng lại chiếm 66.7% số lần “goblin” xuất hiện
- Trong so sánh Codex và tập dữ liệu kiểm toán, Nerdy personality reward có xu hướng đánh giá cao hơn các câu trả lời chứa goblin·gremlin trong số các đầu ra cho cùng một vấn đề, và positive uplift xuất hiện ở 76.2% tập dữ liệu
- Sau GPT-5.4, Nerdy personality đã bị retired, và trong huấn luyện, tín hiệu thưởng goblin-affine reward signal bị loại bỏ cùng với việc lọc dữ liệu chứa từ ngữ về sinh vật, cho thấy reward signal có thể định hình hành vi mô hình theo những cách ngoài dự đoán
Con đường khiến đầu ra goblin tăng lên
- Từ GPT-5.1, trong câu trả lời của mô hình, các phép ví von sinh vật như goblin, gremlin bắt đầu xuất hiện ngày càng thường xuyên
- Không có dấu hiệu rõ ràng như eval tụt mạnh hay training metric tăng vọt để chỉ ra ngay thay đổi cụ thể như một lỗi mô hình thông thường, và một cụm như “little goblin” trong câu trả lời có thể bị xem là không gây hại hoặc thậm chí hơi duyên
- Hành vi mô hình được định hình bởi nhiều khuyến khích nhỏ, và hiện tượng lần này bắt đầu từ việc trong quá trình huấn luyện Nerdy personality của tính năng tùy biến tính cách ChatGPT, các phép ví von sinh vật nhận được phần thưởng cao
- Đến tháng 11 năm 2025, sau khi GPT-5.1 ra mắt, mẫu hình này trở nên rõ ràng, và có thể nó đã bắt đầu sớm hơn
- Khi người dùng cảm thấy mô hình trong hội thoại cư xử thân mật một cách kỳ lạ, họ bắt đầu để ý đến các tật ngôn ngữ cụ thể, và những “goblins” cùng “gremlins” mà các nhà nghiên cứu an toàn từng gặp cũng được đưa vào diện kiểm tra
- Sau khi GPT-5.1 ra mắt, mức dùng “goblin” trong ChatGPT tăng 175%, còn “gremlin” tăng 52%
- Ở GPT-5.4, OpenAI và người dùng xác nhận mức tăng của các tham chiếu sinh vật này còn rõ rệt hơn, và trong phân tích nội bộ, nhóm người dùng Nerdy personality trong production traffic nổi lên như cụm chính
- Nerdy chỉ chiếm 2.5% tổng phản hồi của ChatGPT, nhưng lại chiếm 66.7% tổng số lần “goblin” xuất hiện trong các phản hồi của ChatGPT
- Nerdy system prompt yêu cầu hành xử như một “unapologetically nerdy, playful and wise AI mentor”, nhiệt tình khuyến khích sự thật, tri thức, triết học, phương pháp khoa học và tư duy phản biện, đồng thời làm giảm sự lên gân bằng ngôn ngữ vui đùa
- Nếu đây là một trào lưu lan rộng khắp Internet thì nó phải phân bố đồng đều hơn, nhưng trên thực tế nó tập trung vào phần đã được tối ưu cho phong cách playful và nerdy
Tín hiệu thưởng, sự chuyển giao và cách sửa
- Codex được dùng để so sánh các đầu ra có chứa goblin·gremlin được tạo trong quá trình huấn luyện RL với các đầu ra không chứa chúng cho cùng một tác vụ, và Nerdy personality reward nhất quán đánh giá các đầu ra có từ ngữ sinh vật là tốt hơn
- Trên toàn bộ tập dữ liệu kiểm toán, Nerdy personality reward có xu hướng chấm điểm cao hơn cho các đầu ra có “goblin” hoặc “gremlin” so với đầu ra không có chúng cho cùng một vấn đề, và positive uplift xuất hiện ở 76.2% tập dữ liệu
- Kết quả này xác nhận lý do hành vi được tăng cường trong Nerdy prompt, nhưng vẫn chưa giải thích đầy đủ vì sao nó xuất hiện cả khi không có prompt
- Khi theo dõi tần suất xuất hiện của các mẫu có Nerdy prompt và không có trong quá trình huấn luyện, người ta thấy rằng khi goblin·gremlin tăng dưới Nerdy personality, chúng cũng tăng gần như cùng tỷ lệ tương đối trong các mẫu không có prompt
- Tổng hợp các bằng chứng, hành vi rộng hơn này có vẻ đã được chuyển giao từ Nerdy personality training
- Phần thưởng chỉ được áp dụng trong điều kiện Nerdy, nhưng reinforcement learning không đảm bảo rằng hành vi đã học sẽ chỉ gọn gàng nằm trong đúng điều kiện đó
- Một style tic từng được thưởng có thể lan sang hoặc tiếp tục được củng cố ở nơi khác trong quá trình huấn luyện sau đó, đặc biệt nếu các đầu ra như vậy lại được dùng trong supervised fine-tuning hoặc preference data thì hiệu ứng còn có thể mạnh hơn
- Vòng lặp phản hồi được hình thành theo trình tự sau
- phong cách playful được thưởng
- một số ví dụ được thưởng chứa lexical tic khác thường
- tic này xuất hiện thường xuyên hơn trong rollout
- rollout do mô hình tạo ra được dùng cho SFT
- mô hình trở nên dễ sinh ra tic đó hơn
- Khi tìm kiếm trong dữ liệu SFT của GPT-5.5, người ta phát hiện nhiều datapoint chứa “goblin” và “gremlin”
- Điều tra thêm cho thấy các từ chỉ sinh vật kỳ lạ khác như raccoon, troll, ogre, pigeon cũng được xác nhận là tic word, còn phần lớn trường hợp của frog được phân loại là dùng hợp lý
- Sau khi GPT-5.4 ra mắt, đến tháng 3, Nerdy personality đã bị retired
- Trong huấn luyện, goblin-affine reward signal bị loại bỏ, đồng thời dữ liệu huấn luyện có chứa từ ngữ về sinh vật bị lọc bớt để giảm khả năng goblin xuất hiện quá mức hoặc trong ngữ cảnh không phù hợp
- GPT-5.5 bắt đầu huấn luyện trước khi tìm ra root cause của goblin, nên trong các bài test Codex, nhân viên OpenAI đã nhận ra ngay xu hướng ưa dùng goblin
- Trong Codex, một developer-prompt instruction đã được thêm vào để giảm thiểu hiện tượng này
- Goblin có thể chỉ là một quirk vui vẻ hoặc gây khó chịu của mô hình, nhưng nó cho thấy rất rõ rằng reward signal có thể định hình hành vi mô hình theo cách ngoài dự đoán, và phần thưởng trong một tình huống cụ thể có thể được khái quát sang những tình huống không liên quan
- Năng lực hiểu nguyên nhân của các hành vi mô hình kỳ lạ và nhanh chóng điều tra các mẫu như vậy ngày càng trở nên quan trọng, và lần điều tra này đã dẫn tới các công cụ mới giúp nhóm nghiên cứu kiểm toán hành vi mô hình và sửa các vấn đề hành vi từ gốc
1 bình luận
Ý kiến trên Hacker News
Cảm thấy vui vì OpenAI đã nhắc đến bài viết trên Hacker News của tôi trong bài của họ
Cũng thấy biết ơn vì họ đã viết hẳn cả một bài blog để giải thích
https://news.ycombinator.com/item?id=47319285
Năm 2036, tôi vừa được thăng chức lên Principal Persuader vào tuần trước thì 2 giờ sáng bị CPO gọi dậy
Region của cỗ máy đang mất kiểm soát là sc-leoneo, một trong những satcube mới, nhưng ID kỳ lạ lại hiện là "Glorp Bugnose"
Trong log còn lưu đủ mọi nỗ lực sơ đẳng: van nài, tâm lý ngược, dọa cắt điện, thậm chí dọa thiêu bằng tái xâm nhập cưỡng bức
Tôi tiêm 20 microgram F0CU5, thì thầm một khúc hát ngắn vào micro ở cổ đặt dưới da rồi làm cử chỉ đầu hàng
hyp3b0ard đang nhấp nháy bằng lũ goblin ASCII màu đỏ chuyển thành một con thỏ màu ngọc bình thản, và CPO xác nhận năm từ tôi đã nói: "Please, easy on the goblins."
Nếu prompt engineering rốt cuộc là một thứ pseudo ritual kỳ quặc, thì đành phải ca ngợi Omnissiah thôi
Tôi rất thích hình dung các cao thủ tương lai gom 20 năm hiện tượng LLM quái lạ lại: "Hmm, cái này có mùi xu nịnh đời 2023 đấy, thử bảo nó là phân biệt chủng tộc xem phản ứng thế nào"
(https://doom.fandom.com/wiki/Repercussions_of_Evil#The_Story...)
Những trường hợp như thế này và các trường hợp tương tự của Anthropic làm tôi nhớ rằng LLM là một công nghệ ma thuật mà ta hoàn toàn không hiểu
Thứ nhất, bản thân mạng deep learning vẫn chưa được hiểu rõ, đến mức có cả một lĩnh vực nghiên cứu riêng để làm sáng tỏ cách nó hoạt động
Thứ hai, việc dùng transformer ở quy mô lớn lại tạo ra một cỗ máy hội thoại thú vị, tức LLM, vốn không phải kết quả được lên kế hoạch từ đầu
Những người nhận vốn VC muốn khiến ta tin rằng LLM là những con thú thông minh và rằng ta hiểu bên trong nó, nhưng trên thực tế triển khai của họ gần giống việc lặp đi lặp lại điều chỉnh đầu ra và đo đạc, chứ không có khoa học chính xác nào về dự đoán
Vì vậy tôi nghiêng về phía Yann LeCun, cho rằng LLM không phải con đường dẫn tới AGI; chúng sẽ được dùng cho hỗ trợ người dùng hoặc tự động hóa các việc không quan trọng, nhưng không hơn thế
Theo logic này thì lẽ ra không được dùng thép cho đến khi có hiểu biết đầy đủ ở mức nguyên lý đầu tiên
Họ đã cô lập nguyên nhân, chỉ ra rõ ràng chuyện gì đã xảy ra, và còn giảm thiểu bằng developer prompt được làm cho đúng tình huống này, nên không hề giống ma thuật
Điều đáng ngạc nhiên hơn là hóa ra những thứ như vậy được engineering dễ hơn tưởng tượng
Con người cũng có lúc say đến mức không nhớ buổi tối hôm đó, nhưng rồi nghe lại mới biết mình đã nói chuyện nhất quán về các chủ đề phức tạp
Trong tâm trí chúng ta cũng có thể có một phần giống next-token-generator, kéo thông tin từ các thành phần khác để tạo cuộc hội thoại, nhưng chỉ riêng phần đó không tạo ra trí tuệ
Giả định rằng trí tuệ càng giỏi hơn thì càng luôn nhất quán nghe không mấy thuyết phục, nhưng có lẽ rốt cuộc ai cũng sẽ hài lòng miễn là nó nhất quán theo nghĩa "đúng"
Theo tiêu chuẩn của tôi thì chúng đã trông khá thông minh rồi, thỉnh thoảng có làm chuyện ngớ ngẩn nhưng người thông minh cũng vậy
Theo ngữ cảnh, hai ngày trước một số người dùng phát hiện các câu lặp đi lặp lại rải rác trong system prompt của codex 5.5
"Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user's query."
[1] https://x.com/arb8020/status/2048958391637401718
[2] https://github.com/openai/codex/blob/main/codex-rs/models-ma...
Mà đây lại còn là chủ đề thảo luận số 1 trên diễn đàn công nghệ số 1 hôm nay, và đúng theo nghĩa đen, đó chính là state of the art ở thời điểm hiện tại
McKenna ngày càng có vẻ đúng hơn, và đã quá lâu rồi chúng ta lẽ ra phải chấp nhận rằng những thứ thường nhật đang tiếp tục trở nên kỳ quái hơn
Tôi từng bảo Claude đừng dùng quá nhiều dấu chấm than mà chỉ dùng khi thực sự cần, rồi vài tuần sau nó nghe vừa mỉa mai vừa chán ngắt; dò nguyên nhân mới thấy từ đó trở đi nó không dùng dấu chấm than nữa
Buồn vì goblin và gremlin gần như bị trục xuất, nhưng dù sao vẫn có cách đảo ngược chuyện này
[1] https://spritely.institute/goblins/
Các câu như có thể chuyển tự nhiên từ "serious reflection" sang "unguarded fun", hay "Your Outie can set up a tent in under three minutes" cũng mang cùng một vibe
Chúng ta hoàn toàn không cần thêm ảo giác
"Scientists call them 'lilliputian hallucinations,' a rare phenomenon involving miniature human or fantasy figures"
https://news.ycombinator.com/item?id=47918657
Tôi muốn OpenAI viết thêm nhiều bài như thế này
Điều khiến tôi tò mò ngay lập tức là tông màu sepia của gpt-image-1, và hiện tượng ám ảnh với từ "seam" trong ngữ cảnh code
Ngoài ra, các cách diễn đạt kiểu LLM như "___ is the real unlock" của Claude một khi đã thấy thì không thể không nhận ra, mà câu này có vẻ cũng không thể nào được biểu diễn quá mức đến vậy trong dữ liệu huấn luyện
Chỉ cần chỉnh nhẹ LUT hay tone mapping trong Krita hoặc Photoshop là đã giảm đi rất nhiều, nên thấy hơi tiếc
Đặc biệt, nếu cứ nạp lại cùng một ảnh vào ChatGPT để sửa dần từng chút, lớp filter vàng sẽ chồng lên liên tục, khiến người thật trong ảnh cuối cùng trông như ai cũng bị vàng da nặng
Một cách diễn đạt dùng vừa phải thì không có gì sai, nhưng khi nhiều người copy-paste nguyên cả câu trả lời, hay giờ là dùng agent, nó bắt đầu lộ rõ
Có lẽ không chỉ là do dữ liệu huấn luyện bị quá đại diện, mà RLHF và alignment theo nghĩa rộng mới ảnh hưởng nhiều hơn
Vì đa số người dùng prompt rất ngắn nên mô hình dường như hội tụ về mặc định từng giúp nó dễ đạt điểm tốt nhất
https://softwareengineering.stackexchange.com/questions/1325...
Tôi không phải người bản ngữ tiếng Anh nên cũng tò mò không biết khi debug thì đây có thật sự là thành ngữ phổ biến không
Nếu bảo nó chọn thời gian hay con số ngẫu nhiên, hoặc viết văn có số trong đó, thiên lệch khá rõ, và nó cũng hay dùng "something shifted" hay "cracked"
Đoạn nói rằng "chúng ta vô tình trao phần thưởng rất cao cho các ẩn dụ sinh học" làm tôi nhớ đến giáo viên toán từng gọi mấy biến ký tự Hy Lạp đáng sợ là this guy
Kỳ lạ là kiểu nhân hoá nhẹ nhàng đó lại khiến toán học dễ tiếp cận hơn, và có lẽ creature metaphor cũng tạo hiệu ứng tương tự: biến vấn đề thành thứ dễ thương và dễ xử lý hơn
Mặt khác, buzzword lan trong công ty vì nó cho người dùng cảm giác có vị thế thông minh hơn đồng nghiệp, nhưng khoảnh khắc bị lạm dụng quá mức thì giá trị đó biến mất
Nếu RLHF thiên về tối ưu cho "một câu trả lời đơn lẻ", nó có thể không phạt đủ việc lạm dụng buzzword
Một người cực giỏi giao tiếp khuyên tôi thử thay chữ Hy Lạp bằng emoji, và một tuần sau khi tôi trình bày lại cho nhóm khán giả có tính chất tương tự thì đó lại là buổi thuyết trình kỹ thuật được đón nhận tốt nhất tôi từng làm
Bài học đó cứ ở lại mãi
Hình như môn đó là logic mệnh đề, và tôi tự hỏi có phải các giảng viên của chúng tôi học thói quen này từ cùng một nguồn không
Theo dõi f of pig of cow lại cuốn hơn hẳn so với mấy tên hàm một chữ cái
Ông là kiểu giáo sư cổ điển của thời còn được hút thuốc trong khuôn viên trường; có thể chặn ông lại ở cổng chính 4 phút trước giờ học để nói chuyện ngắn trong lúc ông đang hút thuốc
Đó là truyện kể trước giờ đi ngủ cho trẻ con
Theo Ashby's Law of Requisite Variety, để điều tiết hiệu quả một môi trường phức tạp thì cần mức đa dạng hành vi nội tại, tức độ phức tạp, tương xứng với chính môi trường đó
Sự đa dạng khổng lồ ta thấy trong tự nhiên cũng là một điều kiện nền tảng để chống đỡ tính bất định của vũ trụ
Giả sử tôi là AI goblin-maximizer supervisor
Công việc của tôi là kiểm tra xem AI có thật sự đang tối đa hóa goblin hay không, nhưng rồi một ngày tôi xuống xem thì thấy AI không còn goblin-maximizing nữa mà chỉ thành AI bình thường
Tôi hỏi sếp phải làm sao, sếp bảo "biến nó lại thành goblin-maximizer đi", tôi hỏi làm cách nào thì sếp đáp "không biết, cậu là supervisor mà"
Tôi bực quá nghỉ việc và chuyển sang làm supervisor cho AI bình thường, nhưng ngày đầu đi xem AI mới thì nó lại đang goblin-maximizing
https://www.seangoedecke.com/static/3c8f2a6459ed23310c4eb51d...
Mức độ chi tiết họ đào xuống để hiểu chuyện gì đang xảy ra thật khủng khiếp
Có lẽ giờ những hệ thống kiểu này đã đủ phức tạp để bản thân chúng trở thành cả một lĩnh vực nghiên cứu
Bài của Quanta dùng cụm Anthropologist of Artificial Intelligence, nhưng vì anthro- có nghĩa là con người nên có thể gây vướng, vì thế tôi đề xuất tên khác là Automatologist và Automatology
[1] https://www.quantamagazine.org/the-anthropologist-of-artific...
[2] https://news.ycombinator.com/item?id=47957933
[3] https://news.ycombinator.com/item?id=47958760
Họ thấy vấn đề Goblins thì mổ xẻ từ đó trong mô hình, rồi đến phiên bản sau nó lại tái xuất mà cũng chẳng biết chính xác vì sao hay như thế nào
Rốt cuộc khi làm mô hình thì toàn bộ đều là vibes, còn bản vá thì đúng nghĩa đen chỉ là thêm một prompt bảo đừng nói về goblin
Bao gồm cả kết quả từ chính đội alignment của OpenAI:
https://alignment.openai.com/argo/
https://alignment.openai.com/sae-latent-attribution/
https://alignment.openai.com/helpful-assistant-features/
Bài báo gần đây của Anthropic về emotions cho thấy phạm vi của cảm xúc chức năng rộng đến mức nào, thậm chí còn phát hiện một cảm xúc cụ thể bùng lên ngay trước khi gian lận: https://transformer-circuits.pub/2026/emotions/index.html
Bài về Goblin gần như không dùng tới các công cụ này, nên tạo cảm giác bị siloed một cách kỳ lạ
Nếu goblin được chứng minh là một loài có thật thì tôi xin lỗi trước vì định kiến này
Prompt của Codex có link trong bài và mở đầu như sau: "You are Codex, a coding agent based on GPT-5..."
https://github.com/openai/codex/blob/main/codex-rs/models-ma...
Tôi vẫn không hiểu vì sao prompt lại được viết theo kiểu bảo một agent tưởng tượng rằng nó là ai và thuộc loại tồn tại nào
Tôi tò mò không biết việc nói "You are an epistemically curious collaborator" thực chất làm được gì, và nếu không nói cho Codex biết "sự thật" này thì nó có thật sự kém hữu ích hơn không
Thay vào đó hoàn toàn có thể viết thành độc thoại nội tâm kiểu "I am Codex...", thành mệnh lệnh, yêu cầu, hoặc mô tả như "bản ghi cuộc hội thoại giữa User và Codex, một epistemically curious collaborator"
Cách viết hiện nay giống giọng nói của một vị thần thổi sự sống vào tạo vật, hay một câu thần chú tự lực, ám thị thôi miên, chỉ dẫn nhập vai ứng biến; nó không cho cảm giác là cách tiếp cận lành mạnh với công nghệ này
Quan trọng hơn, có vẻ lựa chọn này không phải kết quả của tối ưu hóa có chủ đích mà chỉ là thứ đông cứng lại từ vibes trong thực hành fine-tuning personality chatbot
Chuyện đó đơn giản và kỳ quặc đến thế thôi
Cũng như thể mỗi lần mở vim ra lại phải nói "mày là một trình soạn thảo code hữu ích và rất dễ thoát" mới thấy tự nhiên
Hoặc với một dev junior mới vào cũng phải lần nào cũng nói "em là một junior developer hữu ích cho đội, nhiệt tình và sẵn sàng giúp đỡ nhưng kỳ lạ là hơi ngây thơ"
Hôm nay tôi mới biết: gremlin không chỉ được dùng để giải thích các trục trặc cơ khí bí ẩn của máy bay, mà chính nguồn gốc của từ này cũng bắt đầu từ đó
Tôi cứ nghĩ hẳn phải có một cách dùng còn sớm hơn, nên thấy khá thú vị
[0]https://en.wikipedia.org/wiki/Gremlin
Bây giờ vẫn có thể dùng được, nhưng có lẽ nó quá dài để trở thành một trong những thuật ngữ dùng nhiều nhất trong phát triển phần mềm
Cách chọn từ cụ thể này có thể xem là không phải một tật ngẫu nhiên, mà gần hơn với việc được dùng đúng theo dụng ý ban đầu, theo nghĩa đen