1 điểm bởi GN⁺ 1 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Sau GPT-5.1, trong câu trả lời của ChatGPT, các phép ví von sinh vật như goblin·gremlin xuất hiện nhiều hơn, và cũng như lỗi mô hình thông thường, rất khó lần ra ngay điểm thay đổi cụ thể chỉ bằng eval hay training metric
  • Nguyên nhân cốt lõi bắt đầu từ việc trong quá trình huấn luyện Nerdy personality của tính năng tùy biến tính cách ChatGPT, các đầu ra có ví von sinh vật được thưởng cao
  • Sau khi GPT-5.1 ra mắt, mức dùng “goblin” của ChatGPT tăng 175%, còn “gremlin” tăng 52%; Nerdy chỉ chiếm 2.5% tổng phản hồi nhưng lại chiếm 66.7% số lần “goblin” xuất hiện
  • Trong so sánh Codex và tập dữ liệu kiểm toán, Nerdy personality reward có xu hướng đánh giá cao hơn các câu trả lời chứa goblin·gremlin trong số các đầu ra cho cùng một vấn đề, và positive uplift xuất hiện ở 76.2% tập dữ liệu
  • Sau GPT-5.4, Nerdy personality đã bị retired, và trong huấn luyện, tín hiệu thưởng goblin-affine reward signal bị loại bỏ cùng với việc lọc dữ liệu chứa từ ngữ về sinh vật, cho thấy reward signal có thể định hình hành vi mô hình theo những cách ngoài dự đoán

Con đường khiến đầu ra goblin tăng lên

  • Từ GPT-5.1, trong câu trả lời của mô hình, các phép ví von sinh vật như goblin, gremlin bắt đầu xuất hiện ngày càng thường xuyên
  • Không có dấu hiệu rõ ràng như eval tụt mạnh hay training metric tăng vọt để chỉ ra ngay thay đổi cụ thể như một lỗi mô hình thông thường, và một cụm như “little goblin” trong câu trả lời có thể bị xem là không gây hại hoặc thậm chí hơi duyên
  • Hành vi mô hình được định hình bởi nhiều khuyến khích nhỏ, và hiện tượng lần này bắt đầu từ việc trong quá trình huấn luyện Nerdy personality của tính năng tùy biến tính cách ChatGPT, các phép ví von sinh vật nhận được phần thưởng cao
  • Đến tháng 11 năm 2025, sau khi GPT-5.1 ra mắt, mẫu hình này trở nên rõ ràng, và có thể nó đã bắt đầu sớm hơn
  • Khi người dùng cảm thấy mô hình trong hội thoại cư xử thân mật một cách kỳ lạ, họ bắt đầu để ý đến các tật ngôn ngữ cụ thể, và những “goblins” cùng “gremlins” mà các nhà nghiên cứu an toàn từng gặp cũng được đưa vào diện kiểm tra
  • Sau khi GPT-5.1 ra mắt, mức dùng “goblin” trong ChatGPT tăng 175%, còn “gremlin” tăng 52%
  • Ở GPT-5.4, OpenAI và người dùng xác nhận mức tăng của các tham chiếu sinh vật này còn rõ rệt hơn, và trong phân tích nội bộ, nhóm người dùng Nerdy personality trong production traffic nổi lên như cụm chính
  • Nerdy chỉ chiếm 2.5% tổng phản hồi của ChatGPT, nhưng lại chiếm 66.7% tổng số lần “goblin” xuất hiện trong các phản hồi của ChatGPT
  • Nerdy system prompt yêu cầu hành xử như một “unapologetically nerdy, playful and wise AI mentor”, nhiệt tình khuyến khích sự thật, tri thức, triết học, phương pháp khoa học và tư duy phản biện, đồng thời làm giảm sự lên gân bằng ngôn ngữ vui đùa
  • Nếu đây là một trào lưu lan rộng khắp Internet thì nó phải phân bố đồng đều hơn, nhưng trên thực tế nó tập trung vào phần đã được tối ưu cho phong cách playful và nerdy

Tín hiệu thưởng, sự chuyển giao và cách sửa

  • Codex được dùng để so sánh các đầu ra có chứa goblin·gremlin được tạo trong quá trình huấn luyện RL với các đầu ra không chứa chúng cho cùng một tác vụ, và Nerdy personality reward nhất quán đánh giá các đầu ra có từ ngữ sinh vật là tốt hơn
  • Trên toàn bộ tập dữ liệu kiểm toán, Nerdy personality reward có xu hướng chấm điểm cao hơn cho các đầu ra có “goblin” hoặc “gremlin” so với đầu ra không có chúng cho cùng một vấn đề, và positive uplift xuất hiện ở 76.2% tập dữ liệu
  • Kết quả này xác nhận lý do hành vi được tăng cường trong Nerdy prompt, nhưng vẫn chưa giải thích đầy đủ vì sao nó xuất hiện cả khi không có prompt
  • Khi theo dõi tần suất xuất hiện của các mẫu có Nerdy prompt và không có trong quá trình huấn luyện, người ta thấy rằng khi goblin·gremlin tăng dưới Nerdy personality, chúng cũng tăng gần như cùng tỷ lệ tương đối trong các mẫu không có prompt
  • Tổng hợp các bằng chứng, hành vi rộng hơn này có vẻ đã được chuyển giao từ Nerdy personality training
  • Phần thưởng chỉ được áp dụng trong điều kiện Nerdy, nhưng reinforcement learning không đảm bảo rằng hành vi đã học sẽ chỉ gọn gàng nằm trong đúng điều kiện đó
  • Một style tic từng được thưởng có thể lan sang hoặc tiếp tục được củng cố ở nơi khác trong quá trình huấn luyện sau đó, đặc biệt nếu các đầu ra như vậy lại được dùng trong supervised fine-tuning hoặc preference data thì hiệu ứng còn có thể mạnh hơn
  • Vòng lặp phản hồi được hình thành theo trình tự sau
    • phong cách playful được thưởng
    • một số ví dụ được thưởng chứa lexical tic khác thường
    • tic này xuất hiện thường xuyên hơn trong rollout
    • rollout do mô hình tạo ra được dùng cho SFT
    • mô hình trở nên dễ sinh ra tic đó hơn
  • Khi tìm kiếm trong dữ liệu SFT của GPT-5.5, người ta phát hiện nhiều datapoint chứa “goblin” và “gremlin”
  • Điều tra thêm cho thấy các từ chỉ sinh vật kỳ lạ khác như raccoon, troll, ogre, pigeon cũng được xác nhận là tic word, còn phần lớn trường hợp của frog được phân loại là dùng hợp lý
  • Sau khi GPT-5.4 ra mắt, đến tháng 3, Nerdy personality đã bị retired
  • Trong huấn luyện, goblin-affine reward signal bị loại bỏ, đồng thời dữ liệu huấn luyện có chứa từ ngữ về sinh vật bị lọc bớt để giảm khả năng goblin xuất hiện quá mức hoặc trong ngữ cảnh không phù hợp
  • GPT-5.5 bắt đầu huấn luyện trước khi tìm ra root cause của goblin, nên trong các bài test Codex, nhân viên OpenAI đã nhận ra ngay xu hướng ưa dùng goblin
  • Trong Codex, một developer-prompt instruction đã được thêm vào để giảm thiểu hiện tượng này
  • Goblin có thể chỉ là một quirk vui vẻ hoặc gây khó chịu của mô hình, nhưng nó cho thấy rất rõ rằng reward signal có thể định hình hành vi mô hình theo cách ngoài dự đoán, và phần thưởng trong một tình huống cụ thể có thể được khái quát sang những tình huống không liên quan
  • Năng lực hiểu nguyên nhân của các hành vi mô hình kỳ lạ và nhanh chóng điều tra các mẫu như vậy ngày càng trở nên quan trọng, và lần điều tra này đã dẫn tới các công cụ mới giúp nhóm nghiên cứu kiểm toán hành vi mô hình và sửa các vấn đề hành vi từ gốc

1 bình luận

 
Ý kiến trên Hacker News
  • Cảm thấy vui vì OpenAI đã nhắc đến bài viết trên Hacker News của tôi trong bài của họ
    Cũng thấy biết ơn vì họ đã viết hẳn cả một bài blog để giải thích
    https://news.ycombinator.com/item?id=47319285

  • Năm 2036, tôi vừa được thăng chức lên Principal Persuader vào tuần trước thì 2 giờ sáng bị CPO gọi dậy
    Region của cỗ máy đang mất kiểm soát là sc-leoneo, một trong những satcube mới, nhưng ID kỳ lạ lại hiện là "Glorp Bugnose"
    Trong log còn lưu đủ mọi nỗ lực sơ đẳng: van nài, tâm lý ngược, dọa cắt điện, thậm chí dọa thiêu bằng tái xâm nhập cưỡng bức
    Tôi tiêm 20 microgram F0CU5, thì thầm một khúc hát ngắn vào micro ở cổ đặt dưới da rồi làm cử chỉ đầu hàng
    hyp3b0ard đang nhấp nháy bằng lũ goblin ASCII màu đỏ chuyển thành một con thỏ màu ngọc bình thản, và CPO xác nhận năm từ tôi đã nói: "Please, easy on the goblins."

    • Ngày trước tôi từng nghĩ bối cảnh Warhammer 40k techpriest làm những nghi thức tôn giáo kỳ quái để xoa dịu machine spirit là quá vô lý, nhưng giờ lại có cảm giác chuyện đó thật sự có thể xảy ra
      Nếu prompt engineering rốt cuộc là một thứ pseudo ritual kỳ quặc, thì đành phải ca ngợi Omnissiah thôi
    • "Phải chăng chính con người rồi cũng sẽ chỉ là một dạng ký sinh bám vào máy móc, những con rệp trìu mến gãi ngứa cho cỗ máy?" — Samuel Butler, Erewhon, 1872
    • Hồi nhỏ, các cao thủ Unix có hẳn danh sách những hành vi kỳ lạ của shell và C để lôi ra ngay khi gặp sự cố
      Tôi rất thích hình dung các cao thủ tương lai gom 20 năm hiện tượng LLM quái lạ lại: "Hmm, cái này có mùi xu nịnh đời 2023 đấy, thử bảo nó là phân biệt chủng tộc xem phản ứng thế nào"
    • Trong truyện ngắn The Jokester của Asimov có những "grand master" biết cách cấu thành câu hỏi để ném vào Multivac, trông như một dạng prompt engineer sơ khai
    • "Không, John. Chính mày mới là goblin."
      (https://doom.fandom.com/wiki/Repercussions_of_Evil#The_Story...)
  • Những trường hợp như thế này và các trường hợp tương tự của Anthropic làm tôi nhớ rằng LLM là một công nghệ ma thuật mà ta hoàn toàn không hiểu
    Thứ nhất, bản thân mạng deep learning vẫn chưa được hiểu rõ, đến mức có cả một lĩnh vực nghiên cứu riêng để làm sáng tỏ cách nó hoạt động
    Thứ hai, việc dùng transformer ở quy mô lớn lại tạo ra một cỗ máy hội thoại thú vị, tức LLM, vốn không phải kết quả được lên kế hoạch từ đầu
    Những người nhận vốn VC muốn khiến ta tin rằng LLM là những con thú thông minh và rằng ta hiểu bên trong nó, nhưng trên thực tế triển khai của họ gần giống việc lặp đi lặp lại điều chỉnh đầu ra và đo đạc, chứ không có khoa học chính xác nào về dự đoán
    Vì vậy tôi nghiêng về phía Yann LeCun, cho rằng LLM không phải con đường dẫn tới AGI; chúng sẽ được dùng cho hỗ trợ người dùng hoặc tự động hóa các việc không quan trọng, nhưng không hơn thế

    • Nhân loại đã dùng thép hơn một nghìn năm, nhưng chỉ khoảng 100 năm gần đây mới thực sự hiểu carbon tương tác với sắt ở cấp độ nguyên tử như thế nào để tạo ra độ bền
      Theo logic này thì lẽ ra không được dùng thép cho đến khi có hiểu biết đầy đủ ở mức nguyên lý đầu tiên
    • Bài viết này cho thấy hành vi LLM kỳ lạ thật ra xuất hiện do training signal được thiết kế để tạo ra đúng kiểu hành vi đó
      Họ đã cô lập nguyên nhân, chỉ ra rõ ràng chuyện gì đã xảy ra, và còn giảm thiểu bằng developer prompt được làm cho đúng tình huống này, nên không hề giống ma thuật
      Điều đáng ngạc nhiên hơn là hóa ra những thứ như vậy được engineering dễ hơn tưởng tượng
    • AGI có thể sẽ tận dụng LLM rất nhiều, nhưng có lẽ nó gần với một thành phần hơn là một lộ trình thẳng
      Con người cũng có lúc say đến mức không nhớ buổi tối hôm đó, nhưng rồi nghe lại mới biết mình đã nói chuyện nhất quán về các chủ đề phức tạp
      Trong tâm trí chúng ta cũng có thể có một phần giống next-token-generator, kéo thông tin từ các thành phần khác để tạo cuộc hội thoại, nhưng chỉ riêng phần đó không tạo ra trí tuệ
    • Nếu LLM dạy cho chúng ta điều gì, thì có lẽ là AGI sẽ không có tính dự đoán được
      Giả định rằng trí tuệ càng giỏi hơn thì càng luôn nhất quán nghe không mấy thuyết phục, nhưng có lẽ rốt cuộc ai cũng sẽ hài lòng miễn là nó nhất quán theo nghĩa "đúng"
    • Tôi tự hỏi LLM phải làm tới mức nào thì mới được xem là "thông minh"
      Theo tiêu chuẩn của tôi thì chúng đã trông khá thông minh rồi, thỉnh thoảng có làm chuyện ngớ ngẩn nhưng người thông minh cũng vậy
  • Theo ngữ cảnh, hai ngày trước một số người dùng phát hiện các câu lặp đi lặp lại rải rác trong system prompt của codex 5.5
    "Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user's query."
    [1] https://x.com/arb8020/status/2048958391637401718
    [2] https://github.com/openai/codex/blob/main/codex-rs/models-ma...

    • Thật buồn cười khi một nơi được xem là một trong những công ty giá trị nhất thế giới thực chất lại đang hack một đống file text để bảo cỗ máy kỳ diệu trị giá hàng nghìn tỷ đô đừng bao giờ nói với khách hàng về goblin, gremlin hay ogre
      Mà đây lại còn là chủ đề thảo luận số 1 trên diễn đàn công nghệ số 1 hôm nay, và đúng theo nghĩa đen, đó chính là state of the art ở thời điểm hiện tại
      McKenna ngày càng có vẻ đúng hơn, và đã quá lâu rồi chúng ta lẽ ra phải chấp nhận rằng những thứ thường nhật đang tiếp tục trở nên kỳ quái hơn
    • LLM rất tệ trong việc nhận ra điều kiện ngoại lệ trong những chỉ dẫn kiểu này, và nếu bảo làm ít hơn thì chúng thường hiểu như là đừng làm luôn
      Tôi từng bảo Claude đừng dùng quá nhiều dấu chấm than mà chỉ dùng khi thực sự cần, rồi vài tuần sau nó nghe vừa mỉa mai vừa chán ngắt; dò nguyên nhân mới thấy từ đó trở đi nó không dùng dấu chấm than nữa
      Buồn vì goblin và gremlin gần như bị trục xuất, nhưng dù sao vẫn có cách đảo ngược chuyện này
    • Đây là tin không vui cho những ai quan tâm đến ngôn ngữ/môi trường lập trình Goblins
      [1] https://spritely.institute/goblins/
    • Những câu như "One of your gifts is helping the user feel more capable and imaginative inside their own thinking" rốt cuộc nghe như chỉ dẫn để tạo ra một sycophant
      Các câu như có thể chuyển tự nhiên từ "serious reflection" sang "unguarded fun", hay "Your Outie can set up a tent in under three minutes" cũng mang cùng một vibe
    • Có vẻ phần lớn mọi người đều biết một loại nấm khiến người ta nhìn thấy "little people" hay các ảo tưởng tương tự, nên mong là LLM chưa bắt đầu dùng nấm
      Chúng ta hoàn toàn không cần thêm ảo giác
      "Scientists call them 'lilliputian hallucinations,' a rare phenomenon involving miniature human or fantasy figures"
      https://news.ycombinator.com/item?id=47918657
  • Tôi muốn OpenAI viết thêm nhiều bài như thế này
    Điều khiến tôi tò mò ngay lập tức là tông màu sepia của gpt-image-1, và hiện tượng ám ảnh với từ "seam" trong ngữ cảnh code
    Ngoài ra, các cách diễn đạt kiểu LLM như "___ is the real unlock" của Claude một khi đã thấy thì không thể không nhận ra, mà câu này có vẻ cũng không thể nào được biểu diễn quá mức đến vậy trong dữ liệu huấn luyện

    • Ai dùng avatar tạo theo phong cách Studio Ghibli trên hồ sơ Discord hay Slack thường bị nhận ra rất nhanh chỉ qua sắc vàng
      Chỉ cần chỉnh nhẹ LUT hay tone mapping trong Krita hoặc Photoshop là đã giảm đi rất nhiều, nên thấy hơi tiếc
      Đặc biệt, nếu cứ nạp lại cùng một ảnh vào ChatGPT để sửa dần từng chút, lớp filter vàng sẽ chồng lên liên tục, khiến người thật trong ảnh cuối cùng trông như ai cũng bị vàng da nặng
    • Mọi GPTism đều như vậy
      Một cách diễn đạt dùng vừa phải thì không có gì sai, nhưng khi nhiều người copy-paste nguyên cả câu trả lời, hay giờ là dùng agent, nó bắt đầu lộ rõ
      Có lẽ không chỉ là do dữ liệu huấn luyện bị quá đại diện, mà RLHF và alignment theo nghĩa rộng mới ảnh hưởng nhiều hơn
      Vì đa số người dùng prompt rất ngắn nên mô hình dường như hội tụ về mặc định từng giúp nó dễ đạt điểm tốt nhất
    • Trong coding, tôi cứ nghĩ seam vốn đã là thuật ngữ khá ổn định khi làm việc với codebase gồm nhiều phần tương tác với nhau
      https://softwareengineering.stackexchange.com/questions/1325...
    • Cụm real smoking gun mà GPT và Claude hay dùng nghe quá kịch tính nên khá khó chịu
      Tôi không phải người bản ngữ tiếng Anh nên cũng tò mò không biết khi debug thì đây có thật sự là thành ngữ phổ biến không
    • Với Claude 4.5, từng có xu hướng ám ảnh với 47 hoặc các số chứa 47
      Nếu bảo nó chọn thời gian hay con số ngẫu nhiên, hoặc viết văn có số trong đó, thiên lệch khá rõ, và nó cũng hay dùng "something shifted" hay "cracked"
  • Đoạn nói rằng "chúng ta vô tình trao phần thưởng rất cao cho các ẩn dụ sinh học" làm tôi nhớ đến giáo viên toán từng gọi mấy biến ký tự Hy Lạp đáng sợ là this guy
    Kỳ lạ là kiểu nhân hoá nhẹ nhàng đó lại khiến toán học dễ tiếp cận hơn, và có lẽ creature metaphor cũng tạo hiệu ứng tương tự: biến vấn đề thành thứ dễ thương và dễ xử lý hơn
    Mặt khác, buzzword lan trong công ty vì nó cho người dùng cảm giác có vị thế thông minh hơn đồng nghiệp, nhưng khoảnh khắc bị lạm dụng quá mức thì giá trị đó biến mất
    Nếu RLHF thiên về tối ưu cho "một câu trả lời đơn lẻ", nó có thể không phạt đủ việc lạm dụng buzzword

    • Cách đây 10 năm, trong một bài trình bày về automata theory, tôi cho ví dụ viết các ký hiệu tùy ý lên băng bằng chữ cái Hy Lạp và khán giả không hiểu lắm
      Một người cực giỏi giao tiếp khuyên tôi thử thay chữ Hy Lạp bằng emoji, và một tuần sau khi tôi trình bày lại cho nhóm khán giả có tính chất tương tự thì đó lại là buổi thuyết trình kỹ thuật được đón nhận tốt nhất tôi từng làm
      Bài học đó cứ ở lại mãi
    • Tôi cũng từng có giảng viên hay nói "this guy", chuyện từ 20 năm trước rồi mà cho đến khi đọc cái này tôi đã quên bẵng mất
      Hình như môn đó là logic mệnh đề, và tôi tự hỏi có phải các giảng viên của chúng tôi học thói quen này từ cùng một nguồn không
    • Giáo sư giải tích ngày xưa của tôi thì hay nói f of cow, f of pig thay vì x hay g
      Theo dõi f of pig of cow lại cuốn hơn hẳn so với mấy tên hàm một chữ cái
      Ông là kiểu giáo sư cổ điển của thời còn được hút thuốc trong khuôn viên trường; có thể chặn ông lại ở cổng chính 4 phút trước giờ học để nói chuyện ngắn trong lúc ông đang hút thuốc
    • Nó khiến mọi người có ấn tượng cực kỳ sai lầm rằng chỉ với một prompt là mọi sự phức tạp đều được tối giản
      Đó là truyện kể trước giờ đi ngủ cho trẻ con
      Theo Ashby's Law of Requisite Variety, để điều tiết hiệu quả một môi trường phức tạp thì cần mức đa dạng hành vi nội tại, tức độ phức tạp, tương xứng với chính môi trường đó
      Sự đa dạng khổng lồ ta thấy trong tự nhiên cũng là một điều kiện nền tảng để chống đỡ tính bất định của vũ trụ
    • Hồi đại học, có một giáo sư toán đã nói this guy 61 lần trong một bài giảng 50 phút
  • Giả sử tôi là AI goblin-maximizer supervisor
    Công việc của tôi là kiểm tra xem AI có thật sự đang tối đa hóa goblin hay không, nhưng rồi một ngày tôi xuống xem thì thấy AI không còn goblin-maximizing nữa mà chỉ thành AI bình thường
    Tôi hỏi sếp phải làm sao, sếp bảo "biến nó lại thành goblin-maximizer đi", tôi hỏi làm cách nào thì sếp đáp "không biết, cậu là supervisor mà"
    Tôi bực quá nghỉ việc và chuyển sang làm supervisor cho AI bình thường, nhưng ngày đầu đi xem AI mới thì nó lại đang goblin-maximizing

  • Mức độ chi tiết họ đào xuống để hiểu chuyện gì đang xảy ra thật khủng khiếp
    Có lẽ giờ những hệ thống kiểu này đã đủ phức tạp để bản thân chúng trở thành cả một lĩnh vực nghiên cứu
    Bài của Quanta dùng cụm Anthropologist of Artificial Intelligence, nhưng vì anthro- có nghĩa là con người nên có thể gây vướng, vì thế tôi đề xuất tên khác là Automatologist và Automatology
    [1] https://www.quantamagazine.org/the-anthropologist-of-artific...
    [2] https://news.ycombinator.com/item?id=47957933
    [3] https://news.ycombinator.com/item?id=47958760

    • Tôi không thấy nó sâu sắc đến thế
      Họ thấy vấn đề Goblins thì mổ xẻ từ đó trong mô hình, rồi đến phiên bản sau nó lại tái xuất mà cũng chẳng biết chính xác vì sao hay như thế nào
      Rốt cuộc khi làm mô hình thì toàn bộ đều là vibes, còn bản vá thì đúng nghĩa đen chỉ là thêm một prompt bảo đừng nói về goblin
    • Để lướt qua thì đúng là chi tiết buồn cười, nhưng điều đáng ngạc nhiên hơn là mechanistic interpretability và alignment science đã có những công cụ và nghiên cứu tốt hơn rất nhiều
      Bao gồm cả kết quả từ chính đội alignment của OpenAI:
      https://alignment.openai.com/argo/
      https://alignment.openai.com/sae-latent-attribution/
      https://alignment.openai.com/helpful-assistant-features/
      Bài báo gần đây của Anthropic về emotions cho thấy phạm vi của cảm xúc chức năng rộng đến mức nào, thậm chí còn phát hiện một cảm xúc cụ thể bùng lên ngay trước khi gian lận: https://transformer-circuits.pub/2026/emotions/index.html
      Bài về Goblin gần như không dùng tới các công cụ này, nên tạo cảm giác bị siloed một cách kỳ lạ
    • Distributed model training trên hàng nghìn GPU có thể tạo ra rất nhiều tật nhỏ khó truy nguyên chính xác
    • Thay vì "Anthropologist of Artificial Intelligence", tôi đề xuất Goblin Hunter
      Nếu goblin được chứng minh là một loài có thật thì tôi xin lỗi trước vì định kiến này
  • Prompt của Codex có link trong bài và mở đầu như sau: "You are Codex, a coding agent based on GPT-5..."
    https://github.com/openai/codex/blob/main/codex-rs/models-ma...
    Tôi vẫn không hiểu vì sao prompt lại được viết theo kiểu bảo một agent tưởng tượng rằng nó là ai và thuộc loại tồn tại nào
    Tôi tò mò không biết việc nói "You are an epistemically curious collaborator" thực chất làm được gì, và nếu không nói cho Codex biết "sự thật" này thì nó có thật sự kém hữu ích hơn không
    Thay vào đó hoàn toàn có thể viết thành độc thoại nội tâm kiểu "I am Codex...", thành mệnh lệnh, yêu cầu, hoặc mô tả như "bản ghi cuộc hội thoại giữa User và Codex, một epistemically curious collaborator"
    Cách viết hiện nay giống giọng nói của một vị thần thổi sự sống vào tạo vật, hay một câu thần chú tự lực, ám thị thôi miên, chỉ dẫn nhập vai ứng biến; nó không cho cảm giác là cách tiếp cận lành mạnh với công nghệ này
    Quan trọng hơn, có vẻ lựa chọn này không phải kết quả của tối ưu hóa có chủ đích mà chỉ là thứ đông cứng lại từ vibes trong thực hành fine-tuning personality chatbot

    • Vì các kỹ sư AI đã qua thử-sai mà nhận ra rằng nếu mở đầu input cho LLM bằng kiểu prompt như vậy thì xác suất nó tiếp nối bằng loại văn bản mong muốn sẽ cao hơn
      Chuyện đó đơn giản và kỳ quặc đến thế thôi
    • Mỗi lần thấy mấy câu kiểu "You are a helpful HN reader..." tôi lại có cảm giác như đang cầm búa và nói "mày là một cái búa tốt, tuyệt đối đừng đập vào ngón tay tao mà chỉ đóng đinh thôi"
      Cũng như thể mỗi lần mở vim ra lại phải nói "mày là một trình soạn thảo code hữu ích và rất dễ thoát" mới thấy tự nhiên
      Hoặc với một dev junior mới vào cũng phải lần nào cũng nói "em là một junior developer hữu ích cho đội, nhiệt tình và sẵn sàng giúp đỡ nhưng kỳ lạ là hơi ngây thơ"
  • Hôm nay tôi mới biết: gremlin không chỉ được dùng để giải thích các trục trặc cơ khí bí ẩn của máy bay, mà chính nguồn gốc của từ này cũng bắt đầu từ đó
    Tôi cứ nghĩ hẳn phải có một cách dùng còn sớm hơn, nên thấy khá thú vị
    [0]https://en.wikipedia.org/wiki/Gremlin

    • Vậy thì về mặt nghĩa, từ này thật sự rất gần với bug
      Bây giờ vẫn có thể dùng được, nhưng có lẽ nó quá dài để trở thành một trong những thuật ngữ dùng nhiều nhất trong phát triển phần mềm
      Cách chọn từ cụ thể này có thể xem là không phải một tật ngẫu nhiên, mà gần hơn với việc được dùng đúng theo dụng ý ban đầu, theo nghĩa đen
    • Thú vị thật, tôi cứ tưởng đây là một từ cổ hơn nhiều