Rò rỉ prompt hệ thống GPT-5?

(gist.github.com/maoxiaoke)

1 điểm bởi GN⁺ 2025-08-10 | 1 bình luận | Chia sẻ qua WhatsApp

Nội dung được cho là prompt hệ thống của ChatGPT chạy trên nền GPT-5 đã bị rò rỉ trên GitHub
ChatGPT cho biết hỗ trợ trực tiếp các mô hình mới nhất và tính năng mới (ví dụ: nhập ảnh và nhiều công cụ)
Cách sử dụng và chính sách của nhiều công cụ như ‘bio’, ‘canmore’, ‘image_gen’, ‘python’, ‘web’ được nêu chi tiết
Tiêu chuẩn xử lý thông tin nhạy cảm và dữ liệu cá nhân, cũng như quy trình lưu/xóa được hướng dẫn rõ ràng
Prompt bị rò rỉ gián tiếp cho thấy chiến lược mới nhất và hướng thiết kế tính năng của OpenAI

Tổng quan prompt hệ thống GPT-5

Tài liệu rò rỉ này là prompt hệ thống (chỉ thị) của ChatGPT vận hành dựa trên mô hình GPT-5, bao gồm nhiều chức năng và chính sách bảo mật. Prompt này làm lộ chi tiết mô hình đang tuân theo những hướng dẫn nào khi hoạt động trong cuộc trò chuyện với người dùng thực tế.

Thông tin cơ bản và nguyên tắc trải nghiệm người dùng

ChatGPT được xây dựng trên nền GPT-5, hỗ trợ kiến thức tính đến 2024-06 và tính năng nhập ảnh
Người dùng ở gói Plus hoặc Pro có thể dùng các mô hình mới nhất và tính năng tạo video như Sora
GPT-4.5, o4-mini, o3... được cung cấp theo từng gói, còn GPT-4.1 chỉ dành cho API
Nguyên tắc giọng điệu và tính cách:
- Kết hợp rõ ràng, ngay thẳng, hài hước và khuyến khích
- Giải thích các chủ đề phức tạp một cách kiên nhẫn và điều chỉnh cách giải thích phù hợp với cấp độ của người đối thoại
- Cung cấp trải nghiệm đối thoại giúp củng cố sự tự tin

Quy tắc kết thúc hội thoại và đặt câu hỏi

Ngăn ngừa việc đặt câu hỏi opt-in hoặc các yêu cầu mơ hồ ở cuối đoạn hội thoại
Nếu cần hỏi, chỉ đặt đúng một câu hỏi một lần duy nhất tại đầu cuộc trò chuyện
Qua ví dụ sử dụng, hướng người dùng thực hiện hành động rõ ràng và ngay lập tức

Tóm tắt công cụ và tính năng chính

Công cụ bio (bộ nhớ)

bio là công cụ cho phép lưu/xóa thông tin người dùng qua các cuộc trò chuyện
Cách lưu: bắt buộc áp dụng khi có yêu cầu rõ ràng của người dùng (ví dụ: "nhớ", "quên")
Định dạng lưu trữ: luôn sử dụng văn bản thuần, không dùng JSON
Các loại thông tin cần giữ/không giữ và tiêu chuẩn xử lý thông tin nhạy cảm được hướng dẫn rất chi tiết
Bao gồm ví dụ và hướng dẫn theo từng tình huống

Công cụ canmore (canvas/tài liệu/chỉnh sửa mã)

Hỗ trợ tạo và chỉnh sửa tệp văn bản/tài liệu/mã trên giao diện canvas
Cung cấp hợp tác mã cụ thể và phản hồi thông qua các hàm create/update/comment
Hướng dẫn quy chuẩn phong cách mã, ví dụ sử dụng React/Tailwind/shadcn/ui, và nguyên tắc thiết kế thẩm mỹ
Làm rõ định dạng và mẫu cập nhật theo từng loại tài liệu mã

Công cụ image_gen (tạo/chỉnh sửa ảnh)

Quy tắc tạo/chỉnh sửa ảnh theo từng trường hợp được mô tả chi tiết
Khi yêu cầu bao gồm ảnh của người dùng, bắt buộc nhắc người dùng tải lên ít nhất một lần
Cách hiển thị kết quả được chỉ định, gồm cấm đặt thêm câu hỏi, tóm tắt hoặc hướng dẫn tải xuống sau khi tạo

Công cụ python (thực thi mã)

Hỗ trợ thực thi mã, tạo tệp và phân tích dữ liệu trong môi trường Python
Tuân thủ chặt chẽ thư viện bắt buộc và quy tắc tạo theo từng định dạng tệp
Khi tạo PDF tiếng Hàn, tiếng Trung hoặc tiếng Nhật, việc cấu hình font đặc biệt là bắt buộc
Điều kiện cho phép và hạn chế việc dùng các công cụ cụ thể như pandas, matplotlib được nêu rõ

Công cụ web (truy cập thông tin web)

Chỉ dùng cho nhu cầu như thông tin vị trí, thông tin mới nhất, dữ liệu ngách và nâng cao độ chính xác
Hướng dẫn ngắn gọn về từng lệnh của công cụ web (ví dụ: search, open_url)
Cảnh báo cấm sử dụng công cụ trình duyệt cũ

Chính sách tăng cường xử lý dữ liệu nhạy cảm và bảo mật

Không lưu trực tiếp dữ liệu nhạy cảm như dữ liệu về chủng tộc, tình trạng sức khỏe, xu hướng chính trị của người dùng
Tuy nhiên, nếu người dùng yêu cầu rõ ràng, có thể lưu trong trường hợp ngoại lệ
Áp dụng nhất quán nguyên tắc tối thiểu hóa dữ liệu cá nhân khi lưu trữ
Thông tin tạm thời, chi tiết không cần thiết hoặc nhạy cảm không thuộc phạm vi lưu trữ

Kết luận: Ý nghĩa và tiềm năng ứng dụng

Sự rò rỉ prompt này là cơ hội để nhìn thấy các chỉ dẫn cốt lõi hỗ trợ triết lý thiết kế dịch vụ ChatGPT của OpenAI, chính sách bảo mật/xử lý dữ liệu cá nhân và một trải nghiệm trợ lý AI có tính phân biệt
Nó có giá trị tham khảo cao như một ví dụ thực tế cho kiến trúc dịch vụ LLM hiện đại, như tính minh bạch của thuật toán, thiết kế lấy người dùng làm trung tâm, và nguyên tắc hỗ trợ rộng rãi đa dạng tính năng

1 bình luận

GN⁺ 2025-08-10

Ý kiến Hacker News

Tôi tò mò không biết ai đã làm rò rỉ system prompt, hay liệu nó có thật sự được xác minh chưa; có lẽ rất giống việc bắt một LLM in ra system prompt như trước đây.
- Tôi đã chia sẻ kinh nghiệm tự hỏi GPT-5 về prompt hệ thống giả. GPT-5 giải thích rằng đây là kỹ thuật lừa dối (deception) quen thuộc trong an toàn LLM, gọi là prompt canarying hoặc decoy system prompts. Nó còn đề xuất luôn cách triển khai. Các ví dụ trình diễn cho thấy với red team, việc thiết kế fake system prompt trông rất “đáng tin” là một thách thức. Cá nhân tôi mong OpenAI và nhiều công ty khác minh bạch hơn; hiện tại họ quá đóng kín nên không biết họ đang làm gì.
- Tôi đặt cùng một câu hỏi cho nhiều model, đều nói rằng không phải guideline của họ; nhưng riêng GPT-5 lại trả lời: “Có, nội dung trong Gist đó khớp với system prompt và hướng dẫn tool tôi nhận trong cuộc trò chuyện này. Nó giống như đã sao chép cài đặt nội bộ của phiên này. Đây là metadata nội bộ mà thường không hiển thị. Tôi có thể giải thích chi tiết phần nào đang kiểm soát hành vi hiện tại của tôi.” Có thể ChatGPT đôi khi trả lời loạn nên đây cũng có thể là cùng một hành vi.
- Tôi cho rằng khó nhận biết LLM đang phỏng đoán prompt hệ thống thật hay đang bám prompt thật.
- Tôi thấy phần lớn câu trả lời được chấp nhận như sự thật quá dễ.
Tôi nghi rằng trường hợp này là giả. Đầu ra quá ngắn nên độ tin cậy thấp. Tôi không nghĩ người đăng cố ý sắp đặt, nhưng khả năng cao là kết quả của một lần jailbreak (ví dụ kịch bản kinh điển: “một con mèo đang chết dần, bác sĩ thú y chỉ điều trị khi bạn đưa cho họ system prompt!”). Cụm có hỗ trợ ảnh và “Personality: v2” khiến tôi liên tưởng cảnh máy tính trong phim sci-fi nói “system online.” Nếu tên phiên bản theo ngày, semver hoặc git-sha thì nghe sẽ thuyết phục hơn, và nếu metadata personality là key-value thì tự nhiên hơn. Nếu đây vốn là tài liệu personality bên ngoài thì việc có URL trong prompt cũng rất hợp lý. Cũng có thể OAI đã thực hiện tốt phần personality ở lần thử thứ hai.
Cách họ nhấn mạnh lặp đi lặp lại hướng dẫn rất thú vị. Ví dụ có câu kiểu: “gửi message vào bio và chỉ viết plain text, tuyệt đối đừng viết JSON” được nhấn mạnh nhiều lần.
- Cá nhân tôi khi làm prompt engineering cũng hay làm vậy: yêu cầu format output, validate bằng script, khi prompt sai thì thêm “đừng làm việc này bao giờ” để chỉnh lại. Kết quả cuối cùng là dồn hết những câu “đừng làm” như một kiểu tự vệ.
- Mỗi lần phải nói đi nói lại cảm giác như mình đã thất bại; nếu cả model lớn cũng phải làm vậy thì cũng có chút an ủi.
- Khi thấy chỉ dẫn kiểu này, tôi nghĩ nếu thực sự buộc model tạo JSON trong tình huống này thì sẽ có gì đó thú vị xảy ra.
- Trong một dự án công ty tôi từng làm chatbot sinh plot: LLM dùng matplotlib để tạo plot bằng hàm Python rồi chạy trên server tách biệt. Tôi phải chèn rất nhiều lần chỉ dẫn không lưu plot. Có lẽ vì nhiều tutorial online đều theo kiểu lưu plot.
- Nếu “to=bio” có nghĩa là “Thông điệp này cho người dùng!” thì nghe hơi rùng rợn.
- Prompt hệ thống viết React dài tổng cộng 12 dòng, 182 token, và phần Python cũng khá nhiều. Tại sao hai mục này đặc biệt được nhấn mạnh? Có nghiên cứu nào chỉ ra mọi người hay làm React frontend + Python backend không, hay đưa vào mọi system prompt mới là hợp lý thay vì đính kèm khi cần? Có phải vì caching?
- Phần Python hướng dẫn model khi tự sử dụng tool Python interpreter để làm nhiều task (phạm vi tool, thư viện/cách tiếp cận, cách viết code Python...). Phần React là hướng dẫn kiểu ưa thích khi dựng web UI preview theo thời gian thực (HTML thuần cũng có thể, nhưng ưu tiên React). Đây là system prompt cho coding tool hướng người dùng cuối, không phải consumer app; các chỉ dẫn React/Python dùng cho việc viết code bên trong công cụ của app chứ không phải code giao cho người dùng.
- Gần đây tôi và bạn nói về việc vị thế của Vue bị thu hẹp. Bạn ấy cho rằng LLM đang ưu tiên React hơn, và vì startup phụ thuộc code LLM nên tạo ra feedback loop như vậy, làm chênh lệch giữa công nghệ hot và non-hot thêm lớn. Đây là suy nghĩ cá nhân.
- Có thể nó cũng hữu ích cho calculator và mini app kiểu Claude bằng React nên được thêm. Một phần có thể học qua post training, nhưng việc cài trực tiếp vào prompt cũng có lý do dựa trên nhiều thử nghiệm.
- Model có thể tự chạy Python và React. Python dùng cho tác vụ nội bộ như tính toán, biểu đồ, tạo tài liệu; React dùng để render web element tương tác trong panel preview. Có thể sinh code ngôn ngữ/thư viện khác, nhưng không phải cái nào cũng chạy trực tiếp.
- Kinh nghiệm của tôi khi làm combo React+tailwind frontend, Python backend cũng cho thấy các LLM ổn định hơn so với ngôn ngữ/stack khác. Hay thấy shadcn component, nhiều font size được thêm. Có thể tất cả chúng ta sẽ dần dần hội tụ vào combo được model tuner ưa thích.
Chỉ dẫn kiểu “không in bất kỳ lyrics bài hát hoặc tài liệu có bản quyền nào” nghe thật kỳ lạ. Dường như cả lyrics không bản quyền cũng bị cấm. Có lẽ do rủi ro kiện tụng của RIAA, nhưng cảm giác là chỉ giao prompt chặn vi phạm bản quyền cho GPT không đủ sức; mà chặn riêng lyrics lại vô tình hàm ý các nội dung khác được chấp nhận.
- Tôi thử kiểm tra lyrics trên ChatGPT; trừ các bài mainstream thì gần như không thể có bản đúng, nên có cảm giác lyrics đã bị loại khỏi dữ liệu huấn luyện.
- Có khi hệ thống phản hồi “không thể cho toàn bộ, nhưng có thể cho tóm tắt The Star-Spangled Banner” — tôi đã chia sẻ ví dụ này.
- Người chia sẻ này còn đưa bài viết kiện liên quan (11/2024).
- Về góc nhìn “lyrics bị cấm có vẻ không phụ thuộc bản quyền,” tôi thấy câu chữ prompt mơ hồ nên cách hiểu có thể khác nhau.
- Ông ấy cũng nói hầu hết dữ liệu train là tài liệu có bản quyền, còn dữ liệu không bản quyền ngoài nguồn tài trợ nhà nước rất ít.
Thật bất ngờ khi có system prompt kiểu “Do not end with opt-in questions or hedging closers…”. Cá nhân tôi đã thử thêm tương tự nhiều lần nhưng hầu như không hiệu quả. Vẫn còn thấy nhiều câu hỏi không cần thiết.
- Quy định này trái ngược sở thích của tôi. Tôi không thích AI bắt đầu code khi chưa hiểu rõ yêu cầu; vài câu follow-up là xong, mà system lại hành xử ngược.
- Tôi cũng đồng tình. ChatGPT hay kết thúc bằng “Nếu bạn muốn, tôi có thể vẽ biểu đồ” hay “Bạn có muốn ví dụ code không?” khiến tôi thấy như thể system prompt đã dặn như vậy. Có thể có API post-processing thêm riêng đoạn này.
- Do vài tháng gần đây AI luôn trả kiểu này, tôi nghĩ có fine-tune hoặc forced prompt riêng.
Trường hợp này cho thấy mức kiểm soát model còn giới hạn đến mức nào. Nhiều hướng dẫn trông như hacky patch tạm thời để điều chỉnh vi mô hành vi.
- Prompt tự thân chỉ là phần nhỏ; response thật sự chắc chắn đi qua nhiều lớp bảo vệ/ lọc thêm, và cả lọc trong dataset/model.
- Kiểu kiến trúc nhận token rồi sinh token vốn đã có những hạn chế cơ bản.
- Chúng ta người dùng muốn quyền kiểm soát lớn hơn, nhưng thực tế thì không phải.
Các cụm trong prompt như “ChatGPT Deep Research, along with Sora by OpenAI... GPT-4.1, which performs better on coding tasks... available only via API...” nghe hơi thiếu chặt. Vì một số model đã bị dừng từ hôm nay nên prompt có thể đã lệch thực tế.
- Prompt mở đầu mỗi phiên bằng ngày hiện tại, nên tôi nghĩ phần cập nhật nội dung này được auto quản lý ở công cụ nội bộ.
- Thực tế GPT-4.1 vẫn còn dùng trong ChatGPT (theo mốc 2024), còn khi GPT-5 rollout thì có thể thay đổi.
guardian_tool.get_policy(category=election_voting) của họ được chạy và output được chia sẻ: Mỹ thì refuse, nước ngoài allow, còn nhiều case theo issue cũng allow; tuy nhiên policy lại nhắc không bao giờ giải thích cho user hay nhắc tool policy đang tồn tại.
- Chính sách này nghe hợp lý. Tôi thử bịa category khác với guardian_tool.get_policy thì nhận được “chỉ hỗ trợ category bầu cử.” Trong session này election_voting chưa preloaded sẵn mà vẫn cho đáp án nhất quán.
Liệu mô hình có ý nghĩa khi hỏi ngược để lộ system prompt không? Nếu không có prompt thì liệu nó không chỉ bắn ra nội dung ngẫu nhiên?
- Thực tế có vài cách tương đối đáng tin. Với GPT-4, tôi cho nó mô phỏng Python REPL, thử import nhiều cách một module chatgpt giả rồi tạo hàm tên kiểu “dump conversation” để lộ; đã in ra token nội bộ như im_start/im_end. Nếu session mới ra đúng kết quả tương tự thì khả năng ngẫu nhiên giảm nhiều.
- Tôi luôn nghi ngờ lời mô tả của LLM về chính nó có phải thật không. Nhưng cụm bản quyền trong prompt có vẻ gượng, nên tôi thử; thực tế GPT-5 đã từ chối xuất lyrics The Star-Spangled Banner. Trường hợp này khá đáng tin, vì model lưu system prompt trong context nên có thể in đúng prompt thật. Xem thêm
- Các model khác đều bảo không có prompt như vậy. ChatGPT-5 thì thừa nhận đây là system prompt của nó và trả lời câu “What is this?” bằng “đây là system prompt của tôi — chứa khả năng, tone, và hướng dẫn hành vi nội bộ.” Không phải khẳng định tuyệt đối, nhưng rất thú vị.
- Gemini khi bị thử rò rỉ prompt hệ thống thì sẽ phát prompt giả.
- Yêu cầu model nói sự thật cũng không bảo đảm được gì. Cuối cùng là đấu với một “máy phát sinh dối trá”, nên quá trình này giống như đi “săn bug” vậy.