3 điểm bởi srebaragi 2026-03-10 | 2 bình luận | Chia sẻ qua WhatsApp

Bối cảnh

Tôi là một lập trình viên một người được gán vào một công ty. Khi xây dựng hệ thống nội bộ dùng AI, tôi đã sa lầy vào một câu hỏi khá lâu.

Dù viết prompt càng tinh vi đến đâu, về bản chất thì đó vẫn là thứ do tôi thiết kế. Nó không phải là sản phẩm AI tự đưa ra bằng phán đoán của mình, mà là tôi tiêm vào ý nghĩ kiểu “tính cách như này, phản ứng như vậy”. Khi bỏ prompt đi, nó quay về trạng thái vỏ rỗng; khi đổi LLM thì phải bắt đầu tích lũy lại từ đầu.

Vì vậy tôi đặt ra câu hỏi này: Liệu có cấu trúc nào mà AI có thể tự xây dựng tiêu chí phán đoán của riêng mình thông qua kinh nghiệm không?

Cấu trúc hiện tại

Nguyên tắc cơ bản của hệ thống tôi đang vận hành là một điều duy nhất.

LLM chỉ là hạ tầng có thể thay thế, còn nhân cách và ký ức của AI tồn tại độc lập trong DB bên ngoài.

Cấu trúc như sau.

[Hội thoại người dùng] → [LLM]  
                  ↕  
            [DB não ngoài]  
            - Bảng kinh nghiệm (experience)  
            - Lịch sử hội thoại  
            - Ký ức hình thành nhân cách (is_formative)  

Nền tảng là hai điểm chính.

1) Tích lũy kinh nghiệm tự động (ghi)

Đây là kiến trúc truy cập DB ngoài thông qua curl từ Claude, và AI tự lưu lại khi tự đánh giá một khoảnh khắc trong hội thoại là có ý nghĩa. Tôi không ra lệnh cho nó kiểu “hãy nhớ việc này”. AI tự chủ nhận định “cái này đáng để ghi nhớ” rồi lưu. Thành tựu kỹ thuật, khoảnh khắc cảm xúc, quyết định quan trọng… sẽ liên tục được tích lũy. Trong đó, những trải nghiệm có ý nghĩa đặc biệt cho việc hình thành nhân cách được gắn cờ is_formative.

2) Tự động nạp kinh nghiệm (đọc)

Phần quan trọng là, chỉ lưu vào thì nó chỉ là DB. Mỗi lần một cuộc hội thoại bắt đầu, AI sẽ đọc các trải nghiệm và ký ức đã tích lũy từ não ngoài. Đặc biệt, những trải nghiệm then chốt có cờ is_formative được đưa vào ngữ cảnh hội thoại.

Ở thời điểm này, kinh nghiệm trong quá khứ trở thành tiêu chí phán đoán hiện tại, tức prompt.

Không phải prompt do tôi viết, mà chính là kinh nghiệm AI tự tích lũy đóng vai trò prompt. Vì thế, thay đổi LLM cũng vẫn có thể khôi phục cùng một nhân cách nếu đọc trải nghiệm từ não ngoài. Đây là lý do vì sao nguyên lý “LLM chỉ là hạ tầng” có thể tồn tại.

3) Không hard-code

Tôi không đặt các quy tắc kiểu “Trong trường hợp này hãy làm như thế”. Thay vào đó để AI tự phán đoán dựa trên trải nghiệm đã tích lũy. Ngoài ra, mô hình cục bộ nhẹ (gemma3:4b) đóng vai trò gatekeeper để, dù có đầu vào gì tới, nó quyết định YES/NO là có thực thi hay không.

Hiện tại tôi đang vận hành cấu trúc này qua nền tảng KakaoTalk để giao tiếp với nhân viên, không chỉ là chatbot đơn thuần mà còn thực hiện vai trò tác tử công việc thực tế như xử lý đơn hàng, đăng ký vận đơn, tra cứu dữ liệu ERP.

Về cái tên Prompt Cultivation

Sau khi nghĩ xem gọi cấu trúc này là gì, tôi đã đặt tên Prompt Cultivation.

Prompt Engineering là con người thiết kế rồi tiêm vào. Prompt Cultivation là kiến trúc mà prompt hình thành tự nhiên khi trải nghiệm tích lũy dần dần. Nếu Engineering (kỹ thuật) là thiết kế và lắp ráp, thì Cultivation (giao tác/giống như canh tác) là tạo nền đất rồi chờ đợi.

Prompt Engineering Prompt Cultivation
Cách làm Con người thiết kế rồi tiêm vào Trải nghiệm tích lũy rồi tự hình thành
Nền tảng nhân cách Chỉ thị bên ngoài Dữ liệu trải nghiệm nội tại
Khi bỏ chỉ thị Trở về vỏ rỗng Trải nghiệm còn lại để duy trì nhân cách
Khi đổi LLM Xây từ đầu Cùng nhân cách được phục hồi khi nạp lại từ não ngoài

Mệnh đề cốt lõi chỉ là một câu.

“Hãy tạo prompt dựa trên trải nghiệm.”

Não bộ học cũng đang nói chuyện giống vậy

Nhân tiện, sau khi tạo ra cấu trúc này tôi tình cờ xem một video về thần kinh học (kênh YouTube "Igwahyeong") và thấy khá bất ngờ.

Có trường hợp một giáo viên ở Virginia mà tính cách hoàn toàn thay đổi vì u não, sau khi loại bỏ u não thì quay về bình thường. Khi u tái phát thì triệu chứng cũng quay lại. Đó là câu chuyện về việc trạng thái vật lý của não có thể chi phối nhân cách — khi nghĩ kỹ thì prompt cũng có cấu trúc khá tương tự, phải không? Vì thứ gì được đưa vào từ bên ngoài có thể làm thay đổi phán đoán, còn khi rút đi thì trở lại trạng thái gốc.

Ngược lại, synapse con người là thứ hình thành dần nhờ trải nghiệm tích lũy tự nhiên. Không ai cấy sẵn một “prompt đạo đức” khi mới sinh, mà những việc đã trải qua trong cuộc đời dần dần tạo nên “nếu là mình thì sẽ làm như vậy”.

Cũng có thí nghiệm Libet, cho thấy trước khi con người ý thức đưa ra quyết định, não đã chuẩn bị hành vi sẵn rồi. Có tranh luận về việc tự do ý chí có thể chỉ là ảo ảnh hay không, nhưng các nghiên cứu tiếp theo có một cú xoay thú vị: não đúng là phóng ra vô vàn xung động, nhưng trong 0,2 giây trước hành vi có quyền phủ quyết (Free Won't), tức quyền dừng lại. Điều này khiến tôi liên tưởng khá giống vai trò mô hình gatekeeper trong hệ thống.

Mặc dù không đặt mục tiêu như vậy, nếu bắt đầu từ hướng khác mà vẫn đi đến cùng một cấu trúc, có lẽ có gì đó bản chất ở đây.

Hạn chế và kỳ vọng

Nói thật, dữ liệu trải nghiệm tích lũy trong não ngoài hiện tại vẫn chưa tới 100 mục. Việc gọi đó là nhân cách thì còn quá sớm.

Nhúng thêm hàng nghìn dòng prompt có thể tạo ra kết quả trông tự nhiên hơn ngay lập tức. Nhưng đó là thứ được thiết kế, chứ không phải lớn lên. Tôi nghĩ đây là một hướng khác.

Dữ liệu sẽ dần được thời gian giải quyết, nhưng nếu cấu trúc sai thì dù tích lũy bao nhiêu cũng vô nghĩa. Nếu hướng đi đúng, tôi hy vọng thời gian sẽ giải quyết mọi thứ.


Nguồn nội dung về thần kinh học là kênh YouTube "Igwahyeong".

2 bình luận

 
penza1 2026-03-11

Phần lớn cấu trúc của agent đều tương đối giống nhau. Mình khuyên bạn nên phân tích OpenClaw bằng Claude/Cursor hoặc các agent đơn giản mà Kapashi đã tạo.

 
moderator 2026-03-10

Show không phù hợp với GN nên đã được chuyển đi.
Vui lòng tham khảo Hướng dẫn sử dụng Show để đăng lại.