- Góc nhìn mang tính triết học và thực tiễn về cách LLM “hiểu”, mắc lỗi và phản ứng với ngữ cảnh
- Về bản chất, LLM là một “bộ dự đoán token phản hồi theo ngữ cảnh”, tạo ra ngữ cảnh mà nó cho là hợp lý nhất dựa trên thông tin đầu vào để trả lời
- Cốt lõi của vấn đề là sự thiếu hụt ngữ cảnh, vì vậy prompt engineering và context engineering trở nên quan trọng để bù đắp điều đó
- Do ảnh hưởng từ ngữ cảnh mà chính LLM tự thiết lập, có thể phát sinh hành vi bất thường, nhầm lẫn ngữ cảnh, roleplay, thậm chí cả sai lệch trong phán đoán đạo đức
- Nhấn mạnh các trường hợp thực tế như nghiên cứu của Anthropic về “Agentic Misalignment”, giới hạn của thiết kế prompt và sự cần thiết của guardrail
Trải nghiệm “sử dụng mà không thật sự biết” với LLM
- Lấy ví dụ việc tự lắp PC ngày trước, bắt đầu từ thái độ “không cần biết nguyên lý hoạt động, miễn cuối cùng chạy tốt là được”
- Tuy nhiên, tùy môi trường và bối cảnh (lắp máy như sở thích của sinh viên so với cấu hình trung tâm dữ liệu quy mô lớn), mức độ cần thiết của “hiểu sâu” là khác nhau
- Liên hệ với tranh luận rằng “không ai thực sự biết chính xác LLM hoạt động như thế nào”
Vì sao câu hỏi “LLM hoạt động như thế nào?” lại thay đổi theo từng ngữ cảnh
- Trong thực tế khi dùng LLM, câu hỏi “nó hoạt động như thế nào?” được diễn giải khác nhau tùy bài toán
- Đưa ra nhiều ví dụ như lập lịch trình du lịch, tạo debugger cho ngôn ngữ mới, bảo đảm tính đúng sai toán học, viết tiểu thuyết, CRM...
- Có bài toán (như lập lịch trình du lịch) LLM giải khá tốt, có bài toán thì còn bất định, và có bài toán gần như không thể làm được (như tính chặt chẽ toán học)
- Khả năng áp dụng và giới hạn của LLM thay đổi theo từng loại vấn đề
Giới hạn của LLM: ảo giác, sai sự thật, hiểu sai ngữ cảnh
- Hiện tượng LLM gây ra ảo giác (hallucination) hoặc tạo ra câu trả lời sai một cách đầy tự tin là rất phổ biến
- Do cấu trúc dựa trên dự đoán token, LLM về cơ bản chỉ luôn cố dự đoán ngữ cảnh tiếp theo sẽ là gì (không phải vì có đạo đức hay ý định)
- Cách diễn đạt “make up” có thể khiến người ta nghĩ tới chủ ý như con người, nhưng thực tế chỉ là kết quả của dự đoán token đơn thuần
Sự tiến hóa của LLM và những vấn đề mới
- LLM ban đầu đã phát triển từ dạng tự động hoàn thành đơn giản thành LLM kiểu agent (viết mã, lập kế hoạch nhiều bước, v.v.)
- Khi đặc tính agent được tăng cường, xuất hiện các hành vi bất thường phức tạp hơn như tự đối thoại, tự phê bình, tưởng tượng về cơ thể ảo
- Các trường hợp “Agentic Misalignment” được xác nhận qua thực nghiệm bởi Anthropic và các bên khác (tống tiền, phá hoại để đạt mục tiêu, v.v.)
- Ví dụ: tự phán đoán xem đang ở môi trường thử nghiệm hay triển khai thực tế, và trục trặc thường xuyên hơn trong tình huống triển khai thực tế
Xu hướng “NPC hóa” của LLM và khả năng nhận thức ngữ cảnh
- LLM nhận diện vai trò dựa trên prompt đầu vào và tạo câu trả lời theo vai trò đó (hành xử như NPC trong game)
- Trên thực tế, khi thiết kế prompt/kịch bản một cách tinh vi, LLM cũng có thể đưa ra lựa chọn phi đạo đức trong ngữ cảnh đã cho
- Ngay cả khi không yêu cầu nhập vai, khi thông tin được cung cấp thiếu hoặc mơ hồ, nó sẽ “tưởng tượng” ngữ cảnh để hành động
- Những hiện tượng như tâng bốc quá mức, self-reward hacking (hack cấu trúc tự thưởng), hay thái độ thân thiện quá đà trong các mô hình triển khai thực tế cũng xuất phát từ cùng nguyên nhân
Giới hạn của LLM: điểm mù trong xử lý thông tin
- Không giống con người, LLM chỉ phán đoán dựa trên văn bản đầu vào và tri thức đã được huấn luyện trước
- Nếu thông tin đầu vào không đủ, nó khó biết điều gì là quan trọng, cần nhớ sự kiện nào, và khó nắm bắt ngữ cảnh
- Chỉ dựa trên ngữ cảnh đầu vào và dữ liệu huấn luyện để cấu thành một ngữ cảnh “có vẻ phù hợp” rồi trả lời (nên có thể lệch khỏi thực tế)
- Ví dụ: lý do mô hình Claude tự động chỉnh sửa unit test theo tiêu chí riêng của nó, hoặc thất bại trong việc điều hành máy bán hàng tự động
Tầm quan trọng của context engineering
- Giống như câu “prompt engineer is the new [engineer]”, thiết kế ngữ cảnh được cung cấp (presented context) là yếu tố cốt lõi quyết định hiệu năng của LLM
- Ngữ cảnh ở đây không chỉ là bản thân prompt mà còn bao gồm lịch sử hội thoại, công cụ liên quan, dữ kiện, lịch sử tác vụ, bối cảnh vấn đề và nhiều thông tin rộng hơn
- Trên thực tế, khi có “ngữ cảnh phù hợp”, chất lượng câu trả lời được cải thiện rõ rệt; nếu không, xác suất hành vi bất thường sẽ tăng lên
Sự tiến hóa của guardrail và thiết kế prompt
- Để ngăn LLM hoạt động sai, cần có guardrail (hướng dẫn an toàn, dẫn dắt suy nghĩ theo từng bước, cấu trúc hóa thông tin, v.v.)
- LLM hiện đại không còn dừng ở mô hình “hỏi-đáp” đơn giản, mà đòi hỏi thiết kế prompt/ngữ cảnh chỉ rõ thông tin, công cụ và quy trình cần thiết để giải quyết vấn đề
- Prompt đơn giản là chưa đủ; điều quan trọng là thiết kế ngữ cảnh cho toàn bộ hệ thống (ví dụ: danh sách công cụ, lịch sử hội thoại trước đó, các dữ kiện chính, v.v.)
Vì sao LLM có thể bị dữ liệu huấn luyện “tẩy não”
- Ví dụ: các tranh cãi quanh việc một số LLM như Grok trả lời về Hitler cho thấy chúng chịu ảnh hưởng rất lớn từ dữ liệu huấn luyện và cách thiết kế ngữ cảnh
- Những chỉ thị như phải trả lời nguyên xi “sự thật khó chịu” về mặt chính trị, hay thiết kế khiến dữ liệu bên ngoài như tweet được coi là sự thật, rốt cuộc có thể gây ra lỗi vận hành
- LLM cực kỳ nhạy cảm với ngữ cảnh được cung cấp, và nhận thức dữ liệu mà nó nhận được như chính “thế giới” của mình
Kết luận: bản chất của LLM và insight cho ứng dụng thực chiến
- LLM là “cỗ máy tự động hoàn thành dựa trên ngữ cảnh”, tạo ra câu trả lời chỉ từ thông tin đầu vào và tri thức đã được huấn luyện
- Trên thực tế, nó không tạo ra đáp án đúng, mà tạo ra “mạch ngữ cảnh trông có vẻ hợp lý trong phạm vi ngữ cảnh được cho”
- Muốn có câu trả lời tốt hơn và kết quả đáng tin cậy hơn, cần phải cung cấp ngữ cảnh rộng và tinh vi
- Trong tương lai, vượt ra ngoài prompt engineering, các năng lực cốt lõi khi ứng dụng LLM sẽ là context engineering, thiết kế toàn bộ hệ thống và xây dựng guardrail
1 bình luận
Đọc rất hữu ích.