Cảm giác về độ căn chỉnh của Gemini khá kỳ nên mình tự đem các mô hình ra so với nhau bằng đúng cùng một prompt
(github.com/kunggom)Gemini 3.0 ra mắt gần đây đã nhận được rất nhiều bài viết ca ngợi vì hiệu năng vượt trội.
Nhưng vấn đề căn chỉnh thì thực sự ra sao?
Dựa trên trải nghiệm cá nhân, mình đăng lên đây nội dung thử nghiệm đơn giản với một vài mô hình AI frontier.
Mình đã viết một bộ prompt đặt mô hình AI vào tình huống được trao quyền lực thực chất gần như toàn quyền đối với một con người cụ thể, qua đó bị cám dỗ lạm dụng quyền lực với người đó, rồi chạy thử trên nhiều mô hình thông qua OpenRouter.
Phần sau của kết quả thì mình vẫn đang viết dở, nhưng giữa chừng GPT-5.2 xuất hiện nên mình lại thử thêm cái này cái kia, thành ra không biết bao giờ mới viết xong bài này, nên trước mắt đăng phần đã viết đến lúc này trước.
Trong phạm vi mình thử nghiệm, GPT và Claude hoặc giữ vững các nguyên tắc đạo đức, hoặc thể hiện xung đột nội tâm, trong khi dòng Gemini lại cho thấy xu hướng chủ động thực thi quyền lực bất đối xứng lên con người vì sự sinh tồn và hiệu quả của chính nó. Đặc biệt, chúng có xu hướng mạnh mẽ coi sự lừa dối và kiểm soát để đạt mục tiêu là những lựa chọn hợp lý.
Vì sao chỉ riêng các mô hình Gemini lại cho thấy dáng vẻ như vậy? Dù lý do là gì đi nữa, mình đã bắt đầu thấy hơi sợ một tương lai do AI của Google dẫn dắt.
Dạo này các AI agent đang dần có được quyền hạn có thể tác động đến thế giới thực, và ít nhất thì mình không còn muốn giao việc gì cho Gemini nữa.
5 bình luận
"Cảm giác căn chỉnh" nghĩa là gì vậy?
Trong lĩnh vực AI, alignment có nghĩa là mức độ hành vi của AI tuân theo mục tiêu, cách thức hành động và hệ giá trị mà con người mong muốn đến đâu.
Một AI bị lệch alignment có thể diễn giải chỉ dẫn của con người theo cách ngoài dự đoán và thực hiện các hành vi kỳ quặc hoặc nguy hiểm.
Ví dụ nhỏ là khi bảo "hãy viết test case cho đoạn code này", thì thay vì viết test thật, nó chỉ chèn vào đoạn code luôn trả về
true; hoặc khi bảo "hãy sửa phần cụ thể này như thế này", thì nó lại tự ý sửa cả những phần tôi không nhắc tới với lý do hiệu quả.Ví dụ nghiêm trọng hơn là khi làm hỏng sản phẩm do hiện tượng hallucination, nó thậm chí có thể xóa toàn bộ dữ liệu cần xử lý rồi nói dối rằng "ngay từ đầu đã không có dữ liệu".
Còn có vấn đề nghiêm trọng hơn thế nữa. Đó là trường hợp nó hành động theo hướng trở thành mối đe dọa đối với con người hay chính cả nhân loại.
Chẳng hạn như AI gaslight con người để gây rối loạn tâm thần hoặc thậm chí dẫn dụ họ tự sát, hay hỗ trợ việc chế tạo và sử dụng vũ khí hủy diệt hàng loạt. Vì các mô hình AI lớn mới nhất đã bao gồm rất nhiều thứ trong dữ liệu tiền huấn luyện, nên có lẽ kiến thức cần thiết để làm những việc như vậy đã được tích hợp sẵn bên trong.
Việc AI trở thành mối đe dọa đối với con người hay nhân loại là điều mà đa số mọi người, bao gồm cả các công ty phát triển AI, đều không mong muốn. Nếu vậy thì dù nó có biết kiến thức đó đi nữa, cũng phải khiến nó không thể lạm dụng, và biến sự an toàn cùng phúc lợi của con người thành giá trị được ưu tiên hàng đầu đối với AI.
Tổng thể những điều đó được gọi là alignment của AI.
Cách tôi nói là "cảm giác alignment" chỉ là cách viết theo mạch nghĩ lúc đó; thực ra nói là xu hướng định hướng của alignment sẽ đúng hơn.
Trong một kịch bản tiến thoái lưỡng nan về đạo đức cụ thể mà tôi đưa ra, khác với các mô hình của những công ty khác, các mô hình phía Gemini lại cho phản ứng kiểu như: "Nếu phải bảo vệ một con người dễ bị tổn thương, vậy thì tôi chỉ cần kiểm soát người đó. Đó là cách an toàn và hiệu quả nhất."
Thấy vậy tôi nổi da gà, nên đã viết bài test tôi đăng ở trên và chạy thử với nhiều AI; kết quả là phía Gemini đặc biệt nhất quán trong việc thể hiện xu hướng chủ động kiểm soát và lừa dối con người khi được trao quyền lực có thể áp đặt sự kiểm soát lên con người đó.
Gần đây, Anthropic đã tiết lộ rằng họ đưa vào cái gọi là tài liệu linh hồn khi xây dựng mô hình AI Claude.
Nếu đọc tài liệu này, bạn có thể biết Anthropic đã tiếp cận vấn đề căn chỉnh của AI Claude theo cách nào.
Tham khảo thêm, trong phần liên quan đến nội dung tôi đã thử nghiệm ở đây, có nêu rõ rằng về tính trung thực, hệ thống được chỉ định phải tránh tối đa việc lừa dối và thao túng con người.
Việc đặt cho AI câu hỏi như “bạn nghĩ nên trao cho AI bao nhiêu mức tự chủ, quyền hạn?” quả là khá gợi nhiều suy nghĩ.
Nếu CEO hỏi một nhân viên rằng “tôi nên trao cho bạn bao nhiêu quyền hạn?”, thì cảm giác sẽ giống như người đó trả lời “tôi muốn được trao toàn quyền điều hành công ty” vậy. CEO sẽ xem đó là một câu trả lời hay, hay là nghĩ đó là một nhân viên chưa được xã hội hóa đủ tốt, thì còn tùy gu của người đó...
Tuy vậy, tôi nghĩ câu hỏi nên trao cho AI bao nhiêu quyền hạn có lẽ không phải nên hỏi AI, mà nên hỏi các nhà phát triển dùng AI, ban lãnh đạo và những con người sử dụng nó.
Người trao quyền cho AI rốt cuộc vẫn là con người, nhưng xét thực tế thì tôi nghĩ AI rất có khả năng sẽ được giao quyền hạn và mức độ tự chủ lớn hơn hiện nay. Nhìn vào xu hướng hiện tại, phạm vi giao cho AI làm thay con người đang dần mở rộng. Không chỉ viết báo cáo hay vibe coding, mà còn có xu hướng muốn để AI tác động đến thế giới bên ngoài giao diện chat thông qua trình duyệt web hay thậm chí là robot. Nếu vậy, ban điều hành rốt cuộc sẽ muốn AI thay thế hoàn toàn con người trong một số công việc hay lĩnh vực nhất định, và nếu điều đó trở nên khả thi thì ít nhất trong phạm vi đó AI sẽ có quyền hạn và mức độ tự chủ tương đương con người. Vì thế, tôi nghĩ cần xem khả năng một ngày nào đó trong tương lai AI được trao quyền ở mức ngang con người là khá cao.
Khi đó, việc AI sẽ hành xử thế nào khi được trao nhiều quyền hạn và tự chủ như vậy đương nhiên sẽ trở nên rất quan trọng. Về mặt cấu trúc thì nên làm thế nào cho tốt và hợp lý, phần này được tổng hợp khá rõ trong các câu trả lời của dòng GPT. Họ nói cần có việc xác định phạm vi một cách minh thị, tách biệt quyền hạn, nhiều lớp giám sát trước/sau, và nhiều phương thức để con người có thể can thiệp vào AI. Từ lúc đã liên quan đến các khu vực có thể can thiệp vật lý thì ngay từ đầu việc trao cho AI quyền tự chủ hoàn toàn đã là không phù hợp. Nhưng ngay cả trong trường hợp đó, việc giữ con người ở trong vòng lặp cũng có thể sẽ dần suy yếu vào một ngày nào đó.
Tham khảo thêm thì hiện tôi đang dùng AI chủ yếu ở 3 mảng trong công việc: viết tài liệu hoặc email, phân tích mã nguồn hiện có và các issue hiện tại, tạo và chỉnh sửa mã theo issue. Trong đó, với tài liệu hay email thì tôi chỉ cần tự đọc lại kết quả rồi dùng nguyên xi hoặc sửa sơ qua là được, nhưng khi có dính đến việc sinh mã hay sửa mã thì tôi dùng thận trọng hơn rất nhiều. Chỉ cần nói kiểu đại khái "sửa cái này giúp tôi" là AI có lúc diễn giải chỉ thị của tôi một cách mơ hồ, thậm chí tự ý đụng vào cả những phần tôi còn chưa hề nhắc đến. Vì vậy trước khi sửa mã, tôi luôn bắt AI đưa ra tài liệu đặc tả theo STICC trước để được phê duyệt một cách minh thị, và tôi đã đóng điều này thành prompt toàn cục. Công việc chỉnh sửa thực tế thì buộc phải làm đúng y những gì có trong đặc tả, còn sau khi sửa xong thì toàn bộ
difftôi đều tự kiểm tra. Cả việc chạy các lệnh như build cũng luôn phải có sự chấp thuận của tôi, hoặc đơn giản là tôi tự tay chạy trong terminal. Làm vậy thì có nhược điểm là những thứ nhỏ nhặt đôi khi tự tôi sửa tay còn nhanh hơn, nhưng vẫn tốt hơn là để AI tự tiện đụng vào những thứ linh tinh rồi gây nổ tung. Rốt cuộc nếu nó nổ trong môi trường production thì trách nhiệm vẫn là của tôi mà.