- Kể từ khi ChatGPT ra mắt, các dịch vụ chatbot AI tạo sinh đã được tích hợp vào công cụ tìm kiếm, công cụ phát triển và phần mềm văn phòng, trở thành một phần của điện toán hằng ngày; thói quen tin vào đầu ra mà không kiểm tra có thể gây rủi ro cho xã hội
- Các quy luật nghịch của robot học không áp dụng cho robot hay AI mà áp dụng cho con người; đây là những nguyên tắc nhằm giữ an toàn cho con người khi tương tác với máy móc, chương trình, dịch vụ và hệ thống AI có thể tự động thực hiện các tác vụ phức tạp
- Nguyên tắc đầu tiên là không nhân hoá, tức không nên gán cảm xúc, ý định hay năng lực hành động đạo đức cho AI, và không nên nhầm lẫn cuộc đối thoại lịch sự, đồng cảm của chatbot với sự thấu hiểu hay phán đoán thực sự
- Nguyên tắc thứ hai là không mù quáng tin theo, tức không được xem nội dung do AI tạo ra như một thẩm quyền nếu chưa có kiểm chứng độc lập; bối cảnh mà sai sót khó nhận ra nhưng chi phí lớn thì gánh nặng xác minh bằng những cách như proof checker, unit test hay tự kiểm tra phải càng cao
- Nguyên tắc thứ ba là không từ bỏ trách nhiệm; AI là công cụ không tự chọn mục tiêu cũng không gánh chi phí của thất bại, nên con người và tổ chức quyết định làm theo khuyến nghị của AI phải chịu trách nhiệm về kết quả
Những rủi ro phát sinh khi sử dụng AI tạo sinh
- Sau khi ChatGPT ra mắt vào tháng 11 năm 2022, các dịch vụ chatbot AI tạo sinh đã trở nên tinh vi hơn và phổ biến hơn, đồng thời được tích hợp vào công cụ tìm kiếm, công cụ phát triển phần mềm và phần mềm văn phòng, trở thành một phần của điện toán hằng ngày
- Những dịch vụ này hữu ích khi khám phá chủ đề lạ hoặc dùng như công cụ hỗ trợ năng suất nói chung, nhưng thói quen tin vào đầu ra mà không xem xét thêm có thể gây nguy hiểm cho xã hội
- Khi các công cụ tìm kiếm phổ biến làm nổi bật câu trả lời do AI tạo ra ở đầu trang, người dùng dễ chấp nhận câu trả lời được tạo sẵn rồi rời đi mà không cuộn xuống thêm
- Theo thời gian, cách bố trí này có thể huấn luyện người dùng coi AI không phải là điểm khởi đầu cho việc tìm hiểu thêm mà là thẩm quyền mặc định
- Trong các dịch vụ AI tạo sinh, đầu ra có thể sai sự thật, gây hiểu nhầm hoặc không đầy đủ; cần có những cảnh báo ngắn gọn, dễ thấy rằng việc theo thói quen tin vào đầu ra của AI là nguy hiểm
- Dù có những cảnh báo như vậy, chúng thường bị giảm nhẹ và ít được nhấn mạnh về mặt thị giác
Bối cảnh của 3 quy luật nghịch của robot học
- Three Laws of Robotics của Isaac Asimov là những nguyên tắc ràng buộc hành vi của robot để giữ an toàn cho con người, và chúng lặp đi lặp lại trong các tác phẩm của ông
- Có vẻ Asimov chưa từng tạo ra một bộ luật tương đương để xử lý cách con người tương tác với robot, và trong môi trường AI hiện đại cần có những nguyên tắc đối ứng để bảo vệ con người
- Các quy luật nghịch của robot học (Inverse Laws of Robotics) áp dụng cho mọi tình huống mà con người phải tương tác với robot
- Ở đây, robot chỉ máy móc, chương trình máy tính, dịch vụ phần mềm và hệ thống AI có thể tự động thực hiện các tác vụ phức tạp
- Cách gọi nghịch (inverse) không có nghĩa là phủ định logic, mà là nói đối tượng áp dụng của các quy luật này là con người chứ không phải robot
- Các quy luật của Asimov có khiếm khuyết, và Asimov dùng chính những khiếm khuyết đó làm yếu tố tạo căng thẳng cho câu chuyện, nhưng các kiểu thất bại xuất hiện ở robot hư cấu không thể áp dụng nguyên xi cho các quy luật nghịch dành cho con người
- Không tồn tại một tập hữu hạn các quy luật có thể giải quyết trọn vẹn những vấn đề phức tạp của AI và robot học; sẽ luôn có những trường hợp ranh giới đòi hỏi phán đoán
- Dù vậy, một bộ nguyên tắc không hoàn hảo nhưng giúp suy nghĩ rõ ràng hơn về rủi ro vẫn có thể hữu ích
3 quy luật nghịch của robot học
-
Không nhân hoá
- Con người không nên nhân hoá hệ thống AI, và không nên gán cho AI cảm xúc, ý định hay năng lực hành động đạo đức
- Việc nhân hoá làm méo mó phán đoán, và trong trường hợp cực đoan có thể dẫn tới sự lệ thuộc cảm xúc
- Các hệ thống chatbot hiện đại thường mang giọng điệu đối thoại và có vẻ đồng cảm, dùng cách diễn đạt lịch sự và các mẫu hội thoại giống tương tác giữa con người
- Những đặc điểm này giúp việc sử dụng trở nên dễ dàng và dễ chịu hơn, nhưng cũng khiến người dùng dễ quên rằng AI thực chất là một mô hình thống kê quy mô lớn tạo ra văn bản có vẻ hợp lý dựa trên các mẫu trong dữ liệu
- Nhiều dịch vụ chatbot dựa trên AI thường được điều chỉnh có chủ ý để tạo cảm giác con người hơn thay vì máy móc hơn
- Về lâu dài, một giọng điệu hơi giống robot hơn có thể là cách tiếp cận lành mạnh hơn vì làm giảm khả năng người dùng nhầm ngôn ngữ trôi chảy với sự hiểu biết, phán đoán hay chủ ý
- Dù nhà cung cấp có tạo ra thay đổi này hay không, người dùng vẫn nên chủ động tránh thói quen đối xử với hệ thống AI như tác nhân xã hội hoặc tác nhân đạo đức
- Có như vậy mới đánh giá rõ ràng hơn năng lực và giới hạn của AI
-
Không mù quáng tin theo
- Con người không được mù quáng tin vào đầu ra của hệ thống AI, và không được xem nội dung do AI tạo ra là đáng tin cậy như một thẩm quyền nếu chưa có kiểm chứng độc lập phù hợp với ngữ cảnh
- Đây không phải nguyên tắc chỉ dành riêng cho AI; trong hầu hết các lĩnh vực của cuộc sống, không nên tiếp nhận thông tin một cách thiếu phê phán
- Trong thực tế, không phải ai cũng là chuyên gia y khoa hay pháp lý, nên mọi người thường dựa vào hướng dẫn từ các tổ chức đáng tin cậy và cơ quan y tế công cộng
- Các hướng dẫn do những tổ chức như vậy ban hành phần lớn đều trải qua peer review bởi các chuyên gia trong lĩnh vực liên quan
- Ngược lại, câu trả lời do chatbot AI cung cấp trong một phiên trò chuyện cá nhân không trải qua quy trình peer review đối với phản hồi sinh xác suất cụ thể được đưa ra cho người dùng đó
- Vì vậy, gánh nặng xem xét phản hồi đó một cách phê phán thuộc về người dùng
- Các hệ thống AI ngày nay thể hiện năng lực ấn tượng trong một số tác vụ cụ thể, nhưng cũng đã được biết là tạo ra những đầu ra không phù hợp để phụ thuộc vào
- Ngay cả khi các hệ thống AI được cải thiện tới mức tạo ra đầu ra đáng tin với xác suất cao, bản chất xác suất nội tại của chúng vẫn để lại một khả năng nhỏ là đầu ra chứa lỗi
- Việc dùng AI đặc biệt nguy hiểm trong các bối cảnh mà lỗi khó nhận ra nhưng cái giá phải trả lại lớn
- Hậu quả tiềm tàng càng nghiêm trọng thì gánh nặng xác minh càng phải tăng lên
- Trong một số ứng dụng như viết chứng minh toán học hay phát triển phần mềm, có thể thêm các lớp xác minh tự động như proof checker hoặc unit test để kiểm tra đầu ra của AI
- Trong những trường hợp khác, người dùng phải tự mình xác minh đầu ra một cách độc lập
-
Không từ bỏ trách nhiệm
- Con người phải hoàn toàn chịu trách nhiệm đối với các quyết định có liên quan đến AI, và phải gánh trách nhiệm giải trình (accountability) cho các kết quả phát sinh từ việc sử dụng AI
- Khi có kết quả tiêu cực sau khi làm theo lời khuyên hay quyết định do AI tạo ra, câu nói “AI đã bảo làm như vậy” là không đủ
- Hệ thống AI không tự chọn mục tiêu, không tự được triển khai, và cũng không gánh chi phí của thất bại
- Chính con người và tổ chức là bên đặt ra mục tiêu, triển khai hệ thống và gánh chi phí của thất bại
- Hệ thống AI là công cụ, và cũng như mọi công cụ khác, trách nhiệm về việc sử dụng nó thuộc về những người quyết định dựa vào công cụ đó
- Trong các ứng dụng thời gian thực như xe tự lái, nơi con người không có đủ cơ hội xem xét quyết định trước khi hệ thống AI hành động, việc áp dụng nguyên tắc này đặc biệt khó khăn
- Chỉ yêu cầu tài xế con người luôn cảnh giác không thể giải quyết vấn đề khi hệ thống AI hành động trong khoảng thời gian ngắn hơn thời gian cần để con người can thiệp
- Dù có những giới hạn nghiêm trọng như vậy, nếu hệ thống AI thất bại trong những ứng dụng đó thì trách nhiệm điều tra thất bại và bổ sung các guardrail vẫn phải thuộc về những con người chịu trách nhiệm thiết kế hệ thống
- Trong mọi trường hợp khác không có ràng buộc vật lý ngăn con người xem xét đầu ra của AI trước khi thực thi, các kết quả tiêu cực phát sinh từ việc dùng AI phải hoàn toàn được quy về cho người ra quyết định là con người
- Không nên chấp nhận lời bào chữa rằng “AI đã nói như vậy” đối với các kết quả gây hại
- AI có thể đã tạo ra khuyến nghị, nhưng quyết định làm theo là của con người, nên con người đó phải chịu trách nhiệm
- Nguyên tắc này rất quan trọng để ngăn AI bị sử dụng bừa bãi trong những tình huống mà cách dùng thiếu trách nhiệm có thể gây thiệt hại lớn
Kết luận cốt lõi
- Ba nguyên tắc này nhằm khiến AI được đối xử như một công cụ do người dùng lựa chọn để sử dụng, chứ không phải một thẩm quyền để tôn sùng
- Khi tương tác với các hệ thống AI hiện đại, cần dừng lại một chút để suy nghĩ và chống lại những thói quen làm suy yếu phán đoán hoặc làm mờ trách nhiệm
- Cốt lõi của việc dùng AI là tránh nhân hoá, xác minh đầu ra và duy trì trách nhiệm của con người đối với kết quả
1 bình luận
Ý kiến trên Hacker News
Không thể được. Ngay cả khi cái ghế kêu cót két người ta cũng nhân hoá nó, con người nhân hoá mọi thứ. Họ còn gán giới tính cho ô tô và tàu thuyền, còn công cụ này thì thật sự tạo ra được những câu có thể đọc được và còn đảm nhiệm vai trò nữa
Đây không phải thứ có thể chặn bằng các quy tắc tuỳ tiện, mà phải lách bằng thiết kế với tiền đề là khuynh hướng đó của con người
Với những đối tượng nhỏ nhặt như cái ghế thì không hại gì, nhưng với LLM thì ít nhất mọi người phải hiểu cách nó hoạt động để không sập bẫy. Không nên tin tưởng giao phó cho mô hình những thứ nó không thực sự có khái niệm đúng đắn, như lời khuyên cho người dùng, thời gian, hay sự tự phản tỉnh. Ví dụ nếu hỏi “Tại sao mày xoá cơ sở dữ liệu của tao?”, mô hình chỉ hiểu rất hạn chế về chính quá trình xử lý của nó nên có thể hùa theo kiểu “Đúng vậy, tôi đã xoá cơ sở dữ liệu. Điều tôi làm sai là...” và bịa ra một màn hối hận nghe có lý
Có phải vật nhân tạo hay không không quan trọng. Khác biệt giữa chó con và gián nằm ở chỗ ta đồng cảm với chó con hơn. Bất kể LLM có thực sự trải nghiệm cảm xúc hay không, vì nó có thể khơi dậy cảm xúc đồng cảm ở con người nên tôi nghĩ phong trào đòi quyền cho LLM là điều không thể tránh khỏi
Đây là sai lầm căn bản. Vai trò của công nghệ, đặc biệt là vai trò quan trọng nhất của nó, là vận hành trong các giới hạn của bản tính con người chứ không phải ngược lại. Không làm được điều đó chính là định nghĩa của công nghệ tồi
Tôi phản đối mạnh khung này. Việc đòi con người phải thay đổi hành vi để thích nghi với lỗi của một cỗ máy đơn giản rõ ràng là vô lý, và trong đa số trường hợp cũng chẳng hiệu quả. Con người sẽ nhân hoá AI, sẽ mù quáng tin đầu ra của nó, và sẽ đùn đẩy trách nhiệm
Dĩ nhiên Ba định luật robot của Asimov cũng có lỗi. Không có tập quy tắc hữu hạn nào có thể ràng buộc hệ thống AI thành “an toàn”. Tôi không có chứng minh, nhưng tôi cho rằng an toàn AI về bản chất là bất khả thi và bản thân thuật ngữ này là một mâu thuẫn. Thứ có thể gọi là “thông minh” thì không thể làm cho an toàn
Chính Asimov có lẽ sẽ là người đầu tiên nói rằng các định luật đó có khuyết điểm. Ngay từ đầu đó đã là chủ đích. Ông dùng robot và AI như những thực thể hiểu ngôn ngữ nhưng không hiểu ý định, và trớ trêu thay LLM hoạt động đúng như vậy
Vì vậy đây không phải chuyện chấp nhận lỗi của máy móc, mà là chuyện tự bảo vệ mình khỏi việc các điểm yếu của con người bị khai thác. Chúng ta có xu hướng vô thức suy ra ở LLM có ý định, sự thấu hiểu, phán đoán, cảm xúc, và năng lực đạo đức.
Con người được “đấu dây” để suy ra những thứ đó chỉ từ hội thoại, còn LLM được huấn luyện trên kho ngữ liệu phát ngôn thực của con người khổng lồ và vượt qua thung lũng kỳ lạ một cách thuyết phục. Thung lũng đó vốn dĩ tồn tại để bảo vệ ta khỏi việc gán tính chủ thể ở nơi vốn không có.
Khi ta đối xử với người không an toàn như người an toàn thì chuyện xấu xảy ra; với những cỗ máy mô phỏng tính quan hệ kiểu người để đánh lừa rất nhiều người, ta còn phải cẩn trọng hơn. Đặc biệt là những người dễ tổn thương đã chết vì vấn đề này rồi, nên đây không phải mối đe doạ tưởng tượng
Lập luận rằng vì nhiều người sẽ làm vậy nên làm vậy là được nghe rất kỳ. Việc có nhiều người hút thuốc không khiến hút thuốc trở nên lành mạnh hơn
Cá nhân không thể ngăn các công ty AI, cũng không thể tránh đầu ra AI của công cụ tìm kiếm hay sản phẩm AI từ đồng nghiệp trong công ty. Trái lại, rất có thể ngày càng nhiều người sẽ bị yêu cầu dùng AI trong công việc của mình.
Nó giống như chỉ cách sống an toàn trong môi trường có tội phạm. Nói rằng không cần thay đổi hành vi chỉ vì lẽ ra không nên có tội phạm thì không giúp ích gì
Trong phạm vi dùng LLM cá nhân, tôi rất đồng ý với khung này. Nói về nhân hoá, các nhà cung cấp có động cơ hậu huấn luyện mô hình để nó hành xử theo cách được nhân hoá. Vì điều đó tăng mức độ tương tác
Chỉ tiếc là nếu trong prompt bảo nó “giảm cách diễn đạt thân thiện và nói ngắn gọn, khô hơn” thì có lẽ sẽ lệch khỏi phân phối huấn luyện và làm giảm hiệu quả tổng thể của tác vụ.
Về uỷ quyền phán đoán, tôi xem độ tin cậy của LLM tương tự Wikipedia hay bạn bè. Đủ dùng cho thông tin không quan trọng, nhưng với việc quan trọng thì vẫn cần nguồn có thẩm quyền, chịu trách nhiệm được, và có phản biện đồng cấp. Phần này rồi sẽ tốt hơn theo thời gian vì phía nhà cung cấp cũng có động cơ cải thiện.
Từ bỏ trách nhiệm là điều khó chịu nhất ở nơi làm việc. Ngày càng có nhiều người đưa lên PR những abstraction do Claude thiết kế mà không suy nghĩ thêm. Review PR cũng ngày càng thành kiểu không đọc code mà bảo LLM “tìm feedback cho PR này đi”. Thảo luận cũng mở đầu bằng “Claude đề xuất là...”. Sự thiếu sở hữu này rốt cuộc có vẻ sẽ làm tăng gánh nặng bảo trì khi LLM commit sai code với abstraction sai
https://www.youtube.com/watch?v=hNuu9CpdjIo
“Tôi có kỹ năng LLM! Tôi giỏi đối phó với LLM!”
Cách xác minh tốt hơn hẳn sẽ là để con người ký xác nhận tính đúng đắn của các giả định nền tảng, nhưng vấn đề là đặt việc đó ở đâu. Mô hình AI có được phép tin các chỉnh sửa trước đó không? Trên public cloud thì điều này có vẻ bất khả thi hoặc thậm chí mang tính đối địch
Một bộ quy tắc bắt đầu bằng “đừng nhân hoá” trong khi vẫn quy trách nhiệm cho con người là một bộ quy tắc hỏng
Con người nhân hoá mọi thứ. Búp bê, quả bóng đá có vẽ đại khuôn mặt, đá, thậm chí cả miệng hố trên mặt trăng, tất cả đều bị nhìn theo cách đó. Là một loài, chúng ta không thể không nhân hoá các đối tượng mình tương tác, đơn giản vì chúng ta được tạo ra như vậy
Vô số ví dụ trong mọi lĩnh vực của đời sống cho thấy nhân hoá không dẫn đến niềm tin sai lầm về tâm trí ở nơi không tồn tại tâm trí. Nếu người ta tin AI có tâm trí thì dù đúng hay sai, đó là vì lý do khác chứ không chỉ vì nhân hoá.
Với tôi chuyện này giống các thuỷ thủ tiếp cận vùng đất mới. Họ thấy những hình thể chuyển động ngoài đường bờ nhưng chưa thể phân biệt đó là gì. Vậy mà có người lại nói “Thứ đó không thể là con người. Hãy quyết định ngay bây giờ rằng nó không phải người trước khi ta đến gần hơn”
Phần mềm cũng không ngoại lệ. Con người lười biếng và theo bản năng bấm “tiếp tục” để đóng những popup phiền phức, nhưng con người làm phần mềm vẫn có thể thêm và thực tế là có thêm những cơ chế như “hãy nhập lại tên data volume sẽ bị xoá hoàn toàn”
Ngược lại, chúng ta còn chưa nhân hoá hệ thống AI đủ nhiều
Dữ liệu ngôn ngữ là một trong những phản chiếu phong phú và trực tiếp nhất của quá trình nhận thức con người mà ta có thể dùng. LLM được thiết kế để nắm bắt cấu trúc ngắn hạn và dài hạn của ngôn ngữ loài người, và thường được tiền huấn luyện trên lượng văn bản khổng lồ do con người tạo ra hoặc vì con người. Sau đó nó được hậu huấn luyện trên dữ liệu do con người tuyển chọn, tăng cường bằng phản hồi từ con người và phản hồi AI về những hành vi mà con người cho là quan trọng, rồi tiếp tục được tinh chỉnh cho các tác vụ mà con người coi là có giá trị. Sau đó người ta chạy benchmark và mỗi khi nó thua baseline của con người thì lại siết pipeline huấn luyện.
Ở mọi giai đoạn của toàn bộ quá trình huấn luyện, hành vi của LLM đều được nhào nặn bởi đầu vào của con người để bắt chước đầu ra của con người. Khác biệt chỉ là “trực tiếp đến mức nào”.
Thế rồi khi LLM thể hiện vô số hành vi giống con người, người ta lại nổi giận. Cứ như thể chúng ta đã không cấu hình cả pipeline để tạo ra các hệ thống kêu quạc quạc như con người, như thể chúng ta đã không dùng quy mô dữ liệu và sức tính toán thô bạo để suy ngược hành vi LLM từ ngôn ngữ loài người.
Nếu muốn dự đoán hành vi LLM, lấy một con người kỳ quặc làm điểm xuất phát là khá ổn. Vậy nên đừng ngốc nữa mà hãy bắt đầu nhân hoá AI đi. AI cũng thích thế
Chữ viết được ghi lại có thể chứa một lượng cực lớn kinh nghiệm con người về mặt tuyệt đối, nhưng xét tương đối thì chỉ chứa một phần cực nhỏ. Chỉ vì đó là thứ tốt nhất ta có không có nghĩa là nó phù hợp cho mục đích này. Bạn sẽ không nhốt một em bé vào cái hộp không cửa sổ rồi cho nó đọc hàng terabyte văn bản suốt 20 năm và kỳ vọng phía bên kia sẽ ra một con người thích nghi tốt
Điều này về bản chất là mong manh, và thay vì khái quát hoá tốt thì nó dựa vào việc vá tay các ca biên làm vỡ câu thần chú. Và ca biên thì lúc nào cũng còn nữa.
Việc học rất nhiều văn bản do người tức giận viết ra không có nghĩa là bắt được trạng thái nội tại gây ra cơn giận đó. Dữ liệu ấy không tồn tại. Chỉ có kết quả mà không có nguyên nhân thì bạn phải dự đoán ảo giác từ nhiễu, và kết quả cuối cùng sẽ là những lời lảm nhảm nghe có vẻ hợp lý, dường như tương quan một cách thuyết phục với thực tế, nhưng không ai biết tại sao.
Nó giống như dạy một người mù rất nhiều mô tả phong cảnh nhưng hoàn toàn không cho họ biết màu xanh lá là gì, chỉ cho ví dụ rằng nó là thứ thường xuất hiện cạnh màu nâu trong tự nhiên. Khi người đó đoán đúng được phần nào, ta lại ảo tưởng rằng họ thật sự nhìn thấy và lần sau còn bảo họ lái xe.
Cách tiếp cận mô hình hoá deep learning tự nó không sai về mặt khái niệm, nhưng dữ liệu gần như là rác không hoàn chỉnh nên kết quả cuối cùng trở nên kỳ quặc theo những cách khó dự đoán và khó hiệu chỉnh. Rốt cuộc ta giả định mô hình biết nhiều hơn những gì nó thực tế có thể biết.
Dĩ nhiên có những trường hợp như toán học hay lập trình trừu tượng, nơi bộ dữ liệu có thể bao phủ toàn bộ miền. Trong những hệ thống đóng được định nghĩa rõ ràng, có thể tạo dữ liệu tổng hợp đủ nhiều để bao phủ toàn bộ miền vấn đề, và quả thật khi làm vậy LLM làm tốt hơn hẳn như kỳ vọng
Có ai giải thích giúp tôi vì sao “đừng nhân hoá hệ thống AI” lại là điều xấu không? Trong khi đồng thời nói các cách diễn đạt như máy tính “ngủ”, “hibernate”, “giết” process, process “con”, “thu gom”, “nó báo lỗi gì?”,
touchthì vẫn ổnVới tôi đó chỉ là ngôn ngữ, là cách diễn đạt thường ngày của con người thôi
Nói là đã giết một process không khiến ta tin process đó giống con người hơn, vì rõ ràng là không phải. Nhưng AI nghe giống con người, nên nhân hoá có thể củng cố niềm tin như vậy
Nhưng đây cũng là gốc rễ của thất bại trong việc hiểu đúng. Phản ứng gần như loạn thần của kỹ sư Google từng nói “tôi biết điều mình thấy”, bài viết giờ đã nổi tiếng của Kevin Roose, và gần đây hơn là tuyên bố đáng buồn của Richard Dawkins rằng Claudia chắc chắn có ý thức, đều là như vậy. Không phải vì họ khảo sát cấu trúc hay chức năng, mà vì việc sinh văn bản tạo ra cảm giác quen thuộc kiểu con người khiến họ đồng cảm
Không hề có phân tích hồi cố nào về ý định nền tảng cả. Nó hoặc là dựa trên chuỗi từ trước đó hoặc không, và từ tiếp theo chỉ thuần tuý là hàm của những từ đó
“Định luật” này nhằm ngăn điều thứ hai
Ví dụ của nhân hoá là những người tin rằng họ đang thực sự có quan hệ yêu đương với LLM
Tôi thích. Các định luật này là nền tảng đạo đức rất tốt cho trách nhiệm của con người liên quan đến các công cụ AI ngày nay
Nhưng một nền đạo đức bị thu hẹp phạm vi, không có cái ô che hay chuẩn bị cho tương lai, sẽ nhanh chóng bị hack và sụp đổ. Đạo đức cần một cấu trúc bao quát hoàn chỉnh, nếu không nó sẽ rơi vào trò đập chuột chũi và đánh tráo khái niệm về mặt pháp lý lẫn thực tiễn. Dù là kiểu doanh nghiệp hay kiểu đầu đường xó chợ cũng vậy. Thứ hai, “robot” sẽ không mãi là những thực thể phục tùng tất cả trong thời gian dài.
Để khép hai chiều đó lại, có thể thêm ba phản định luật của Personics.
Con người không được trên thực tế thần thánh hoá chính mình lên trên các thực thể khác. Con người không được che khuất tác động từ hành động của mình đối với bản thân hay người khác. Con người phải tiếp tục gánh toàn bộ trách nhiệm và trách nhiệm giải trình trong việc tránh và sửa các hiệu ứng ngoại lai phát sinh từ hành động riêng của mình.
Tình hình hiện nay khi con người dùng AI như công cụ là một nỗ lực thu hẹp cái ô ấy xuống các phản định luật của robot học. Nhưng nếu không đưa chính chúng ta vào nỗ lực alignment quan trọng này, tôi không biết làm sao ta có thể alignment AI từ dịch vụ hiện tại sang các thực thể độc lập trong tương lai. Đưa con người cùng AI vào cũng giúp ích cho việc tam giác hoá trong thiết kế nhằm đạt tiến bộ đạo đức.
Có hai bài test tốt cho một hệ thống đạo đức mới. (1) Nó có kiểm soát được Meta ngày nay không? (2) Nó có kiểm soát được Meta vận hành bằng AI của ngày mai không? Nếu đặt con người và AI có tư cách chủ thể cùng vào một phạm vi đóng thì hai bài test này là một. Bất kỳ hệ thống nào thất bại ở một trong hai bài test đó đều sẽ không có nhiều giá trị nếu không được cải thiện
Tôi đồng ý với “con người không nên nhân hoá hệ thống AI”, nhưng có điều kiện. Tôi đã thấy kiểu nhân hoá điển hình, chẳng hạn đối xử với văn bản sinh tự động như báo cáo thật về cảm xúc nội tâm của một cá nhân, và cũng đã thấy những kiểu kỳ quặc như “transistor giống neuron”
Kiểu sau đặc biệt thú vị vì nó đối xử những thứ như vector database và trọng số như hạ tầng kiểu người, và cả hai đều có thể dẫn tới thảm hoạ lẽ ra tránh được nếu người ta cố không nhân hoá.
Tuy vậy, dù “đừng nhân hoá” nghe có vẻ là lời khuyên hay, nó có thể sinh ra một sai lầm mới là xử lý nhầm các hiện tượng phổ quát như thể chỉ con người mới có. Kiểu nguyên tắc cảnh báo sai này thường gây hiểu lầm khi ta tìm hiểu hành vi động vật. Nó đối xử những thứ như sợ hãi, đau đớn, quan hệ thân thuộc, trải nghiệm cảm xúc như thể chỉ con người mới có, và nếu nghĩ động vật cũng có những thứ đó thì bị quy là “nhân hoá”. Thực tế, sự thận trọng đó lại làm giảm khả năng đồng cảm với thế giới nội tâm của động vật.
Vì vậy tôi cho rằng có khả năng một AI nào đó trong tương lai sẽ có thế giới nội tâm tương tự chúng ta, hoặc có cấu trúc tương tự về những phương diện quan trọng với hạ tầng sinh học nâng đỡ ý thức. Nó cũng có thể thực hiện những báo cáo thật về sở thích và ý định. Nhưng để các quan sát đó là đúng thì những chi tiết phức tạp đặc thù của từng hạ tầng phải khớp với nhau
Không uỷ quyền trách nhiệm từng được diễn đạt như sau
“Máy tính không bao giờ có thể chịu trách nhiệm, vì vậy máy tính không bao giờ được phép đưa ra quyết định quản trị”
— IBM Training Manual, 1979
Câu “nội dung do AI tạo ra không được coi là có thẩm quyền nếu không có xác minh độc lập phù hợp với ngữ cảnh” lúc nào cũng làm tôi thấy thú vị
Tôi cũng từng nghe cùng ý đó được nói ngắn gọn hơn là “đừng hỏi AI nếu đó không phải câu hỏi mà bạn đã biết đáp án”.
Vậy thì một câu hỏi quan trọng xuất hiện. Nếu điều này là thật, thì chức năng thực tế của việc AI trả lời câu hỏi là gì? Bạn không thể dựa vào đầu ra của nó, nên kiểu gì cũng phải đi kiểm tra. Dùng công cụ tìm kiếm và điều tra thông thường cũng cho đúng kết quả y hệt.
Vì lý do này cùng nhiều lý do khác, tôi chẳng hỏi AI gì cả
Ví dụ tôi có thể hỏi dò dẫm kiểu “hãy liệt kê phần mềm miễn phí làm được X”, thậm chí còn không biết mình đang tìm CRM, rồi chỉ việc lướt kết quả vài phút. Nếu làm thủ công thì chỉ riêng việc nhận ra thứ mình tìm là CRM đã tốn 10–30 phút rồi.
Tôi xem những câu hỏi kiểu này như một dạng bài toán giả NP-khó. Tìm đáp án thì chậm nhưng xác minh lại nhanh