- Trong phần mô tả của một số tác phẩm trong danh sách sách đề xuất của A16Z, đã phát hiện cụm từ không đúng sự thật cho rằng “phần lớn các cuốn sách dừng ở giữa câu”
- Neal Stephenson đã chỉ rõ rằng dù các tiểu thuyết của ông có thể gây tranh cãi, không có cuốn nào thực sự kết thúc giữa một câu
- Ông cho rằng khả năng cao là lỗi này xuất phát từ việc đăng tải câu văn do AI tạo ra mà không có quy trình kiểm duyệt của con người
- Qua kiểm tra lịch sử kho lưu trữ của GitHub, đã xác nhận được bản thảo ban đầu do Cursor IDE tạo và quá trình sửa đổi cẩu thả của con người sau đó
- Vụ việc này có tầm quan trọng vì nó phơi bày vấn đề về độ tin cậy và thiếu kiểm chứng của nội dung AI tạo ra
Danh sách sách của A16Z và câu mô tả sai
- Danh sách đọc được đề xuất của A16Z có bao gồm nhiều tác phẩm của Neal Stephenson
- Trong mô tả danh sách có câu “phần lớn các cuốn sách dừng giữa câu (nghĩa đen là dừng lại ở giữa một câu)”
- Stephenson nói rằng cụm này không đúng sự thật, và vì có từ “literally” nên đây là lỗi rõ ràng chứ không phải ẩn dụ
- Ông giải thích rằng mặc dù một số độc giả có thể không hài lòng với phần kết, thì 《Snow Crash》, 《The Diamond Age》, 《Seveneves》 đều có kết thúc rõ ràng
Tính chất và vấn đề của lỗi
- Câu này không phải là một ý kiến phê bình văn học (opinion) đơn thuần, mà là một khẳng định thực tế (factual assertion) nên là thông tin sai
- Stephenson nhấn mạnh sai sót này làm tổn hại đến sự trung thực của tác giả và biên tập viên
- Ông đặt vấn đề về việc làm sao một phát biểu như vậy lại xuất hiện trên trang web của A16Z
Giả thuyết 1: Câu chữ do AI tạo ra
- Lựa chọn giải thích có khả năng nhất là khả năng nội dung do AI viết đã được đăng lên mà không có người kiểm duyệt
- Sai chính tả tên riêng và những nét riêng của văn phong được xem là chứng cứ hỗ trợ
- Hiện tượng này đã và đang xảy ra thường xuyên ở nhiều lĩnh vực như pháp lý, học thuật và báo chí
- Stephenson ví quá trình này là “Inhuman Centipede”, và cảnh báo nguy cơ thông tin sai lệch có thể được tái huấn luyện vào thế hệ LLM tiếp theo
Giả thuyết 2: Sai sót do dùng dữ liệu sai của con người
- Ông nêu ra khả năng thứ hai là sai sót của con người dựa trên dữ liệu sai
- Giả thuyết phụ A: có thể dựa vào bản PDF lậu và tham khảo phiên bản bị cắt giữa chừng
- Giả thuyết phụ B: có thể chất lượng bản dịch kém khiến người đọc thấy rằng câu văn thực sự dừng giữa chừng
Truy vết nguyên nhân thực tế
- Từ việc kiểm tra trang web, Stephenson tìm thấy manh mối trong lịch sử commit của kho GitHub
- Trong commit ngày 21 tháng 7 năm 2023, bản thảo gốc do Cursor IDE tạo được xác nhận
- Bản gốc có ẩn dụ “segfault”, nhưng sau đó có người đã chỉnh sửa sai thành “dừng ở giữa câu”
- Rồi một người khác thêm lỗi chính tả trong quá trình tóm tắt, khiến sai sót trở nên trọn vẹn
- Ông đánh giá đây là kết quả của sự kết hợp giữa sự lười biếng khi dùng AI và sự bất cẩn của con người
Độ tin cậy trên Internet và nội dung AI
- Stephenson cho rằng người dùng Internet vẫn tỏ ra tin tưởng vô điều kiện vào thông tin trực tuyến
- Ông nhắc lại trường hợp trước đây trong email spam có các mảnh đoạn văn ngẫu nhiên từ tiểu thuyết Cryptonomicon của mình bị chèn vào
- Các mảnh này thực tế đều bị cắt giữa câu, và ông nêu khả năng LLM có thể đã học từ dữ liệu như vậy
- Qua đó, ông nhấn mạnh rủi ro khi AI tạo nội dung mà không phân biệt được giữa sự thật và hư cấu
Kết luận
- Stephenson đã bày tỏ sự cảm ơn với đề xuất của A16Z, đồng thời vẫn nhấn mạnh nhu cầu xác thực thông tin một cách rõ ràng
- Vụ việc này được xem là ví dụ làm nổi bật vấn đề về thiếu kiểm chứng nội dung tạo bởi AI và trách nhiệm kiểm duyệt của con người
1 bình luận
Ý kiến trên Hacker News
Vì lịch sử commit được công khai, nên rất dễ nhận ra reading list đó đã qua tay AI
Xem liên kết commit liên quan
Message của commit chỉ đơn giản là “stephenson”, nên không rõ vì sao lại thay đổi
Liên kết commit đã sửa
Trải nghiệm với LLM của tôi không tích cực như nhiều người khác
Lấy ví dụ từ khuyến mãi Gemini của Google: họ đưa ra timeline chuẩn bị bữa tối Lễ Tạ Ơn, nhưng khi hỏi thêm thì lại trả ra ba phiên bản mâu thuẫn nhau
Chỉ cần kiểu “phủ khăn lên bánh mì để giữ ấm” là đủ, vậy mà nó cứ lặp lại những câu trả lời hoàn toàn lạc đề
Tạo code thì chỉ thành công 1 lần trong 6, câu hỏi kiểu StackOverflow thì đúng 5 lần trong 6, còn câu hỏi chung chung thì lúc được lúc không
Mỗi khi thất bại thì mức độ quá nghiêm trọng, khiến tôi thấy đáng sợ khi thế giới đang lao vào việc sử dụng LLM ở quy mô lớn như thế này
Thậm chí khi hỏi “giá cổ phiếu vào ngày trước khi AI Overview ra mắt” thì nó còn trả lời sai cả chuyện đó
Nó còn dài hơn cả code, chỉ lặp đi lặp lại khai báo biến, một đống spaghetti vô nghĩa. Tôi sẽ không dùng lại nữa
Tôi nghĩ không nên coi A16Z là nghiêm túc. Trông như một nhóm lừa đảo hoàn toàn
Nếu bài blog thực sự kết thúc giữa chừng của một câu thì đã rất tuyệt
Các tác phẩm khác của ông cũng cho thấy nội tâm hỗn loạn của con người, nhưng không đưa ra kết cục hay bài học nào
Đọc hơn 2000 trang mà cuối cùng tôi vẫn đi đến kết luận là “không khuyến nghị”
Tôi chỉ muốn nói với Neal Stephenson rằng “cảm ơn vì đã kết thúc bằng một câu hoàn chỉnh”
Sách của ông ấy lúc nào cũng cho cảm giác kết thúc quá sớm hoặc quá muộn, nên dù bối cảnh thú vị tôi vẫn khó mà cầm lên đọc
Nó làm tôi nhớ tới hồi ký của Werner Herzog
Trong lời mở đầu, ông nói rằng “cuộc đời có thể chấm dứt vì trúng đạn của một tay bắn tỉa”, và báo trước rằng sẽ dùng đó như một thiết bị để kết thúc cuốn sách đột ngột
Rồi ông thực sự kết thúc như vậy, nhưng ngay sau đó lại thêm câu “đây chính là cái kết tôi đã báo trước”, một cú bẻ lái đúng kiểu Herzog
Việc các tập đoàn lớn đưa ra reading list cuối năm là một thông điệp PR kiểu “chúng tôi là những con người có cảm xúc và gu thẩm mỹ”
Nhưng qua vụ này, lộ ra rằng đó chỉ là một màn dàn dựng quảng bá mà thôi
Khi thấy câu kết là “ý nghĩa cuộc đời là một số nguyên (integer)”, tôi lập tức nghĩ đây chắc chắn là câu do AI viết
Cả danh sách đầy rẫy giọng điệu rất đặc trưng của LLM
Xét đến nguồn gốc thì cũng chẳng có gì đáng ngạc nhiên. Thực ra ngay từ giả thuyết đầu tiên (thuyết LLM viết) là đã đủ kết luận rồi
Châm biếm Stephenson là một nhà văn Dadaist “kết thúc giữa câu”
Một giả thuyết khác là đơn giản chỉ do nhớ nhầm
Có thể ai đó nhớ rằng một cuốn sách của Stephenson đọc từ lâu có cái kết hụt hẫng, rồi nhầm với một cuốn khác “kết thúc giữa chừng của câu”