2 điểm bởi GN⁺ 2025-11-29 | 1 bình luận | Chia sẻ qua WhatsApp
  • Trong phần mô tả của một số tác phẩm trong danh sách sách đề xuất của A16Z, đã phát hiện cụm từ không đúng sự thật cho rằng “phần lớn các cuốn sách dừng ở giữa câu”
  • Neal Stephenson đã chỉ rõ rằng dù các tiểu thuyết của ông có thể gây tranh cãi, không có cuốn nào thực sự kết thúc giữa một câu
  • Ông cho rằng khả năng cao là lỗi này xuất phát từ việc đăng tải câu văn do AI tạo ra mà không có quy trình kiểm duyệt của con người
  • Qua kiểm tra lịch sử kho lưu trữ của GitHub, đã xác nhận được bản thảo ban đầu do Cursor IDE tạo và quá trình sửa đổi cẩu thả của con người sau đó
  • Vụ việc này có tầm quan trọng vì nó phơi bày vấn đề về độ tin cậy và thiếu kiểm chứng của nội dung AI tạo ra

Danh sách sách của A16Z và câu mô tả sai

  • Danh sách đọc được đề xuất của A16Z có bao gồm nhiều tác phẩm của Neal Stephenson
    • Trong mô tả danh sách có câu “phần lớn các cuốn sách dừng giữa câu (nghĩa đen là dừng lại ở giữa một câu)”
  • Stephenson nói rằng cụm này không đúng sự thật, và vì có từ “literally” nên đây là lỗi rõ ràng chứ không phải ẩn dụ
  • Ông giải thích rằng mặc dù một số độc giả có thể không hài lòng với phần kết, thì 《Snow Crash》, 《The Diamond Age》, 《Seveneves》 đều có kết thúc rõ ràng

Tính chất và vấn đề của lỗi

  • Câu này không phải là một ý kiến phê bình văn học (opinion) đơn thuần, mà là một khẳng định thực tế (factual assertion) nên là thông tin sai
  • Stephenson nhấn mạnh sai sót này làm tổn hại đến sự trung thực của tác giả và biên tập viên
  • Ông đặt vấn đề về việc làm sao một phát biểu như vậy lại xuất hiện trên trang web của A16Z

Giả thuyết 1: Câu chữ do AI tạo ra

  • Lựa chọn giải thích có khả năng nhất là khả năng nội dung do AI viết đã được đăng lên mà không có người kiểm duyệt
    • Sai chính tả tên riêng và những nét riêng của văn phong được xem là chứng cứ hỗ trợ
  • Hiện tượng này đã và đang xảy ra thường xuyên ở nhiều lĩnh vực như pháp lý, học thuật và báo chí
  • Stephenson ví quá trình này là “Inhuman Centipede”, và cảnh báo nguy cơ thông tin sai lệch có thể được tái huấn luyện vào thế hệ LLM tiếp theo

Giả thuyết 2: Sai sót do dùng dữ liệu sai của con người

  • Ông nêu ra khả năng thứ hai là sai sót của con người dựa trên dữ liệu sai
    • Giả thuyết phụ A: có thể dựa vào bản PDF lậu và tham khảo phiên bản bị cắt giữa chừng
    • Giả thuyết phụ B: có thể chất lượng bản dịch kém khiến người đọc thấy rằng câu văn thực sự dừng giữa chừng

Truy vết nguyên nhân thực tế

  • Từ việc kiểm tra trang web, Stephenson tìm thấy manh mối trong lịch sử commit của kho GitHub
    • Trong commit ngày 21 tháng 7 năm 2023, bản thảo gốc do Cursor IDE tạo được xác nhận
    • Bản gốc có ẩn dụ “segfault”, nhưng sau đó có người đã chỉnh sửa sai thành “dừng ở giữa câu”
    • Rồi một người khác thêm lỗi chính tả trong quá trình tóm tắt, khiến sai sót trở nên trọn vẹn
  • Ông đánh giá đây là kết quả của sự kết hợp giữa sự lười biếng khi dùng AI và sự bất cẩn của con người

Độ tin cậy trên Internet và nội dung AI

  • Stephenson cho rằng người dùng Internet vẫn tỏ ra tin tưởng vô điều kiện vào thông tin trực tuyến
  • Ông nhắc lại trường hợp trước đây trong email spam có các mảnh đoạn văn ngẫu nhiên từ tiểu thuyết Cryptonomicon của mình bị chèn vào
    • Các mảnh này thực tế đều bị cắt giữa câu, và ông nêu khả năng LLM có thể đã học từ dữ liệu như vậy
  • Qua đó, ông nhấn mạnh rủi ro khi AI tạo nội dung mà không phân biệt được giữa sự thật và hư cấu

Kết luận

  • Stephenson đã bày tỏ sự cảm ơn với đề xuất của A16Z, đồng thời vẫn nhấn mạnh nhu cầu xác thực thông tin một cách rõ ràng
  • Vụ việc này được xem là ví dụ làm nổi bật vấn đề về thiếu kiểm chứng nội dung tạo bởi AI và trách nhiệm kiểm duyệt của con người

1 bình luận

 
GN⁺ 2025-11-29
Ý kiến trên Hacker News
  • Vì lịch sử commit được công khai, nên rất dễ nhận ra reading list đó đã qua tay AI
    Xem liên kết commit liên quan

    • Phiên bản này tự nhiên hơn nhiều. Câu do Opus tạo ra là “nó đột ngột kết thúc như thể bị segfault ngay giữa hàm bạn thích”, nhưng ở commit sau đã được đổi thành “hầu hết các cuốn sách đều dừng lại giữa chừng”
      Message của commit chỉ đơn giản là “stephenson”, nên không rõ vì sao lại thay đổi
      Liên kết commit đã sửa
    • Có câu “Stephenson không chỉ là một tác giả SF, mà là người viết sổ tay vận hành cho tương lai”, đúng kiểu văn phong AI tạo ra rất điển hình. Dù sao sửa lại rồi cũng may
    • Trong commit này có chú thích “THIS IS AI GENERATED, NEED TO EDIT”. Tức là họ đã thừa nhận bản nháp ban đầu được viết bằng AI
    • Hiện vẫn chưa thấy pull request nào sửa phần này
  • Trải nghiệm với LLM của tôi không tích cực như nhiều người khác
    Lấy ví dụ từ khuyến mãi Gemini của Google: họ đưa ra timeline chuẩn bị bữa tối Lễ Tạ Ơn, nhưng khi hỏi thêm thì lại trả ra ba phiên bản mâu thuẫn nhau
    Chỉ cần kiểu “phủ khăn lên bánh mì để giữ ấm” là đủ, vậy mà nó cứ lặp lại những câu trả lời hoàn toàn lạc đề
    Tạo code thì chỉ thành công 1 lần trong 6, câu hỏi kiểu StackOverflow thì đúng 5 lần trong 6, còn câu hỏi chung chung thì lúc được lúc không
    Mỗi khi thất bại thì mức độ quá nghiêm trọng, khiến tôi thấy đáng sợ khi thế giới đang lao vào việc sử dụng LLM ở quy mô lớn như thế này

    • Thật ngạc nhiên là Google gắn một cỗ máy tạo câu trả lời vớ vẩn như vậy ngay trước lớp dịch vụ cốt lõi mà giá cổ phiếu vẫn tăng gấp đôi
      Thậm chí khi hỏi “giá cổ phiếu vào ngày trước khi AI Overview ra mắt” thì nó còn trả lời sai cả chuyện đó
    • Có vẻ phần lớn fan LLM chỉ trầm trồ vì bề ngoài, chứ không xem kỹ lỗi trong nội dung thực tế hay chất lượng code
    • Tôi cũng từng đùa vui bảo Copilot viết Makefile cho AVR-GCC, và nó trả về một con quái vật dài 2500 dòng
      Nó còn dài hơn cả code, chỉ lặp đi lặp lại khai báo biến, một đống spaghetti vô nghĩa. Tôi sẽ không dùng lại nữa
  • Tôi nghĩ không nên coi A16Z là nghiêm túc. Trông như một nhóm lừa đảo hoàn toàn

    • Nếu người tuyển dụng khoe được A16Z đầu tư, tôi lại xem đó là tín hiệu tiêu cực
    • Câu “Software is eating the world, AI is eating the VCs” quá chuẩn
    • Cũng có phản ứng mỉa mai kiểu “...and a conehead”
  • Nếu bài blog thực sự kết thúc giữa chừng của một câu thì đã rất tuyệt

    • Tiểu thuyết đầu tay The Broom of the System của David Foster Wallace kết thúc bằng “I am a man of my”
      Các tác phẩm khác của ông cũng cho thấy nội tâm hỗn loạn của con người, nhưng không đưa ra kết cục hay bài học nào
      Đọc hơn 2000 trang mà cuối cùng tôi vẫn đi đến kết luận là “không khuyến nghị”
      Tôi chỉ muốn nói với Neal Stephenson rằng “cảm ơn vì đã kết thúc bằng một câu hoàn chỉnh”
    • Tôi đã phải kìm lại cơn thôi thúc muốn xem trước kết thúc khi đang đọc dở
      Sách của ông ấy lúc nào cũng cho cảm giác kết thúc quá sớm hoặc quá muộn, nên dù bối cảnh thú vị tôi vẫn khó mà cầm lên đọc
    • Cũng có bình luận đùa rằng “tôi cũng chẳng có ý tưởng gốc nào cả”
    • Có người chỉ ra rằng “thực ra cuốn sách đó đúng là kết thúc ở giữa chừng”
    • Cũng có phản ứng cười kiểu “tôi cũng đã mong như thế, tiếc thật”
  • Nó làm tôi nhớ tới hồi ký của Werner Herzog
    Trong lời mở đầu, ông nói rằng “cuộc đời có thể chấm dứt vì trúng đạn của một tay bắn tỉa”, và báo trước rằng sẽ dùng đó như một thiết bị để kết thúc cuốn sách đột ngột
    Rồi ông thực sự kết thúc như vậy, nhưng ngay sau đó lại thêm câu “đây chính là cái kết tôi đã báo trước”, một cú bẻ lái đúng kiểu Herzog

  • Việc các tập đoàn lớn đưa ra reading list cuối năm là một thông điệp PR kiểu “chúng tôi là những con người có cảm xúc và gu thẩm mỹ”
    Nhưng qua vụ này, lộ ra rằng đó chỉ là một màn dàn dựng quảng bá mà thôi

  • Khi thấy câu kết là “ý nghĩa cuộc đời là một số nguyên (integer)”, tôi lập tức nghĩ đây chắc chắn là câu do AI viết

  • Cả danh sách đầy rẫy giọng điệu rất đặc trưng của LLM
    Xét đến nguồn gốc thì cũng chẳng có gì đáng ngạc nhiên. Thực ra ngay từ giả thuyết đầu tiên (thuyết LLM viết) là đã đủ kết luận rồi

    • Họ nói rằng “đã đọc hết mọi cuốn sách”, nhưng nếu thực sự thích thì lẽ ra cũng phải tự viết được vài câu chứ
  • Châm biếm Stephenson là một nhà văn Dadaist “kết thúc giữa câu”

    • Sau đó còn có câu tự nhại kiểu “100 năm nữa người ta sẽ nhớ tôi như một nhà văn như thế”
  • Một giả thuyết khác là đơn giản chỉ do nhớ nhầm
    Có thể ai đó nhớ rằng một cuốn sách của Stephenson đọc từ lâu có cái kết hụt hẫng, rồi nhầm với một cuốn khác “kết thúc giữa chừng của câu”

    • Nếu là review chính thức của công ty, ít nhất chắc họ cũng nên mở lại sách ra và đọc lại vài trang
    • Cá nhân tôi thấy giả thuyết A (AI viết) thuyết phục hơn hẳn
    • Hoặc cũng có thể đây là kiểu marketing chi phí thấp, nhét vài cuốn sách quảng bá công ty mình vào một Top 50 list do AI tạo ra
    • Cũng có cả giả thuyết D-for-Delany: “một con người tưởng rằng Stephenson đã viết Dhalgren”. Họ trích câu kết thúc bằng “I have come to” để minh họa