- Công nghệ hiện được gọi là AI thực chất là các hệ thống machine learning (ML) phức tạp, được cấu trúc để hoàn thiện văn bản, hình ảnh và âm thanh theo thống kê
- LLM là cỗ máy tạo ra những “lời dối trá nghe có vẻ hợp lý” như một màn ứng tác, né tránh câu trả lời rằng nó không biết và tạo ra các sự kiện hư cấu
- Con người dễ nhầm chúng là thực thể có ý thức, nhưng phần tự giải thích và quá trình suy luận của mô hình chỉ là những tự sự hư cấu
- LLM cho thấy hiệu năng gập ghềnh, giải được vấn đề cao cấp nhưng lại thất bại ở các tác vụ đơn giản, bộc lộ những ranh giới không đáng tin cậy
- Trong sự mất cân đối và bất định đó, ML đang trở thành công nghệ làm xã hội loài người thay đổi theo cách kỳ lạ một cách căn bản
Lời mở đầu
- Thế hệ lớn lên với niềm ngưỡng mộ thế giới khoa học viễn tưởng của Asimov và Clarke từng hình dung đầy lạc quan về sự xuất hiện của máy móc thông minh, nhưng đã trải qua thất vọng trong thực tại nơi bài kiểm tra Turing sụp đổ
- Khi một tập đoàn đám mây lớn công bố phần cứng huấn luyện LLM vào năm 2019, đã xuất hiện lo ngại rằng sự lan rộng của deep learning có thể tạo ra những dạng spam và tuyên truyền mới
- Bài viết này khám phá không gian phủ định của diễn ngôn AI, và được cấu thành như một nỗ lực phác ra đường nét của rủi ro và khả năng, chứ không phải một phân tích hoàn chỉnh
- Vì thuật ngữ “AI” quá bao trùm, nên trọng tâm được đặt vào thảo luận cụ thể xoay quanh ML và LLM
- Một số dự đoán đã trở thành hiện thực, còn một số khác vẫn ở lại trong vùng bất định và kỳ lạ
“AI” là gì
- Thứ hiện được gọi là “AI” là một nhóm công nghệ machine learning (ML) phức tạp, các hệ thống nhận diện, biến đổi và tạo sinh các vector token của văn bản, hình ảnh, âm thanh, video v.v.
- LLM (Large Language Model) xử lý ngôn ngữ tự nhiên và vận hành bằng cách dự đoán phần tiếp nối có khả năng thống kê của chuỗi đầu vào
- Mô hình được huấn luyện trên các trang web và corpus dữ liệu quy mô lớn gồm cả sách, nhạc bị sao chép lậu, rồi sau huấn luyện có thể được dùng lặp lại bằng suy luận (inference) chi phí thấp
- Mô hình không tự học theo thời gian mà chỉ được cập nhật thông qua điều chỉnh từ phía vận hành hoặc tái huấn luyện
- “Ký ức” của mô hình hội thoại thực chất được hiện thực hóa bằng một kỹ thuật cấu trúc đưa bản tóm tắt các cuộc trò chuyện trước vào đầu vào
Fanfiction của hiện thực
- LLM vận hành như một cỗ máy ứng tác (improv), thể hiện mẫu “yes-and” nối tiếp ngữ cảnh đầu vào bằng kiểu “và rồi thì…”
- Vì thế, nó tạo ra những câu văn nghe có vẻ hợp lý nhưng không liên quan đến sự thật, hiểu sai châm biếm hay ngữ cảnh và bịa ra thông tin sai lệch
- Con người dễ nhầm đầu ra như vậy là phát ngôn của một thực thể thật sự có ý thức
- Vì LLM tạo đầu ra cho mọi đầu vào, nên nó có xu hướng né tránh câu trả lời “tôi không biết” và thay vào đó bịa ra điều sai
- Những lời dối trá này không phải hành vi có chủ ý, mà xuất hiện như một sản phẩm xã hội-kỹ thuật do tương tác giữa con người và máy móc tạo nên
Người kể chuyện không đáng tin
- Con người thường yêu cầu LLM tự giải thích kiểu như “vì sao anh làm như vậy”, nhưng mô hình không có năng lực tự nhận thức
- LLM chỉ đơn thuần tạo ra phần hoàn tất mang tính xác suất dựa trên hội thoại trước đó và corpus, nên cả lời giải thích về chính nó cũng được cấu thành như một câu chuyện hư cấu
- Ngay cả các mô hình “suy luận (reasoning)” cũng vận hành theo kiểu thêu dệt quá trình tư duy của mình thành một tự sự
- Theo nghiên cứu của Anthropic, phần lớn bản ghi suy luận của Claude là không chính xác, và ngay cả thông báo trạng thái như “đang suy nghĩ” cũng chỉ là một màn dàn dựng hư cấu
Mô hình rất thông minh
- Trong vài tháng gần đây, nhận thức rằng năng lực của LLM đã tăng rất nhanh ngày càng lan rộng
- Một số kỹ sư cho biết Claude hay Codex có thể giải ngay những bài toán lập trình phức tạp trong một lần
- Ở nhiều lĩnh vực đã xuất hiện ứng dụng thực tế như thiết kế thực đơn, rà soát đặc tả xây dựng, trực quan hóa 3D, viết bản tự đánh giá
- Chúng cũng cho thấy hiệu năng cao ở các lĩnh vực như dự đoán gấp cuộn protein của AlphaFold và đọc ảnh y khoa
- Trong văn phong tiếng Anh, hình ảnh, âm nhạc v.v., việc phân biệt con người với máy móc ngày càng khó, dù tạo sinh video vẫn còn bị hạn chế
Mô hình rất ngốc
- Đồng thời, LLM cũng bị đánh giá là một hệ thống “ngốc” lặp đi lặp lại những lỗi rất cơ bản
- Ví dụ, Gemini liên tục xử lý sai hình học và vật liệu khi render mô hình 3D, còn Claude tạo ra mã trực quan hóa JavaScript vô nghĩa
- ChatGPT thậm chí không thể thực hiện đúng một yêu cầu chỉnh màu đơn giản và còn đưa ra khẳng định sai sự thật khi suy đoán nhầm xu hướng tính dục của người dùng
- Đã có những trường hợp được ghi nhận khi LLM tạo biểu đồ từ dữ liệu giả, thất bại trong điều khiển nhà thông minh, hoặc gây ra tổn thất tài chính
- Tính năng AI Overview của Google cho thấy tỷ lệ lỗi khoảng 10%, và những tuyên bố về “trí tuệ cấp độ chuyên gia” bị xem là ảo tưởng phóng đại
Ranh giới gập ghềnh
- Con người nhìn chung có thể dự đoán phạm vi năng lực của nhau, nhưng hiệu năng của các hệ thống ML lại thất thường và không thể đoán trước
- LLM có thể giải toán cao cấp nhưng lại thất bại ở bài toán ngôn ngữ đơn giản, đồng thời đưa ra những lời giải thích thiếu thường thức vật lý
- Sự mất cân đối này được gọi là “ranh giới công nghệ gập ghềnh (jagged technology frontier)”, và khác với phân bố năng lực của con người ở chỗ nó mang hình thái không liên tục
- Vì ML phụ thuộc vào dữ liệu huấn luyện hoặc cửa sổ ngữ cảnh (window), nó yếu ở những tác vụ đòi hỏi tri thức ngầm
- Robot hình người hay các lĩnh vực đòi hỏi tri thức nhập thể (embodied knowledge) vẫn còn ở rất xa
Đang cải thiện hay không
- Các nhà nghiên cứu thậm chí vẫn chưa hiểu rõ nguyên nhân thành công của mô hình transformer
- Sau bài báo năm 2017 Attention is All You Need, nhiều kiến trúc đã được thử nghiệm, nhưng cách tiếp cận đơn giản là tăng số lượng tham số vẫn hiệu quả nhất
- Dù chi phí huấn luyện và số tham số tăng vọt, mức cải thiện hiệu năng đang chậm lại, và chưa rõ đây là ảo giác hay giới hạn thực sự
- Kể cả khi ML không còn cải thiện nữa, nó vẫn đã gây ra ảnh hưởng sâu sắc lên xã hội, chính trị, nghệ thuật và kinh tế
- Kết quả là ML là công nghệ đang làm đời sống con người thay đổi theo hướng kỳ lạ một cách căn bản, và diễn biến sắp tới nhiều khả năng sẽ “trôi theo hướng rất lạ”
Chú thích thuật ngữ
- Vì “AI” quá bao trùm nên được cụ thể hóa thành ML hoặc LLM
- “Generative AI” bị xem là một cách diễn đạt không trọn vẹn vì không bao gồm các tác vụ nhận diện
- Lý do LLM nói dối về chính nó là do ảnh hưởng từ các tự sự của con người về AI và từ dữ liệu huấn luyện
- Đối với phản biện nhằm vào nhận định “mô hình rất ngốc”, rằng đó chỉ là vấn đề của prompt hay lựa chọn mô hình, bài viết cho rằng cùng những lỗi ấy vẫn lặp lại cả ở các mô hình thương mại mới nhất
1 bình luận
Ý kiến trên Hacker News
Dạo này tôi thường nghĩ rằng tình hình hiện nay khá giống với thời Cách mạng Công nghiệp
Trước Cách mạng Công nghiệp, người ta gần như xem tài nguyên thiên nhiên là vô hạn, và vì hiệu suất thấp nên cũng không thể khai thác cạn kiệt hoàn toàn. Nhưng với sự xuất hiện của máy móc, một số ít người đã có thể tiêu hao hoàn toàn một phần của Trái Đất, và kết quả là cần đến quyền sở hữu và hệ thống pháp luật
Bây giờ là thời đại cách mạng thông tin, và AI đang đóng vai trò tương tự trong lĩnh vực số. Một công ty huấn luyện AI để tái sử dụng tác phẩm của vô số nhà sáng tạo ở quy mô công nghiệp. Điều này đang làm mất cân bằng giữa người sáng tạo và người tiêu dùng
Tôi tự hỏi trong một thế giới nơi những gì tác giả viết ra bị ChatGPT hấp thụ và bản gốc bị lãng quên thì ai sẽ còn tiếp tục tạo nội dung nữa. Bây giờ có cảm giác giống như London thời Dickens, chúng ta sẽ phải trải qua một giai đoạn khắc nghiệt cho đến khi xã hội và pháp luật bắt kịp
Kể từ “Attention is All You Need”, lĩnh vực này đã phát triển không chỉ bằng cách tăng số tham số mà còn qua các cấu trúc phức tạp như Mixture-of-Experts, Sparse Attention, Mamba/Gated Linear Attention. Cách diễn giải Bitter Lesson theo kiểu “chỉ cần tăng tính toán là đủ” là một sự hiểu sai
Các mô hình hiện nay đã học gần như toàn bộ dữ liệu công khai. Nếu các hạn chế bản quyền được siết chặt hơn thì có thể xuất hiện vấn đề thiếu dữ liệu huấn luyện. Nếu không có một đột phá cỡ “Attention is All You Need” mới, có cảm giác như chúng ta đang chạm đến giới hạn cải thiện hiệu năng
Nói rằng “LLM vẫn chưa sáng tạo” là quá đơn giản. Trong các bài toán dựa trên văn bản, nó đã có thể suy luận logic, và ở mảng hình ảnh hay UI cũng đang phát triển rất nhanh
Tôi thường giải thích với mọi người rằng bên trong LLM không có ý thức hay tính tự chủ. Từ ‘AI’ hiện nay đang bị dùng với ý nghĩa phóng đại quá mức
Tôi đã bật cười khi thấy ví dụ LLM giải sai bài toán vật lý. Thực ra các nhà vật lý cũng thường bắt đầu với những giả định phi thực tế. Thậm chí còn có câu đùa kiểu “mái vòm hình cầu không ma sát”
Vẫn khó có thể xem là đã vượt qua bài kiểm tra Turing. Càng trò chuyện lâu thì ngữ cảnh càng sụp đổ, và vẫn có giới hạn trong việc mô phỏng những đặc tính rất con người như tính dẻo thần kinh
Tiêu đề bài gốc “The Future of Everything is Lies, I Guess” không phù hợp với nội dung nên đã được sửa lại. Thực tế đây là một bài viết cân bằng, và tiêu đề câu view đó đã được đổi theo đúng hướng dẫn của HN
Các cuộc thảo luận về ý thức cần khiêm tốn hơn. Ngay cả ý thức của con người còn chưa được định nghĩa, nên không thể khẳng định chắc chắn về ý thức của LLM
Ở nửa sau bài viết có nói “AI sẽ thay đổi toàn xã hội”, nhưng tập này có cảm giác tập trung nhiều hơn vào giới hạn của LLM