Liệu các mô hình ngôn ngữ lớn có trở thành mối đe dọa đối với tài sản công kỹ thuật số?

kuroneko · 2023-07-18T15:33:20+09:00

Phân tích tác động của LLM lên nội dung web thông qua hoạt động trên Stack Overflow sau khi ChatGPT xuất hiện. Hoạt động trên Stack Overflow đã giảm từ 16% đến 25% kể từ sau ChatGPT. Ngôn ngữ càng phổ biến và được sử dụng rộng rãi thì mức giảm càng lớn. Đây là con số khi so sánh với các trang ở Trung Quốc, Nga nơi ChatGPT bị chặn, hoặc các trang liên quan đến toán học mà AI khó thay thế. Số phiếu bầu cho các bài đăng không thay đổi, nên không thể xem là chất lượng câu trả lời đã tăng lên. Điều này có nghĩa là dữ liệu do con người tạo ra đang giảm đi kể từ sau ChatGPT. Theo đó, nhiều vấn đề có thể phát sinh. Lượng và chất lượng tài liệu trên toàn bộ Internet có thể suy giảm, đồng thời hiệu quả của dữ liệu huấn luyện AI cũng có thể giảm theo. Dữ liệu của ChatGPT do OpenAI độc quyền sở hữu, nên khoảng cách công nghệ giữa các doanh nghiệp có thể ngày càng nới rộng. Phạm vi khám phá của con người có thể bị thu hẹp, và sự phát triển của các sản phẩm hoặc ngôn ngữ mới mà AI chưa được huấn luyện có thể bị chậm lại. Khoảng cách giữa các tầng lớp, như giữa các quốc gia hoặc mức thu nhập khó tiếp cận lợi ích từ LLM, có thể càng bị nới rộng. Đây là vấn đề cần được suy nghĩ để xây dựng một hệ sinh thái web và AI bền vững.

(arxiv.org)

11 điểm bởi kuroneko 2023-07-18 | 5 bình luận | Chia sẻ qua WhatsApp

Phân tích tác động của LLM lên nội dung web thông qua hoạt động trên Stack Overflow sau khi ChatGPT xuất hiện.
Hoạt động trên Stack Overflow đã giảm từ 16% đến 25% kể từ sau ChatGPT.
- Ngôn ngữ càng phổ biến và được sử dụng rộng rãi thì mức giảm càng lớn.
- Đây là con số khi so sánh với các trang ở Trung Quốc, Nga nơi ChatGPT bị chặn, hoặc các trang liên quan đến toán học mà AI khó thay thế.
Số phiếu bầu cho các bài đăng không thay đổi, nên không thể xem là chất lượng câu trả lời đã tăng lên.
Điều này có nghĩa là dữ liệu do con người tạo ra đang giảm đi kể từ sau ChatGPT.
Theo đó, nhiều vấn đề có thể phát sinh.
- Lượng và chất lượng tài liệu trên toàn bộ Internet có thể suy giảm, đồng thời hiệu quả của dữ liệu huấn luyện AI cũng có thể giảm theo.
- Dữ liệu của ChatGPT do OpenAI độc quyền sở hữu, nên khoảng cách công nghệ giữa các doanh nghiệp có thể ngày càng nới rộng.
- Phạm vi khám phá của con người có thể bị thu hẹp, và sự phát triển của các sản phẩm hoặc ngôn ngữ mới mà AI chưa được huấn luyện có thể bị chậm lại.
- Khoảng cách giữa các tầng lớp, như giữa các quốc gia hoặc mức thu nhập khó tiếp cận lợi ích từ LLM, có thể càng bị nới rộng.
Đây là vấn đề cần được suy nghĩ để xây dựng một hệ sinh thái web và AI bền vững.

5 bình luận

soupdog 2023-07-25

Có vẻ như khi các mô hình ngôn ngữ thay thế kiểu giao tiếp mà Stack Overflow từng đảm nhiệm, lượng tri thức được chia sẻ trên Internet thông qua sự trao đổi giữa con người với nhau đang dần giảm đi. Mượn phép ẩn dụ về nhà thờ và khu chợ, có cảm giác rằng nó đang trở thành một "nhà thờ" bị ai đó độc quyền theo đúng nghĩa.

laeyoung 2023-07-19

Điều tôi lo ngại, và cũng là vấn đề lớn nhất mà cá nhân tôi từng trải qua, là hiện tượng trong kinh tế học gọi là “tiền xấu đuổi tiền tốt” đang xảy ra.

Trước khi ChatGPT xuất hiện, để được Google phê duyệt quảng cáo thì tính đến cuối năm ngoái, chỉ cần viết khoảng 8 bài trên blog là được. Nhưng bây giờ, dù có viết gấp đôi chừng đó thì vẫn không được phê duyệt vì thiếu nội dung hoặc nội dung không hợp lệ. Dù đó đều là những bài tôi tự tay viết.

Vì số lượng blog được tạo tự động bằng AI ngày càng nhiều, tiêu chuẩn phê duyệt AdSense đã tăng lên, và cũng không ai biết điểm dừng sẽ ở đâu. Vì vậy mà tôi đã gần như từ bỏ việc cố xin phê duyệt AdSense cho blog viết review phim mà tôi duy trì suốt gần 3 tháng.

Phía kiểm duyệt không thể phân biệt đâu là nội dung tốt (nội dung do con người viết), đâu là nội dung xấu (do AI tạo ra, hoặc do AI tạo rồi chỉnh sửa), nên có lẽ họ sẽ đi theo hướng nâng tiêu chuẩn lên. Cuối cùng, tôi nghĩ rất có thể chúng ta sẽ lại thấy cảnh như hồi đầu năm nay, khi chỉ những trang web được tạo tự động mới xuất hiện ở vị trí đầu trong kết quả tìm kiếm của Google.

cosine20 2023-07-19

Tôi thì ngược lại khá thiên về góc nhìn tích cực hơn.
Cách tra cứu thông tin truyền thống đòi hỏi hai thứ: “khả năng nhập từ khóa phù hợp vào công cụ tìm kiếm” và “khả năng chọn ra kết quả đúng thứ mình muốn từ danh sách kết quả”. Mức độ mệt mỏi phát sinh từ đây là khá lớn.
Chỉ đơn giản là muốn tìm đoạn code làm một việc đơn giản, nhưng nếu lần theo một bài viết trên StackOverflow xuất hiện trong kết quả tìm kiếm thì lại có ba bốn đoạn mã trong các câu trả lời; có cái bị downvote vì dùng đặc tả ngôn ngữ cũ nên quá phức tạp, có cái được chấp nhận nhưng sau khi lên phiên bản mới thì không còn chạy đúng nữa, nên trong phần bình luận mọi người tích cực than phiền về sự bất tiện và tự tìm cách giải quyết với nhau. Những chuyện như vậy thực ra xảy ra thường xuyên hơn người ta nghĩ.

Rốt cuộc, nhìn ở bối cảnh lớn thì từ sau thời đại thông tin hóa đến nay, nhu cầu về “khả năng chọn ra đúng thông tin mình thực sự cần giữa biển thông tin” vẫn không thay đổi, nhưng tôi nghĩ số lựa chọn được đưa ra cho mỗi người đang trở nên quá nhiều, khiến việc phán đoán trở nên phiền phức và mệt mỏi.

Ở khía cạnh này, các mô hình ngôn ngữ lớn được huấn luyện tốt có thể cung cấp bằng một UX hợp lý, từ những thông tin rất trivial mà mọi người thường tìm cho đến một mức độ nào đó của thông tin bậc cao hơn, nên tôi lại nghĩ rằng điều này có thể cho phép một mức độ phân công nhất định.
Những thứ như thông tin rất mới mà khó có thể nhận được câu trả lời phù hợp từ LLM, hay các câu hỏi phức tạp nơi nhiều bối cảnh khác nhau đan xen theo nhiều cách, sẽ là phần do các dịch vụ hỏi đáp như StackOverflow đảm nhiệm.

Tuy vậy, tôi cho rằng vẫn còn bài toán là liệu LLM có thể sàng lọc thông tin đủ chính xác, dựa trên căn cứ rõ ràng, để cung cấp cho công chúng hay không.

kuroneko 2023-07-18

HN thread

Tất nhiên đây là một nghiên cứu khá hạn chế vì chỉ xem xét một số trang web, nên có thể có thiên lệch lớn,
nhưng cuối cùng thì việc khoảng cách công nghệ có thể bị nới rộng theo nhiều cách quả thật khiến tôi thấy đáng lo.

Trong phần bình luận có câu rằng "AI làm tập trung của cải, bằng cách chuyển dòng tiền do giá trị của nội dung do con người tạo ra sang các công ty AI",
và tôi thấy điều này khá đáng đồng cảm.

jujumilk3 2023-07-18

Hức, hình như không gắn được emoji nhỉ. Mình cũng đồng cảm.

Liệu các mô hình ngôn ngữ lớn có trở thành mối đe dọa đối với tài sản công kỹ thuật số?

Bài viết liên quan

5 bình luận