- Trang web Low-background Steel có vai trò tập hợp các tư liệu không bị ô nhiễm bởi nội dung do AI tạo ra
- Dự án này tập trung vào các tư liệu văn bản, hình ảnh và video được tạo ra trước khi nội dung AI bùng nổ trên diện rộng vào năm 2022
- Giới thiệu các nguồn đóng góp tiêu biểu như Wikipedia, Arctic Code Vault, Project Gutenberg
- Khách truy cập trang web cũng có thể gửi thêm các tư liệu mới chưa bị ô nhiễm
- Lấy cảm hứng từ khái niệm kim loại tinh khiết trước các vụ thử hạt nhân, ý tưởng này tập trung vào việc duy trì độ tin cậy và tính nguyên bản
Giới thiệu
- Low-background Steel là một trang web tập hợp các tài nguyên trực tuyến không bị ô nhiễm bởi nội dung do AI tạo ra
- Tên gọi của trang được lấy cảm hứng từ Low-background Steel (và Lead), tức loại kim loại được sản xuất trước các vụ thử hạt nhân nên không bị nhiễm phóng xạ
- Kim loại được trục vớt từ những con tàu bị chìm trước thử nghiệm hạt nhân (Trinity Test) được đánh giá cao vì hầu như không bị nhiễm phóng xạ
- Từ ý tưởng đó, dự án hướng tới việc bảo tồn và chỉ dẫn các nội dung số thuần khiết được tạo ra trước khi sản phẩm do AI sinh ra tăng vọt
Mục tiêu và bối cảnh
- Tập trung vào việc đảm bảo nhiều dạng tư liệu nguyên bản như văn bản, hình ảnh, video... được tạo ra trước khi nội dung tạo sinh dựa trên AI xuất hiện trên quy mô lớn vào năm 2022
- Những tư liệu này bao gồm các cơ sở dữ liệu nguồn mở tiêu biểu và đáng tin cậy như bản dump đầy đủ của Wikipedia, Arctic Code Vault, Project Gutenberg
- Người dùng trang web có thể trực tiếp bổ sung các tư liệu mới chưa bị ô nhiễm thông qua biểu mẫu gửi lên
Tầm quan trọng của trang web
- Trong thời đại nội dung do AI tạo ra bùng nổ, việc bảo tồn tính nguyên bản và đảm bảo nguồn thông tin đáng tin cậy ngày càng quan trọng
- Low-background Steel hướng tới cung cấp dữ liệu tham chiếu sạch có thể sử dụng mà không phải lo ngại về ô nhiễm thông tin
Cách đóng góp
- Bất kỳ ai cũng có thể đề xuất thêm các nguồn nội dung Non-contaminated mới thông qua tính năng submit của trang web
Tham khảo
- Có liên kết tới phần giải thích trên Wikipedia về Low-background Steel, phản ánh rõ mục đích của trang web
- Dự án này được ra mắt vào tháng 3 năm 2023 và hiện đang đóng vai trò như một trung tâm thử nghiệm cho việc bảo tồn nội dung trực tuyến
1 bình luận
Ý kiến trên Hacker News
Cảm thấy thú vị với ý tưởng thêm một
planemới vào Unicode để sao chép như gương toàn bộ các ký tự hữu ích, rồi gắn thêm các bit trạng thái để phân biệtVí dụ, tưởng tượng ra việc nếu dùng văn bản do AI tạo trong khu vực “kết quả do con người trực tiếp viết” thì sẽ bị phạt ngay, trong vùng “chỉ công khai cho con người” thì cấm cả việc AI học hoặc truy cập, còn trong phạm vi “thừa nhận là do AI tạo” thì mọi đầu ra AI bắt buộc phải dùng dải ký tự đó
Dĩ nhiên các ký tự này khó phân biệt bằng mắt và chỉ có thể nhận ra qua phần mềm, nên chúng hoạt động như một kênh tinh vi
Dù sao khi copy-paste văn bản thì thông tin gốc cũng sẽ đi kèm theo những khác biệt rất nhỏ trong mã hóa ký tự
Gần như là chuyện đùa, nhưng vẫn thấy kiểu hệ thống này khá hấp dẫn
Giống như thực phẩm hữu cơ, họ nghĩ nội dung “organic” 100% do con người viết sẽ hình thành giá trị premium
Cảm thấy tiêu chí “văn bản do AI tạo” khá mơ hồ nên đưa ra ví dụ cụ thể
Trong Unicode vốn đã có các tag character để đánh dấu vùng ngôn ngữ, nhưng vì bị markup cấp cao hơn (
HMTLv.v.) lấn át nên nay đã bị loại bỏNếu luật này được áp dụng thì chỉ sau 12 mili giây ở Ấn Độ sẽ xuất hiện “xưởng đánh máy”, nơi con người chép lại đầu ra AI để rửa dữ liệu
Ví dụ, nếu viết bằng ngoại ngữ rồi nhờ ChatGPT dịch sang tiếng Anh thì có được xem là sản phẩm do AI tạo hay không
Có ý kiến cho rằng đầu ra AI về bản chất mang hiện tượng hồi quy về trung bình
Theo góc nhìn này, đây vốn là loại thông tin mà con người hoàn toàn có thể tự hỏi rồi tự nhận được
Chỉ cần gắn tag
<AI generated content>cho mọi nội dung do AI tạo, còn ngoài ra thì nó gần với ô nhiễm hơn là lợi ích công cộngTheo logic đó thì rốt cuộc chẳng cần viết gì cả
Niềm tin trực giác này từng có chút bằng chứng thực nghiệm hậu thuẫn
Chính quá trình kiểm chứng và tuyển chọn gắn với tên tuổi chuyên gia con người cũng đã có giá trị rất lớn
Tò mò liệu một bài viết được AI biên tập hoặc đổi văn phong thì cuối cùng vẫn có thể xem là do con người viết hay không
Thấy đây là điều vô nghĩa
Cho rằng các thuật ngữ được dùng trong bài này được chọn rất khéo để làm giảm nhẹ mối lo
Sau khi thử nghiệm hạt nhân chấm dứt, mức phóng xạ đã gần trở lại mức tự nhiên nên nhu cầu về low-background steel mới giảm đi, và thép mới cũng có tín hiệu phóng xạ đủ thấp để dùng cho hầu hết mục đích
Thứ nhất, họ không nghĩ dữ liệu “không bị ô nhiễm” là thứ bắt buộc phải có
Việc nền phóng xạ giảm là thật, và đúng là vì chúng ta đã dừng thử nghiệm hạt nhân
Cho rằng vấn đề này sẽ không nghiêm trọng như công chúng hình dung
Về dài hạn, AI sẽ học từ trải nghiệm thực tế nên sẽ có nguồn dữ liệu huấn luyện phi tác phẩm gần như vô hạn, và nhờ đó tránh được vấn đề ô nhiễm AI
Nhưng trong thực tế, các hallucination của AI lại có xu hướng được trích dẫn rồi đóng đinh thành sự thật
Dữ liệu trải nghiệm thực tế, ví dụ sửa xe, vốn tốn kém và rủi ro ngay từ khâu tạo ra
Trên YouTube có vô số dữ liệu trải nghiệm sửa ô tô thực tế, nhưng lại có vấn đề bản quyền
Tò mò liệu về dài hạn có thật sự cần AGI hay không
Dự đoán rằng trước khi có robot hình người với trí tuệ phổ quát thật sự, sẽ không có hệ thống AI sửa ô tô nào thành hiện thực
Hiện tại chưa có bằng chứng cho thấy “ô nhiễm AI” thực sự gây vấn đề cho việc huấn luyện AI
AI được huấn luyện trên dữ liệu công khai trước năm 2022 không cho thấy ưu thế hiệu năng rõ rệt so với AI huấn luyện trên dữ liệu sau 2022
Thậm chí đôi khi dữ liệu gần đây còn cho kết quả nhỉnh hơn đôi chút
Cách nghĩ đằng sau phép so sánh với
low background steelchính là: nếu cứ tiếp tục học trên dữ liệu tổng hợp thì cuối cùng mô hình AI sẽ trở nên hoàn toàn vô nghĩa do “model collapse”Lập luận trên không hợp lý vì nhiều lý do
“Cặn” ô nhiễm AI vẫn chưa thật sự tràn ngập ở quy mô lớn, nhưng được kỳ vọng sẽ tăng mạnh trong tương lai
Một số người không quá dị ứng với nội dung AI, và đánh giá phép ví von
low-background steellà một ý tưởng cực kỳ xuất sắcBản thân họ cũng không quá khó chịu với nội dung AI, thậm chí còn từng làm một trang web liên quan
Cá nhân họ không hẳn là sợ AI, mà chủ yếu muốn ngăn hiện tượng AI lại học chính đầu ra của mình
pre-AIcó độ khan hiếm ngày càng tăng vì không thể tạo mới lại được nữaHôm nay cảm giác như suy nghĩ của mình đã tỏ ra tiên tri một cách kỳ lạ
Bình luận cũ của tôi
Thực ra đã thấy ví dụ này trên Hacker News ít nhất từ 1 năm trước, thậm chí có thể lâu hơn
Đây là phép ví von được dùng khá phổ biến sau khi ChatGPT ra mắt
Họ cũng từng thấy cách đóng khung “nội dung không bị AI ô nhiễm”, nhưng việc đem
low background steelra so sánh với nó thì đúng là một cú liên tưởng khá mới mẻHọ lại nghĩ khác
Đồng cảm với sự thú vị của phép so sánh
low-background analogyNghi ngờ liệu phép ví von này có thật sự thuyết phục hay không
low-background steeltrên thực tế gần như không thể sản xuất mới, còn nội dung không dùng AI thì chỉ cần không dùng AI là được, nên độ khó thấp hơn nhiềuTrên thực tế gần như không thể chứng minh khách quan rằng một sản phẩm là AI-free, nên ngoài chính người tạo ra thì chẳng ai có thể chắc chắn
Họ đặt câu hỏi ai sẽ tạo nội dung AI-free, vì lý do gì, và bằng nguồn tiền nào
Cho rằng đây chỉ là một tiêu đề mang tính câu clickbait
Dựa trên việc tên của trang này xuất phát từ Y combinator, có người nêu ra việc tìm fixed point của một hàm như một yêu cầu đối với mô hình inference
Kỳ vọng rằng ngay cả khi dữ liệu do AI thiên lệch tạo ra ngày càng nhiều, thì việc trộn lẫn nội dung gốc do con người tạo, nội dung phái sinh, rồi cả nội dung phái sinh của nội dung phái sinh qua nhiều tầng trong huấn luyện vẫn sẽ cho phép trích xuất được các đặc trưng cốt lõi