Low-background Steel cho nội dung chưa bị AI làm ô nhiễm

(blog.jgc.org)

1 điểm bởi GN⁺ 2025-06-11 | 1 bình luận | Chia sẻ qua WhatsApp

lowbackgroundsteel.ai được tạo vào tháng 3/2023 để tìm các tài liệu từ trước khi nội dung do AI tạo ra bị trộn lẫn ồ ạt trên web
Tên gọi là một phép ẩn dụ lấy từ thép và chì nền phóng xạ thấp không bị ô nhiễm bởi các đồng vị phóng xạ từ thử nghiệm hạt nhân
Low-background steel và chì ngoài đời thực thường chỉ kim loại được thu hồi từ các con tàu bị đắm trước Trinity Test năm 1945
Trang web tập trung thu thập các nguồn văn bản, hình ảnh, video được tạo ra trước khi nội dung do AI tạo bùng nổ trong năm 2022
Trang liên kết tới các tài liệu như Wikipedia dump trước khi ChatGPT ra mắt, Arctic Code Vault, Project Gutenberg, đồng thời nhận thêm các nguồn chưa bị ô nhiễm khác do người dùng gửi

Trung tâm tập hợp tài liệu từ trước thời AI

lowbackgroundsteel.ai là một trung tâm tài liệu được tạo ra כדי thu thập các tài nguyên trực tuyến chưa bị trộn lẫn nội dung do AI tạo
Trang được khởi động vào tháng 3/2023 và đóng vai trò sắp xếp các tài nguyên trực tuyến từ trước khi nội dung do AI tạo lan rộng

Phép ẩn dụ trong tên gọi

Low-background Steel là kim loại không bị ô nhiễm bởi các đồng vị phóng xạ phát sinh từ thử nghiệm hạt nhân
Loại thép và chì này thường được thu hồi từ các con tàu bị đắm trước Trinity Test năm 1945
Trang web áp dụng khái niệm này cho nội dung, gọi các tài liệu chưa bị ô nhiễm bởi nội dung do AI tạo là Low-background Steel

Đối tượng thu thập và ví dụ

Đối tượng thu thập là các nguồn văn bản, hình ảnh, video được tạo ra trước khi nội dung do AI tạo tăng vọt trong năm 2022
Các ví dụ hiện đang được liên kết gồm có
- Wikipedia dump từ trước khi ChatGPT ra mắt
- Arctic Code Vault
- Project Gutenberg
  - Các nguồn tài liệu bổ sung khác

Gửi tài liệu

Nếu bạn biết các nguồn khác chưa bị ô nhiễm bởi nội dung do AI tạo, có thể gửi qua trang gửi

1 bình luận

GN⁺ 2025-06-11

Ý kiến trên Hacker News

Tôi nghĩ chỉ cần thêm một mặt phẳng (plane) mới vào Unicode, sao chép toàn bộ các ký tự cần thiết cho giao tiếp nhưng thêm bit trạng thái bổ sung là được
Đặt ra các phạm vi như chắc chắn do con người viết, chỉ dành cho mắt người, thừa nhận do AI tạo, và ai vi phạm thì cho vào tù
Tất nhiên mọi phạm vi đều là các ký tự đồng hình không thể phân biệt bằng mắt, nên nó trở thành một kênh bán ẩn được trung gian bằng phần mềm nhằm công bố công bằng
Dù sao chép và dán từ nhiều nguồn, thông tin nguồn vẫn đi theo nhờ khác biệt tinh vi trong mã hóa ký tự; câu này chỉ đùa với xác suất gần bằng 1
- Giống như thực phẩm, nội dung hữu cơ hoàn toàn cũng sẽ có giá trị thị trường
  Nghĩa là nội dung do con người viết, vẽ, sáng tác, biên tập và tuyển chọn
  Tuy nhiên, cũng như thực phẩm, việc định nghĩa phạm vi cho phép sẽ là cơn ác mộng, rất khó chứng minh là hữu cơ, chứng nhận phụ thuộc vào mạng lưới niềm tin, trên thực tế vẫn bị nhiễm thứ mà nó muốn tránh, và thậm chí dù có bằng chứng rằng nó còn tệ hơn thì vẫn có thể bán giá cao hơn
- Unicode vốn có một phạm vi Tag Characters được tạo ra để đánh dấu rằng một phần văn bản đến từ ngôn ngữ khác
  Công dụng này đã bị thay thế bằng ký pháp cấp cao hơn như thẻ HTML và bị loại bỏ, nhưng các ký tự thì vẫn tồn tại
  Điểm đặc biệt là chúng vô hình, và một chuỗi ký tự tag liên tiếp khi di chuyển con trỏ sẽ hoạt động như một ký tự duy nhất
  Vì nó phản ánh ASCII nên có thể mã hóa JSON tùy ý hoặc dữ liệu khác bên trong; nếu chấp nhận việc làm người khác khó chịu bằng dữ liệu ẩn hay cách dùng đã bị loại bỏ, thì nó cũng khá phù hợp để đánh dấu các đoạn do LLM tạo
  https://en.m.wikipedia.org/wiki/Tags_(Unicode_block)
- Vấn đề là định nghĩa do AI tạo như thế nào
  Lấy bài tập về nhà làm ví dụ: trường hợp học sinh tự viết toàn bộ bằng bút và giấy, hay để AI viết toàn bộ, thì rất rõ ràng; nhưng nếu em đó nghiên cứu bằng bách khoa toàn thư trực tuyến mà bách khoa đó trả lời bằng AI, nếu chỉ nhận từ AI cấu trúc bài viết, các ý chính và kết luận, hoặc tự viết rồi chỉ nhờ AI sửa lỗi chính tả, ngữ pháp và văn phong, thì lại mơ hồ
  Ngoài ra còn có trường hợp tự viết các bài về nhiều chủ đề rồi nhờ AI chọn bài hay nhất
- 12 mili giây sau khi luật kiểu này được thực thi, ở Ấn Độ sẽ mọc lên các nhà máy đánh máy, nơi người lao động chép tay lại văn bản có nguồn gốc từ AI để “rửa dữ liệu”
- Nếu nhờ ChatGPT dịch một bài viết bằng tiếng nước ngoài sang tiếng Anh, thì đó có phải là nội dung do AI tạo không
  Nếu dùng LLM để OCR một bài viết trên giấy thì sao
  Nếu đưa một dàn ý cực kỳ chi tiết rồi liên tục yêu cầu viết lại, đồng thời loại bỏ không thương tiếc những sự kiện không chắc chắn thì sao
  Nếu chỉ dùng AI để sửa ngữ pháp và biến tiếng Anh vụng về thành văn phong khoa học chuẩn chỉnh thì sao
  Trong tất cả các trường hợp này, dù kết quả cuối cùng có dạng được sao chép và dán từ LLM, tôi cho rằng câu trả lời rõ ràng là “không”
Nội dung do AI tạo về bản chất là hồi quy về trung bình, có hại cho việc học lẫn lợi ích của con người
Không có lợi ích gì khi công bố thứ mà AI có thể tạo ra; cứ hỏi trực tiếp là được
Nội dung AI có thể được công bố kèm thẻ, nhưng ngoài điều đó ra, trong rất nhiều trường hợp nó giống ô nhiễm hơn là lợi ích công cộng
- Theo logic đó thì ngay từ đầu, tại sao phải viết bất cứ thứ gì
  Sonnet của Shakespeare cũng chỉ là cách sắp xếp những từ đã tồn tại, và mọi chứng minh toán học, tiểu thuyết, báo chí cũng chỉ là một cấu hình trong không gian các chuỗi ký hiệu khả dĩ
  Việc một thứ có thể được tạo ra không phủ nhận giá trị của nó khi được tạo ra cho một mục đích, bối cảnh và độc giả cụ thể
- Cho đến vài năm trước, đây là một niềm tin nghe có vẻ hợp trực giác và cũng có một số bằng chứng thực nghiệm hạn chế
  Nhưng sau đó, nhiều đột phá năng lực đã xuất hiện từ sản phẩm do AI tạo được tuyển chọn kỹ, nên tôi cho rằng quan điểm đó đã bị bác bỏ dứt khoát
- Vậy phải nhìn nhận nội dung được AI chỉnh sửa hoặc hiệu đính như thế nào
  Dạo này các bài blog của tôi được đọc thành ghi chú giọng nói, chép lại, rồi đưa vào CGPT hoặc Claude để tinh chỉnh giọng điệu và nhịp văn
- Nếu hỏi trực tiếp thì không có bước chuyên gia con người xem xét nội dung và đứng tên bảo chứng
  Việc tuyển chọn và bảo chứng đó có giá trị
  Tất nhiên người ta có thể lập tức nghĩ “những người đó có thật sự làm vậy không?”, và tôi đồng ý, nhưng trước thời AI thì phần lớn chuyện đó cũng đã không xảy ra
  Phần lớn nội dung trên internet vốn đã là những bài viết chất lượng thấp do các cây bút lương thấp, không có chuyên môn, vội vã sản xuất hàng loạt; AI không thay đổi điều đó
- Vô lý
  Bạn đã từng dùng công cụ deep research chưa
  Đừng mắc lỗi ngụy biện không tưởng
  Con người cũng công bố những bài viết rác rưởi
Tôi không chắc đây sẽ là vấn đề lớn như mọi người nghĩ
Về dài hạn, mục tiêu có lẽ là để AI học từ trải nghiệm thực tế, chẳng hạn như thật sự sửa xe, thay vì đọc sổ tay sửa chữa ô tô
Khi đó có thể có dữ liệu huấn luyện không bản quyền gần như vô hạn, và cũng tự nhiên tránh được vấn đề dữ liệu huấn luyện bị AI làm ô nhiễm
- Vấn đề là ảo giác được trích dẫn, rồi cuối cùng được gắn nguồn như thể là sự thật
  Ví dụ có thể hỏi: “Chương trình năng suất MS-DOS nào có tích hợp Connect Four?”
  Có trình giả lập MSDOS và cũng biết đáp án đúng, nhưng có lẽ vì câu hỏi hơi obscure nên mỗi AI lại đưa ra câu trả lời khác nhau, và tôi chưa từng thấy nó trả lời đúng
  Nếu hỏi lại có chắc không, nó sẽ đổi ý
  Những câu trả lời kiểu này được trích dẫn trên mạng, rồi AI lại học vòng tham chiếu đó như nguồn, thì lúc ấy sự thật biến mất
  Nếu thật sự thử hỏi câu trên, đó sẽ là một ví dụ tuyệt vời về việc AI lặp lại một câu trả lời hoàn toàn bịa đặt với vẻ đầy thẩm quyền
- Việc phải tự tạo dữ liệu bằng trải nghiệm thực tế có thể rất đắt đỏ, và đồng nghĩa với việc thu thập dữ liệu gắn liền với rủi ro vận hành thực tế
  Waymo thu thập kinh nghiệm bằng cách cho xe chạy trên đường thật, nhưng giới hạn dữ liệu thu được trên mỗi đơn vị thời gian phụ thuộc vào quy mô đội xe, và trước hết hệ thống phải đạt đến mức năng lực đủ an toàn để vận hành ngoài đời
  Nếu muốn sửa ô tô mà bắt đầu không có kiến thức nào ngoài triển khai on-policy, thì trong một thời gian dài nó sẽ học bằng cách làm hỏng rất nhiều xe, và còn phải trả tiền cho con người để báo cho robot biết rằng nó đã thất bại
  Có lý do để mong thợ máy đọc sổ tay và được đào tạo rõ ràng, và logic chi phí này áp dụng như nhau dù thợ máy là con người hay AI
  Ngay cả khi dùng học tăng cường off-policy, nếu dữ liệu đó là phần trình diễn của các thế hệ mô hình trước, thì nó vẫn là dữ liệu huấn luyện bị AI làm ô nhiễm
- Trên YouTube có vô số dữ liệu huấn luyện chứa kinh nghiệm sửa ô tô thực tế, nhưng tất cả đều có bản quyền
  Việc các công ty AI có cần cấp phép nội dung này trước khi huấn luyện hay không vẫn là vấn đề gây tranh cãi
- Tôi cho rằng trước khi có robot hình người có trí tuệ tổng quát, cũng sẽ chưa có hệ thống AI sửa được ô tô
  Trước khi có loại robot đó, cũng sẽ chưa có hầu phòng AI cho khách sạn 5 sao
  Điều đó không có nghĩa nhận định ban đầu là sai, nhưng khoảng cách giữa hiện nay và thời điểm đó lớn đến mức khó tưởng tượng, nên câu “đừng lo rác AI làm ô nhiễm cơ sở dữ liệu tần suất từ ngữ trong ngôn ngữ, một ngày nào đó sẽ giải quyết được” nghe hơi lệch trọng tâm
- Ý là về dài hạn chúng ta muốn AGI à
  Khi có AGI thì spam cũng sẽ tốt hơn à
  https://xkcd.com/810/
Tôi thích việc thuật ngữ được chọn tinh tế đến mức khiến nỗi lo trông như không liên quan
Nó giống cách giải thích rằng sau khi chấm dứt thử nghiệm hạt nhân trong khí quyển, bức xạ nền đã trở về gần mức tự nhiên, nên thép mới cũng có tín hiệu phóng xạ đủ thấp để hầu hết các ứng dụng nhạy với bức xạ không còn cần loại thép nền thấp đặc biệt nữa
Nhưng tôi không thấy chúng ta cần dữ liệu “không bị ô nhiễm”, cũng không thấy dữ liệu như vậy khó tìm, hay đầu ra của LLM kiểu gì cũng sẽ lây nhiễm mọi thứ
Dữ liệu LLM có khi còn tốt hơn một chút so với nền tự nhiên là các bình luận Reddit, và cũng có những nơi như archive.org hay Gutenberg
- Nhưng dữ liệu gần đây không bị ô nhiễm thì khó tìm
  https://github.com/rspeer/wordfreq/blob/master/SUNSET.md
- Ừm… bức xạ nền giảm là vì chúng ta đã dừng thử nghiệm hạt nhân
Hiện tại không có lý do để tin rằng ô nhiễm AI là một vấn đề thực tế trong quá trình huấn luyện AI
AI được huấn luyện bằng dữ liệu crawl công khai trước năm 2022 không tốt hơn thấy rõ so với AI được huấn luyện bằng dữ liệu crawl sau năm 2022
Thậm chí trong một số trường hợp, vì lý do nào đó không rõ, dữ liệu crawl mới hơn còn cho hiệu năng trên mỗi token nhỉnh hơn một chút
- Đằng sau ý tưởng “thép nền thấp” là suy nghĩ rằng nếu huấn luyện AI bằng dữ liệu tổng hợp, AI có thể dẫn tới sụp đổ mô hình, trở nên hoàn toàn điên rồ và vô dụng
  Điều đó hoặc đã không xảy ra, hoặc mọi công ty AI đều có bộ lọc nội bộ hoạt động được để lọc dữ liệu AI
  Tôi đặt cược vào khả năng đầu
  Tuy vậy, tôi vẫn nghĩ con người có thể gặp một thứ gần giống sụp đổ mô hình nếu tiếp xúc quá nhiều với dữ liệu do AI tạo, nhưng đó gần như chỉ là quan sát giai thoại và trực giác
- Lối suy luận này khá tệ vì nhiều lý do
  Huấn luyện LLM sau năm 2022 đã tốt hơn rất nhiều, và việc tác hại của rác AI trong dữ liệu huấn luyện không lấn át được lợi ích từ quy mô tham số lớn hơn và kỹ thuật huấn luyện tốt hơn không có nghĩa là không có tác hại
  “Hiệu năng tốt hơn” cũng là một cách nói rất lỏng lẻo, và hiện vẫn chưa có câu trả lời tốt để đo lường điều đó một cách có ý nghĩa
  Có thể biết Gemini 2.5 tốt hơn GPT-4o, nhưng phân biệt giữa Gemini 2.5 và Claude 4 thì khó hơn
  Quy mô hiệu ứng của dữ liệu rác ở giai đoạn hiện tại có lẽ chỉ ngang mức chênh lệch nhỏ giữa các mô hình cùng thế hệ
  Nếu đang tìm một hiệu ứng nhỏ đến mức khó chứng minh bằng dữ liệu, thì trong trường hợp này nên bắt đầu từ các nguyên lý cơ bản, và các nguyên lý cơ bản nói rõ rằng tốt hơn là không huấn luyện trên nội dung do AI tạo
- Tôi nghĩ mọi người vẫn chưa thật sự bắt đầu tạo nội dung rác trên quy mô lớn, và điều đó sẽ còn tăng lên rất nhiều
Tôi không quá dị ứng với nội dung AI, nhưng phép ví von thép nền thấp thì thật đáng khâm phục
Xuất sắc
- Tôi cũng không dị ứng với nội dung AI
  Lý do tôi làm trang này là để theo dõi những thứ mà tôi biết là do con người tạo ra
- Việc này trông không giống ám ảnh sợ hãi, mà gần với chuyện tránh huấn luyện AI bằng chính đầu ra của nó hơn
  Đây cũng là chủ đề tôi vừa nói với các đồng nghiệp gần đây
  Nội dung trước thời AI chắc chắn sẽ ngày càng quý hơn, vì đó là thứ không bao giờ có thể tạo thêm được nữa
  Lý tưởng ra thì mọi dữ liệu có sẵn vào khoảng năm 2015 lẽ ra nên được đóng dấu thời gian bằng mật mã, nhưng giờ phải xử lý theo hoàn cảnh hiện tại
Hôm nay tôi có cảm giác kỳ lạ như mình thành nhà tiên tri
https://news.ycombinator.com/item?id=44217676
- Ví dụ này tôi đã nghe trên Hacker News ít nhất 1 năm trước, có lẽ còn lâu hơn thế
  Cũng có bài từ 2 năm trước: https://news.ycombinator.com/item?id=34085194
- Phép so sánh này đã phổ biến sau khi ChatGPT ra mắt
- Tôi nghĩ ý đó thật sự sai
  Quá trình chú giải nội dung và dữ liệu tổng hợp sẽ biến đầu ra AI thành gradient giúp đầu ra trong tương lai tốt hơn
  Điều này có thể ít rõ ràng hơn với đầu ra LLM, nhưng với mô hình ảnh và video thì hẳn phải rất rõ
  Trong quá trình chọn những đầu ra thị giác tốt nhất của hệ thống, các lỗi nhỏ được đưa vào và việc tuyển chọn dựa trên thị hiếu sẽ dẫn hệ thống tới hiệu năng tốt hơn và tính tổng quát cao hơn
  Nếu xem bộ gene như một cỗ máy tổng hợp, và vật lý như một gradient xác suất, thì điều này không khác gì việc sự sống và di truyền thích nghi với mọi niche sinh thái
  Chúng ta chỉ đang chạy cùng việc đó ở tốc độ cao
- Làm tốt đấy
  Cách framing kiểu nội dung không bị AI “ô nhiễm” thì tôi nghĩ trước đây cũng từng nghe rồi, và đó là một ý tưởng đã lưu truyền sẵn
  Tuy nhiên, bạn hoàn toàn có thể thoải mái nói rằng mình đã dự đoán đúng ở điểm phép so sánh với thép nền thấp là phù hợp
Sách giấy cũ, đặc biệt là những cuốn cũ nhưng vẫn dùng được gọi là “reading copies” hoặc “ex-library”, đang được bán rất rẻ trên thị trường sách cũ
Tôi khuyên nên xây dựng thư viện vật lý của riêng mình, gồm cả các tài liệu tham khảo cơ bản, đồng thời ủng hộ thư viện công cộng địa phương và thư viện đại học
Cũng nên có bản giấy các bài báo trong lĩnh vực chuyên môn và lĩnh vực quan tâm của mình
Ý là hãy làm theo cách của tổ tiên
AI từng trắng trợn nói dối về sự thật, và dù không phải lúc nào tôi cũng thuyết phục được AI, tôi đã thấy may vì có một thư viện vật lý để tự xác nhận rằng mình đúng
Phép so sánh này có khớp không
Việc tạo ra thép nền thấp mới cực kỳ khó vì hạt phóng xạ có ở khắp nơi, nhưng tạo nội dung không có AI thì không khó
Chỉ cần đừng dùng AI để viết là được
- Việc chứng minh một tác phẩm không có AI, nếu không phải là bất khả thi, thì cũng hoàn toàn phi thực tế
  Vì vậy ngoài chính bản thân người đó thì không ai có thể chắc chắn
- Tạo thép nền thấp mới không phải là khó
  Chỉ là thu hồi rồi dùng lại thì rẻ hơn
- Ai, vì lý do gì, bằng khoản tiền nào sẽ tạo ra loại nội dung không có AI đó
- Chỉ là tiêu đề câu view thôi
Ngay cái tên của trang này cũng lấy từ Y combinator
Ngoài một chút khoa tay triết học, một trong những năng lực nên yêu cầu ở mô hình suy luận là khả năng tìm điểm cố định của một hàm nhận nội dung làm đầu vào, xuất nội dung làm đầu ra rồi lại tiêu thụ chính nội dung đó
Tôi lạc quan rằng ngay cả khi huấn luyện đệ quy trên dữ liệu trộn lẫn giữa nội dung gốc do con người tạo ra, nội dung phái sinh từ nội dung gốc, rồi nội dung lại phái sinh từ những nội dung phái sinh đó, ta vẫn có thể trích xuất được các đặc trưng và mẫu hình nổi bật của hệ thống nền tảng

Low-background Steel cho nội dung chưa bị AI làm ô nhiễm

Trung tâm tập hợp tài liệu từ trước thời AI

Phép ẩn dụ trong tên gọi

Đối tượng thu thập và ví dụ

Arctic Code Vault

Project Gutenberg

Gửi tài liệu

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News