1 điểm bởi GN⁺ 2025-06-11 | 1 bình luận | Chia sẻ qua WhatsApp
  • Trang web Low-background Steel có vai trò tập hợp các tư liệu không bị ô nhiễm bởi nội dung do AI tạo ra
  • Dự án này tập trung vào các tư liệu văn bản, hình ảnh và video được tạo ra trước khi nội dung AI bùng nổ trên diện rộng vào năm 2022
  • Giới thiệu các nguồn đóng góp tiêu biểu như Wikipedia, Arctic Code Vault, Project Gutenberg
  • Khách truy cập trang web cũng có thể gửi thêm các tư liệu mới chưa bị ô nhiễm
  • Lấy cảm hứng từ khái niệm kim loại tinh khiết trước các vụ thử hạt nhân, ý tưởng này tập trung vào việc duy trì độ tin cậy và tính nguyên bản

Giới thiệu

  • Low-background Steel là một trang web tập hợp các tài nguyên trực tuyến không bị ô nhiễm bởi nội dung do AI tạo ra
  • Tên gọi của trang được lấy cảm hứng từ Low-background Steel (và Lead), tức loại kim loại được sản xuất trước các vụ thử hạt nhân nên không bị nhiễm phóng xạ
  • Kim loại được trục vớt từ những con tàu bị chìm trước thử nghiệm hạt nhân (Trinity Test) được đánh giá cao vì hầu như không bị nhiễm phóng xạ
  • Từ ý tưởng đó, dự án hướng tới việc bảo tồn và chỉ dẫn các nội dung số thuần khiết được tạo ra trước khi sản phẩm do AI sinh ra tăng vọt

Mục tiêu và bối cảnh

  • Tập trung vào việc đảm bảo nhiều dạng tư liệu nguyên bản như văn bản, hình ảnh, video... được tạo ra trước khi nội dung tạo sinh dựa trên AI xuất hiện trên quy mô lớn vào năm 2022
  • Những tư liệu này bao gồm các cơ sở dữ liệu nguồn mở tiêu biểu và đáng tin cậy như bản dump đầy đủ của Wikipedia, Arctic Code Vault, Project Gutenberg
  • Người dùng trang web có thể trực tiếp bổ sung các tư liệu mới chưa bị ô nhiễm thông qua biểu mẫu gửi lên

Tầm quan trọng của trang web

  • Trong thời đại nội dung do AI tạo ra bùng nổ, việc bảo tồn tính nguyên bản và đảm bảo nguồn thông tin đáng tin cậy ngày càng quan trọng
  • Low-background Steel hướng tới cung cấp dữ liệu tham chiếu sạch có thể sử dụng mà không phải lo ngại về ô nhiễm thông tin

Cách đóng góp

  • Bất kỳ ai cũng có thể đề xuất thêm các nguồn nội dung Non-contaminated mới thông qua tính năng submit của trang web

Tham khảo

  • Có liên kết tới phần giải thích trên Wikipedia về Low-background Steel, phản ánh rõ mục đích của trang web
  • Dự án này được ra mắt vào tháng 3 năm 2023 và hiện đang đóng vai trò như một trung tâm thử nghiệm cho việc bảo tồn nội dung trực tuyến

1 bình luận

 
GN⁺ 2025-06-11
Ý kiến trên Hacker News
  • Cảm thấy thú vị với ý tưởng thêm một plane mới vào Unicode để sao chép như gương toàn bộ các ký tự hữu ích, rồi gắn thêm các bit trạng thái để phân biệt

    • Ví dụ, tưởng tượng ra việc nếu dùng văn bản do AI tạo trong khu vực “kết quả do con người trực tiếp viết” thì sẽ bị phạt ngay, trong vùng “chỉ công khai cho con người” thì cấm cả việc AI học hoặc truy cập, còn trong phạm vi “thừa nhận là do AI tạo” thì mọi đầu ra AI bắt buộc phải dùng dải ký tự đó

    • Dĩ nhiên các ký tự này khó phân biệt bằng mắt và chỉ có thể nhận ra qua phần mềm, nên chúng hoạt động như một kênh tinh vi

    • Dù sao khi copy-paste văn bản thì thông tin gốc cũng sẽ đi kèm theo những khác biệt rất nhỏ trong mã hóa ký tự

    • Gần như là chuyện đùa, nhưng vẫn thấy kiểu hệ thống này khá hấp dẫn

    • Giống như thực phẩm hữu cơ, họ nghĩ nội dung “organic” 100% do con người viết sẽ hình thành giá trị premium

      • Nhưng như ngành thực phẩm, việc quyết định chính xác cái gì được phép và đến đâu thì được tính là organic sẽ là cơn ác mộng
      • Chứng nhận sẽ phụ thuộc vào mạng lưới niềm tin, và rốt cuộc đầu ra AI vẫn có thể bị nhiễm mà được giao dịch với giá cao hơn
    • Cảm thấy tiêu chí “văn bản do AI tạo” khá mơ hồ nên đưa ra ví dụ cụ thể

        1. Sinh viên tự viết tay
        1. Tham khảo bách khoa toàn thư trực tuyến, nhưng bách khoa đó nội bộ có dùng AI
        1. Nhờ AI lập cấu trúc bài luận, ý chính và kết luận rồi tự viết
        1. Bài do mình viết nhưng chỉ nhờ AI sửa chính tả, câu cú và điều chỉnh văn phong
        1. AI viết thuê toàn bộ bài
        1. Tự viết nhiều bài rồi nhờ AI chọn ra tác phẩm tốt nhất
      • Trường hợp đầu và cuối thì rõ ràng, còn lại khá khó xác định đến đâu thì nên xem là đầu ra AI
    • Trong Unicode vốn đã có các tag character để đánh dấu vùng ngôn ngữ, nhưng vì bị markup cấp cao hơn (HMTL v.v.) lấn át nên nay đã bị loại bỏ

      • Các ký tự này không hiển thị, và khi di chuyển con trỏ thì nhiều ký tự được xử lý như một ký tự duy nhất
      • Chúng tương ứng với ASCII nên có thể chèn JSON hoặc dữ liệu tùy ý
      • Có thể dùng để đánh dấu vùng do LLM tạo ra, nhưng cũng có thể gây khó chịu vì dễ thành dữ liệu ẩn hoặc mục đích sử dụng không được khuyến nghị
      • Liên kết liên quan: https://en.m.wikipedia.org/wiki/Tags_(Unicode_block)
    • Nếu luật này được áp dụng thì chỉ sau 12 mili giây ở Ấn Độ sẽ xuất hiện “xưởng đánh máy”, nơi con người chép lại đầu ra AI để rửa dữ liệu

    • Ví dụ, nếu viết bằng ngoại ngữ rồi nhờ ChatGPT dịch sang tiếng Anh thì có được xem là sản phẩm do AI tạo hay không

      • Nếu viết tay rồi dùng LLM để OCR, hoặc đưa cho AI một dàn ý cực kỳ chi tiết và kiểm chứng chặt chẽ sự thật thì sao
      • Nếu chỉ dùng AI để kiểm tra ngữ pháp hoặc chỉnh cách diễn đạt khoa học thì điều đó cũng là sản phẩm do AI tạo sao
      • Theo tiêu chuẩn của họ thì tất cả đều là “không”
  • Có ý kiến cho rằng đầu ra AI về bản chất mang hiện tượng hồi quy về trung bình

    • Theo góc nhìn này, đây vốn là loại thông tin mà con người hoàn toàn có thể tự hỏi rồi tự nhận được

    • Chỉ cần gắn tag <AI generated content> cho mọi nội dung do AI tạo, còn ngoài ra thì nó gần với ô nhiễm hơn là lợi ích công cộng

    • Theo logic đó thì rốt cuộc chẳng cần viết gì cả

      • Shakespeare hay các chứng minh toán học, mọi tiểu thuyết và bài báo cũng chỉ là những tổ hợp từ ngữ khả dĩ mà thôi
      • Giá trị không nằm ở chỗ cái gì đó “có thể được tạo ra”, mà ở chỗ nó được tạo cho một mục đích, hoàn cảnh và độc giả cụ thể
    • Niềm tin trực giác này từng có chút bằng chứng thực nghiệm hậu thuẫn

      • Nhưng gần đây, các đầu ra AI được tuyển chọn kỹ đã tạo ra những bước đột phá đổi mới, cho thấy nhận định đó không còn đúng nữa
    • Chính quá trình kiểm chứng và tuyển chọn gắn với tên tuổi chuyên gia con người cũng đã có giá trị rất lớn

      • Trên thực tế, phần lớn nội dung trên internet vốn đã là hàng chất lượng thấp do người không phải chuyên gia làm ra với chi phí rẻ, nên không cho rằng AI làm tình hình tệ hơn theo nghĩa đó
    • Tò mò liệu một bài viết được AI biên tập hoặc đổi văn phong thì cuối cùng vẫn có thể xem là do con người viết hay không

      • Trường hợp của họ là đọc bài blog vào ghi chú bằng giọng nói, rồi dùng CGPT hoặc Claude để chỉnh tông và nhịp điệu
    • Thấy đây là điều vô nghĩa

      • Nếu từng dùng công cụ deep research thật sự thì sẽ hiểu con người cũng tạo ra rất nhiều nội dung vô giá trị
      • Mong đừng rơi vào sự ngộ nhận kiểu không tưởng
  • Cho rằng các thuật ngữ được dùng trong bài này được chọn rất khéo để làm giảm nhẹ mối lo

    • Sau khi thử nghiệm hạt nhân chấm dứt, mức phóng xạ đã gần trở lại mức tự nhiên nên nhu cầu về low-background steel mới giảm đi, và thép mới cũng có tín hiệu phóng xạ đủ thấp để dùng cho hầu hết mục đích

    • Thứ nhất, họ không nghĩ dữ liệu “không bị ô nhiễm” là thứ bắt buộc phải có

      • Có cảm giác dữ liệu LLM còn tốt hơn rất nhiều so với bình luận reddit thông thường
      • Với archive.org, gutenberg v.v. thì vẫn khá dễ tìm dữ liệu “thuần”
      • Đầu ra LLM rồi sẽ ngấm vào mọi nơi, nên đây là xu hướng không thể tránh
    • Việc nền phóng xạ giảm là thật, và đúng là vì chúng ta đã dừng thử nghiệm hạt nhân

  • Cho rằng vấn đề này sẽ không nghiêm trọng như công chúng hình dung

    • Về dài hạn, AI sẽ học từ trải nghiệm thực tế nên sẽ có nguồn dữ liệu huấn luyện phi tác phẩm gần như vô hạn, và nhờ đó tránh được vấn đề ô nhiễm AI

    • Nhưng trong thực tế, các hallucination của AI lại có xu hướng được trích dẫn rồi đóng đinh thành sự thật

      • Ví dụ: khi thật sự hỏi nhiều AI câu “chương trình năng suất tích hợp cho connect four trên MS-DOS là gì?”, mỗi lần đều nhận được câu trả lời khác nhau nhưng tất cả đều sai
      • Thông tin sai đó lại bị trích dẫn lên web, rồi AI tiếp tục học lại chính thông tin sai đó, tạo thành một vòng lặp
      • Trong tình huống như vậy, rất khó biết đâu là sự thật
    • Dữ liệu trải nghiệm thực tế, ví dụ sửa xe, vốn tốn kém và rủi ro ngay từ khâu tạo ra

      • Giống như thợ máy con người, AI cũng phải lấy manual và chương trình đào tạo minh thị làm điểm xuất phát
      • Nếu chỉ học từ dữ liệu thao tác thực tế, nó sẽ làm hỏng xe trong quá trình thử sai, và ngay cả khi đó vẫn cần con người can thiệp
      • Kể cả off-policy reinforcement learning (RL), dữ liệu đó cũng có thể đến từ thế hệ mô hình trước, tức là do AI tạo ra, nên không thể xem là hoàn toàn “không nhiễm AI”
      • Vì vậy chỉ dựa vào trải nghiệm thực tế cũng không thể giải quyết trọn vẹn giới hạn cung, chi phí và vấn đề ô nhiễm AI
    • Trên YouTube có vô số dữ liệu trải nghiệm sửa ô tô thực tế, nhưng lại có vấn đề bản quyền

      • Có tranh cãi liệu công ty AI có cần xin giấy phép bản quyền trước khi dùng nội dung đó hay không
    • Tò mò liệu về dài hạn có thật sự cần AGI hay không

      • Cũng nghi ngờ lập luận rằng sau khi AGI xuất hiện thì cả nội dung spam cũng sẽ có chất lượng cao hơn
      • Tham khảo xkcd liên quan: https://xkcd.com/810/
    • Dự đoán rằng trước khi có robot hình người với trí tuệ phổ quát thật sự, sẽ không có hệ thống AI sửa ô tô nào thành hiện thực

      • Chuyện AI giúp việc xuất hiện ở khách sạn 5 sao cũng vậy
      • Vì thế góc nhìn cho rằng vấn đề ô nhiễm cơ sở dữ liệu ngôn ngữ sẽ tự được giải quyết theo thời gian có phần thiếu thực tế
  • Hiện tại chưa có bằng chứng cho thấy “ô nhiễm AI” thực sự gây vấn đề cho việc huấn luyện AI

    • AI được huấn luyện trên dữ liệu công khai trước năm 2022 không cho thấy ưu thế hiệu năng rõ rệt so với AI huấn luyện trên dữ liệu sau 2022

    • Thậm chí đôi khi dữ liệu gần đây còn cho kết quả nhỉnh hơn đôi chút

    • Cách nghĩ đằng sau phép so sánh với low background steel chính là: nếu cứ tiếp tục học trên dữ liệu tổng hợp thì cuối cùng mô hình AI sẽ trở nên hoàn toàn vô nghĩa do “model collapse”

      • Trên thực tế hiện tượng đó không xảy ra, và dường như các công ty AI cũng không vận hành bộ lọc tách riêng dữ liệu AI trong nội bộ
      • Thậm chí họ cho rằng nếu con người bị phơi nhiễm quá mức với dữ liệu AI thì model collapse có thể xảy ra ở con người trước
      • Đây chỉ là kinh nghiệm và trực giác cá nhân của họ
    • Lập luận trên không hợp lý vì nhiều lý do

        1. Kỹ thuật huấn luyện LLM từ sau 2022 đã cải thiện vượt bậc, nên có thể chỉ là tác động tiêu cực từ “cặn AI” trong dữ liệu chưa đủ lớn để lộ ra
        1. Việc đánh giá hiệu năng vốn mơ hồ, và khác biệt chỉ lộ ra ở các chênh lệch rất nhỏ giữa các mô hình cùng thế hệ như Gemini 2.5 và Claude 4
      • Những hiệu ứng nhỏ như vậy rất khó chứng minh bằng dữ liệu, và càng thế thì cách tiếp cận theo nguyên tắc lại càng quan trọng
      • Về nguyên tắc, nên tránh học từ nội dung do AI tạo ra
    • “Cặn” ô nhiễm AI vẫn chưa thật sự tràn ngập ở quy mô lớn, nhưng được kỳ vọng sẽ tăng mạnh trong tương lai

  • Một số người không quá dị ứng với nội dung AI, và đánh giá phép ví von low-background steel là một ý tưởng cực kỳ xuất sắc

    • Bản thân họ cũng không quá khó chịu với nội dung AI, thậm chí còn từng làm một trang web liên quan

      • Mục đích là lưu lại những tư liệu được biết chắc là do con người tạo ra
    • Cá nhân họ không hẳn là sợ AI, mà chủ yếu muốn ngăn hiện tượng AI lại học chính đầu ra của mình

      • Nội dung từ thời pre-AI có độ khan hiếm ngày càng tăng vì không thể tạo mới lại được nữa
      • Nếu khoảng năm 2015 mọi dữ liệu đều được đóng dấu thời gian bằng mật mã thì còn tốt hơn, nhưng ngay cả bây giờ cũng là lúc nên trân trọng những gì còn lại
  • Hôm nay cảm giác như suy nghĩ của mình đã tỏ ra tiên tri một cách kỳ lạ

    • Bình luận cũ của tôi

    • Thực ra đã thấy ví dụ này trên Hacker News ít nhất từ 1 năm trước, thậm chí có thể lâu hơn

    • Đây là phép ví von được dùng khá phổ biến sau khi ChatGPT ra mắt

    • Họ cũng từng thấy cách đóng khung “nội dung không bị AI ô nhiễm”, nhưng việc đem low background steel ra so sánh với nó thì đúng là một cú liên tưởng khá mới mẻ

    • Họ lại nghĩ khác

      • Họ tin rằng chúng ta sẽ gắn chú thích cho nội dung và dữ liệu tổng hợp, rồi máy móc sẽ tận dụng điều đó để tạo ra đầu ra tương lai ngày càng tốt hơn
      • Dù chỉ với LLM thì hiệu ứng có thể chưa rõ rệt, nhưng ở mô hình ảnh và video thì lại khá rõ
      • Khi chỉ tuyển chọn những đầu ra hình ảnh tốt nhất, kết quả sẽ cải thiện dần theo thời gian, và trong quá trình đó “tuyển chọn theo gu” cũng đóng vai trò lớn
      • Tương tự như cách di truyền học và sinh học được áp dụng vào nhiều niche sinh thái khác nhau, chúng ta đang dùng cỗ máy tổng hợp để tiến hóa rất nhanh các luật chơi
  • Đồng cảm với sự thú vị của phép so sánh low-background analogy

  • Nghi ngờ liệu phép ví von này có thật sự thuyết phục hay không

    • low-background steel trên thực tế gần như không thể sản xuất mới, còn nội dung không dùng AI thì chỉ cần không dùng AI là được, nên độ khó thấp hơn nhiều

    • Trên thực tế gần như không thể chứng minh khách quan rằng một sản phẩm là AI-free, nên ngoài chính người tạo ra thì chẳng ai có thể chắc chắn

    • Họ đặt câu hỏi ai sẽ tạo nội dung AI-free, vì lý do gì, và bằng nguồn tiền nào

    • Cho rằng đây chỉ là một tiêu đề mang tính câu clickbait

  • Dựa trên việc tên của trang này xuất phát từ Y combinator, có người nêu ra việc tìm fixed point của một hàm như một yêu cầu đối với mô hình inference

    • Một thái độ lạc quan rằng một nội dung có thể tự biến đổi chính nó, lấy kết quả đó làm đầu vào tiếp theo và tiếp tục rút ra các mẫu bản chất
  • Kỳ vọng rằng ngay cả khi dữ liệu do AI thiên lệch tạo ra ngày càng nhiều, thì việc trộn lẫn nội dung gốc do con người tạo, nội dung phái sinh, rồi cả nội dung phái sinh của nội dung phái sinh qua nhiều tầng trong huấn luyện vẫn sẽ cho phép trích xuất được các đặc trưng cốt lõi