1 điểm bởi GN⁺ 2024-09-19 | 1 bình luận | Chia sẻ qua WhatsApp

Vì sao wordfreq không còn được cập nhật nữa

AI tạo sinh làm ô nhiễm dữ liệu

  • Từ sau năm 2021, không còn thông tin đáng tin cậy về cách con người sử dụng ngôn ngữ
  • Một trong các nguồn dữ liệu của wordfreq là web mở (OSCAR), hiện đã đầy rẫy những văn bản vô nghĩa do mô hình ngôn ngữ lớn tạo ra
  • Nếu đưa các văn bản này vào dữ liệu, tần suất từ sẽ bị bóp méo
  • Ví dụ, ChatGPT bị ám ảnh với từ "delve", khiến tần suất của từ này tăng cao bất thường

Thông tin từng miễn phí nay đã trở nên đắt đỏ

  • wordfreq từng thu thập dữ liệu về cách dùng ngôn ngữ hội thoại từ Twitter và Reddit
  • Dữ liệu Twitter vốn luôn bất ổn, và giờ thì Twitter đã biến mất, được thay thế bằng X
  • Reddit cũng đã ngừng cung cấp kho lưu trữ dữ liệu công khai, và nay bán dữ liệu với mức giá chỉ OpenAI mới có thể chi trả

Không còn muốn tiếp tục tham gia lĩnh vực này nữa

  • wordfreq từng hữu ích cho ngôn ngữ học ngữ liệu và các công cụ xử lý ngôn ngữ tự nhiên
  • Tuy nhiên, hiện nay lĩnh vực xử lý ngôn ngữ tự nhiên đang bị AI tạo sinh xâm lấn
  • Rất khó tìm được nghiên cứu NLP không phụ thuộc vào dữ liệu đóng do OpenAI và Google kiểm soát
  • Các công cụ thu thập văn bản giờ chủ yếu được dùng để huấn luyện AI tạo sinh, điều này gây ra vấn đề vi phạm bản quyền
  • Tác giả không muốn tham gia vào những công việc có thể bị nhầm là liên quan đến AI tạo sinh

Tóm tắt của GN⁺

  • wordfreq là một dự án dựa trên dữ liệu ngôn ngữ đến năm 2021
  • Sự xuất hiện của AI tạo sinh làm giảm độ tin cậy của dữ liệu, đồng thời các nguồn dữ liệu chính như Twitter và Reddit bị trả phí, khiến việc cập nhật bị dừng lại
  • Khi lĩnh vực xử lý ngôn ngữ tự nhiên bị AI tạo sinh xâm lấn, tác giả cho biết mình không còn muốn tiếp tục tham gia lĩnh vực này
  • Các công cụ thay thế được khuyến nghị cho chức năng tương tự bao gồm Google Ngram Viewer

1 bình luận

 
GN⁺ 2024-09-19
Ý kiến trên Hacker News
  • Web đã bị ô nhiễm bởi các quy tắc SEO của Google. Vấn đề là kiểu viết với các đoạn văn ngắn, lặp lại từ khóa và tập trung vào khả năng được lập chỉ mục hơn là tính dễ đọc
    • ML/LLM là nguyên nhân ô nhiễm thứ hai. Nguyên nhân đầu tiên là viết lách cho bot doanh nghiệp
  • Năm 2023 đã tạo LowBackgroundSteel.ai để dùng làm nơi thu thập các bộ dữ liệu chưa bị ô nhiễm
    • Dự định sẽ thêm Wordfreq. Có lời kêu gọi gửi tư liệu lên Tumblr
  • Có thể hiểu sự thất vọng đối với cộng đồng NLP, nhưng không phải ai cũng như vậy
    • Vấn đề ô nhiễm web không phải mới. Trước đây cũng từng có các trại spam cố thao túng PageRank
    • Mỗi thế hệ web đều cần công nghệ để vượt qua những vấn đề của chính thế hệ đó
    • Việc tiêu thụ nội dung được tạo tự động như George Orwell dự báo trong 1984 đã trở thành hiện thực. Tuy nhiên, công nghệ này cũng có thể được dùng theo hướng tích cực
  • Cho rằng web đã chết. Vì AI mà giờ mất nhiều thời gian hơn để tìm thông tin hữu ích
    • Đã mất hơn 10 phút để tìm một mẫu tai nghe không dây cụ thể. Các trang web đầy rác
    • Với laptop cũ thì rất khó duyệt các website hiện đại có quá nhiều đồ họa
    • Ghét mọi thứ về web, trình duyệt web, thiết kế web, SEO, tìm kiếm, quảng cáo. Đang tìm cách mua hàng mà không cần dùng web
  • Chia sẻ liên kết Google Trends và nhắc đến một chi tiết thú vị rằng kết quả tìm kiếm cho "delve" không tăng lên
  • Cho rằng từ sau năm 2021 không còn thông tin đáng tin cậy về cách con người sử dụng ngôn ngữ
    • Văn bản đã vượt qua điểm tới hạn, nhưng hiện tại mới là thời điểm quan trọng đối với video
    • Đặc biệt, trẻ nhỏ rất khó phân biệt đâu là thật. Công nghệ thì đã tồn tại, nhưng phần lớn nội dung video vẫn chưa bị ảnh hưởng
  • Đồng ý với ý kiến rằng web đang đầy rác do LLM tạo ra
    • Trong nhiều trường hợp, nội dung vô giá trị được tạo ra để phục vụ SEO
  • Khi AGI trở nên rẻ và dễ tiếp cận, phần lớn công việc sẽ do AI đảm nhiệm
    • Cuộc cách mạng AI nên bắt đầu từ những lĩnh vực gần với cội rễ của AI nhất
  • Sách giấy xuất bản trước năm 2020 có thể trở thành tài sản có giá trị
    • Internet sẽ đầy rác và ngay cả sách giấy hiện đại cũng sẽ bị nghi ngờ
    • Con người sẽ bị đem ra làm bình phong tác giả cho những cuốn sách do AI viết
  • Các nhà văn mất việc vì AI nên được các hyperscaler AI thuê lại
    • Tuy nhiên, trong tác phẩm của họ không được có câu nào do AI tạo ra