Vì sao wordfreq không còn được cập nhật nữa
AI tạo sinh làm ô nhiễm dữ liệu
- Từ sau năm 2021, không còn thông tin đáng tin cậy về cách con người sử dụng ngôn ngữ
- Một trong các nguồn dữ liệu của wordfreq là web mở (OSCAR), hiện đã đầy rẫy những văn bản vô nghĩa do mô hình ngôn ngữ lớn tạo ra
- Nếu đưa các văn bản này vào dữ liệu, tần suất từ sẽ bị bóp méo
- Ví dụ, ChatGPT bị ám ảnh với từ "delve", khiến tần suất của từ này tăng cao bất thường
Thông tin từng miễn phí nay đã trở nên đắt đỏ
- wordfreq từng thu thập dữ liệu về cách dùng ngôn ngữ hội thoại từ Twitter và Reddit
- Dữ liệu Twitter vốn luôn bất ổn, và giờ thì Twitter đã biến mất, được thay thế bằng X
- Reddit cũng đã ngừng cung cấp kho lưu trữ dữ liệu công khai, và nay bán dữ liệu với mức giá chỉ OpenAI mới có thể chi trả
Không còn muốn tiếp tục tham gia lĩnh vực này nữa
- wordfreq từng hữu ích cho ngôn ngữ học ngữ liệu và các công cụ xử lý ngôn ngữ tự nhiên
- Tuy nhiên, hiện nay lĩnh vực xử lý ngôn ngữ tự nhiên đang bị AI tạo sinh xâm lấn
- Rất khó tìm được nghiên cứu NLP không phụ thuộc vào dữ liệu đóng do OpenAI và Google kiểm soát
- Các công cụ thu thập văn bản giờ chủ yếu được dùng để huấn luyện AI tạo sinh, điều này gây ra vấn đề vi phạm bản quyền
- Tác giả không muốn tham gia vào những công việc có thể bị nhầm là liên quan đến AI tạo sinh
Tóm tắt của GN⁺
- wordfreq là một dự án dựa trên dữ liệu ngôn ngữ đến năm 2021
- Sự xuất hiện của AI tạo sinh làm giảm độ tin cậy của dữ liệu, đồng thời các nguồn dữ liệu chính như Twitter và Reddit bị trả phí, khiến việc cập nhật bị dừng lại
- Khi lĩnh vực xử lý ngôn ngữ tự nhiên bị AI tạo sinh xâm lấn, tác giả cho biết mình không còn muốn tiếp tục tham gia lĩnh vực này
- Các công cụ thay thế được khuyến nghị cho chức năng tương tự bao gồm Google Ngram Viewer
1 bình luận
Ý kiến trên Hacker News