Vì sao wordfreq ngừng cập nhật

(github.com/rspeer)

1 điểm bởi GN⁺ 2024-09-19 | 1 bình luận | Chia sẻ qua WhatsApp

wordfreq là ảnh chụp nhanh về cách sử dụng ngôn ngữ được quan sát từ nhiều nguồn trực tuyến cho đến năm 2021, và sau đó nếu cập nhật dữ liệu thì chất lượng có thể còn kém đi, nên dự án được đóng băng ở phiên bản mới nhất
Sau năm 2021, trên web công khai đã lan tràn văn bản do AI tạo ra trông như do con người viết, khiến việc đo tần suất từ dựa trên cách con người thực sự dùng ngôn ngữ trở nên khó khăn
Dữ liệu cũ vốn cũng có spam, nhưng nhìn chung vẫn có thể nhận diện và quản lý được; tuy nhiên đầu ra của AI tạo sinh, như trường hợp “delve” của ChatGPT, có thể đẩy tần suất của một số từ lên mức bất thường
Quyền truy cập vào dữ liệu từ Twitter và Reddit, vốn là những nguồn quan trọng cho ngôn ngữ hội thoại, đã biến mất hoặc trở nên đắt đỏ; dữ liệu Twitter trong quá khứ cũng không thể phân phối ra bên ngoài do điều khoản phân phối
Khi lĩnh vực xử lý ngôn ngữ tự nhiên nghiêng về AI tạo sinh và phụ thuộc vào dữ liệu đóng, tác giả không muốn wordfreq trở thành thứ hỗ trợ cho AI tạo sinh hoặc bị nhầm lẫn với công việc đó

Bổ sung vào tháng 9 năm 2024

Tài liệu về việc ngừng cập nhật wordfreq đã nhận được nhiều sự quan tâm, và tác giả cho rằng phần lớn mọi người đều hiểu lập trường của mình
Tác giả không dừng hẳn việc làm thư viện mã nguồn mở; công cụ sửa Unicode đa dụng ftfy vẫn đang được tiếp tục phát triển
Việc đóng băng dữ liệu không nhất thiết là một kết cục tệ
- Nhiều người đã sử dụng wordfreq một cách hữu ích, và phiên bản mới nhất sẽ không biến mất
- Dự án không còn được cập nhật vì tác giả cho rằng cập nhật có thể khiến dữ liệu tệ hơn
- Theo thời gian nó sẽ trở nên cũ, nhưng sẽ không chủ động bị làm cho tệ đi

Ảnh chụp nhanh về cách sử dụng ngôn ngữ đến năm 2021

Dữ liệu wordfreq là ảnh chụp nhanh về cách sử dụng ngôn ngữ có thể tìm thấy từ nhiều nguồn trực tuyến cho đến năm 2021
Lý do không cập nhật nữa là do tác động đồng thời của ô nhiễm dữ liệu, chi phí truy cập và những thay đổi trong lĩnh vực xử lý ngôn ngữ tự nhiên

Web công khai bị ô nhiễm bởi AI tạo sinh

Tác giả cho rằng từ sau năm 2021, rất khó để có được thông tin đáng tin cậy về ngôn ngữ mà con người thực sự sử dụng
Một trong các nguồn dữ liệu của wordfreq là web công khai, được sử dụng thông qua OSCAR
Hiện nay trên web theo nghĩa rộng có rất nhiều văn bản do mô hình ngôn ngữ lớn tạo ra, và nếu đưa chúng vào thì tần suất từ sẽ bị méo mó
Các nguồn dữ liệu trước đây cũng từng có spam, nhưng trong nhiều trường hợp vẫn có thể quản lý và nhận diện được
Mô hình ngôn ngữ lớn tạo ra văn bản trông như ngôn ngữ có chủ đích thực sự, và đầu ra của chúng lan ra nhiều nơi
Theo bài viết về delve của Philip Shapira, ChatGPT đã dùng từ “delve” một cách ám ảnh khác với cách con người từng dùng, đẩy tần suất tổng thể của từ này tăng lên cỡ order of magnitude

Dữ liệu hội thoại biến mất hoặc trở nên đắt đỏ

wordfreq không chỉ xử lý các từ ngữ in ấn trang trọng, mà còn thu thập cách dùng ngôn ngữ gần với hội thoại hơn, đặc biệt từ Twitter và Reddit
Twitter và X
- Nền tảng dữ liệu Twitter vốn đã bấp bênh ngay từ đầu
- Ngay cả trong thời kỳ Twitter cho phép truy cập miễn phí vào một phần “firehose”, điều khoản sử dụng vẫn không cho phép phân phối dữ liệu đã thu thập ra ngoài Luminoso
- wordfreq có chứa các giá trị tần suất được tạo ra từ dữ liệu đó, nhưng bản thân dữ liệu thu thập không thuộc sở hữu của tác giả và hiện cũng không còn được lưu giữ
- Giờ đây Twitter đã biến mất, API công khai đã bị đóng, và trang web đã được thay bằng X
- Ngay cả khi X cung cấp luồng dữ liệu thô, tác giả cũng cho rằng sẽ không thể tìm được thông tin có giá trị
Reddit
- Reddit cũng đã ngừng cung cấp kho lưu trữ dữ liệu công khai
- Hiện Reddit bán kho lưu trữ của mình, với mức giá mà tác giả mô tả là chỉ OpenAI mới có thể trả nổi

Vì sao muốn giữ khoảng cách với AI tạo sinh

wordfreq ban đầu nằm ở giao điểm giữa ngôn ngữ học ngữ liệu và công việc hỗ trợ các công cụ xử lý ngôn ngữ tự nhiên
Theo tác giả, lĩnh vực “natural language processing” mà mình từng biết nay đã khó còn thấy, và AI tạo sinh đang nuốt trọn không gian đó
Các kỹ thuật khác vẫn còn tồn tại, nhưng AI tạo sinh đang chiếm phần lớn sự chú ý và nguồn vốn
Tác giả cho rằng nghiên cứu NLP không phụ thuộc vào dữ liệu đóng do OpenAI và Google kiểm soát hiện đã trở nên hiếm hoi
Công việc thu thập lượng lớn văn bản đa ngôn ngữ như wordfreq trước đây từng được xem là khá hợp lý
Hiện nay, các công cụ thu thập văn bản chủ yếu được dùng để huấn luyện AI tạo sinh, và việc mọi người phản ứng phòng thủ với điều đó là hoàn toàn chính đáng
Nếu ai đó thu thập toàn bộ văn bản từ sách, bài viết, website và các bài đăng công khai, thì tác giả cho rằng rất có thể mục đích là để tạo ra một cỗ máy đạo văn tự nhận lời nói của người khác là của mình

Kết luận về việc ngừng cập nhật

Tác giả không muốn làm công việc có thể bị nhầm với AI tạo sinh hoặc có thể giúp ích cho AI tạo sinh
Tác giả nói rằng OpenAI và Google nên tự đi thu thập dữ liệu của họ, và phải trả cái giá thật đắt cho việc đó
wordfreq sẽ không còn được cập nhật nữa, nhưng phiên bản mới nhất hiện có vẫn sẽ được duy trì

1 bình luận

GN⁺ 2024-09-19

Ý kiến trên Hacker News

Nhìn chung tôi đồng ý, nhưng web từ lâu đã bị ô nhiễm bởi các quy tắc SEO không chính thức của Google
Các đoạn văn chỉ có một câu, lặp lại từ khóa, và cách viết coi trọng “khả năng được lập chỉ mục” hơn là tính dễ đọc đã khiến web, ngay cả trước thời LLM, không phải là nguồn tư liệu lý tưởng cho kiểu phân tích này
Điều đó cũng đúng với dữ liệu huấn luyện, và rốt cuộc LLM lớn lên bằng cách ăn những bài viết không phải viết cho con người mà là cho Googlebot. ML/LLM là vòng lặp thứ hai của sự ô nhiễm trong viết lách, còn vòng đầu tiên là khi con người bắt đầu viết cho bot doanh nghiệp thay vì cho người khác
- Spam blog phần lớn vẫn do con người viết, và dù tệ hại theo những cách khác thì có vẻ vẫn ổn để đo tần suất từ cơ bản của văn bản do con người viết
  Tần suất chắc chắn sẽ có thiên lệch, nhưng hầu hết văn bản đều vậy, và trong giáo trình bảo dưỡng bộ chế hòa khí thì từ “carburetor” đương nhiên sẽ xuất hiện nhiều hơn hẳn mức nền
  Nếu có sự pha trộn lành mạnh giữa nhiều loại sách, bài báo và blog thì vẫn ổn. Ngược lại, nội dung LLM gần giống con rắn tự nuốt đuôi mình, tức là đang cố tạo mô hình thống kê phân bố từ từ đầu ra của một mô hình phân bố từ
- Ở một thời điểm nào đó cũng phải thừa nhận rằng cách dùng ngôn ngữ nhất định là đặc tính của chính phương tiện đang được dùng để đếm tần suất từ
  Báo chí, tiểu thuyết, email gửi cho sếp... đều có văn phong riêng về độ dài câu và đoạn, mức độ lặp lại không cần thiết, cũng như việc ưu tiên những chỉ số ngoài tính dễ đọc
  Ít nhất nếu đó là văn bản do con người viết với ý thức rằng sẽ có người khác đọc, thì nó vẫn là cách dùng ngôn ngữ chính đáng hơn nhiều so với văn bản do máy tạo ra
- Cảm giác này giống như Eternal September lần thứ hai, nhưng ở quy mô lớn hơn rất nhiều
  Tôi không biết Internet còn chịu được chuyện này bao lâu nữa, và mức sử dụng của tôi đã giảm thấy rõ so với năm 2018. Giờ tìm được thứ đáng đọc quá khó, nên cuối cùng tôi lại dành nhiều thời gian ở đây
- Dù vậy, tình hình cũng không cực đoan như những gì được ám chỉ. Dữ liệu huấn luyện có gắn trọng số theo chỉ số chất lượng, và những bài do nhà báo hay người đóng góp Wikipedia viết sẽ có trọng số lớn hơn công thức brownie của dì bạn hay spam blog doanh nghiệp
- Trước Google đã có Altavista, và hồi đó chuyện nhét hàng trăm từ khóa bằng chữ trắng trên nền trắng ở cuối trang là cực kỳ phổ biến
  SEO spam không phải thứ mới mẻ, chỉ là hình thức của nó đã thay đổi
Năm 2023 tôi đã tạo https://lowbackgroundsteel.ai/ như một nơi tập hợp các tham chiếu đến những bộ dữ liệu chưa bị ô nhiễm
Tôi cũng định thêm wordfreq, nên sẽ rất tốt nếu mọi người gửi tư liệu qua Tumblr
- Chúc mừng “ra mắt”. Tôi cũng đã để dở một dự án hậu trường trong một thời gian khá dài để làm gần như chính xác một trang như thế này. Tôi tò mò không biết bạn chọn mốc thời gian ở đâu
  Danh sách hữu ích tôi lập được khi tìm hiểu là: kiến trúc Transformer ra đời năm 2017, GPT-1 vào tháng 6/2018, GPT-2 vào tháng 2/2019, GPT-3 vào tháng 6/2020, GPT-3.5 vào tháng 3/2022, ChatGPT vào tháng 11/2022
  Có lẽ cũng nên thêm các bản lưu trữ kiwix từ trước ngày mốc đã chọn. Có thể tìm chúng trên Internet Archive, và có các phiên bản của Wikipedia, Stack Overflow, Wikisource, Wikibooks cùng nhiều wiki khác
- Cái tên thật thông minh. Tôi thích phép ẩn dụ này
- Tôi nghĩ đây chính xác là điều ngược lại với thứ tác giả mong muốn. Tác giả chỉ là không muốn tiếp tục là một phần của mớ hỗn độn này nữa
  Việc gom các nguồn tư liệu này lại chỉ khiến các công ty công nghệ lớn dễ cào thêm dữ liệu hơn rất nhiều
- Để tham khảo, bộ dữ liệu DebateSum và OpenDebateEvidence/OpenCaseList của tôi cũng thuộc diện này vì ở dạng hiện tại chúng kết thúc muộn nhất vào năm 2022
- Không biết có nên tin một trang web đã bị ô nhiễm bởi đồ họa AI hay không /s
Thật đáng tiếc khi OP đã thất vọng về cộng đồng xử lý ngôn ngữ tự nhiên mà tôi là một phần của nó, và dù đây là một trào lưu hợp thời, gần như ở đỉnh điểm cơn sốt, tôi vẫn muốn nói rằng “không phải tất cả chúng tôi đều như vậy”
Vấn đề web bị ô nhiễm bởi nội dung nhân tạo là rất thời sự, và trước đây cũng đã có những trường hợp như các trại spam tìm cách thao túng PageRank
Vì vậy, những danh sách website chất lượng cao do con người trực tiếp tuyển chọn, tức “web nhỏ”, có thể lại có thêm giá trị mới
Mỗi thế hệ của web đều cần những kỹ thuật để vượt qua các cơ chế đối kháng của chính thời đại mình, và web hiện tại cũng không ngoại lệ
Khi Eric Arthur Blair viết 1984 dưới bút danh “George Orwell”, ông đã dự báo một tình huống mà công chúng tiêu thụ nội dung được tạo tự động để ngày càng xa rời tư duy phản biện. Điều đó đang diễn ra ngay bây giờ, nhưng công nghệ bị chỉ trích cũng có thể được dùng cho mục đích tốt, và nhóm nghiên cứu NLP của tôi đang cố làm như vậy. Cuối cùng điều thiện sẽ chiến thắng
- “Web nhỏ” mang tính “thiện” đó đã từng thực sự thắng chưa?
  IRC, Usenet, Reddit, Facebook, Geocities, Yahoo, webring — dường như bất kỳ hệ thống nội dung nào khi đạt mức sử dụng đại trà đều bị ô nhiễm bởi nhiễu
  Ngay cả những lựa chọn nhỏ và được tuyển chọn kỹ, nếu đủ lớn, cuối cùng cũng trở thành nạn nhân của chính thành công của mình và bị spam chiếm lĩnh
  Đây luôn là một cuộc chạy đua vũ trang giữa chất lượng và số lượng, và rốt cuộc các curator không thể theo kịp khối lượng áp đảo
- Những người tránh né tư duy phản biện vốn đã như vậy dù có hay không có nội dung AI, và họ vẫn sẽ tiếp tục như thế
- Ý nghĩ rằng “cuối cùng điều thiện sẽ chiến thắng” là nguy hiểm. Nó lại có thể khiến người ta trì hoãn hành động mang tính quyết định vốn rất có thể cần thiết để điều đó thực sự xảy ra
- Hơi lạc đề một chút, nhưng Marx cũng đã dự đoán vào năm 1894 rằng tiền mã hóa và NFT sẽ tồn tại https://www.marxists.org/archive/marx/works/1894-c3/ch25.htm
  Việc chúng ta cứ liên tục vượt qua những “lằn ranh đỏ” kiểu này một cách tỉnh bơ thật kỳ quặc. Giống như meme đó: nhà văn khoa học viễn tưởng nói “tôi tạo ra Torment Nexus như một câu chuyện cảnh báo”, còn công ty công nghệ thì nói “chúng tôi đã tạo ra Torment Nexus xuất hiện trong tiểu thuyết khoa học viễn tưởng kinh điển ‘đừng tạo ra Torment Nexus’”
- Nếu con đường để điều thiện chiến thắng là từ chối công nghệ và niềm tin đã trở nên hủy hoại, thì sao?
Nói thẳng ra thì web đã chết. Nhờ “AI” mà giờ phải mất nhiều thời gian lục lọi tìm thứ hữu ích hơn cả năm 2005
Mà những trang tìm ra được thì phần lớn cũng là rác
Ví dụ, để tìm một mẫu tai nghe không dây nổi tiếng, dù đã biết hãng, website của hãng và nơi bán, vẫn mất ít nhất 10 phút. Vì nó bị chôn dưới đủ thứ tạp nham
Laptop của tôi là i7 8 nhân “đời cũ”, RAM 16GB, vậy mà vẫn vật vã với các trang “hiện đại” nhiều đồ họa. Trang web ngày xưa đơn giản, chạy tốt, nên có thể tìm sản phẩm và mua rất nhanh, còn tối qua ngay cả việc cho vào giỏ rồi thanh toán cũng thực sự là cực hình
Tôi ghét web, trình duyệt, thiết kế web, SEO, tìm kiếm, quảng cáo, và mọi thứ rẻ tiền kéo theo đó. Thế là hết. Nếu có cách mua gì đó mà không cần web, tôi sẽ làm vậy. Không phải tôi ghét hoàn toàn công nghệ, nhưng web giờ đã thành quả trứng thối
- Trước đây trên Amazon có thể tìm trực tiếp trong phần review và Q&A bằng ô tìm kiếm, cực kỳ hữu ích
  Giờ cái ô đó trước hết gửi truy vấn sang LLM, bắt chờ 10–15 giây, rồi hiện ra một bản tóm tắt vô dụng kiểu “một số review nói thế này thế kia”
  Sau đó mới có thể bấm nút để xem các mục trong review và câu hỏi thật sự có chứa từ tôi đã tìm. Chắc cái này sẽ khiến tôi bỏ Amazon mất. Nếu vẫn còn cách tìm trực tiếp thì mong ai đó chỉ giúp
- Nhìn chung chẳng có gì để phản bác
  Trước đây tìm móc treo derailleur xe đạp Trek thì kết quả đầu tiên chính là thứ cần tìm. Giờ phải đi qua 5 quảng cáo bảo mua xe mới, một link bên thứ ba bị hỏng, rồi nếu may mắn thì cuối trang 1 mới thấy link đến trang linh kiện đó
  Sự rác hóa của web là có thật
- Có vẻ cái laptop đó đã lỗi thời hoàn toàn rồi. Phải lên Amazon mua laptop thế hệ mới chịu được tải SEO hiện đại thôi
  Sản phẩm được đề xuất là LEEZWOO 15.6" Laptop - 16GB RAM 512GB SSD PC Laptop, Quad-Core N95 Processor Up to 3.1GHz, Laptop Computers with Touch ID, WiFi, BT4.2, for Students/Business
  Cái tên đọc trôi chảy ghê nhỉ
- Có startup bán công cụ tìm kiếm tốt hơn như một sản phẩm. Tính năng cốt lõi là vì tôi trả tiền để dùng nên tôi không phải là món hàng https://kagi.com/welcome
- 10 năm qua tôi đang dần tách mình khỏi web. Dạo này chủ yếu làm ứng dụng offline bằng công nghệ native
  Năng lực đó vẫn còn. Chỉ là đã lùi lại một thời gian vì bị toolbar và malware làm ô nhiễm quá nặng, còn giờ malware đã ở phía bên kia nên ứng dụng native lại trở nên ngầu lần nữa. Chỉ cần biết phải nhìn ở đâu thôi
  Biển hiệu của tôi ở đây: https://akkartik.name/freewheeling-apps
  Tuy vậy, có vẻ “web” ở đây chỉ được hiểu là những gì có thể truy cập qua công cụ tìm kiếm. Vẫn còn web kiểu cũ, tức là web được trung gian bởi quan hệ và uy tín chứ không phải các dịch vụ tổng hợp có hàng tỷ người dùng. Như link ở trên, hay trang được kiểm duyệt một cách anh hùng mà chúng ta đang dùng lúc này
Tôi đồng cảm với câu “tôi không nghĩ còn ai có thông tin đáng tin cậy về cách con người sử dụng ngôn ngữ sau năm 2021”
Văn bản thì đã qua điểm bùng phát từ lâu, nhưng video lúc này lại có cảm giác như ngã rẽ quyết định
Đặc biệt là trẻ nhỏ có trực giác yếu hơn về cái gì là thật và cái gì không. Nếu hỏi một người trong video có phải là người thật không thì hiện giờ tôi vẫn còn trả lời khá tự tin, nhưng mỗi ngày sự tự tin đó lại giảm đi
Công nghệ rõ ràng đã sẵn sàng, và tuy phần lớn nội dung video hiện chưa bị ảnh hưởng, tôi nghĩ điều đó sắp thay đổi
- Có mấy bài kiểm tra kiểu thử thách như này: https://www.nytimes.com/interactive/2024/09/09/technology/ai-video-deepfake-runway-kling-quiz.html
  https://www.nytimes.com/interactive/2024/01/19/technology/artificial-intelligence-image-generators-faces-quiz.html
  Vì đem so các ví dụ được tuyển chọn kỹ nên hơi thiếu công bằng, nhưng ngay cả chuyên gia cũng có lẽ khó mà vượt qua nhiều bài như vậy. Công nghệ dường như chỉ tiến về phía trước, mà tốc độ còn đang nhanh lên
  Điều đáng kinh ngạc là tốc độ tiến bộ. Nhân loại đã tồn tại gần 3 triệu năm, Homo sapiens khoảng 300.000 năm, thành phố·nông nghiệp·văn minh khoảng 10.000 năm, kim loại khoảng 4.000 năm, cách mạng công nghiệp 500 năm, dân chủ 200 năm, điện toán chừng 50–100 năm
  Khoảng cách giữa các cuộc cách mạng đang ngắn lại gần như theo cấp số nhân
  So với thời thơ ấu của tôi và thế giới ngày nay, một trong những cuộc cách mạng mà chúng ta vẫn đang hấp thụ là sản xuất tự động hóa. Lên AliExpress thì có quá nhiều thứ gần như miễn phí. Tôi mua một cục sạc 5 cổng 120W với giá còn chưa bằng 2 phút thời gian của mình, và thời gian tìm món đó còn ngắn hơn thời gian kiếm ra số tiền ấy
  Tôi cũng không rõ tất cả chuyện này sẽ đi về đâu
- Giờ tôi không còn tự tin là mình nhận ra được người thật nữa
  Tôi thường gắn nhãn là “trông khá giả” cả với người thật, nếu họ đã tiếp nhận kiểu hành vi của các nhà sáng tạo TikTok, Instagram, YouTube
  Râu tôi cũng đã lốm đốm bạc, nhưng trong video thuyết trình năm 2020 tôi đã châm chọc gương mặt thumbnail YouTube rồi. AI hấp thụ những kiểu hành vi “nửa giống con người” này cực nhanh và cực mạnh
  Có mấy video lan truyền kiểu hai cô gái trẻ cầm bảng “This is real”/“This is not real”, mà cả hai bên đều có thể hoàn toàn là dối trá, và tôi không phân biệt nổi. Tất cả đều thể hiện những mẫu hành vi hơi “kỳ lạ”, nhưng lại nhất quán với số ít video influencer mà tôi từng xem
- Tôi có thể nhận ra đồ tạo sinh dở, nhưng làm sao biết mình không bị lừa bởi thứ tốt hơn?
- Tôi chưa từng nghĩ đến điều đó. Sẽ rất đáng sợ nếu con người mất khả năng phân biệt giữa nội dung AI và thực tại
Câu nói “giờ đây toàn bộ web đã đầy rẫy thứ rác do mô hình ngôn ngữ lớn tạo ra, không ai thực sự viết ra và cũng chẳng truyền tải điều gì” là công bằng và chính xác
Ngay cả trong trường hợp tốt nhất, người chạy mô hình cũng không phải là người đã viết bài đó, và mớ từ ngữ lộn xộn ấy không truyền đạt được điều người đó muốn nói
Trong nhiều trường hợp, nội dung cứ thế bị tuôn ra chỉ vì SEO, không hề có ý định tạo ra giá trị cho bất kỳ ai
- Câu đó cũng đánh trúng tôi và rất mạnh mẽ
Có lẽ sách giấy xuất bản trước năm 2020 có thể trở thành hàng hóa quý giá sau 10~20 năm nữa
Khi internet ngập trong rác, và ngay cả sách giấy thời đó cũng bị đem ra nghi ngờ
Rồi cũng sẽ xuất hiện những cái đầu biết nói là con người nhưng giả làm tác giả của những cuốn sách do AI cực kỳ thông minh viết. Rốt cuộc chúng ta đang làm cái quái gì vậy
- Chắc là để tung hô những “nhà từ thiện” nổi tiếng như Sam Altman hay Mark Zuckerberg. Vì ở đây cũng có nhiều người xem họ là anh hùng
- Tôi cứ tưởng chất đầy sách mà hầu như không đọc là một dạng bệnh tâm thần nào đó, giờ thì chắc phải làm nhiều hơn nữa
- Hoặc cũng có thể là một cái đầu biết nói bằng AI giả làm tác giả của cuốn sách do AI viết https://youtu.be/pAPGRGTqIgI
  Cảnh báo: AI tung tin sai lệch do nhà nước hậu thuẫn
Cảm xúc của tôi về vấn đề này rất phức tạp
Một mặt, tôi hoàn toàn đồng ý với Robyn Speer. Web mở đã chết, và web đang ở trong tình trạng thật sự buồn bã. Vài ngày trước tôi còn quyết định đưa blog cá nhân lên gopher. Chỉ đơn giản là vì trên gopher có ít rác hơn nhiều, dĩ nhiên điều đó không có nghĩa gopher là lời giải
Nhưng vài tuần trước, tôi cần gửi một tệp video cho ông ngoại của vợ, năm nay 97 tuổi, sống ở nước khác và không dùng máy tính hay điện thoại di động. Cuối cùng tôi xác nhận ông có đầu phát DVD, rồi dùng x264 để chuyển một video 4K HDR hiện đại sang định dạng có thể phát trên bất kỳ đầu DVD cũ nào, đồng thời cố giữ chất lượng hình ảnh tốt nhất có thể
Vấn đề là x264 không có tài liệu. Không giống x265, vốn có nhà tài trợ doanh nghiệp sẵn sàng chi tiền để viết tài liệu cho đàng hoàng, x264 về cơ bản được phát triển bằng thử-sai bởi các thành viên diễn đàn doom9. Có hàng trăm cờ lệnh khó hiểu, và một số trong đó giờ hoạt động khác hẳn 20 năm trước
Tôi có thể đã phải đào bới hàng chục chủ đề 20 năm tuổi trên doom9 để hiểu từng cờ làm gì, nhưng trên thực tế tôi đã hỏi LLM, cụ thể là Claude
Claude không hoàn hảo và đã trộn vài cờ ffmpeg với cờ x264, nhưng kết hợp với tìm kiếm truyền thống và thử-sai, tôi vẫn có thể xong việc trong khoảng 30 phút. Chất lượng kết quả cũng khá làm tôi hài lòng, và nó phát được cả trên đầu DVD rất cũ
Nếu là thời trước LLM, tôi sẽ không thuê một chuyên gia x264 chỉ để làm việc này. Tôi либо sẽ tốn thêm vài giờ, hoặc nhiều khả năng hơn là cụ ông 97 tuổi đó đã không được xem điệu nhảy của chắt gái mình. Nghe nói video đó đã mang lại cho ông một nụ cười rất lớn
LLM, cũng như mọi thứ trước đó, chỉ là công cụ. Bản thân nó không tốt cũng không xấu. Điều quan trọng là chúng ta làm gì và dùng nó như thế nào
- Chẳng phải phần lớn phần mềm ghi DVD ngày xưa đều có sẵn tính năng chuyển đổi video sao?
  Nếu là thời đó thì chắc đã dùng Nero Burning ROM hoặc Handbrake. Có thể chất lượng sẽ không được tối ưu đến mức mong muốn, nhưng với đôi mắt của một người 97 tuổi thì hẳn vẫn đủ xem tốt
Phải chăng chính con người chúng ta đã làm ô nhiễm internet bằng AI đến mức giờ nó gần như không còn dùng được nữa?
Theo tôi, internet có thể xem như môi trường tự nhiên giống Trái Đất vậy. Vì đó là không gian nơi con người chia sẻ, gặp gỡ và trò chuyện
Điều đáng kinh ngạc là sau khi làm ô nhiễm môi trường tự nhiên, giờ chúng ta còn làm ô nhiễm cả internet
- Nếu chưa như vậy thì cũng sẽ sớm thôi. Sẽ có người xử lý vấn đề này, nhưng tôi nghĩ giờ chúng ta đang tiến rất gần đến khoảnh khắc của một vòng phản hồi cực kỳ cận kề
  Phần lớn thông tin do con người ghi lại đã được số hóa, và một phần lớn trong số đó đang tạo ra nội dung phi nhân loại với tốc độ khủng khiếp. Tức là chúng ta đã bơm một lượng nhiễu khổng lồ vào dữ liệu mà chính mình có thể sử dụng
  Tôi không biết câu trả lời là tạo thêm nhiều nội dung do con người làm ra hay là nội dung sinh mới, nhưng giai đoạn chuyển tiếp này sẽ tạo ra thách thức trong trung hạn
  Tôi muốn tin rằng thời đại cứ có nhiều token hơn trong LLM là tốt hơn đang dần khép lại và chúng ta sẽ chuyển sang dùng dữ liệu hiện có hiệu quả hơn, nhưng thực tế là chúng ta đang đứng trước một điểm bẻ lái quan trọng
- Vẫn còn những cộng đồng nhỏ, khép kín nhưng rất có giá trị. Nơi tôi đang đăng bài lúc này cũng là một trong số đó
  Nhưng internet mở về cơ bản giờ đã trở nên vô dụng, và nguyên nhân gốc rễ là mô hình kinh doanh dựa trên quảng cáo
- Bi kịch của tài nguyên chung phá hỏng mọi thứ xung quanh
- Đúng vậy. Đây cũng là hướng dẫn thực dụng để biến internet thành một bãi phân còn lớn hơn https://www.youtube.com/watch?v=endHz0jo9Ck
  Giờ thì việc bất kỳ công nghệ mới nào cuối cùng cũng dẫn đến khuếch đại SEO trông như một quy luật tự nhiên. AI đã trở thành chiếc Degelman M34 Manure Spreader của internet https://degelman.com/products/manure-spreaders
- So sánh hay đấy. May là trên mạng, việc tạo ra “bất động sản” từ hư không dễ hơn nhiều. Chỉ là chúng ta đã phần nào đánh mất vài không gian có giá trị như Twitter và Reddit
Với những người viết sắp mất việc hoặc đã mất việc, và gần như không thể được tuyển dụng nhờ công việc trước đây của mình, các đại gia AI nên trả tiền để họ viết bất cứ thứ gì
Chỉ có một điều kiện duy nhất: không một câu nào trong tác phẩm đó được tạo ra bằng AI
Ban đầu tôi định nói rằng “chính phủ phải trả tiền”, nhưng đó là xã hội hóa thua lỗ, và chúng ta đã trải qua điều đó quá đủ trong quá khứ
- Đã có một vài công ty làm việc đó rồi. Tôi cũng thỉnh thoảng làm theo hợp đồng cho vài nơi, và đôi khi thù lao còn vượt xa mức mà một người viết trung bình có thể kỳ vọng ở nơi khác
  Chỉ là đa số người viết chưa bao giờ kiếm sống bằng nghề viết. Rào cản để viết quá thấp, người thích viết thì quá nhiều, còn phần lớn mọi người thì hầu như không đọc
- Ai là người lập trình băng từ? https://en.wikipedia.org/wiki/Profession_(novella)
- Các công ty AI thực sự đang thuê những người như vậy để tạo dữ liệu huấn luyện theo yêu cầu
- Người ta đã tạo ra nhiễu và được trả tiền cho việc đó suốt hơn 10 năm nay rồi. Bỏ rác vào thì rác đi ra luôn đúng
  Việc tìm token tiếp theo là một bài toán đã được giải quyết. Tư duy mới là thứ con người có thể giải quyết, và có lẽ sớm thôi AI cũng có thể, nhưng thêm nhiều rác vào dữ liệu thì không giúp nó tốt hơn
- Bạn đã từng đọc lịch sử nước Mỹ chưa, lol

Vì sao wordfreq ngừng cập nhật

Bổ sung vào tháng 9 năm 2024

Ảnh chụp nhanh về cách sử dụng ngôn ngữ đến năm 2021

Web công khai bị ô nhiễm bởi AI tạo sinh

Dữ liệu hội thoại biến mất hoặc trở nên đắt đỏ

Twitter và X

Reddit

Vì sao muốn giữ khoảng cách với AI tạo sinh

Kết luận về việc ngừng cập nhật

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News