Anna’s Archive cung cấp cho các công ty LLM quyền truy cập chuyên biệt vào bộ sưu tập sách phi hư cấu tiếng Trung lớn nhất thế giới

(annas-blog.org)

2 điểm bởi GN⁺ 2023-11-06 | 1 bình luận | Chia sẻ qua WhatsApp

Anna's Archive là một công cụ tìm kiếm meta cho thư viện bóng trực tuyến phi lợi nhuận do các nhà hoạt động ẩn danh vận hành. Dịch vụ này cung cấp quyền truy cập vào nhiều nguồn tài nguyên sách khác nhau
Họ đã thu thập được một bộ sưu tập sách phi hư cấu tiếng Trung gồm 7,5 triệu cuốn / 350TB, thậm chí còn nhiều hơn cả Library Genesis
Đổi lại việc cung cấp OCR chất lượng cao và trích xuất văn bản cho bộ sưu tập này, họ dự định cấp cho công ty LLM đó quyền truy cập sớm độc quyền trong 1 năm
Bộ sưu tập này được lấy từ Duxiu, cơ sở dữ liệu khổng lồ về sách quét do SuperStar Digital Library Group xây dựng, vốn được cung cấp dưới dạng số cho các trường đại học và thư viện
Tổng dung lượng tệp của bộ sưu tập ở dạng hiện tại vào khoảng 359TB
Văn bản được trích xuất sẽ được dùng để huấn luyện các mô hình ngôn ngữ lớn (LLM), và Archive tin rằng dù bộ sưu tập là tiếng Trung, nó vẫn có thể hữu ích cho việc huấn luyện các LLM tiếng Anh
Archive muốn thông qua sự hợp tác này cung cấp cho người dùng các chức năng tìm kiếm chuyên biệt
Nếu bên hợp tác sẵn sàng chia sẻ toàn bộ mã của pipeline, Archive sẵn sàng cân nhắc kéo dài thời gian truy cập độc quyền

1 bình luận

GN⁺ 2023-11-06

Ý kiến Hacker News

Bộ sưu tập này được cho là bắt đầu vào khoảng năm 2015, bao gồm khoảng 4 triệu cuốn sách, trong đó nhiều cuốn bị trùng lặp.
Nguồn gốc của bộ sưu tập là từ một công ty tên DuXiu, đơn vị đã hợp tác với các thư viện ở Trung Quốc từ đầu những năm 2000 để quét số các bộ sưu tập của họ.
Bộ sưu tập này là sự pha trộn giữa các giáo trình phương Tây đã được dịch, tài liệu tuyên truyền chính trị, cùng các tác phẩm văn học và lịch sử được xuất bản trước thời kỳ kiểm duyệt cực đoan.
Các công ty công nghệ Trung Quốc có thể truy cập bộ sưu tập này, nhưng có thể không sử dụng nó vì rủi ro về bản quyền và chính trị.
Người vận hành trang web được xem là thông minh nhưng liều lĩnh, và đã xuất hiện lo ngại về trách nhiệm pháp lý tiềm tàng.
DuXiu được đánh giá rất cao như một nguồn tài nguyên, và có kỳ vọng rằng nó sẽ trở nên có thể tìm kiếm toàn bộ trong vòng một năm.
Việc toàn bộ sách của Trung Quốc được tập trung hóa được xem là có lợi cho việc huấn luyện AI.
Việc bộ sưu tập này lớn gấp 40 lần books3 làm dấy lên các câu hỏi về bản quyền và khả năng nghiên cứu học thuật ngoài thế giới nói tiếng Anh.
Có suy đoán về hiệu quả token hóa trong tiếng Trung, một ngôn ngữ có mật độ thông tin cao.
Đã xuất hiện câu hỏi liệu Language Models (LLMs) có thể mã hóa tri thức bất kể ngôn ngữ và ngôn ngữ truy vấn hay không.
Có kỳ vọng rằng một tập đoàn lớn của Trung Quốc có thể vượt mặt OpenAI trong đấu giá để cạnh tranh giành bộ sưu tập này.
LLMs có thể đóng vai trò là giao diện, giúp việc tiếp cận thông tin bằng tiếng Trung trở nên dễ dàng hơn.
Phản ứng với việc sao chép trong văn hóa Trung Quốc được xem là khác biệt, thường có xu hướng coi đó như một hình thức tôn trọng.

Anna’s Archive cung cấp cho các công ty LLM quyền truy cập chuyên biệt vào bộ sưu tập sách phi hư cấu tiếng Trung lớn nhất thế giới

Bài viết liên quan

1 bình luận

Ý kiến Hacker News