- Anna's Archive là một công cụ tìm kiếm meta cho thư viện bóng trực tuyến phi lợi nhuận do các nhà hoạt động ẩn danh vận hành. Dịch vụ này cung cấp quyền truy cập vào nhiều nguồn tài nguyên sách khác nhau
- Họ đã thu thập được một bộ sưu tập sách phi hư cấu tiếng Trung gồm 7,5 triệu cuốn / 350TB, thậm chí còn nhiều hơn cả Library Genesis
- Đổi lại việc cung cấp OCR chất lượng cao và trích xuất văn bản cho bộ sưu tập này, họ dự định cấp cho công ty LLM đó quyền truy cập sớm độc quyền trong 1 năm
- Bộ sưu tập này được lấy từ Duxiu, cơ sở dữ liệu khổng lồ về sách quét do SuperStar Digital Library Group xây dựng, vốn được cung cấp dưới dạng số cho các trường đại học và thư viện
- Tổng dung lượng tệp của bộ sưu tập ở dạng hiện tại vào khoảng 359TB
- Văn bản được trích xuất sẽ được dùng để huấn luyện các mô hình ngôn ngữ lớn (LLM), và Archive tin rằng dù bộ sưu tập là tiếng Trung, nó vẫn có thể hữu ích cho việc huấn luyện các LLM tiếng Anh
- Archive muốn thông qua sự hợp tác này cung cấp cho người dùng các chức năng tìm kiếm chuyên biệt
- Nếu bên hợp tác sẵn sàng chia sẻ toàn bộ mã của pipeline, Archive sẵn sàng cân nhắc kéo dài thời gian truy cập độc quyền
1 bình luận
Ý kiến Hacker News