The General Index - Công khai miễn phí chỉ mục n-gram của hàng triệu tạp chí

xguru · 2021-10-28T09:04:01+09:00

Nhà nghiên cứu Carl Malamud đã công bố chỉ mục n-gram được trích xuất bằng SpaCy từ 107.233.728 tạp chí, bao gồm cả các bài báo trả phí Vì đây là chỉ mục chỉ chứa các đoạn câu dài từ 1 từ đến tối đa 5 từ, chứ không phải toàn văn, nên có thể tránh được các hạn chế về bản quyền Được công khai miễn phí trên kho lưu trữ web để có thể sử dụng trong nhiều lĩnh vực nghiên cứu khác nhau → Ví dụ: một chất hóa học cụ thể đã được sử dụng bao nhiêu lần trong các bài báo Gồm 3 bảng → 350 tỷ n-gram và id tạp chí → 19,7 tỷ từ khóa và id tạp chí → id tạp chí và siêu dữ liệu: tiêu đề bài báo, tác giả, DOI (mã định danh duy nhất của bài báo) Danh mục có kích thước 5TB ở dạng nén và 38TB sau khi giải nén

(archive.org)

13 điểm bởi xguru 2021-10-28 | 1 bình luận | Chia sẻ qua WhatsApp

Nhà nghiên cứu Carl Malamud đã công bố chỉ mục n-gram được trích xuất bằng SpaCy từ 107.233.728 tạp chí, bao gồm cả các bài báo trả phí
Vì đây là chỉ mục chỉ chứa các đoạn câu dài từ 1 từ đến tối đa 5 từ, chứ không phải toàn văn, nên có thể tránh được các hạn chế về bản quyền
Được công khai miễn phí trên kho lưu trữ web để có thể sử dụng trong nhiều lĩnh vực nghiên cứu khác nhau

→ Ví dụ: một chất hóa học cụ thể đã được sử dụng bao nhiêu lần trong các bài báo

Gồm 3 bảng

→ 350 tỷ n-gram và id tạp chí

→ 19,7 tỷ từ khóa và id tạp chí

→ id tạp chí và siêu dữ liệu: tiêu đề bài báo, tác giả, DOI (mã định danh duy nhất của bài báo)

Danh mục có kích thước 5TB ở dạng nén và 38TB sau khi giải nén

1 bình luận

xguru 2021-10-28

Bài giới thiệu của Nature

Giant, free index to world’s research papers released online https://www.nature.com/articles/d41586-021-02895-8

Họ đã lách vấn đề bản quyền theo một cách khá độc đáo bằng việc chỉ công bố chỉ mục chứ không phải toàn văn thực tế.

Bài của Nature cũng có nhắc đến điều này, nên có lẽ vấn đề chỉ nằm ở chỗ Carl đã lấy được các bài báo gốc vốn phải trả phí như thế nào để tạo chỉ mục, còn việc tận dụng chính chỉ mục này cho nghiên cứu thì có vẻ không thành vấn đề.

Đọc cái này tôi lại nghĩ đến Aaron Swartz.. và đúng là bên dưới tài liệu cũng có ghi rõ điều đó.

Hãy xem luôn cả video Carl Malamud phát biểu tại Aaron Swartz Memorial nữa nhé.

https://www.youtube.com/watch?v=VllJDnMcTzM

The General Index - Công khai miễn phí chỉ mục n-gram của hàng triệu tạp chí

Bài viết liên quan

1 bình luận