-
Nhà nghiên cứu Carl Malamud đã công bố chỉ mục n-gram được trích xuất bằng SpaCy từ 107.233.728 tạp chí, bao gồm cả các bài báo trả phí
-
Vì đây là chỉ mục chỉ chứa các đoạn câu dài từ 1 từ đến tối đa 5 từ, chứ không phải toàn văn, nên có thể tránh được các hạn chế về bản quyền
-
Được công khai miễn phí trên kho lưu trữ web để có thể sử dụng trong nhiều lĩnh vực nghiên cứu khác nhau
→ Ví dụ: một chất hóa học cụ thể đã được sử dụng bao nhiêu lần trong các bài báo
- Gồm 3 bảng
→ 350 tỷ n-gram và id tạp chí
→ 19,7 tỷ từ khóa và id tạp chí
→ id tạp chí và siêu dữ liệu: tiêu đề bài báo, tác giả, DOI (mã định danh duy nhất của bài báo)
- Danh mục có kích thước 5TB ở dạng nén và 38TB sau khi giải nén
1 bình luận
Bài giới thiệu của Nature
Họ đã lách vấn đề bản quyền theo một cách khá độc đáo bằng việc chỉ công bố chỉ mục chứ không phải toàn văn thực tế.
Bài của Nature cũng có nhắc đến điều này, nên có lẽ vấn đề chỉ nằm ở chỗ Carl đã lấy được các bài báo gốc vốn phải trả phí như thế nào để tạo chỉ mục, còn việc tận dụng chính chỉ mục này cho nghiên cứu thì có vẻ không thành vấn đề.
Đọc cái này tôi lại nghĩ đến Aaron Swartz.. và đúng là bên dưới tài liệu cũng có ghi rõ điều đó.
Hãy xem luôn cả video Carl Malamud phát biểu tại Aaron Swartz Memorial nữa nhé.