-
Công cụ phân tích và điều tra dữ liệu dành cho báo chí điều tra, do OCCRP phát triển, tổ chức chuyên điều tra tội phạm có tổ chức và tham nhũng
-
Tích hợp và tìm kiếm chéo dữ liệu có cấu trúc (DB) / phi cấu trúc (PDF, XLS, DOC, v.v.)
-
Tính năng phân vùng dữ liệu và quản lý truy cập. Hỗ trợ chia sẻ linh hoạt giữa các nhóm đa quốc gia
-
Thu thập dữ liệu liên tục từ hàng trăm nguồn dữ liệu công khai
-
Cung cấp phân tích điều tra trực quan
-
Hỗ trợ nhập dữ liệu
-
Từ HTML/XML đến PDF, RTF, Epub và hầu hết các tài liệu văn phòng khác (Doc, PPT)
-
Các định dạng bảng như XLS/CSV cùng DBF, SQLite, Access
-
Email RFC822 MIME, hộp thư như Outlook PST/OLM, Mbox, Vcard
-
Zip, Rar, Tar, 7Zip, Gzip
-
JPEG, PNG, GIF, TIFF, SVG được OCR bằng Tesseract 4 hoặc Google Vision API để trích xuất văn bản
1 bình luận
OCCRP, đơn vị tạo ra công cụ này, là một tổ chức như vậy.
"OCCRP, cơ quan báo chí điều tra chuyên về tội phạm có tổ chức và tham nhũng" https://newstapa.org/article/_DNLi
Bạn có thể dùng thử với dữ liệu thực tế tại https://aleph.occrp.org/.
Video trailer do OpenOil thực hiện giải thích về Aleph một cách dễ hiểu.
( OpenOil là công ty xây dựng một framework dữ liệu mở để quản lý các tài nguyên thiên nhiên như khí đốt, dầu mỏ, than đá trên toàn thế giới. )
https://www.youtube.com/watch?v=bg96HcR_2Jc
Vì đây là công cụ do một tổ chức điều tra chuyên về "tham nhũng" tạo ra, mô hình dữ liệu cơ bản của nó là "Follow the Money".
Nó theo dõi rất tốt dòng tiền di chuyển giữa công ty/người này với công ty/người khác.
Vì vậy, các loại thực thể tập dữ liệu được hỗ trợ mặc định là như sau.