7 điểm bởi xguru 2020-03-02 | 1 bình luận | Chia sẻ qua WhatsApp
  • Công cụ phân tích và điều tra dữ liệu dành cho báo chí điều tra, do OCCRP phát triển, tổ chức chuyên điều tra tội phạm có tổ chức và tham nhũng

  • Tích hợp và tìm kiếm chéo dữ liệu có cấu trúc (DB) / phi cấu trúc (PDF, XLS, DOC, v.v.)

  • Tính năng phân vùng dữ liệu và quản lý truy cập. Hỗ trợ chia sẻ linh hoạt giữa các nhóm đa quốc gia

  • Thu thập dữ liệu liên tục từ hàng trăm nguồn dữ liệu công khai

  • Cung cấp phân tích điều tra trực quan

  • Hỗ trợ nhập dữ liệu

  • Từ HTML/XML đến PDF, RTF, Epub và hầu hết các tài liệu văn phòng khác (Doc, PPT)

  • Các định dạng bảng như XLS/CSV cùng DBF, SQLite, Access

  • Email RFC822 MIME, hộp thư như Outlook PST/OLM, Mbox, Vcard

  • Zip, Rar, Tar, 7Zip, Gzip

  • JPEG, PNG, GIF, TIFF, SVG được OCR bằng Tesseract 4 hoặc Google Vision API để trích xuất văn bản

1 bình luận

 
xguru 2020-03-02

OCCRP, đơn vị tạo ra công cụ này, là một tổ chức như vậy.

"OCCRP, cơ quan báo chí điều tra chuyên về tội phạm có tổ chức và tham nhũng" https://newstapa.org/article/_DNLi

Bạn có thể dùng thử với dữ liệu thực tế tại https://aleph.occrp.org/.

Video trailer do OpenOil thực hiện giải thích về Aleph một cách dễ hiểu.

( OpenOil là công ty xây dựng một framework dữ liệu mở để quản lý các tài nguyên thiên nhiên như khí đốt, dầu mỏ, than đá trên toàn thế giới. )

https://www.youtube.com/watch?v=bg96HcR_2Jc

Vì đây là công cụ do một tổ chức điều tra chuyên về "tham nhũng" tạo ra, mô hình dữ liệu cơ bản của nó là "Follow the Money".

Nó theo dõi rất tốt dòng tiền di chuyển giữa công ty/người này với công ty/người khác.

Vì vậy, các loại thực thể tập dữ liệu được hỗ trợ mặc định là như sau.

  • Airplane, Assessment, Asset, Bank Account, Company, Contract, Court case, Customs Declaration, Land, Legal Entity