- Kho lưu trữ thông tin mã nguồn mở cho phép tìm kiếm và phân tích dữ liệu CIA World Factbook đã được cấu trúc hóa từ năm 1990 đến 2025
- Bao gồm 281 quốc gia và vùng lãnh thổ, 36 ấn bản theo năm, và hơn 1 triệu trường dữ liệu
- Cung cấp các tính năng hồ sơ quốc gia theo từng năm, dữ liệu chuỗi thời gian, tìm kiếm toàn văn, và phân tích mạng lưới địa lý, viễn thông, thương mại
- Bao gồm các công cụ phân tích như bảng điều khiển theo khu vực COCOM, so sánh chỉ số giữa các quốc gia, trực quan hóa xu hướng toàn cầu
- Dựa trên tài liệu thuộc phạm vi công cộng và là dự án độc lập không liên quan đến CIA hay chính phủ Mỹ
Tổng quan
- Kho dữ liệu lưu trữ và cấu trúc hóa thông tin địa chính trị trong suốt 36 năm
- Dựa trên dữ liệu được phân tích từ CIA World Factbook gốc
- Bao gồm 281 thực thể, 36 ấn bản, 9.500 bản ghi quốc gia-theo-năm, và 1.061.341 trường dữ liệu
- Toàn bộ dữ liệu đều có thể tìm kiếm, và có thể theo dõi sự thay đổi của báo cáo quốc gia theo từng năm
Cấu trúc nền tảng
- Factbook Archive / Reference Library
- Có thể xem mọi ấn bản từ 1990 đến 2025
- Hiển thị nguyên trạng dữ liệu trường gốc và có thể tìm kiếm thay đổi theo từng năm
- Intelligence Analysis / Analytic Workspace
- Không gian làm việc phân tích được tổ chức theo khu vực Bộ tư lệnh tác chiến DoD (COCOM)
- Cung cấp bản đồ tô màu theo vùng (Choropleth), so sánh chuỗi thời gian, hồ sơ phân tích theo quốc gia (định dạng ICD 203), tính năng so sánh giữa các chỉ số
Tính năng chính
- Library: Phân loại mọi thực thể theo loại, kèm cờ
- Country Profile: Xem toàn bộ dữ liệu trường của từng quốc gia
- Full-Text Search: Tìm kiếm từ khóa trong hơn 1 triệu trường bằng cú pháp Z39.58
- Field Time Series: Theo dõi xu hướng 36 năm của một trường dữ liệu cụ thể
- Factbook Quiz: Cung cấp quiz kiến thức thế giới với 4 chế độ
- Factbook Export: Tạo báo cáo quốc gia dạng in ấn bao gồm mọi trường
Công cụ phân tích tình báo
- Regional Dashboard: Bản đồ thế giới kèm hiển thị khu vực COCOM và thủ đô
- Timeline Map: Trực quan hóa dữ liệu 36 năm dưới dạng hoạt ảnh
- Communications Analysis: Hiển thị các chỉ số về mức độ phổ cập internet, di động và băng thông rộng
- Map Compare: Đồng bộ hai bản đồ của hai năm để so sánh
- COCOM Region Detail: Hiển thị các chỉ số chính (KPI) theo khu vực
- Intelligence Dossier: Hồ sơ phân tích theo quốc gia dựa trên tiêu chuẩn ICD 203
- Global Rankings: Sắp xếp thứ hạng quốc gia theo từng chỉ số
- Global Trends: Xu hướng các chỉ số toàn cầu xuyên suốt mọi ấn bản
- Compare Countries: So sánh chỉ số giữa các quốc gia
- Field Explorer: Khám phá mọi trường dữ liệu và thống kê độ bao phủ
- Change Detection: Phát hiện thay đổi của trường theo từng năm
- Dissolved States: Thông tin về các quốc gia và vùng lãnh thổ không còn tồn tại
- Trade Networks: Đồ thị mạng lưới quan hệ thương mại
- Organization Networks: Đồ thị quan hệ thành viên các tổ chức quốc tế
- Query Builder: Tạo truy vấn phân tích tùy chỉnh
- Text Diff: So sánh văn bản theo năm và làm nổi bật thay đổi
Thông tin dự án
- Toàn bộ dữ liệu được thu thập từ tài liệu thuộc phạm vi công cộng của chính phủ Mỹ (CIA World Factbook)
- Không liên quan đến CIA hay chính phủ Mỹ
- Phân tích tuân theo tiêu chuẩn phân tích ICD 203
- Công khai mã nguồn và phương pháp luận qua kho GitHub
1 bình luận
Bình luận trên Hacker News
Sẽ rất tuyệt nếu chính quyền tiếp theo có thể tận dụng dữ liệu đã được lưu trữ này để dựng lại
Ai đó đăng dự án lên thì cộng đồng tìm lỗi theo thời gian thực, và tác giả sửa ngay lập tức
Vấn đề xung đột mã quốc gia FIPS và ISO là ví dụ điển hình cho việc những lỗi hiếm như vậy chỉ có thể được phát hiện nhờ nhiều người cùng nhìn vào
Tôi rất ấn tượng khi tác giả không phòng thủ mà phản hồi rất tích cực với phản hồi
Nó được mô tả là “bộ nhớ đệm tập dữ liệu hồ sơ quốc gia theo định dạng gốc (1:1) từ CIA.gov”
Có thể xem dữ liệu chi tiết tại cache.factbook.json
Tuy nhiên, tôi nghĩ cần biến dữ liệu từ 1990–2025 thành cơ sở dữ liệu SQL để có thể truy vấn
Bộ dữ liệu này cực kỳ phù hợp để kiểm thử tính năng GraphRAG
Có lẽ cũng có thể làm một trò chơi mô phỏng thế giới dựa trên dữ liệu thực
Nội dung gốc do CIA công bố được giữ nguyên, tôi chỉ dọn bớt nhiễu định dạng trong quá trình parse
Ngoài ra tôi đã tạo một bảng tra cứu để ánh xạ mã FIPS 10-4 với ISO Alpha-2/3 và MasterCountryID, để chúng có thể liên kết với nhau
Tôi cũng sẽ thêm các tài liệu này lên GitHub
Nếu bấm vào mục “Germany” trong Factbook năm 2002, nó luôn chuyển đến trang “Gambia”
Tôi chưa thấy hiện tượng này ở các nước khác
Liên kết Amazon
Có thể thấy trên trang phân tích xu hướng
Cảm ơn đã báo lỗi!
Ví dụ: dữ liệu thuê bao băng thông rộng cố định của Ấn Độ
Ví dụ, “18.17 million” chỉ bị nhận thành 18.17, khiến biểu đồ rơi mạnh sai lệch
Tôi đã thêm xử lý đơn vị để sửa lỗi và vừa triển khai xong
Cảm ơn bạn đã báo!