4 điểm bởi GN⁺ 2026-02-23 | 1 bình luận | Chia sẻ qua WhatsApp
  • Kho lưu trữ thông tin mã nguồn mở cho phép tìm kiếm và phân tích dữ liệu CIA World Factbook đã được cấu trúc hóa từ năm 1990 đến 2025
  • Bao gồm 281 quốc gia và vùng lãnh thổ, 36 ấn bản theo năm, và hơn 1 triệu trường dữ liệu
  • Cung cấp các tính năng hồ sơ quốc gia theo từng năm, dữ liệu chuỗi thời gian, tìm kiếm toàn văn, và phân tích mạng lưới địa lý, viễn thông, thương mại
  • Bao gồm các công cụ phân tích như bảng điều khiển theo khu vực COCOM, so sánh chỉ số giữa các quốc gia, trực quan hóa xu hướng toàn cầu
  • Dựa trên tài liệu thuộc phạm vi công cộng và là dự án độc lập không liên quan đến CIA hay chính phủ Mỹ

Tổng quan

  • Kho dữ liệu lưu trữ và cấu trúc hóa thông tin địa chính trị trong suốt 36 năm
    • Dựa trên dữ liệu được phân tích từ CIA World Factbook gốc
    • Bao gồm 281 thực thể, 36 ấn bản, 9.500 bản ghi quốc gia-theo-năm, và 1.061.341 trường dữ liệu
  • Toàn bộ dữ liệu đều có thể tìm kiếm, và có thể theo dõi sự thay đổi của báo cáo quốc gia theo từng năm

Cấu trúc nền tảng

  • Factbook Archive / Reference Library
    • Có thể xem mọi ấn bản từ 1990 đến 2025
    • Hiển thị nguyên trạng dữ liệu trường gốc và có thể tìm kiếm thay đổi theo từng năm
  • Intelligence Analysis / Analytic Workspace
    • Không gian làm việc phân tích được tổ chức theo khu vực Bộ tư lệnh tác chiến DoD (COCOM)
    • Cung cấp bản đồ tô màu theo vùng (Choropleth), so sánh chuỗi thời gian, hồ sơ phân tích theo quốc gia (định dạng ICD 203), tính năng so sánh giữa các chỉ số

Tính năng chính

  • Library: Phân loại mọi thực thể theo loại, kèm cờ
  • Country Profile: Xem toàn bộ dữ liệu trường của từng quốc gia
  • Full-Text Search: Tìm kiếm từ khóa trong hơn 1 triệu trường bằng cú pháp Z39.58
  • Field Time Series: Theo dõi xu hướng 36 năm của một trường dữ liệu cụ thể
  • Factbook Quiz: Cung cấp quiz kiến thức thế giới với 4 chế độ
  • Factbook Export: Tạo báo cáo quốc gia dạng in ấn bao gồm mọi trường

Công cụ phân tích tình báo

  • Regional Dashboard: Bản đồ thế giới kèm hiển thị khu vực COCOM và thủ đô
  • Timeline Map: Trực quan hóa dữ liệu 36 năm dưới dạng hoạt ảnh
  • Communications Analysis: Hiển thị các chỉ số về mức độ phổ cập internet, di động và băng thông rộng
  • Map Compare: Đồng bộ hai bản đồ của hai năm để so sánh
  • COCOM Region Detail: Hiển thị các chỉ số chính (KPI) theo khu vực
  • Intelligence Dossier: Hồ sơ phân tích theo quốc gia dựa trên tiêu chuẩn ICD 203
  • Global Rankings: Sắp xếp thứ hạng quốc gia theo từng chỉ số
  • Global Trends: Xu hướng các chỉ số toàn cầu xuyên suốt mọi ấn bản
  • Compare Countries: So sánh chỉ số giữa các quốc gia
  • Field Explorer: Khám phá mọi trường dữ liệu và thống kê độ bao phủ
  • Change Detection: Phát hiện thay đổi của trường theo từng năm
  • Dissolved States: Thông tin về các quốc gia và vùng lãnh thổ không còn tồn tại
  • Trade Networks: Đồ thị mạng lưới quan hệ thương mại
  • Organization Networks: Đồ thị quan hệ thành viên các tổ chức quốc tế
  • Query Builder: Tạo truy vấn phân tích tùy chỉnh
  • Text Diff: So sánh văn bản theo năm và làm nổi bật thay đổi

Thông tin dự án

  • Toàn bộ dữ liệu được thu thập từ tài liệu thuộc phạm vi công cộng của chính phủ Mỹ (CIA World Factbook)
  • Không liên quan đến CIA hay chính phủ Mỹ
  • Phân tích tuân theo tiêu chuẩn phân tích ICD 203
  • Công khai mã nguồn và phương pháp luận qua kho GitHub

1 bình luận

 
GN⁺ 2026-02-23
Bình luận trên Hacker News
  • Có vẻ như chính quyền hiện tại đã xóa toàn bộ dữ liệu nội bộ của CIA World Factbook để ngăn việc khôi phục trong tương lai
    Sẽ rất tuyệt nếu chính quyền tiếp theo có thể tận dụng dữ liệu đã được lưu trữ này để dựng lại
  • Đây đúng là cách Show HN nên hoạt động
    Ai đó đăng dự án lên thì cộng đồng tìm lỗi theo thời gian thực, và tác giả sửa ngay lập tức
    Vấn đề xung đột mã quốc gia FIPS và ISO là ví dụ điển hình cho việc những lỗi hiếm như vậy chỉ có thể được phát hiện nhờ nhiều người cùng nhìn vào
    Tôi rất ấn tượng khi tác giả không phòng thủ mà phản hồi rất tích cực với phản hồi
  • kho GitHub dành cho những ai cần file JSON hoặc Markdown của Factbook
    Nó được mô tả là “bộ nhớ đệm tập dữ liệu hồ sơ quốc gia theo định dạng gốc (1:1) từ CIA.gov”
    Có thể xem dữ liệu chi tiết tại cache.factbook.json
    • Cảm ơn vì liên kết! GitHub và website của tôi cũng đang dùng nguồn này
      Tuy nhiên, tôi nghĩ cần biến dữ liệu từ 1990–2025 thành cơ sở dữ liệu SQL để có thể truy vấn
  • Gửi tác giả: nếu bạn đang chỉnh sửa các trường trong cơ sở dữ liệu hoặc sửa lỗi (ví dụ: mã quốc gia), tôi muốn hỏi liệu bạn có thể chia sẻ luôn phiên bản đó không
    Bộ dữ liệu này cực kỳ phù hợp để kiểm thử tính năng GraphRAG
    Có lẽ cũng có thể làm một trò chơi mô phỏng thế giới dựa trên dữ liệu thực
    • Tất nhiên là được! Tôi đang quản lý toàn bộ lịch sử chỉnh sửa dữ liệu bằng change log .txt
      Nội dung gốc do CIA công bố được giữ nguyên, tôi chỉ dọn bớt nhiễu định dạng trong quá trình parse
      Ngoài ra tôi đã tạo một bảng tra cứu để ánh xạ mã FIPS 10-4 với ISO Alpha-2/3 và MasterCountryID, để chúng có thể liên kết với nhau
      Tôi cũng sẽ thêm các tài liệu này lên GitHub
  • Dự án rất hay. Nhưng tôi phát hiện một vấn đề
    Nếu bấm vào mục “Germany” trong Factbook năm 2002, nó luôn chuyển đến trang “Gambia”
    Tôi chưa thấy hiện tượng này ở các nước khác
    • Một ví dụ khác là khi tìm “Nicaragua”, nó lại dẫn đến trang “Niger”
  • Phiên bản 2025–2026 đã có thể mua và xem từ bên ngoài, còn ấn bản 2026–2027 dự kiến phát hành ngày 7 tháng 4
    Liên kết Amazon
    • Tôi không biết những cuốn sách như thế này thực sự được xuất bản. Cảm ơn đã cho biết
    • Internet Archive đang lưu giữ bản 2025–2026, và sẽ quét rồi thêm vào OpenLibrary
    • Khi phát hành, tôi cũng sẽ thêm nó vào dự án của mình. Cảm ơn đã chia sẻ thông tin
  • Liên kết này thực sự đáng kinh ngạc: trang phân tích lịch sử thay đổi
  • Dự án rất hay. Nhưng có vẻ như dân số thế giới đang bị tính gấp đôi
    Có thể thấy trên trang phân tích xu hướng
    • Tôi đã tìm ra nguyên nhân. Thực thể “World” (khoảng 8 tỷ người) đang bị cộng vào tổng cùng với các quốc gia riêng lẻ, khiến tổng số bị tính gấp đôi
      Cảm ơn đã báo lỗi!
    • Tôi đang sửa ngay. Có lẽ vì nhìn nó quá lâu nên tôi đã bỏ sót điều này. Cảm ơn đã nhắc
  • Dự án này có phải là kho lưu trữ bảo tồn một dịch vụ đã bị chính quyền Nhà Trắng hiện tại chấm dứt không?
    • Đúng vậy, chính xác là dịch vụ đó
  • Biểu đồ chuỗi thời gian có lỗi. Cần chuẩn hóa (normalization) trước khi trực quan hóa dữ liệu
    Ví dụ: dữ liệu thuê bao băng thông rộng cố định của Ấn Độ
    • Tôi đã tìm ra vấn đề. Biểu thức chính quy (regex) dùng để parse tổng số không xử lý được hậu tố đơn vị (million/billion, v.v.)
      Ví dụ, “18.17 million” chỉ bị nhận thành 18.17, khiến biểu đồ rơi mạnh sai lệch
      Tôi đã thêm xử lý đơn vị để sửa lỗi và vừa triển khai xong
      Cảm ơn bạn đã báo!