2 điểm bởi GN⁺ 2024-07-31 | 1 bình luận | Chia sẻ qua WhatsApp

Giới thiệu về en.osm.town

  • en.osm.town là một phần của mạng xã hội phân tán dựa trên Mastodon
  • Là cộng đồng độc lập của cộng đồng OpenStreetMap, nhận tài trợ từ OpenStreetMap Foundation
  • Thống kê máy chủ: 257 người dùng hoạt động

Nội dung chính

  • Grant Slater đề xuất các công ty AI đừng âm thầm scrape dữ liệu OpenStreetMap mà hãy quyên góp $10.000
  • Nếu quyên góp $50.000 thì cũng có thể cung cấp cập nhật streaming theo thời gian thực
  • Bart Louwers nhắc rằng việc scrape OpenStreetMap là chuyện rất phổ biến
  • wikiyu cho rằng sử dụng dữ liệu planet.osm sẽ hiệu quả hơn
  • Josua chỉ trích việc AI đang được huấn luyện theo cách kém hiệu quả
  • Juan Luis đề cập rằng Read the Docs cũng đang gặp vấn đề tương tự về việc lạm dụng AI crawler
  • Simon Poole cho rằng một cách làm hợp lý có thể tránh làm tổn hại hình ảnh của các công ty AI
  • Michał nêu khả năng rằng các nhà thầu ở một số quốc gia có thể đã được giao nhiệm vụ tải dữ liệu OSM
  • leadingzero chỉ trích rằng các yêu cầu giấy phép của OSM không được thực thi đúng cách
  • Grant Slater cho biết ông đã tạo một kho GitHub để theo dõi thuộc tính tile
  • Guillaume Rischard cho biết gần đây đã giải quyết một vấn đề pháp lý ở Đức
  • Adderall girl grindset (Jes) đề xuất chặn các AI crawler

Tóm tắt của GN⁺

  • Bài viết này đề cập đến vấn đề các công ty AI scrape dữ liệu OpenStreetMap
  • Đề xuất cách sử dụng dữ liệu OpenStreetMap hiệu quả hơn và cách tiếp cận dữ liệu thông qua việc quyên góp
  • Thảo luận về vấn đề lạm dụng AI crawler và các biện pháp đối phó
  • Các dự án có chức năng tương tự gồm Google Maps và Bing Maps

1 bình luận

 
GN⁺ 2024-07-31
Ý kiến trên Hacker News
  • Các trình thu thập dữ liệu AI phớt lờ robots.txt, không dùng API công khai và không tuân thủ tải cao điểm, làm tăng chi phí hạ tầng
  • Chủ tịch OpenStreetMap Foundation cho biết có thể tải xuống dữ liệu OpenStreetMap hàng loạt miễn phí và khuyến nghị dùng cách đó thay vì scraping
    • Việc scraping tạo tải lớn lên các tài nguyên do cộng đồng đóng góp, đồng thời cũng tốn thời gian và công sức để chặn các IP scraping
    • Tôn trọng tài nguyên và thời gian sẽ giúp duy trì dịch vụ miễn phí
  • Có thể thiết lập một instance OpenStreetMap trong 10 phút, chỉ với lệnh docker run đơn giản
    • Việc lập chỉ mục có mất thời gian, nhưng không quá lâu so với lượng tài nguyên cần dùng
  • Có người cần dữ liệu OSM nhưng đã không thực sự hiểu rõ cách lấy dữ liệu
    • Phải tải các tệp rất lớn cỡ 100GB và dùng những định dạng cùng thư viện khó hiểu
    • Thông tin bị phân tán, còn HTTP API thì bị giới hạn hoặc giới hạn tốc độ
    • Cuối cùng đã dùng một dự án miễn phí cung cấp dữ liệu OSM được chuyển đổi sẵn
  • OP đã giới hạn và chặn các crawler scrape website và mapping API một cách hung hăng, rồi có phản ứng mỉa mai về việc đó
    • Dữ liệu OpenStreetMap có thể được tải miễn phí qua AWS S3 và torrent
    • Nếu mới bắt đầu, nên dùng dữ liệu trích xuất cho khu vực nhỏ
  • Đưa planet.osm lên torrent và chỉ cho phép scraping qua torrent có thể giúp phân tán tải mạng
  • Việc các AI crawler yêu cầu mọi bản sửa đổi của mọi tệp qua giao diện web là rất kém hiệu quả
    • Điều này gây lãng phí điện năng và tài nguyên
  • Có đề xuất tạo honeypot cho các công ty AI để sinh ra nội dung vô nghĩa trong vòng lặp vô hạn
  • Thật đáng tiếc khi các dự án như CommonCrawl vẫn chưa loại bỏ được nhu cầu để nhiều công ty phải tự đi scrape máy chủ
    • Có thể vì họ muốn ghé thăm thường xuyên hơn, hoặc dùng nhiều tiền từ VC để gây ấn tượng với nhà đầu tư
  • Có câu hỏi về việc các công ty AI đang scrape gì từ OSM