1 điểm bởi GN⁺ 2023-08-26 | 1 bình luận | Chia sẻ qua WhatsApp
  • Bài viết về sự phức tạp pháp lý và tính đạo đức giả xung quanh web scraping
  • Cách các tập đoàn lớn như Meta và Microsoft cấm web scraping trên nền tảng của chính họ, trong khi đồng thời thu thập dữ liệu từ nền tảng của các công ty khác
  • Sự phức tạp của các vấn đề pháp lý liên quan đến việc truy cập và sử dụng dữ liệu trên Internet, cũng như mục đích của việc đó. Có những dạng dữ liệu được bảo vệ bởi bản quyền hoặc các quyền sở hữu trí tuệ khác, nhưng phần lớn dữ liệu trên Internet không dễ được bảo vệ
  • Các công ty mạng xã hội như LinkedIn và Facebook theo đuổi các vụ kiện về web scraping một cách quyết liệt nhất. Tuy nhiên, nội dung mà họ cố bảo vệ là do người dùng tạo ra, không phải tài sản của chính họ
  • Trong giai đoạn đầu của Internet, các công ty đã sử dụng các học thuyết pháp lý để ngăn web scraping như một hành vi xâm nhập tài sản, tức cho rằng các yêu cầu dữ liệu hàng loạt không mong muốn là một dạng xâm phạm đối với tài sản hữu hình của cá nhân, cụ thể là máy chủ
  • Từ đầu những năm 2000 đến năm 2017, Computer Fraud and Abuse Act (CFAA) là cơ sở pháp lý chính để ngăn web scraping. CFAA cấm truy cập trái phép vào "máy tính được bảo vệ"
  • Trong vụ hiQ Labs, Inc. kiện LinkedIn Corp. năm 2017, quyền của web scraper trong việc truy cập dữ liệu LinkedIn công khai theo CFAA đã được xác nhận, và nhiều người diễn giải điều này như một quyền tích cực để scrape dữ liệu công khai
  • Hiện nay, cách chính để ngăn web scraping là thông qua các cáo buộc vi phạm hợp đồng. Điều này cho phép các công ty khẳng định quyền sở hữu đối với việc sử dụng và truy cập dữ liệu thông qua luật hợp đồng
  • Sự chuyển dịch từ luật tài sản sang luật hợp đồng cho phép chủ sở hữu website định nghĩa quyền đối với dữ liệu trực tuyến thông qua điều khoản sử dụng trực tuyến
  • Bài viết nhấn mạnh sự đạo đức giả của các công ty như Microsoft. Gần đây họ đã cập nhật điều khoản sử dụng để cấm scraping các dịch vụ AI, nhưng công ty liên kết của họ là OpenAI lại tung ra sản phẩm được thiết kế để scrape toàn bộ Internet
  • Tác giả chỉ trích việc tòa án cho phép các công ty tư nhân tạo ra quyền sở hữu trí tuệ thông qua các hợp đồng áp đặt, và cho rằng những quyết định như vậy lẽ ra phải là vấn đề thuộc về lợi ích công
  • Bài viết cho rằng khuôn khổ pháp lý hiện tại về web scraping sẽ bị thử thách bởi các trường hợp generative AI, đồng thời dự đoán rằng tính nhất quán của pháp luật sẽ không thể được duy trì và sẽ có những diễn biến pháp lý quan trọng trong vài năm tới

1 bình luận

 
GN⁺ 2023-08-26
Ý kiến trên Hacker News
  • Gần đây, cuộc cạnh tranh về AI và LLM đang làm gia tăng lo ngại về web scraping, khi các nhân vật và công ty công nghệ lớn tăng cường phòng vệ trước những mối đe dọa mà họ nhận thức được.
  • Để xoa dịu nỗi sợ xoay quanh việc scraping dữ liệu, cần có một cách diễn giải mới về bản quyền đối với các ứng dụng AI thương mại.
  • Vụ hiQ kiện LinkedIn thường được trích dẫn trong các cuộc thảo luận về web scraping, nhưng chi tiết của vụ việc khá phức tạp và thường bị bỏ qua.
  • Sự đạo đức giả bị cho là có ở các công ty vừa đi scraping dữ liệu vừa cấm người khác scraping dữ liệu của mình có thể được hiểu là chiến lược cạnh tranh, chứ không phải mâu thuẫn.
  • Sự chuyển dịch từ luật tài sản sang luật hợp đồng đã cho phép chủ sở hữu website tự định nghĩa quyền của mình, dẫn đến sự lan rộng của các “hợp đồng” một chiều từ các tập đoàn lớn.
  • Một trường hợp gần đây trong đó Microsoft cấm scraping nhưng lại tung ra sản phẩm được thiết kế để scraping Internet đã bị chỉ ra như một ví dụ về sự đạo đức giả của doanh nghiệp.
  • Web scraping được xem là vấn đề của mô hình kinh doanh, đặc biệt vì quy mô của nó, và các nhà cung cấp nội dung miễn phí phụ thuộc vào doanh thu quảng cáo đang bị đe dọa bởi hoạt động scraping né tránh quảng cáo.
  • Quyền sở hữu đối với nội dung do người dùng tạo ra trên các nền tảng như Facebook là vấn đề phức tạp; người dùng vẫn giữ quyền sở hữu trong khi trao cho nền tảng quyền sử dụng rất rộng.
  • Các rào cản pháp lý đối với web scraping nhìn chung bị xem là có hại, nhưng cũng có những cá nhân từng chịu tác động tiêu cực từ scraping, chẳng hạn như email spam.