22 điểm bởi xguru 2022-04-20 | 11 bình luận | Chia sẻ qua WhatsApp
  • "Việc scrape dữ liệu có thể truy cập công khai là hợp pháp (không vi phạm CFAA)"
  • Trong vụ kiện do LinkedIn đệ trình nhằm cấm công ty phân tích Hiq thực hiện scraping, tòa đã tái khẳng định phán quyết trước đó (LinkedIn đã thua từ năm 2019)
  • Đây là tin tốt cho web archive, giới học thuật, các nhà nghiên cứu và nhà báo
  • Lần này, tòa án Mỹ đã xem xét lại CFAA (Computer Fraud and Abuse Act, Đạo luật Lạm dụng và Gian lận Máy tính) đã tồn tại hàng chục năm
    • Giới hạn hành vi vi phạm này ở những người "giành được quyền truy cập trái phép" vào hệ thống máy tính
    • Khái niệm "không được phép" không áp dụng với các website công khai

11 bình luận

 
devsejong 2022-04-20

Tôi cũng tò mò liệu ở Hàn Quốc web scraping có không gặp vấn đề pháp lý hay không.
Nếu ai có kinh nghiệm, có thể chia sẻ được không?

 
nullvana 2022-04-25

Theo quy định ở nước ta

  1. Thông tin tín dụng cá nhân
    Cái này không phải là "tín dụng" theo nghĩa của "thẻ tín dụng". Các dịch vụ cho phép chính chủ "tra cứu" những dữ liệu có thể dùng để đánh giá uy tín tài chính của cá nhân (số dư, lịch sử giao dịch, v.v.) đều bị cấm. Phải có giấy phép kinh doanh quản lý thông tin tín dụng cá nhân. Nhưng nếu không cho chính chủ tra cứu mà chỉ dùng làm dữ liệu, như khai báo thuế, thì không có vấn đề. Ừm...?

  2. Dù có lấy được thông tin mong muốn trên trang web bằng crawl hay scraping, thì việc vượt qua trang thanh toán, hoặc thu thập thông tin ngoài phạm vi dữ liệu mà trang hiển thị/có chủ đích cung cấp, đều là bất hợp pháp. Dù không hiển thị trên màn hình mà đi qua lại giữa FE/BE bằng JSON, thì việc sử dụng ngoài mục đích dự kiến vẫn là bất hợp pháp. Hình như tôi từng thấy tin có người bị bắt vì lấy miễn phí giấy tờ đăng ký từ Bộ Tư pháp.

Còn vụ 2 thì, vì các công ty tài chính ít tiền (bảo hiểm/thẻ/chứng khoán... tức là ngoài ngân hàng) không đủ nguồn lực nên có nhiều lỗ hổng... nên xét ở góc độ bảo vệ thì tôi còn phần nào hiểu được... nhưng vụ 1 thì thật sự rất ngớ ngẩn. Với 1 thì tôi cũng hiểu ý đồ trong khuôn khổ chủ quyền dữ liệu cá nhân, nhưng cách làm hiện giờ cảm giác như ActiveX 3.0 vậy?

 
devsejong 2022-04-21

Xin cảm ơn tất cả mọi người đã để lại bình luận! Nhờ đó tôi đã nhận được rất nhiều sự giúp đỡ.

 
ninebow 2022-04-21

Tôi xin chia sẻ một liên kết từ bản tin mà tôi đang đăng ký, vì cách đây không lâu họ cũng đã đề cập đến một chủ đề tương tự.

Bên dưới có tổng hợp các trường hợp JobKorea VS Saramin mà bạn rtyuiop đã nhắc tới, cùng với các trường hợp Yeogieottae VS Yanolja, Naver vs Darwin Junggae.
https://stibee.com/api/v1.0/…==

 
xguru 2022-04-21

Ôi, bản tin Pakple News hay thật đấy. Cảm ơn vì đường link~!

 
ninebow 2022-04-21

Tôi luôn theo dõi với lòng biết ơn (_ _)

 
rtyuiop 2022-04-20

Theo tôi biết, ví dụ nổi tiếng nhất là trường hợp Yeogieottae thu thập dữ liệu của Yanolja bằng cách crawling. Theo cách tôi hiểu thì đó vốn là dữ liệu công khai và bản thân việc crawling không có vấn đề, nhưng các điểm chính của vụ việc là (1) thiệt hại mà Yanolja phải gánh do tải máy chủ tăng lên và (2) thiệt hại mà Yanolja có thể chịu vì đây là hai thương hiệu trong cùng ngành. Vụ kiện này vẫn đang tiếp diễn, và vì mỗi bài báo lại diễn giải theo một hướng khác nhau nên có lẽ bạn nên tự đọc thêm nhiều nguồn khác nhau.

 
tingo29 2022-04-20

Trong lĩnh vực tài chính, sau khi MyData bắt đầu được triển khai thì scraping đã bị cấm.

https://news.einfomax.co.kr/news/articleView.html?idxno=4192027

 
tribela 2022-04-20

Tôi từng nói chuyện về vấn đề đó với một luật sư quen biết, và theo tiêu chuẩn lúc đó thì "bản thân việc thu thập thông tin đã được công khai trước mắt không có vấn đề gì, nhưng nếu có bất kỳ cơ chế nào nhằm ngăn chặn việc crawling tồn tại dưới bất kỳ hình thức nào, thì ngay khi bạn cố vượt qua nó để lưu trữ, chuyện đó có thể trở thành vấn đề".
Quả nhiên, trong pháp luật người ta xem xét ý định là gì hơn là khía cạnh kỹ thuật.

 
xguru 2022-04-20

Vì đây là thông tin hồ sơ cá nhân trên LinkedIn nên cũng hơi thấy lấn cấn..
Nhưng có lẽ đúng là cũng khó mà cấm scraping ngay cả với những thông tin được công khai.

Tình hình web scraping năm 2021

 
joone 2022-04-26

Trên LinkedIn cũng có rất nhiều thông tin được công khai. Nhưng LinkedIn lại là một trong những trang khó scrape nhất. Dù vậy, người ta vẫn tìm cách thu thập các trang đó. Đúng là cuộc chiến giữa giáo và khiên.