Web scraping cho tôi, nhưng không phải cho bạn

(blog.ericgoldman.org)

1 điểm bởi GN⁺ 2023-08-26 | 1 bình luận | Chia sẻ qua WhatsApp

Khi dữ liệu web công khai trở thành tài nguyên cốt lõi trong AI tạo sinh và cạnh tranh giữa các nền tảng, câu hỏi ai được phép lấy dữ liệu ngày càng trở thành vấn đề về pháp luật, hợp đồng và quyền lực thị trường
Dữ liệu mà các nền tảng như LinkedIn và Facebook muốn bảo vệ phần lớn là nội dung do người dùng tạo ra, nên thuộc khu vực mà bản thân nền tảng khó trực tiếp khẳng định quyền tài sản
Các công cụ pháp lý để ngăn scraping đã dịch chuyển từ xâm phạm động sản thời kỳ đầu và CFAA trong thập niên 2000 sang trọng tâm là khiếu kiện vi phạm hợp đồng sau vụ hiQ Labs v. LinkedIn
Các tranh chấp gần đây như vụ Twitter/X kiện Bright Data được thu hẹp theo hướng dựa vào điều khoản sử dụng để cáo buộc vi phạm hợp đồng, can thiệp hợp đồng và làm giàu bất chính
Doanh nghiệp có thể chặn dữ liệu trên chính website của mình với lý do “proprietary” nhưng lại muốn lấy dữ liệu công khai của người khác, và các vụ việc về dữ liệu huấn luyện AI tạo sinh sẽ là phép thử tiếp theo cho mâu thuẫn này

Scraping là vấn đề truy cập dữ liệu

Web scraping là cách thu thập tri thức công khai trên Internet ở quy mô lớn, và điểm mấu chốt là ai có thể truy cập, sử dụng dữ liệu đó và với mục đích gì
Một phần dữ liệu trên Internet có thể được bảo vệ bởi bản quyền, nhãn hiệu và các quyền sở hữu trí tuệ khác, nhưng với nhiều loại dữ liệu, bên muốn bảo vệ không dễ dàng viện dẫn quyền sở hữu trí tuệ
Các công ty mạng xã hội từ lâu đã tích cực khởi kiện liên quan đến scraping, nhưng nội dung mà LinkedIn và Facebook muốn bảo vệ phần lớn là nội dung do người dùng tạo ra
- Điều khoản sử dụng cấp cho nền tảng giấy phép dùng nội dung của người dùng, nhưng thông thường lợi ích bản quyền vẫn thuộc về người dùng
- Nền tảng phủ nhận quyền sở hữu đối với dữ liệu đó trong điều khoản, nhưng trên thực tế lại đối xử với nó như tài sản của mình

Sự dịch chuyển của các công cụ pháp lý dùng để ngăn scraping

Trong giai đoạn đầu của Internet, học thuyết xâm phạm động sản từng được dùng để ngăn scraping
- Lập luận là các yêu cầu dữ liệu số lượng lớn không mong muốn đã xâm phạm máy chủ máy tính, vốn là tài sản hữu hình thuộc sở hữu tư nhân
- Cần chứng minh yếu tố thiệt hại, và vào cuối thập niên 1990 đến đầu thập niên 2000, những scraper còn thô sơ đôi khi thực sự gây tải lớn hoặc làm gián đoạn website
Khi môi trường kỹ thuật thay đổi, sức thuyết phục của học thuyết này suy yếu
- Năng lực máy chủ tăng mạnh
- Nhiều scraper giới hạn lượng yêu cầu để khó bị máy chủ phát hiện hoặc chỉ gây tác động rất nhỏ
- Việc chứng minh thiệt hại thực tế đối với máy chủ hay tài sản hữu hình trở nên hiếm hơn
Từ đầu những năm 2000 đến 2017, Computer Fraud and Abuse Act (CFAA) là công cụ răn đe chủ yếu
- CFAA cấm truy cập trái phép vào “máy tính được bảo vệ”
- Trong các vụ scraping, trọng tâm là liệu việc truy cập sau khi bị rút quyền thông qua thư yêu cầu chấm dứt hoặc biện pháp chống bot có còn là “trái phép” hay không

Kết quả phức tạp của hiQ Labs v. LinkedIn

Từ 2001 đến 2017, cách hiểu đơn giản phổ biến là nếu tiếp tục truy cập sau khi bị rút quyền thì sẽ phát sinh trách nhiệm theo CFAA
Vụ hiQ Labs, Inc. v. LinkedIn Corp. năm 2017 được chú ý vì theo hướng công nhận quyền của bên scraper là hiQ Labs trong việc truy cập dữ liệu LinkedIn công khai
- Ninth Circuit cho rằng nếu một công ty như LinkedIn có thể tùy ý quyết định ai được thu thập và sử dụng dữ liệu mà họ không sở hữu, đã công khai cung cấp, và bản thân cũng tự thu thập, sử dụng, thì sẽ có nguy cơ hình thành độc quyền thông tin
Nhưng kết quả này gần như là một chiến thắng kiểu Pyrrhus
- Sau đó, tòa án cấp quận nhận định rằng “User Agreement của LinkedIn cấm rõ ràng việc scraping và việc sử dụng trái phép dữ liệu đã bị scraping”
- Dựa vào đó, LinkedIn đã giành được lệnh cấm vĩnh viễn và bồi thường thiệt hại đối với hiQ Labs
Từ đó về sau, công cụ chính để chặn scraping không còn là CFAA mà là yêu cầu bồi thường do vi phạm hợp đồng

Luật hợp đồng vận hành như quyền tài sản đối với dữ liệu trên thực tế

Gần đây, Twitter/X Corp. đã khởi kiện nhiều bên scraper, trong đó có Bright Data
- Bright Data được xem là một trong những công ty web scraping lớn nhất thế giới
- Các yêu cầu mà Twitter đưa ra đối với Bright Data gồm 3 nhóm: vi phạm hợp đồng, can thiệp hợp đồng và làm giàu bất chính
Trong các vụ kiện scraping cách đây 10 năm, nguyên đơn thường nêu ra 10 đến 15 yêu cầu pháp lý để thử nhiều học thuyết khác nhau, nhưng gần đây niềm tin rằng tòa án sẽ thực thi yêu cầu vi phạm hợp đồng đã tăng lên
Trong cấu trúc này, thông qua điều khoản sử dụng trực tuyến, website lưu trữ có thể tự định nghĩa quyền của mình đối với dữ liệu theo cách họ mong muốn
Bài viết Terms of Use của Mark Lemley trên Minnesota Law Review năm 2006 cho rằng khi chuyển từ luật tài sản sang luật hợp đồng, phạm vi quyền của chủ sở hữu website không còn do pháp luật quyết định mà do chính chủ website quyết định
Tòa án đã cho phép hình thành một cơ chế trong đó hợp đồng trực tuyến vận hành như một dạng quyền sở hữu trí tuệ tạm thời đối với dữ liệu trên website, thay vì áp dụng các quy tắc chung về sử dụng dữ liệu hoặc các quy tắc sở hữu trí tuệ hiện có
- Tuy vậy, nếu cấu trúc nó hoàn toàn giống với bảo hộ bản quyền thì có thể nảy sinh vấn đề

Thái độ hai mặt của doanh nghiệp đối với scraping

Hệ thống pháp lý dùng vi phạm hợp đồng như quyền tài sản không đòi hỏi tính nhất quán
- Doanh nghiệp có thể mạnh mẽ khẳng định trên website của mình cái gì là “proprietary”
- Đồng thời lại có thể lập luận ở website khác rằng dữ liệu nào có thể tự do lấy về
Microsoft gần đây đã cập nhật điều khoản sử dụng chung để cấm scraping, harvesting và các phương thức trích xuất tương tự đối với dịch vụ AI
Cùng thời điểm đó, công ty liên kết của Microsoft là OpenAI lại công bố GPTbot được thiết kế để scrape Internet
Điều khoản sử dụng của OpenAI cũng cấm scraping
Công ty con LinkedIn của Microsoft đã tuyên bố chiến thắng trong một trong những vụ kiện web scraping được chú ý nhất tại Mỹ, và giành được lệnh cấm vĩnh viễn ngăn một đối thủ cũ scrape hoặc truy cập dữ liệu công khai lẫn không công khai
Meta cũng đã khởi kiện một công ty bán nội dung công khai được scrape, nhưng trước đây từng có trường hợp họ trả tiền cho chính dạng scraper đó để lấy dữ liệu công khai

Tòa án và phép thử tiếp theo

Những thái độ hai mặt này không chỉ là vấn đề của doanh nghiệp; cũng có phê phán rằng chúng tồn tại được vì tòa án đã cho phép một cấu trúc như vậy
Các đối tượng bị chỉ trích bao gồm Register.com v. Verio, Inc., Tòa án Quận Bắc Texas đã tạo điều kiện cho vụ kiện liên quan đến Southwest Airlines, và tòa án trong vụ hiQ Labs đã không giải thích sự bất nhất giữa lệnh sơ bộ theo CFAA và lệnh cấm vĩnh viễn dựa trên vi phạm hợp đồng
Nếu cho phép doanh nghiệp tư nhân “phát minh” ra quyền sở hữu trí tuệ thông qua các hợp đồng gia nhập trực tuyến, thì việc xác định quyền truy cập dữ liệu — đáng ra phải là vấn đề lợi ích công — có thể bị chi phối bởi những người ra quyết định tư nhân
Vì hợp đồng, bao gồm cả hợp đồng trực tuyến, là vấn đề của luật bang nên khó hình dung một giải pháp đơn giản
Một hướng giải quyết có thể là diễn giải rộng hơn nguyên tắc ưu tiên của luật bản quyền, nhưng hiện học thuyết ưu tiên bản quyền đang rối rắm do chia rẽ giữa các tòa phúc thẩm liên bang, và Supreme Court gần đây đã từ chối cơ hội giải quyết vấn đề này
Bất kể tình trạng pháp lý hiện tại ra sao, phép thử tiếp theo sẽ là các vụ việc về dữ liệu huấn luyện AI tạo sinh, và những bất nhất pháp lý trong lĩnh vực này nhiều khả năng sẽ tiếp tục gây tranh cãi

1 bình luận

GN⁺ 2023-08-26

Các ý kiến trên Hacker News

Tôi hơi rối không biết vụ HiQ kiện LinkedIn đang dừng ở đâu. Theo tôi biết thì LinkedIn đã kiện HiQ, Tòa Phúc thẩm Khu vực 9 đứng về phía HiQ, LinkedIn đưa vụ việc lên Tòa Tối cao nhưng Tòa Tối cao viện dẫn Van Buren để hủy và trả hồ sơ, rồi Tòa Phúc thẩm Khu vực 9 xem xét lại và vẫn đi đến cùng kết luận
Sau đó LinkedIn đã xin được lệnh hủy bỏ biện pháp khẩn cấp tạm thời cấm chặn HiQ, và đến tháng 11/2022 thì có vẻ sau một phán quyết lẫn lộn, cuối cùng vụ việc kết thúc bằng một thỏa thuận không công khai. Mọi người thường viện dẫn vụ này, nhưng hiếm khi đi vào chi tiết
Đọc tóm tắt phán quyết tháng 11/2022 thì có vẻ vấn đề nằm ở việc HiQ khiến mọi người đăng nhập nên điều khoản sử dụng được áp dụng, và rốt cuộc tòa dường như đã chấp nhận lập luận của LinkedIn rằng HiQ đã vi phạm điều khoản sử dụng của LinkedIn
https://www.natlawreview.com/article/court-finds-hiq-breache...
- Đọc lại thì có vẻ nên tóm tắt diễn biến như thế này. hiQ đã yêu cầu Tòa án Liên bang Quận Bắc California ban hành lệnh cấm đối với LinkedIn và thắng ở yêu cầu theo CFAA; LinkedIn kháng cáo lên Tòa Phúc thẩm Khu vực 9 nhưng hiQ cũng thắng ở đó về vấn đề CFAA
  Yêu cầu chống độc quyền của hiQ thua ở giai đoạn đề nghị bác đơn, và đâu đó trong khoảng thời gian đó hiQ đã đóng cửa, nhưng một nhà tài trợ nhiều tiền vẫn tiếp tục trả chi phí kiện tụng. LinkedIn tiếp tục theo đuổi các yêu cầu khác như vi phạm hợp đồng và thắng ở giai đoạn đề nghị bác đơn; sau vụ Van Buren, Tòa Tối cao trả vụ án về Tòa Phúc thẩm Khu vực 9, và Tòa Phúc thẩm Khu vực 9 lại đứng về phía hiQ trong vấn đề CFAA
  Sau đó lệnh cấm tạm thời bị hủy, hiQ gần như thua toàn diện ở phán quyết rút gọn, rồi cuối cùng giương cờ trắng, đồng ý với một lệnh cấm vĩnh viễn chấp nhận phần lớn yêu cầu của LinkedIn và trả cho LinkedIn 500.000 USD
- Thay vì nói là phán quyết lẫn lộn vào tháng 11/2022, đúng hơn đó là thất bại nặng nề của hiQ Labs. Chỉ cần đọc lệnh cấm vĩnh viễn mà tòa ban hành là thấy
- Tôi không hiểu cái gọi là tiền lệ pháp lý của một phán quyết lẫn lộn là gì. Tôi cũng không biết là có thể có chuyện như vậy
Khi các “hợp đồng” dạng điều khoản ngày càng nhiều, và trong xã hội hiện đại gần như không thể sống mà không đồng ý với chúng, vấn đề này đang tệ hơn từng ngày. Đến mức mua một chiếc SSD mới cũng kèm theo việc đồng ý điều khoản
Luật pháp ngày càng kém quan trọng, còn chúng ta ngày càng bị chi phối bởi những hợp đồng một phía do các tập đoàn khổng lồ đơn phương áp đặt
- Cách diễn đạt hay. Tôi nghĩ có hai cách nhìn về một trang web. Một là xem trang web như biển quảng cáo, và cách kia là xem trang web như tờ rơi
  Nếu là biển quảng cáo, thì việc tôi sơn đè lên những phần mình không thích, tức dùng trình chặn quảng cáo, là sai về mặt đạo đức. Bên sở hữu trang web muốn có quyền kiểm soát nên họ thích góc nhìn này, và những bên không thể thay đổi diện mạo trang web, như người dùng thông thường, nhìn chung cũng chấp nhận như vậy
  Nếu là tờ rơi, tôi có quyền tự do cắt xén và sắp xếp lại tùy ý. Về mặt kỹ thuật, cách nhìn này đúng hơn. Một trang web chỉ là vài bit thông tin được gửi cho tôi, và chừng nào tôi kiểm soát máy tính của mình, tôi có thể cắt xén các bit đó và xem theo cách mình muốn
  Có thể nói Amazon.com chứa trang web của Amazon và Amazon sở hữu trang đó. Nhưng tôi luôn xem Amazon.com chỉ trên thiết bị của tôi hoặc thiết bị của người khác, không thuộc sở hữu của Amazon. Amazon.com không tồn tại trên một biển quảng cáo; nó cần các thiết bị điện tử thuộc sở hữu của người khác. Vậy chủ sở hữu các thiết bị điện tử đó có những quyền gì? Từ lúc nào các pixel trên màn hình của tôi trở thành không gian được bảo vệ của bạn?
- Điều vô lý nhất là các loại hợp đồng này cũng xuất hiện trong thế giới vật lý. Thực tế có những cửa hàng dán biển nói rằng nếu bước vào cửa hàng thì được coi là đã chấp nhận các điều khoản hợp đồng
  Muốn đọc hợp đồng thì quét mã QR bằng điện thoại. Tôi cũng từng thấy điều tương tự ở công viên: kiểu như nếu vào công viên thì bị ràng buộc bởi một thỏa thuận pháp lý rằng bạn sẽ không kiện công viên hoặc sẽ tuân theo các quy tắc được niêm yết
- Để đối phó với chuyện này, phía khách hàng cũng cần có hợp đồng dạng điều khoản của riêng mình. Nội dung chỉ cần là nếu công ty chấp nhận tôi làm khách hàng thì hợp đồng riêng của công ty vô hiệu
  Khách hàng có thể trả tiền hằng tháng cho một tổ chức như hiệp hội khách hàng hoặc bảo hiểm, với đội ngũ pháp lý đứng sau. Hợp đồng này cũng sẽ có khả năng được thực thi hoặc không được thực thi tương tự hợp đồng của công ty, nên cán cân sẽ được cân bằng. Khi đó không cần đọc công ty đã viết gì trong phần chữ nhỏ nữa
  Nếu công ty không chấp nhận hợp đồng của khách hàng hoặc không cho phép bỏ qua điều khoản của họ, thì cứ rời đi. Giao dịch không thành, và công ty khác sẽ giành được khách hàng
- Luật hợp đồng hiện đại liên tục xâm phạm quyền sở hữu tư nhân. Các điều khoản trọng tài bắt buộc còn làm chuyện đó tệ hơn
Cảm giác giống đạo đức giả phần nào biến mất nếu nhìn việc này như một cuộc cạnh tranh chứ không phải sự hợp tác hay một cộng đồng bình đẳng. Thực tế nó cũng là cạnh tranh. Ta sẽ không nói với một đội bóng rằng: “Anh định ghi bàn vào lưới tôi thì được, nhưng khi tôi định ghi bàn thì anh lại bất ngờ chặn bóng à?”
Dĩ nhiên họ sẽ vừa nói “web scraping tốn tài nguyên nên hãy dừng lại”, vừa tiếp tục web scraping ở phía sau
Rõ ràng đó là hành vi xấu, nhưng tôi không nghĩ là đạo đức giả. Vì nó hoàn toàn khớp với hình ảnh các công ty vô đạo đức, không ngừng đấu đá, cố tối đa hóa lợi ích của mình và tối thiểu hóa lợi ích của người khác
- So sánh thú vị, nhưng tôi không chắc đó có phải khung nhìn đúng không. Làm cho scraping khó hơn về mặt kỹ thuật tương ứng với nỗ lực ghi bàn, nên dù không tốt lắm cho toàn thế giới, có thể nó không phải đạo đức giả
  Nhưng việc cố ngăn một hành vi cụ thể bằng biện pháp pháp lý thì giống với chuyện bản thân vẫn chơi cùng kiểu đó, trong khi yêu cầu trọng tài cấm một loại lối chơi nhất định hơn. Trong thể thao chuyện này cũng thường xảy ra, nhưng nhìn chung bị xem là đạo đức giả
- Câu “web scraping tốn tài nguyên nên hãy dừng lại” là một chi phí phải dự liệu khi đăng thứ gì đó lên Internet công khai. Người ta sẽ truy cập nó. Bạn không có quyền phàn nàn rằng người ta truy cập thứ bạn đã đưa lên để công chúng xem
  Tất nhiên scraper cũng có thể gây khó chịu. Chúng có thể lười biếng gõ máy chủ liên tục không ngừng, hoặc do lỗi mà tải đi tải lại cùng một nội dung. Nhưng không cần kiện tụng vì chuyện đó. Nếu đã đến mức tấn công từ chối dịch vụ thì luật hiện hành cũng đã xử lý được
  Nếu một số công ty khiến mọi người tệ hơn và chỉ làm giàu cho riêng họ, thì nên nghĩ lại xem có nên tiếp tục trao cho những công ty đó đặc quyền tư cách pháp nhân hay không. Chúng ta không cần cho phép những kẻ ký sinh và cướp bóc lấy thứ chúng muốn bằng chi phí của chúng ta
- Đạo đức giả không chỉ tồn tại khi một người thiện chí tin vào lý tưởng mình nói ra nhưng thực tế không làm theo được. Dù dùng ví dụ đội bóng để làm mờ vấn đề, sự thật vẫn không đổi: họ áp đặt tiêu chuẩn lên người khác nhưng không áp dụng cùng tiêu chuẩn đó cho bản thân
  Ngay cả khi họ làm vậy một cách vô đạo đức và ác ý, đó vẫn là đạo đức giả. Thậm chí càng như vậy lại càng đúng. Điều quan trọng là họ nêu ra chính sách gì; việc họ không thật lòng tin vào nó không phải là lý do miễn trừ
- Vấn đề của lập luận “công ty vô đạo đức thì vốn là vậy” là lý do xã hội cho phép công ty tồn tại dựa trên giả định rằng chúng mang lại lợi ích ròng cho toàn xã hội. Khi giả định đó biến mất, thì cũng không còn lý do để xã hội không xem công ty là một ác mộng kiểu Lovecraft đói khát và tiêu diệt chúng bằng lửa cùng tàu hơi nước
- Trong bóng đá, luật đã được điều chỉnh rất nhiều để tạo ra trận đấu công bằng. Có lẽ trong luật công ty cũng cần thêm những điều chỉnh như vậy
Tôi không hiểu tại sao điều này cho thấy sự đạo đức giả. Có khác biệt lớn giữa việc crawl web có thể truy cập công khai và việc scrape một ứng dụng web hay API đã xác thực. Các công cụ tìm kiếm hợp pháp luôn crawl web công khai
- Đạo đức giả nằm ở đây. OpenAI và những công ty tương tự đã scrape web công khai để huấn luyện và tạo mô hình, rồi bán gói thuê bao bằng mô hình đó để kiếm tiền, nhưng những người sáng tạo ra dữ liệu huấn luyện thì không nhận lại gì
  Vậy mà họ lại cấm người khác làm điều mà chính họ đã làm
  So với công cụ tìm kiếm thì khác. Công cụ tìm kiếm quét web công khai để tạo chỉ mục tìm kiếm, rồi dùng chỉ mục đó để cung cấp kết quả tìm kiếm và quảng cáo. Điểm quan trọng là kết quả tìm kiếm nhìn chung đưa người dùng đến các website đã bị quét, cho các site đó cơ hội kiếm tiền
- Microsoft đúng là đã đầu tư vào OpenAI, nhưng không kiểm soát OpenAI
Tôi thấy có hai vấn đề. Web scraping rõ ràng là vấn đề về mô hình kinh doanh, và một phần của nó là do quy mô
Nếu bạn cung cấp nội dung miễn phí và cố duy trì bằng quảng cáo, thì khoảnh khắc người khác lấy giá trị của nội dung mà không xem quảng cáo, mô hình đó bắt đầu sụp đổ. Ví dụ là trình chặn quảng cáo, câu trả lời trong kết quả tìm kiếm Google, các bản clone của Stack Overflow, những thứ như ChatGPT
Vấn đề còn lại là quy mô, và tôi không biết phải giải quyết thế nào. Khi chính phủ đưa ra chính sách thân thiện cho phép dùng xẻng trong công viên, họ có thể nghĩ điều đó hữu ích cho những người như dân cắm trại. Nhưng nếu một đội khai thác lộ thiên chuyên nghiệp xuất hiện thì câu chuyện lại khác
Với một website cung cấp thông tin hay miễn phí và kiếm tiền bằng bán sách hoặc dịch vụ chuyên môn, đó có thể là một kế sinh nhai ổn. Dù câu trả lời lọt vào hộp trả lời của Google, những nội dung hay phân tích phức tạp hơn vẫn cần người ta ghé đọc, và từ đó có thể có người theo dõi
Nhưng nếu một thứ như ChatGPT có thể “đọc” bài của tôi rồi chia sẻ 80% giá trị mà không ai biết nguồn, thì coi như xong. Mô hình kinh doanh không còn hoạt động nữa. Mọi mô hình chia sẻ thông tin hay miễn phí đều thất bại. Giống vấn đề các nghệ sĩ đang trải qua hiện nay
Tôi không biết cách sửa nếu không có một lệnh cấm nào đó. Nhưng chừng nào không phải mọi quốc gia đều thực thi điều này, ta sẽ phải chạy theo mẫu số chung thấp nhất, và cuối cùng phải khóa mọi nội dung lại. Không tìm kiếm web, không câu trả lời Google, không ChatGPT. Dù viết “xin đừng scrape” trong robots.txt cũng sẽ không hiệu quả
- Điều thú vị là về bản chất, chuyện này gần như giống hệt cuộc tranh luận truyền thống về bản quyền. Khác biệt chỉ là các tác giả sách thường không phát sách miễn phí trên website cá nhân của họ
  Bản quyền là nỗ lực bảo vệ mô hình kinh doanh của tác giả muốn bán thứ rất dễ và rẻ để sao chép. Nỗ lực hạn chế web scraping bằng pháp luật là nỗ lực bảo vệ mô hình kinh doanh của người sáng tạo: cho miễn phí thứ dễ và rẻ để sao chép, nhưng buộc người ta phải trực tiếp đến với người sáng tạo để nhận bản sao miễn phí
- Đúng vậy. Vì thế scraping phải không bị giới hạn và hợp pháp với tất cả mọi người. Mọi thông tin có thể truy cập trên Internet cũng phải hợp pháp để xử lý
  Do đó chúng ta cũng phải có thể dùng dịch vụ GPT để huấn luyện mô hình riêng, hoặc scrape bất cứ thứ gì có thể truy cập công khai. Phòng tuyến duy nhất của chúng ta là các dịch vụ cạnh tranh xử lý dữ liệu tốt hơn bất kỳ mô hình ngôn ngữ lớn đa dụng nào. Giải pháp gần như luôn là cạnh tranh công bằng, không phải quản lý bằng quy định
- Tôi không nghĩ tường phí sẽ giải quyết được chuyện này. Với scraper, một tài khoản trả phí là đủ. Nếu chỉ “đọc” ngay khi bài mới xuất hiện thì giới hạn tốc độ trên thực tế cũng khó áp dụng
  Sau khi lấy được dữ liệu, họ có thể phân phối lại. Nếu đăng nguyên văn là vi phạm bản quyền, thì chỉ cần nấp sau AI để làm mờ đi là đủ để lách qua
Nếu thư viện cho mượn miễn phí và chỉ mục tìm kiếm web chưa từng tồn tại, rồi hôm nay mới định tạo ra chúng, thì chắc đã bị kiện cho tan nát hoàn toàn
Cơ sở chính mà những vụ việc kiểu này dựa vào là cách hiểu mơ hồ về thỏa thuận hợp đồng. Tôi có hai suy nghĩ. EULA không phải là văn bản mà các công ty soạn ra để ký, và ngay từ đầu tôi đã xem EULA là rác
Nó hoàn toàn một chiều, và phần lớn có lẽ là bất hợp pháp hoặc sẽ không đứng vững trước tòa nếu thật sự có ai đó có đủ nguồn lực để đấu
Tôi cho rằng trách nhiệm bảo đảm người dùng đã đọc và hiểu EULA phải thuộc về công ty tạo ra nó; nếu không chứng minh được rằng người đó đã hiểu toàn bộ EULA trước khi truy cập trang, thì không nên được phép cưỡng chế thi hành. EULA không phải là hợp đồng kinh doanh. Nó là một dạng giả-luật kiểu doanh nghiệp mà công ty muốn gắn vào việc sử dụng sản phẩm
Có sản phẩm nào trên đời lại kèm theo một danh sách dài các quy tắc về cách sử dụng như vậy, rồi nói rằng nếu vi phạm thì có thể bị kiện?
Vì vậy khi chuyện này quay về “scraping giữa công ty với công ty”, nếu nội dung đã được đưa lên web và nội dung đó không thật sự có bản quyền, tức không phải do họ trực tiếp tạo ra, thì họ không có quyền bảo vệ nó khỏi việc bị “đánh cắp”
Tất nhiên tôi biết John Deere ngăn khách hàng tự sửa máy kéo của mình, nhưng chuyện đó cũng là nhảm nhí
- Những thỏa thuận trực tuyến kiểu này thường có thể được thực thi, dù các công ty có nhiều nguồn lực để phòng vệ
Vụ Register.com kiện Verio được liên kết khá thú vị. Tôi nghĩ tòa đã đưa ra một phán quyết tinh tế hơn cách người ta thường hiểu về các hợp đồng dạng điều khoản
Trong vụ này, Verio đã gọi API của Register cho một mục đích mà Register cấm. Nhưng Register chỉ cung cấp câu chữ “hợp đồng” nêu hạn chế sau khi lệnh gọi đã kết thúc. Có lẽ nó là một phần của phản hồi API
Tòa thực sự cho rằng như vậy là quá muộn. Nếu cách duy nhất để biết điều kiện gọi API là phải gọi chính API đó, thì đây là hợp đồng shrinkwrap, và các điều kiện là vô hiệu
Tuy nhiên tòa chỉ áp dụng nhận định này cho lần gọi API đầu tiên. Verio có những nhân viên có thể được kỳ vọng là biết suy xét thông thường, và sau lần gọi đầu tiên họ đã có cơ hội đọc câu chữ đó và biết về hạn chế. Vì vậy, với mọi lần gọi API sau đó, nhân viên Verio đã làm điều mà họ biết Register cấm rõ ràng, nên tòa xem đây là vi phạm hợp đồng
Điểm quan trọng là tòa không từ bỏ nguyên tắc rằng để giao kết hợp đồng, cá nhân phải biết các điều khoản hợp đồng. Vụ này thực ra gần với việc bác bỏ tình huống đã biết điều kiện mà vẫn giả vờ không biết
[1] https://en.m.wikipedia.org/wiki/Register.com_v._Verio
Trường hợp Allen Institute được thảo luận tuần trước là một ví dụ hay
https://news.ycombinator.com/item?id=37181415
Họ “công khai” một bộ dữ liệu được tạo bằng cách scrape tài liệu thuộc phạm vi công cộng, rồi gắn kèm một giấy phép hạn chế cách người khác có thể sử dụng nó
Câu “nội dung mà họ đang cố bảo vệ không phải của họ mà là của người dùng” chỉ đúng ở một mức độ nào đó. Facebook nói rằng nội dung thuộc về người dùng. Như vậy họ dễ giải thích rằng mình không chịu trách nhiệm khi có nội dung bất hợp pháp
Nhưng người dùng cũng đồng ý cấp cho Facebook “giấy phép không độc quyền, có thể chuyển nhượng, có thể cấp phép lại, miễn phí bản quyền, trên toàn thế giới để sử dụng mọi nội dung sở hữu trí tuệ mà bạn đăng trên Facebook hoặc liên quan đến Facebook”
Ví dụ, ngay cả khi người dùng xóa nội dung của mình, Facebook vẫn có thể tiếp tục sử dụng và hiển thị nó cho bạn bè. Vì vậy tôi cho rằng chỉ đúng “ở một mức độ nào đó”
- Điều đó không thay đổi việc nội dung thuộc về ai. Nó chỉ cấp cho Facebook một số quyền. Thực ra, nếu không có các cụm như “vĩnh viễn” hay “không thể hủy ngang”, thì nó không có nghĩa là họ có thể tiếp tục sử dụng sau khi bạn xóa, hoặc bạn không thể rút lại việc cấp quyền
- Giấy phép không phải là quyền sở hữu. Dù sao thì phần đó của bài viết chỉ là giải thích bối cảnh, và những gì được giải thích ở đây không phải là cơ sở pháp lý của vụ kiện hay phán quyết đang được bàn. Đó là phần giải thích vì sao luật tài sản không được sử dụng
- Bạn đã đọc tấm biển được đăng chưa? Nó ghi “Cấm đi bộ trên con đường bên ngoài đất tư của tôi”
- Tôi không nghĩ nói rằng Facebook có thể tiếp tục sử dụng và hiển thị cho bạn bè sau khi người dùng xóa nội dung của mình là đúng. Nếu tôi yêu cầu Facebook xóa dữ liệu của tôi khỏi nền tảng mà trong vòng 1 tháng họ không xóa, Facebook sẽ vi phạm GDPR, và có lẽ cũng vi phạm CCPA cùng các luật tương tự

Web scraping cho tôi, nhưng không phải cho bạn

Scraping là vấn đề truy cập dữ liệu

Sự dịch chuyển của các công cụ pháp lý dùng để ngăn scraping

Kết quả phức tạp của hiQ Labs v. LinkedIn

Luật hợp đồng vận hành như quyền tài sản đối với dữ liệu trên thực tế

Thái độ hai mặt của doanh nghiệp đối với scraping

Tòa án và phép thử tiếp theo

Bài viết liên quan

1 bình luận

Các ý kiến trên Hacker News