- Đã có báo cáo về một số công ty ứng tuyển vào Y Combinator (YC) tự động thu thập dữ liệu hoạt động của người dùng GitHub để gửi email marketing
- Người đăng bài chỉ ra vấn đề nhận email không có sự đồng ý trước dựa trên hoạt động commit và repository trên hồ sơ GitHub
- Những email này được cho là đã được gửi với mục đích quảng bá sản phẩm hoặc thúc đẩy người dùng đăng ký dịch vụ
- Trong cộng đồng, đã xuất hiện chỉ trích về quyền riêng tư và các thực hành marketing có đạo đức
- Đây được xem là dịp để thảo luận lại về ranh giới giữa việc sử dụng dữ liệu và sự đồng ý của người dùng trong hệ sinh thái startup
Thu thập dữ liệu hoạt động GitHub và gửi email
- Có báo cáo rằng một số startup thuộc YC đã scrape dữ liệu hoạt động công khai của người dùng GitHub để lấy địa chỉ email
- Người đăng bài cho biết sau khi có hoạt động trên GitHub, họ đã nhận được email quảng bá từ một công ty YC cụ thể
- Nội dung email chủ yếu xoay quanh giới thiệu sản phẩm và khuyến khích sử dụng
- Hành vi này bị chỉ ra là có vấn đề vì sử dụng dữ liệu được thu thập mà không có sự đồng ý của người dùng
Phản ứng cộng đồng và tranh luận đạo đức
- Người dùng Hacker News đã phản ứng chỉ trích, coi việc gửi email không có sự đồng ý là hành vi spam
- Một số người cho rằng ngay cả khi là dữ liệu công khai, việc tự động thu thập cho mục đích marketing cũng là không phù hợp
- Cuộc thảo luận đã mở rộng thành vấn đề cân bằng giữa chiến lược tăng trưởng của startup và bảo vệ quyền riêng tư
- Đặc biệt, do đây là các công ty YC nên cũng có ý kiến cho rằng kỳ vọng về tiêu chuẩn đạo đức ở họ cao hơn
Vấn đề sử dụng dữ liệu và sự đồng ý của người dùng
- Dữ liệu công khai trên GitHub có thể được truy cập, nhưng cộng đồng nhấn mạnh nhận thức rằng khi sử dụng cho mục đích thương mại thì cần có sự đồng ý rõ ràng
- Cộng đồng chỉ ra rằng cần có chính sách sử dụng dữ liệu minh bạch để duy trì niềm tin trong hệ sinh thái nhà phát triển
- Vụ việc này được đánh giá là một trường hợp cảnh tỉnh về các thực hành tự động hóa marketing của startup
1 bình luận
Ý kiến trên Hacker News
Tôi là Martin từ GitHub. Hành vi scrape dữ liệu kiểu này rõ ràng là vi phạm điều khoản dịch vụ của GitHub
Khi phát hiện, chúng tôi sẽ thực hiện các biện pháp như đình chỉ tài khoản. Nhưng đây là vấn đề cứ lặp đi lặp lại như trò đập chuột chũi
Do cấu trúc của Git, việc cào dữ liệu từ các kho mã nguồn mở về mặt kỹ thuật không khó. Vì commit có chứa tên và email
Chúng tôi cung cấp tính năng địa chỉ
no-replyđể người dùng dùng địa chỉ email ẩn danh khi commitCách thiết lập chi tiết có trong tài liệu chính thức
Giữ được tính mở của mã nguồn mở mà vẫn ngăn được spam là một bài toán cân bằng khó. Có giới hạn API, nhưng cũng có nhiều phàn nàn. Tôi muốn nghe ý kiến từ cộng đồng
Tôi đã báo cáo kẻ spam vào tháng 7/2025 nhưng không nhận được phản hồi, và tài khoản đó vẫn đang hoạt động
Tôi công khai email của mình vì kỳ vọng điều khoản sẽ được thực thi. Nếu GitHub bỏ mặc kẻ spam thì rất khó tiếp tục để thông tin liên hệ công khai
Tôi đã tổng hợp trường hợp một công ty YC gửi spam tới email GitHub của tôi trong blog của tôi
Đa số người dùng không quá để ý đến quyền riêng tư, nên lớp bảo vệ như vậy sẽ rất hữu ích
Vì thế giờ tôi không còn gắn sao cho bất kỳ kho nào nữa
Tôi cũng nhận được email đó
Đó là mail từ đội RunanywhereAI, giới thiệu SDK LLM on-device
Sau khi thực sự nói chuyện với đội ngũ, tôi thấy họ tiếp nhận phản hồi nghiêm túc và cũng cải thiện Flutter SDK rất nhanh
Chỉ trong một tuần họ còn bổ sung cả triển khai RAG. Có lẽ thay vì chỉ trích công khai thì cũng nên thử dùng trực tiếp
Tôi biết YC đã đầu tư vào Flock, nhưng tôi muốn biết chính xác “vấn đề đạo đức của YC” là gì
Tôi đã làm marketing nhắm tới nhà phát triển trong thời gian dài, và gửi spam đến email GitHub là một trong những cách marketing tệ nhất
Gửi cold email cho nhà phát triển gần như không hiệu quả, lại còn làm tổn hại niềm tin vào thương hiệu
Điều đó hoàn toàn khác với spam tự động đơn thuần
Có lý do YC hỏi trong đơn ứng tuyển rằng bạn đã từng “hack hệ thống để trục lợi” hay chưa
Vì họ ưu ái những nhà sáng lập biết tận dụng vùng xám pháp lý
Airbnb lớn lên bằng cách vi phạm điều khoản của Craigslist, Reddit thì lấy nội dung của Digg, còn OpenAI thì huấn luyện mô hình bằng tài liệu có bản quyền
Tôi cũng nhận được email spam không mong muốn từ Vincent Jiang của công ty YC Aden
Nội dung là mời tham gia cộng đồng phát triển AI agent
Tôi đã đánh dấu thư đầu tiên là spam mà họ vẫn gửi lại, bảo là “xác nhận lần cuối”
Tôi sẽ không bao giờ dùng những công ty kiểu này nữa
Khi trả lời thì chỉ nhận được phản hồi tự động
Hôm nay tôi lại nhận được spam qua email GitHub từ công ty liên quan YC là Cactus Compute
Họ giới thiệu engine mô hình giọng nói on-device và gửi kèm liên kết tới kho GitHub cactus-compute/cactus
Vấn đề này đã được bàn nhiều lần từ trước
Cùng một cuộc thảo luận đã xuất hiện 11 năm trước, 7 năm trước, 5 năm trước, và 4 năm trước
Đây là một vấn đề mãn tính cứ lặp lại
Ngay lúc đang đọc thread này tôi cũng nhận được email spam từ một scraper GitHub
Người gửi là james@techglobal.website, và nội dung giả làm một lời mời hợp tác kỹ sư tại Mỹ
Theo kinh nghiệm của tôi, kiểu này rất có thể là một nỗ lực lừa đảo từ Triều Tiên
Xin lưu ý là loại email quảng cáo không được phép này là bất hợp pháp ở châu Âu
Không thể viện cớ “không biết được”. Vì trong nhiều trường hợp, thông tin vị trí đã được ghi rõ trên hồ sơ GitHub
Một startup bắt đầu bằng hành vi bất hợp pháp thì về độ tin cậy cũng đã bị trừ điểm ngay từ đầu