- GitHub có kế hoạch sử dụng mã và dữ liệu từ kho lưu trữ cá nhân để huấn luyện mô hình AI
- Người dùng phải chủ động từ chối (opt-out) trước ngày 24 tháng 4 thì mới có thể chặn việc sử dụng dữ liệu
- Nếu không từ chối, thông tin dự án riêng tư có thể bị đưa vào dữ liệu huấn luyện
- Chính sách này liên quan đến việc thu thập dữ liệu nhằm cải thiện các tính năng AI như GitHub Copilot
- Lập trình viên cần kiểm tra cài đặt để bảo vệ quyền riêng tư và bảo mật mã nguồn
Thay đổi trong chính sách dữ liệu huấn luyện AI của GitHub
- GitHub đã thay đổi chính sách để có thể đưa dữ liệu từ kho lưu trữ cá nhân vào quá trình huấn luyện nhằm cải thiện mô hình AI
- Nếu người dùng không tự từ chối riêng, dữ liệu sẽ tự động được sử dụng
- Có thể thực hiện việc từ chối trực tiếp trong trang cài đặt của GitHub
- Dữ liệu huấn luyện có thể bao gồm mã riêng tư, metadata của dự án và lịch sử commit
- Biện pháp này được mô tả là nhằm nâng cao chất lượng của Copilot và các tính năng AI khác
Ảnh hưởng tới lập trình viên
- Nếu kho lưu trữ cá nhân được dùng cho huấn luyện, sẽ tồn tại rủi ro lộ mã nhạy cảm hoặc logic nội bộ
- Doanh nghiệp và lập trình viên cá nhân cần rà soát chính sách bảo mật và thực hiện quy trình opt-out
- Thay đổi lần này của GitHub có thể dẫn tới các cuộc thảo luận về tính minh bạch của dữ liệu huấn luyện AI và quyền kiểm soát của người dùng
3 bình luận
Mấy ngày nay tôi cứ thấy nó hiện trên GitHub,
Cập nhật quan trọng
Vào ngày 24 tháng 4, chúng tôi sẽ bắt đầu sử dụng dữ liệu tương tác với GitHub Copilot để huấn luyện mô hình AI trừ khi bạn chọn từ chối. Hãy xem lại cập nhật này và quản lý tùy chọn của bạn trong phần cài đặt tài khoản GitHub.
Tôi đã chọn từ chối, nhưng tôi nghĩ có lẽ từ trước đến nay họ cũng đã dùng cho AI rồi.
Đây rõ ràng là tin giả trơ trẽn mà
Ý kiến trên Hacker News
Việc này đã được nói từ năm 2023 rồi. Nếu thông tin được lưu trong cơ sở dữ liệu theo cách mà công ty có thể tự do truy cập, thì sớm muộn công ty đó cũng sẽ sửa điều khoản để dùng nó làm dữ liệu huấn luyện AI. Động cơ quá mạnh nên tôi nghĩ điều này là không thể tránh khỏi
Có người phản bác là “không phải vậy” và chia sẻ liên kết blog chính thức của GitHub. Người dùng Free, Pro, Pro+ Copilot nếu không opt-out thì dữ liệu sử dụng sẽ được dùng để huấn luyện mô hình. Người dùng Business hoặc gói Pro thì không bị đưa vào huấn luyện. Nếu không dùng Copilot thì không bị ảnh hưởng. Nếu opt-out trước bây giờ thì thiết lập đó sẽ được giữ nguyên về sau
Tiêu đề của tin này dễ gây hiểu nhầm. GitHub không huấn luyện trực tiếp trên bản thân private repo, mà huấn luyện trên dữ liệu tương tác phát sinh khi dùng Copilot. Nếu không dùng Copilot thì không bị ảnh hưởng. Dù vậy vẫn nên tắt đi
Nói chính xác hơn, opt-out là thiết lập dành cho việc huấn luyện Copilot. Trước giờ chỉ có public repo là opt-in, nhưng từ ngày 24 tháng 4 thì private repo cũng sẽ được đưa vào mặc định. Nếu đang dùng Copilot trong private repo, bạn nên opt-out tại github.com/settings/copilot. Mất 30 giây thôi
Tôi muốn biết nếu trong nhóm có chỉ một người không opt-out thì Copilot có truy cập được toàn bộ repo hay không. Cũng muốn biết có cách nào kiểm tra trạng thái thiết lập của các thành viên trong nhóm không
Hiện tại thiết lập này chỉ có thể làm ở cấp người dùng. Tôi muốn biết có cách nào tắt hàng loạt cho cả tổ chức không. Tôi lo chỉ cần một người bật lên thì code của cả tổ chức sẽ bị xem là dữ liệu huấn luyện
Tôi công nhận GitHub đã liên tục hiện banner thông báo. Nhưng trước khi đọc bài HN này thì chính tôi cũng chưa đọc nó
Code trong private repo của tôi bừa bộn như mớ hỗn độn, nên chẳng cần lo. Có khi LLM mà học từ code của tôi còn thiệt hơn
Tội cho những người đã trả tiền dùng GitHub lâu năm mà không hề thấy thông báo