1 điểm bởi GN⁺ 25 ngày trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Từ ngày 24/4/2026, dữ liệu của người dùng Copilot Free·Pro·Pro+ sẽ được sử dụng cho huấn luyện và cải thiện mô hình AI, và người dùng có thể từ chối việc này bằng thiết lập opt-out
  • Người dùng Business và Enterprise không bị ảnh hưởng bởi thay đổi này, và nếu trước đó đã thiết lập từ chối thì lựa chọn hiện tại sẽ được giữ nguyên
  • Dữ liệu huấn luyện bao gồm thông tin tương tác phát triển thực tế như mã đầu vào, kết quả đầu ra, ngữ cảnh xung quanh con trỏ, đánh giá phản hồi, v.v.
  • Kho lưu trữ doanh nghiệp, nội dung riêng tư, dữ liệu của người dùng đã opt-out sẽ không được dùng để huấn luyện, và dữ liệu chỉ được chia sẻ với các công ty liên kết của GitHub như Microsoft
  • GitHub cho biết dữ liệu tương tác thực tế của nhà phát triển là yếu tố cốt lõi để nâng cao độ chính xác, tính bảo mật và khả năng phát hiện lỗi, đồng thời nhấn mạnh sự tham gia tự nguyện của nhà phát triển

Cập nhật chính sách sử dụng dữ liệu tương tác của GitHub Copilot

  • Từ ngày 24/4/2026, dữ liệu tương tác của người dùng Copilot Free, Pro, Pro+ (đầu vào, đầu ra, đoạn mã, ngữ cảnh liên quan) sẽ được sử dụng để huấn luyện và cải thiện mô hình AI
    • Tuy nhiên, nếu người dùng opt-out thì dữ liệu sẽ không được dùng cho huấn luyện
    • Người dùng Copilot Business và Enterprise không bị ảnh hưởng bởi thay đổi này
  • Với những người dùng trước đó đã thiết lập từ chối thu thập dữ liệu, lựa chọn hiện tại sẽ được giữ nguyên, và dữ liệu sẽ không được đưa vào huấn luyện trừ khi có sự đồng ý rõ ràng
  • GitHub cho biết thay đổi lần này phù hợp với thông lệ tiêu chuẩn của ngành, và góp phần cải thiện độ chính xác, tính bảo mật và khả năng phát hiện lỗi của mô hình
  • Người dùng có thể thay đổi việc tham gia bất cứ lúc nào trong mục Privacy tại trang cài đặt

Sự cần thiết của việc huấn luyện dựa trên dữ liệu thực tế

  • Các mô hình Copilot ban đầu được xây dựng dựa trên dữ liệu công khai và các mẫu mã được biên soạn thủ công
  • Sau đó, việc huấn luyện đã bao gồm dữ liệu tương tác của nhân viên Microsoft, và đã xác nhận những cải thiện có ý nghĩa như tăng tỷ lệ chấp nhận (acceptance rate) ở nhiều ngôn ngữ lập trình
  • Dựa trên những kết quả này, GitHub quyết định đưa dữ liệu tương tác của nhà phát triển thực tế vào huấn luyện để phản ánh nhiều trường hợp sử dụng thực tế đa dạng

Các hạng mục dữ liệu được thu thập và sử dụng

  • Dữ liệu có thể được dùng để huấn luyện mô hình gồm:
    • Kết quả đầu ra mà người dùng chấp nhận hoặc chỉnh sửa
    • Đoạn mã và nội dung yêu cầu được nhập vào Copilot
    • Ngữ cảnh mã xung quanh con trỏ

      • Nội dung chú thích và tài liệu do người dùng viết
    • Tên tệp, cấu trúc kho lưu trữ, mẫu điều hướng

      • Tương tác với các tính năng Copilot (chat, gợi ý inline, v.v.)
      • Phản hồi đối với đề xuất (đánh giá thích/không thích)

Dữ liệu không được đưa vào huấn luyện

  • Các dữ liệu sau sẽ không được sử dụng để huấn luyện mô hình:
    • Dữ liệu tương tác của Copilot Business, Enterprise và kho lưu trữ thuộc sở hữu doanh nghiệp
    • Dữ liệu của người dùng đã opt-out
    • Nội dung của issue, thảo luận, kho lưu trữ không hoạt động (private at rest)
      • Tuy nhiên, trong quá trình sử dụng Copilot, mã từ kho lưu trữ riêng tư có thể được xử lý để vận hành dịch vụ, và nếu không opt-out thì có thể được đưa vào huấn luyện

Phạm vi chia sẻ dữ liệu và bảo mật

  • Dữ liệu được thu thập có thể được chia sẻ với các công ty liên kết của GitHub (ví dụ: Microsoft)
  • Tuy nhiên, dữ liệu không được chia sẻ với nhà cung cấp mô hình AI bên thứ ba hay nhà cung cấp dịch vụ bên ngoài
  • GitHub nhấn mạnh rằng sự phát triển của lập trình có hỗ trợ AI phụ thuộc vào dữ liệu tương tác của nhà phát triển thực tế, và hiện đã sử dụng dữ liệu của nhân viên Microsoft và GitHub cho việc huấn luyện mô hình

Lựa chọn của người dùng và tác động

  • Nếu người dùng đồng ý cung cấp dữ liệu, mô hình sẽ được cải thiện về mức độ hiểu quy trình làm việc phát triển, đề xuất mã chính xác và an toàn hơn, cũng như nâng cao khả năng phát hiện lỗi sớm
  • Ngay cả khi không tham gia, người dùng vẫn có thể tiếp tục sử dụng các tính năng AI hiện có của Copilot như bình thường
  • GitHub cho biết họ hoan nghênh sự tham gia tự nguyện để nâng cao chất lượng cho toàn bộ cộng đồng nhà phát triển, và có thể xem thêm thông tin liên quan tại trang FAQ và thảo luận cộng đồng

1 bình luận

 
Ý kiến trên Hacker News
  • Nếu xem mục “Allow GitHub to use my data for AI model training” trong phần cài đặt GitHub, thì có thể bật hoặc tắt
    Nhưng buồn cười là họ lại đóng gói nó như thể đây là một kiểu “quyền truy cập tính năng”
    Cách nói như thể việc giao dữ liệu miễn phí là một lợi ích nghe khá mỉa mai

    • Ít ra câu chữ cũng không quá khó hiểu
      Nó không gây rối như checkbox “public access prevention” khi tạo bucket GCS
    • Tôi đã tắt hết các tính năng liên quan đến Copilot, vậy mà tỷ lệ sử dụng Copilot Chat vẫn hiện là 2%, khá khó hiểu
      Tôi cố tình không dùng nó trên tài khoản cá nhân, nên không hiểu vì sao vẫn có ghi nhận
    • Cách diễn đạt “truy cập tính năng” tạo cảm giác quá mang tính thao túng
      Thực chất là tôi đang giao dữ liệu của mình đi, nhưng họ lại khiến nó nghe như thể tôi sẽ mất đi thứ gì đó
    • Cũng có thể “lợi ích” ở đây là mô hình được huấn luyện lại bằng dữ liệu của tôi rồi sau này sẽ giúp lại tôi một chút
    • Rốt cuộc cái “tính năng” đó chỉ là phong cách code của tôi được phản ánh vào mô hình tiếp theo mà thôi
  • GitHub thông báo rằng từ ngày 24 tháng 4, dữ liệu tương tác của GitHub Copilot sẽ được dùng để huấn luyện AI
    Mặc định là đang bật, nên phải tự tay tắt đi
    Liên kết trang cài đặt
    Tôi cũng tò mò không biết tài khoản business có mặc định bật hay không. Nếu có thì đây là một chính sách khá đáng ngờ

    • Không thể tin được là mặc định lại để bật
      Bài blog cũng không đính kèm link để tắt, khá thiếu thiện chí
      Muốn tự tắt thì phải vào đường dẫn này → Privacy → “Allow GitHub to use my data for AI model training” → đặt thành Disabled
    • Theo câu trả lời chính thức trên cộng đồng,
      dữ liệu của khách hàng doanh nghiệp theo hợp đồng sẽ không được dùng để huấn luyện, và chỉ người dùng cá nhân mới có thể điều khiển mục này
    • Nếu với người dùng business mà vẫn mặc định opt-in thì đó là vi phạm chính sách bảo mật và quyền riêng tư
      Có chính sách nội bộ yêu cầu mã nguồn của khách hàng không được dùng cho huấn luyện
    • Đã xác nhận rằng dữ liệu của khách hàng Copilot Business hoặc Enterprise không được dùng để huấn luyện
    • Trong bài blog cũng ghi rõ rằng “người dùng Business và Enterprise không bị ảnh hưởng bởi thay đổi lần này”
  • Copilot không có cách bỏ qua các file nhạy cảm như API key hay mật khẩu
    Ngay khi mở IDE, những thông tin như vậy có thể bị gửi sang Microsoft
    Liên kết thảo luận liên quan

    • Gemini CLI chặn các biến môi trường có chứa chuỗi như ‘AUTH’
      Nhưng có tới hai thiết lập ngoại lệ mà cả hai đều không hoạt động
      Dù mở PR thì cũng chỉ có bot phản hồi, không thấy người thật xem
      Hơn nữa, khi refactor mã nguồn mở, Gemini 3 còn từ chối sinh code nếu cho rằng điều đó đi ngược ý định của tác giả ban đầu
    • Thực ra vấn đề cũng nằm ở chỗ lưu file nhạy cảm trong kho mã
    • Vấn đề kiểu này không chỉ có ở Copilot mà còn lặp lại trong issue của OpenAI Codex
    • Tôi nhớ là ở cấp enterprise hoặc tổ chức có thể thiết lập ignore path
  • Nếu là người dùng trả phí thì mặc định nên là opt-in chứ không phải opt-out
    Tôi không hiểu vì sao Mario Rodriguez(@mariorod) của GitHub lại đưa ra quyết định này

    • Xem README của ông ấy thì thấy mối quan tâm chính là “narrative shaping và thay đổi ‘How we Work’”, nên có vẻ cách tiếp cận này cũng là phần nối dài của điều đó
  • Từ sau GitHub và kỷ nguyên AI, tôi đã chuyển toàn bộ code của mình sang private git repo trên máy chủ riêng
    Không còn lý do gì để phải bận tâm về giấy phép mã nguồn mở nữa
    Tôi không có ý định để code của mình bị dùng cho việc huấn luyện AI thương mại
    Nếu thực sự nghiêm túc với mã nguồn mở thì đây là lúc chuyển sang Codeberg

    • Tôi cũng đã đưa ra quyết định tương tự
      Các dự án mã nguồn mở cũ thì chỉ bảo trì, còn dự án mới chỉ phát hành dưới dạng SaaS hoặc binary
      Thay vào đó tôi đóng góp cho các dự án ngôn ngữ và OS, đồng thời cảm nhận được nhu cầu phải huấn luyện lại mô hình
    • Có lẽ trong TOS của GitHub có điều khoản ngoại lệ về giấy phép để vận hành dịch vụ
    • Giờ tôi đang tự host Forgejo, chạy runner trên phần cứng riêng và khá hài lòng
  • Ở EU, tôi tự hỏi cơ sở pháp lý cho chính sách này là gì
    Dữ liệu thu thập có thể chứa thông tin nhận dạng cá nhân (PII), và theo GDPR thì
    cần có “sự đồng ý tự nguyện và rõ ràng”

    • GDPR cấm để mặc định theo kiểu opt-out
      Nếu tôi lỡ đưa số điện thoại của mình vào một dòng code để test rồi nó bị gửi sang Copilot, tôi thậm chí có thể thực hiện hành động pháp lý
    • Trong phần cài đặt GitHub của tôi hoàn toàn không có tùy chọn này, nên tôi tự hỏi liệu chỉ người dùng ở Mỹ mới có hay không
  • Câu “cách tiếp cận này phù hợp với tiêu chuẩn ngành” rốt cuộc chỉ là logic kiểu “nơi khác cũng làm nên ổn thôi”

    • Nhưng Anthropic lại dùng cơ chế opt-in, thậm chí còn cho ưu đãi giảm giá nếu kích hoạt
  • Rốt cuộc GitHub có vẻ như muốn giữ lại toàn bộ codebase của tất cả người dùng
    Có đoạn nói rằng dữ liệu mà Copilot sử dụng có thể được chia sẻ với toàn bộ các công ty con thuộc Microsoft

  • Tôi không thấy tùy chọn hủy đăng ký Copilot
    Xem cả liên kết cài đặt thanh toán trên di động cũng không có
    Theo tài liệu chính thức,
    nếu bạn được cấp quyền truy cập miễn phí với tư cách sinh viên, giáo viên hoặc người duy trì mã nguồn mở thì không thể hủy

  • Dù vậy, GitHub cũng không cố giấu thay đổi này, và đã công khai hướng dẫn quy trình opt-out

    • Nhưng trong email không có link trực tiếp, cũng không nêu rõ tên mục cài đặt
      Nó mang cảm giác rất dark pattern điển hình
    • Trên thực tế việc opt-out không hề đơn giản
      Trong ứng dụng Android còn khó tìm ra trang cài đặt, mà trang đó cũng không hoạt động đúng cách