6 điểm bởi GN⁺ 25 ngày trước | 3 bình luận | Chia sẻ qua WhatsApp
  • GitHub có kế hoạch sử dụng mã và dữ liệu từ kho lưu trữ cá nhân để huấn luyện mô hình AI
  • Người dùng phải chủ động từ chối (opt-out) trước ngày 24 tháng 4 thì mới có thể chặn việc sử dụng dữ liệu
  • Nếu không từ chối, thông tin dự án riêng tư có thể bị đưa vào dữ liệu huấn luyện
  • Chính sách này liên quan đến việc thu thập dữ liệu nhằm cải thiện các tính năng AI như GitHub Copilot
  • Lập trình viên cần kiểm tra cài đặt để bảo vệ quyền riêng tư và bảo mật mã nguồn

Thay đổi trong chính sách dữ liệu huấn luyện AI của GitHub

  • GitHub đã thay đổi chính sách để có thể đưa dữ liệu từ kho lưu trữ cá nhân vào quá trình huấn luyện nhằm cải thiện mô hình AI
    • Nếu người dùng không tự từ chối riêng, dữ liệu sẽ tự động được sử dụng
    • Có thể thực hiện việc từ chối trực tiếp trong trang cài đặt của GitHub
  • Dữ liệu huấn luyện có thể bao gồm mã riêng tư, metadata của dự án và lịch sử commit
  • Biện pháp này được mô tả là nhằm nâng cao chất lượng của Copilot và các tính năng AI khác

Ảnh hưởng tới lập trình viên

  • Nếu kho lưu trữ cá nhân được dùng cho huấn luyện, sẽ tồn tại rủi ro lộ mã nhạy cảm hoặc logic nội bộ
  • Doanh nghiệp và lập trình viên cá nhân cần rà soát chính sách bảo mật và thực hiện quy trình opt-out
  • Thay đổi lần này của GitHub có thể dẫn tới các cuộc thảo luận về tính minh bạch của dữ liệu huấn luyện AI và quyền kiểm soát của người dùng

3 bình luận

 
runableapp 23 ngày trước

Mấy ngày nay tôi cứ thấy nó hiện trên GitHub,

Cập nhật quan trọng
Vào ngày 24 tháng 4, chúng tôi sẽ bắt đầu sử dụng dữ liệu tương tác với GitHub Copilot để huấn luyện mô hình AI trừ khi bạn chọn từ chối. Hãy xem lại cập nhật này và quản lý tùy chọn của bạn trong phần cài đặt tài khoản GitHub.

Tôi đã chọn từ chối, nhưng tôi nghĩ có lẽ từ trước đến nay họ cũng đã dùng cho AI rồi.

 

Đây rõ ràng là tin giả trơ trẽn mà

 
Ý kiến trên Hacker News
  • Việc này đã được nói từ năm 2023 rồi. Nếu thông tin được lưu trong cơ sở dữ liệu theo cách mà công ty có thể tự do truy cập, thì sớm muộn công ty đó cũng sẽ sửa điều khoản để dùng nó làm dữ liệu huấn luyện AI. Động cơ quá mạnh nên tôi nghĩ điều này là không thể tránh khỏi

    • Chuẩn. Dù là công ty có đạo đức đến đâu, nếu bị mua lại thì mọi thứ cũng có thể thay đổi. Tôi làm ở một công ty thuộc SP500, hiện tại quyền truy cập production bị kiểm soát rất chặt. Nhưng nếu ai đó như Larry, Zuck hay Bezos mua công ty thì chẳng ai biết chuyện gì sẽ xảy ra
    • “Cứ làm trước rồi xin lỗi sau” có vẻ sẽ thành nguyên tắc phổ biến. Ngay cả khi không đổi ToS thì trên thực tế họ vẫn có thể làm vậy. Amazon đã có sẵn một bộ dữ liệu huấn luyện nội bộ khổng lồ rồi
    • Tôi lo MS đang lấy cả code tôi viết trên laptop để huấn luyện AI. Sự nghi ngờ của người dùng Linux mà ngày xưa nghe như thuyết âm mưu giờ ngày càng thấy dễ hiểu hơn
    • Bạn nói đúng. Thật bực khi mọi người không coi đó là điều hiển nhiên. Stallman luôn đúng
    • Trừ khi bạn tự sở hữu khóa, còn không thì đó không phải là mã hóa đầu-cuối. Đừng đánh tráo khái niệm
  • Có người phản bác là “không phải vậy” và chia sẻ liên kết blog chính thức của GitHub. Người dùng Free, Pro, Pro+ Copilot nếu không opt-out thì dữ liệu sử dụng sẽ được dùng để huấn luyện mô hình. Người dùng Business hoặc gói Pro thì không bị đưa vào huấn luyện. Nếu không dùng Copilot thì không bị ảnh hưởng. Nếu opt-out trước bây giờ thì thiết lập đó sẽ được giữ nguyên về sau

    • Theo blog thì dữ liệu được thu thập gồm input, output, ngữ cảnh code, comment, cấu trúc file, phản hồi, v.v. Nhưng vấn đề là họ để theo kiểu “nếu không muốn tham gia” chứ không phải “nếu muốn tham gia”. Tức là người dùng phải tự đi từ chối tham gia, nên mới gây khó chịu. Việc tôi phải tốn công để bảo vệ quyền riêng tư của mình là không công bằng
    • Cách diễn đạt chi tiết bị chia nhỏ một cách quá mơ hồ. Nếu Copilot dùng input, output và ngữ cảnh code để huấn luyện, thì rốt cuộc điều đó có nghĩa là một phần code trong private repo đang bị dùng làm dữ liệu huấn luyện
    • Cả tiêu đề lẫn câu trả lời đều quá bao quát. Từ ngày 24 tháng 4, private repo của những người dùng không phải Business/Pro sẽ mặc định bị đưa vào huấn luyện. Không phải mọi repo đều như vậy, nhưng cách dùng từ cần cẩn trọng hơn. Thay vì “No we won’t” thì nói “không hoàn toàn chính xác” sẽ phù hợp hơn
    • Dù vậy đây vẫn là vấn đề nghiêm trọng. Một khi code đã đi vào huấn luyện LLM thì nó không còn là private nữa. Ghi là “private repo” rồi thêm chữ nhỏ trong điều khoản kiểu “có thể bị công khai” thì là lừa dối
    • Theo luật EU, cách xin đồng ý theo kiểu opt-out không được công nhận là sự đồng ý hợp lệ. Tôi tò mò họ định xử lý chuyện này thế nào
  • Tiêu đề của tin này dễ gây hiểu nhầm. GitHub không huấn luyện trực tiếp trên bản thân private repo, mà huấn luyện trên dữ liệu tương tác phát sinh khi dùng Copilot. Nếu không dùng Copilot thì không bị ảnh hưởng. Dù vậy vẫn nên tắt đi

    • Nhưng tôi thắc mắc nếu một trong những người đóng góp của tôi dùng Copilot thì sẽ thế nào
    • Tôi cũng hiểu như vậy, nhưng nếu họ học từ input thì không thể đảm bảo rằng họ không học từ chính code. Ra tòa họ hoàn toàn có thể nói là “chúng tôi chỉ học từ input”
    • Những phân biệt quá chi li kiểu này cuối cùng cũng vô nghĩa. Dù hiện tại là thế, sau này họ vẫn có thể lén đổi. Các lập trình viên cứ nghĩ mình đã hiểu hệ thống, nhưng rồi vẫn cứ bị lừa hết lần này đến lần khác
  • Nói chính xác hơn, opt-out là thiết lập dành cho việc huấn luyện Copilot. Trước giờ chỉ có public repo là opt-in, nhưng từ ngày 24 tháng 4 thì private repo cũng sẽ được đưa vào mặc định. Nếu đang dùng Copilot trong private repo, bạn nên opt-out tại github.com/settings/copilot. Mất 30 giây thôi

    • Không phải 30 giây mà phải là 0 giây mới đúng. Thời gian của tôi là của tôi, không có lý do gì tôi phải tốn thời gian chỉ để bảo vệ quyền riêng tư của mình
    • Nói “chỉ mất 30 giây” là không hiểu thực tế. Để biết được thông tin này, người ta phải lục HN mỗi ngày. Cuối cùng là tốn 240 giờ chỉ để biết có cái công tắc đó tồn tại
    • Trước đây không phải là opt-in. Khi đó họ không dùng dữ liệu sử dụng để huấn luyện. Họ chỉ huấn luyện nội bộ, và nói rằng nhờ vậy có cải thiện hiệu năng. Có nhắc đến việc này trong bài blog này
    • Không phải người dùng nào cũng nhìn thấy thiết lập đó. Nếu Copilot đang được quản lý ở cấp tổ chức thì tùy chọn này sẽ biến mất. Rời tổ chức rồi thì có thể bạn lại tự động bị opt-in lại
  • Tôi muốn biết nếu trong nhóm có chỉ một người không opt-out thì Copilot có truy cập được toàn bộ repo hay không. Cũng muốn biết có cách nào kiểm tra trạng thái thiết lập của các thành viên trong nhóm không

    • Cũng giống như không thể ngăn đồng đội copy code rồi dán vào prompt, thiết lập này cũng không thể kiểm soát được. Từ góc nhìn của MS, mặc định opt-in rõ ràng tiện hơn nhiều
  • Hiện tại thiết lập này chỉ có thể làm ở cấp người dùng. Tôi muốn biết có cách nào tắt hàng loạt cho cả tổ chức không. Tôi lo chỉ cần một người bật lên thì code của cả tổ chức sẽ bị xem là dữ liệu huấn luyện

  • Tôi công nhận GitHub đã liên tục hiện banner thông báo. Nhưng trước khi đọc bài HN này thì chính tôi cũng chưa đọc nó

    • Nhưng người chỉ dùng git qua CLI sẽ không thấy banner đó
    • Dù có đọc banner hay email thì cũng không nói rõ phải đổi chính xác thiết lập nào thì mới opt-out. Cuối cùng người dùng vẫn phải tự đi tìm, và chỉ về sau mới biết mình đã cài đúng hay chưa
    • Tôi chưa từng thấy banner đó. Không biết nó được hiển thị ở đâu
    • Đây là lần đầu tôi thấy ứng dụng reset hoặc làm mất thiết lập như vậy
  • Code trong private repo của tôi bừa bộn như mớ hỗn độn, nên chẳng cần lo. Có khi LLM mà học từ code của tôi còn thiệt hơn

    • Tôi cũng tham gia. Tôi sẽ dùng đống code rác của mình để phá hỏng AI của M$
    • Đầu độc LLM như một kiểu phản kháng nghe cũng khá thú vị
  • Tội cho những người đã trả tiền dùng GitHub lâu năm mà không hề thấy thông báo

    • Tôi cũng không thích kiểu opt-out, nhưng hiện tại trên mọi trang GitHub đều có banner thông báo, và họ cũng đã gửi email rồi