- Dữ liệu metadata khách hàng và nội dung trong ứng dụng của các sản phẩm Atlassian Cloud như Jira, Confluence dự kiến sẽ được dùng mặc định để huấn luyện Rovo và Rovo Dev từ ngày 17 tháng 8 năm 2026
- Thiết lập mặc định được áp dụng khác nhau theo từng gói; với Free·Standard·Premium thì đóng góp metadata luôn được bật, còn chỉ Enterprise mới giữ mặc định tắt metadata và dữ liệu trong ứng dụng cũng như quyền kiểm soát
- Phạm vi thu thập bao gồm metadata như điểm khả năng đọc, story point, giá trị SLA và dữ liệu trong ứng dụng như nội dung trang, mô tả issue, bình luận, tên workflow
- Dù có áp dụng các biện pháp bảo vệ như loại bỏ định danh trực tiếp và tổng hợp dữ liệu, dữ liệu đóng góp vẫn có thể được lưu giữ tối đa 7 năm; sau khi xóa hoặc opt-out, dữ liệu trong ứng dụng sẽ bị gỡ trong vòng 30 ngày và mô hình đã huấn luyện sẽ được huấn luyện lại trong vòng 90 ngày
- Đây là thay đổi chính sách rời khỏi lập trường trước đây là không sử dụng, làm thay đổi nguồn dữ liệu của công cụ làm việc và mức độ kiểm soát theo từng mức giá, từ đó mở rộng tác động tới các đánh giá về quyền riêng tư, quản trị và tuân thủ
Tổng quan thay đổi
- Atlassian dự kiến từ 17 tháng 8 năm 2026 sẽ mặc định sử dụng metadata khách hàng và nội dung trong ứng dụng của Jira, Confluence và các sản phẩm Atlassian Cloud khác để huấn luyện AI
- Các tính năng AI được nêu đích danh là Rovo và Rovo Dev
- Quy mô bị ảnh hưởng khoảng 300.000 khách hàng
- Theo thay đổi trong chính sách đóng góp dữ liệu, thiết lập mặc định sẽ khác nhau tùy gói
- Các gói thấp hơn không thể opt-out khỏi việc thu thập metadata
- Gói Enterprise vẫn giữ quyền kiểm soát việc thu thập metadata và dữ liệu trong ứng dụng
- Dữ liệu đóng góp được thu thập có thời gian lưu giữ tối đa 7 năm
- Sau khi xóa hoặc opt-out, dữ liệu trong ứng dụng sẽ bị gỡ trong vòng 30 ngày
- Các mô hình được huấn luyện bằng dữ liệu đó sẽ được huấn luyện lại trong vòng 90 ngày để loại bỏ phần đóng góp
Chi tiết kỹ thuật
- Atlassian chia phạm vi thu thập thành hai nhóm: metadata và dữ liệu trong ứng dụng
- Metadata bao gồm các tín hiệu đã được khử định danh
- Dữ liệu trong ứng dụng bao gồm nội dung do người dùng tạo ra
- Các mục thuộc nhóm metadata được nêu cụ thể
- Điểm khả năng đọc và độ phức tạp
- Phân loại công việc
- Chỉ số tương đồng ngữ nghĩa
- Story point
- Ngày kết thúc sprint
- Giá trị SLA của Jira Service Management
- Các mục thuộc nhóm dữ liệu trong ứng dụng được nêu cụ thể
- Tiêu đề và nội dung trang của Confluence
- Tiêu đề issue, mô tả, bình luận trong Jira
- Tên emoji tùy chỉnh
- Tên trạng thái tùy chỉnh
- Tên workflow
- Atlassian cho biết trước khi huấn luyện sẽ áp dụng loại bỏ định danh trực tiếp, tổng hợp dữ liệu và các biện pháp bảo vệ
Thiết lập mặc định theo gói và các đối tượng bị loại trừ
- Thiết lập mặc định được quyết định dựa trên gói đang hoạt động cao nhất của tổ chức
- Khách hàng Free và Standard
-
Đóng góp metadata luôn được bật
- Không thể opt-out khỏi việc thu thập metadata
- Đóng góp dữ liệu trong ứng dụng được bật mặc định nhưng có thể đổi thiết lập
- Khách hàng Premium
- Đóng góp metadata luôn được bật
- Đóng góp dữ liệu trong ứng dụng mặc định tắt
- Khách hàng Enterprise
- Cả metadata và dữ liệu trong ứng dụng đều mặc định tắt
- Có thể opt-out khỏi metadata
- Nêu rõ các nhóm khách hàng bị loại khỏi toàn bộ phạm vi thu thập
- Khách hàng dùng customer-managed encryption keys
- Khách hàng dùng Atlassian Government Cloud
- Khách hàng dùng Atlassian Isolated Cloud
- Khách hàng có nghĩa vụ HIPAA
Bối cảnh và tầm quan trọng
- Chính sách lần này đi theo hướng ngược lại với lập trường trước đây
- Trước đó công ty từng nói sẽ không dùng dữ liệu khách hàng để huấn luyện hoặc cải thiện dịch vụ AI
- Xu hướng ngành được nêu làm bối cảnh cho thay đổi
- Các nhà cung cấp SaaS thu thập tín hiệu sử dụng nội bộ và nội dung để bootstrap mô hình, fine-tune và đánh giá
- Đồng thời cũng cam kết phân tích dựa trên dữ liệu khử định danh và tổng hợp
- Những lợi ích thực tế mà Atlassian đề cập
- Cải thiện độ liên quan của tìm kiếm
- Tóm tắt tốt hơn
- Gợi ý template
- Tối ưu hóa workflow dạng agent
- Tác động từ góc nhìn người làm thực tế
- Thay đổi nguồn dữ liệu của các mô hình dùng trong công cụ làm việc
- Thay đổi mức độ kiểm soát dữ liệu theo từng mức giá và tiêu chí đánh giá tuân thủ, mua sắm
Rủi ro và đánh đổi
- Việc thu thập metadata bắt buộc với khách hàng không phải Enterprise làm dấy lên lo ngại về quyền riêng tư và quản trị, bất kể dữ liệu có bị loại bỏ định danh hay không
- Telemetry như story point và chỉ số SLA có thể làm lộ cấu trúc dự án và mô hình hiệu suất
- Dữ liệu khử định danh được lưu giữ 7 năm làm tăng bề mặt phơi lộ theo thời gian
- Gây thêm gánh nặng cho các khách hàng phải kiểm toán việc lưu giữ dữ liệu dài hạn
- Có lộ trình loại trừ cho khách hàng bảo mật cao và khách hàng dùng customer-managed keys
- Tuy nhiên có thể phải chuyển sang gói đắt hơn hoặc hình thức triển khai đặc biệt
Điểm cần chú ý
- Mỗi tổ chức cần rà soát tenant Atlassian của mình
- Cần kiểm tra gói đang hoạt động cao nhất của từng tenant
- Cần nắm rõ thiết lập đóng góp dữ liệu mặc định
- Cần cập nhật thiết lập quản trị trong giai đoạn rollout
- Nếu cần opt-out hoàn toàn, nên cân nhắc chuyển sang Enterprise hoặc triển khai cô lập
- Các điểm cần theo dõi ở góc độ sản phẩm
- Cần xác nhận Atlassian thực tế vận hành quy trình huấn luyện lại trong 90 ngày như thế nào
- Cần xác nhận các nhà cung cấp LLM downstream dùng cho Rovo có tuyên bố không lưu giữ đầu vào hay không
- Nếu mô hình này lan rộng ra toàn bộ SaaS doanh nghiệp, có thể xuất hiện phản ứng từ khách hàng và sự giám sát của cơ quan quản lý
Cơ sở đánh giá
- Thay đổi này tạo tác động thực tế tới hàng nghìn người dùng enterprise và những người phụ trách quản trị dữ liệu cũng như quản lý nguồn gốc mô hình
- Không được xem là một cột mốc về mô hình tiên tiến hay quy định pháp lý
- Được đánh giá là một thay đổi chính sách sản phẩm làm thay đổi thực tế pipeline dữ liệu và các lựa chọn tuân thủ của đội ngũ
1 bình luận
Ý kiến trên Hacker News
Tôi có cảm giác Atlassian chỉ đang nối tiếp một chuỗi sai lầm. Tôi vẫn dùng sản phẩm của họ thường xuyên, nhưng tần suất gặp bug cấp P0 quá cao. self-hosted Bitbucket workers đặc biệt quá lỗi thời ở phần Docker, đến mức tôi phải chắp vá đủ kiểu giải pháp tạm thời. Trong JIRA, muốn đổi thứ tự ticket mới thì bao năm nay vẫn phải refresh. Các tính năng mới thêm vào JIRA và Bitbucket trong vài năm gần đây cũng hoạt động rất tệ. Tôi còn dùng thử miễn phí các tính năng AI nhưng chúng hoàn toàn không chạy, mà việc hủy cũng không làm được online nên tôi phải gửi nhiều ticket hỗ trợ, trong lúc đó cả form liên hệ hỗ trợ cũng hỏng đi hỏng lại nhiều lần. Tôi tự hỏi vì sao tình trạng hỏng chức năng lại nặng đến mức này, là do technical debt, chảy máu nhân sự, hay là cả hai. Nhìn cộng đồng thì thấy hàng trăm hàng nghìn bug kèm cách lách tạm bợ
Tôi muốn dẫn một nguồn tốt hơn, nhưng điểm cốt lõi hiện tại là cả khách hàng miễn phí lẫn trả phí đều đang mặc định opt-in cho việc dùng dữ liệu để huấn luyện AI. Tất cả nội dung như trang Confluence và ticket Jira đều thuộc phạm vi này. Tài liệu hỗ trợ Atlassian có ghi cách tắt, nhưng trên các instance của chúng tôi thì bản thân tùy chọn đó lại không hề xuất hiện
Tôi có thấy tin đồn Anthropic đang bàn chuyện mua lại Atlassian, và có lẽ là vì dữ liệu huấn luyện. Thậm chí còn có bài viết trên Reddit nói rằng đã có cả phong trào data poisoning nhắm vào việc này
Tôi cảm thấy trong enterprise SaaS, mô hình thu thập mặc định thay vì mặc định opt-out đang dần bị coi là bình thường. Nhưng vụ này đặc biệt nghiêm trọng vì phạm vi không chỉ là metadata đơn thuần mà còn là toàn bộ nội dung trong ứng dụng, hơn nữa cài đặt opt-out lại còn không render ra. Bản thân quyết định chính sách thì vẫn có thể tranh luận, nhưng khi hai điều này đi cùng nhau thì trông như cố tình tạo ma sát. Ngoài ra còn phải tách riêng vấn đề data residency: nhiều bên mua tưởng việc neo dữ liệu trong một khu vực địa lý là đảm bảo quyền riêng tư toàn diện, nhưng thực tế nó chỉ nói về nơi lưu trữ, chứ không đảm bảo ai được truy cập và dùng vào mục đích gì
Tôi nghĩ nhiều công ty khác như GitHub, Figma, Adobe, Vercel cũng bật kiểu này mặc định. Vì vậy, có lẽ thực tế hơn là nên giả định rằng hễ giao dữ liệu cho công ty nào thì mặc định họ có thể dùng nó cho huấn luyện mô hình
Nếu tin đồn Anthropic mua lại là thật, tôi nghĩ Atlassian sẽ trông như một cơ hội để mua trọn một bộ dữ liệu tín hiệu cao xoay quanh công việc kinh doanh
Tôi muốn biết liệu Atlassian có coi cả code và nội dung trong private Bitbucket repository là đối tượng thu thập hay không. Câu chữ trong policy và FAQ quá mơ hồ nên tôi muốn nghe một câu trả lời rõ ràng kiểu có hoặc không
Ngày xưa người ta nói nếu bạn không trả tiền thì bạn là sản phẩm, còn bây giờ đến doanh nghiệp trả tiền xong mà vẫn thành chính món hàng thì lại càng vô lý hơn
Tôi muốn nhấn mạnh rằng tùy chọn data residency của Atlassian không ngăn được chuyện này. Dù dữ liệu bị khóa vào một region cụ thể thì nó vẫn có thể bị dùng cho mục đích huấn luyện
Vì vậy tôi thấy lý do Atlassian muốn thu hẹp hỗ trợ Data Center bản on-prem giờ càng rõ hơn