Atlassian chuyển sang mặc định dùng dữ liệu khách hàng để huấn luyện AI

(letsdatascience.com)

5 điểm bởi GN⁺ 2026-04-21 | 1 bình luận | Chia sẻ qua WhatsApp

Dữ liệu metadata khách hàng và nội dung trong ứng dụng của các sản phẩm Atlassian Cloud như Jira, Confluence dự kiến sẽ được dùng mặc định để huấn luyện Rovo và Rovo Dev từ ngày 17 tháng 8 năm 2026
Thiết lập mặc định được áp dụng khác nhau theo từng gói; với Free·Standard·Premium thì đóng góp metadata luôn được bật, còn chỉ Enterprise mới giữ mặc định tắt metadata và dữ liệu trong ứng dụng cũng như quyền kiểm soát
Phạm vi thu thập bao gồm metadata như điểm khả năng đọc, story point, giá trị SLA và dữ liệu trong ứng dụng như nội dung trang, mô tả issue, bình luận, tên workflow
Dù có áp dụng các biện pháp bảo vệ như loại bỏ định danh trực tiếp và tổng hợp dữ liệu, dữ liệu đóng góp vẫn có thể được lưu giữ tối đa 7 năm; sau khi xóa hoặc opt-out, dữ liệu trong ứng dụng sẽ bị gỡ trong vòng 30 ngày và mô hình đã huấn luyện sẽ được huấn luyện lại trong vòng 90 ngày
Đây là thay đổi chính sách rời khỏi lập trường trước đây là không sử dụng, làm thay đổi nguồn dữ liệu của công cụ làm việc và mức độ kiểm soát theo từng mức giá, từ đó mở rộng tác động tới các đánh giá về quyền riêng tư, quản trị và tuân thủ

Tổng quan thay đổi

Atlassian dự kiến từ 17 tháng 8 năm 2026 sẽ mặc định sử dụng metadata khách hàng và nội dung trong ứng dụng của Jira, Confluence và các sản phẩm Atlassian Cloud khác để huấn luyện AI
- Các tính năng AI được nêu đích danh là Rovo và Rovo Dev
- Quy mô bị ảnh hưởng khoảng 300.000 khách hàng
Theo thay đổi trong chính sách đóng góp dữ liệu, thiết lập mặc định sẽ khác nhau tùy gói
- Các gói thấp hơn không thể opt-out khỏi việc thu thập metadata
- Gói Enterprise vẫn giữ quyền kiểm soát việc thu thập metadata và dữ liệu trong ứng dụng
Dữ liệu đóng góp được thu thập có thời gian lưu giữ tối đa 7 năm
- Sau khi xóa hoặc opt-out, dữ liệu trong ứng dụng sẽ bị gỡ trong vòng 30 ngày
- Các mô hình được huấn luyện bằng dữ liệu đó sẽ được huấn luyện lại trong vòng 90 ngày để loại bỏ phần đóng góp

Chi tiết kỹ thuật

Atlassian chia phạm vi thu thập thành hai nhóm: metadata và dữ liệu trong ứng dụng
- Metadata bao gồm các tín hiệu đã được khử định danh
- Dữ liệu trong ứng dụng bao gồm nội dung do người dùng tạo ra
Quảng cáo
Các mục thuộc nhóm metadata được nêu cụ thể
- Điểm khả năng đọc và độ phức tạp
- Phân loại công việc
- Chỉ số tương đồng ngữ nghĩa
- Story point
- Ngày kết thúc sprint
- Giá trị SLA của Jira Service Management
Các mục thuộc nhóm dữ liệu trong ứng dụng được nêu cụ thể
- Tiêu đề và nội dung trang của Confluence
- Tiêu đề issue, mô tả, bình luận trong Jira
- Tên emoji tùy chỉnh
- Tên trạng thái tùy chỉnh
- Tên workflow
Atlassian cho biết trước khi huấn luyện sẽ áp dụng loại bỏ định danh trực tiếp, tổng hợp dữ liệu và các biện pháp bảo vệ

Thiết lập mặc định theo gói và các đối tượng bị loại trừ

Thiết lập mặc định được quyết định dựa trên gói đang hoạt động cao nhất của tổ chức
Khách hàng Free và Standard
- Đóng góp metadata luôn được bật
  - Không thể opt-out khỏi việc thu thập metadata
  - Đóng góp dữ liệu trong ứng dụng được bật mặc định nhưng có thể đổi thiết lập
  - Khách hàng Premium
  - Đóng góp metadata luôn được bật
  - Đóng góp dữ liệu trong ứng dụng mặc định tắt
  - Khách hàng Enterprise
  - Cả metadata và dữ liệu trong ứng dụng đều mặc định tắt
  - Có thể opt-out khỏi metadata
  - Nêu rõ các nhóm khách hàng bị loại khỏi toàn bộ phạm vi thu thập
  - Khách hàng dùng customer-managed encryption keys
  - Khách hàng dùng Atlassian Government Cloud
  - Khách hàng dùng Atlassian Isolated Cloud
  - Khách hàng có nghĩa vụ HIPAA

Bối cảnh và tầm quan trọng

Chính sách lần này đi theo hướng ngược lại với lập trường trước đây
- Trước đó công ty từng nói sẽ không dùng dữ liệu khách hàng để huấn luyện hoặc cải thiện dịch vụ AI
Quảng cáo
Xu hướng ngành được nêu làm bối cảnh cho thay đổi
- Các nhà cung cấp SaaS thu thập tín hiệu sử dụng nội bộ và nội dung để bootstrap mô hình, fine-tune và đánh giá
- Đồng thời cũng cam kết phân tích dựa trên dữ liệu khử định danh và tổng hợp
Những lợi ích thực tế mà Atlassian đề cập
- Cải thiện độ liên quan của tìm kiếm
- Tóm tắt tốt hơn
- Gợi ý template
- Tối ưu hóa workflow dạng agent
Tác động từ góc nhìn người làm thực tế
- Thay đổi nguồn dữ liệu của các mô hình dùng trong công cụ làm việc
- Thay đổi mức độ kiểm soát dữ liệu theo từng mức giá và tiêu chí đánh giá tuân thủ, mua sắm

Rủi ro và đánh đổi

Việc thu thập metadata bắt buộc với khách hàng không phải Enterprise làm dấy lên lo ngại về quyền riêng tư và quản trị, bất kể dữ liệu có bị loại bỏ định danh hay không
- Telemetry như story point và chỉ số SLA có thể làm lộ cấu trúc dự án và mô hình hiệu suất
Dữ liệu khử định danh được lưu giữ 7 năm làm tăng bề mặt phơi lộ theo thời gian
- Gây thêm gánh nặng cho các khách hàng phải kiểm toán việc lưu giữ dữ liệu dài hạn
Quảng cáo
Có lộ trình loại trừ cho khách hàng bảo mật cao và khách hàng dùng customer-managed keys
- Tuy nhiên có thể phải chuyển sang gói đắt hơn hoặc hình thức triển khai đặc biệt

Điểm cần chú ý

Mỗi tổ chức cần rà soát tenant Atlassian của mình
- Cần kiểm tra gói đang hoạt động cao nhất của từng tenant
- Cần nắm rõ thiết lập đóng góp dữ liệu mặc định
Cần cập nhật thiết lập quản trị trong giai đoạn rollout
Nếu cần opt-out hoàn toàn, nên cân nhắc chuyển sang Enterprise hoặc triển khai cô lập
Các điểm cần theo dõi ở góc độ sản phẩm
- Cần xác nhận Atlassian thực tế vận hành quy trình huấn luyện lại trong 90 ngày như thế nào
- Cần xác nhận các nhà cung cấp LLM downstream dùng cho Rovo có tuyên bố không lưu giữ đầu vào hay không
Nếu mô hình này lan rộng ra toàn bộ SaaS doanh nghiệp, có thể xuất hiện phản ứng từ khách hàng và sự giám sát của cơ quan quản lý

Cơ sở đánh giá

Thay đổi này tạo tác động thực tế tới hàng nghìn người dùng enterprise và những người phụ trách quản trị dữ liệu cũng như quản lý nguồn gốc mô hình
Không được xem là một cột mốc về mô hình tiên tiến hay quy định pháp lý
Được đánh giá là một thay đổi chính sách sản phẩm làm thay đổi thực tế pipeline dữ liệu và các lựa chọn tuân thủ của đội ngũ

1 bình luận

GN⁺ 2026-04-21

Ý kiến trên Hacker News

Tôi có cảm giác Atlassian chỉ đang nối tiếp một chuỗi sai lầm. Tôi vẫn dùng sản phẩm của họ thường xuyên, nhưng tần suất gặp bug cấp P0 quá cao. self-hosted Bitbucket workers đặc biệt quá lỗi thời ở phần Docker, đến mức tôi phải chắp vá đủ kiểu giải pháp tạm thời. Trong JIRA, muốn đổi thứ tự ticket mới thì bao năm nay vẫn phải refresh. Các tính năng mới thêm vào JIRA và Bitbucket trong vài năm gần đây cũng hoạt động rất tệ. Tôi còn dùng thử miễn phí các tính năng AI nhưng chúng hoàn toàn không chạy, mà việc hủy cũng không làm được online nên tôi phải gửi nhiều ticket hỗ trợ, trong lúc đó cả form liên hệ hỗ trợ cũng hỏng đi hỏng lại nhiều lần. Tôi tự hỏi vì sao tình trạng hỏng chức năng lại nặng đến mức này, là do technical debt, chảy máu nhân sự, hay là cả hai. Nhìn cộng đồng thì thấy hàng trăm hàng nghìn bug kèm cách lách tạm bợ
- Theo tôi, việc chặn hủy bản dùng thử miễn phí trên online không thể giải thích bằng gì khác ngoài đánh lừa khách hàng. Kiểu này trông còn rất dễ bị cấm bằng luật, chỉ là có vẻ chính quyền không quan tâm. Atlassian trông như kiểu tập đoàn lớn điển hình bán cho sếp của người dùng hơn là cho chính người dùng. Tôi thấy khi vượt qua một quy mô nhất định và áp lực cạnh tranh về chất lượng giảm đi, sự mục ruỗng nội bộ và năng lực kém sẽ rất dễ lan rộng
- Tôi từng làm ở đó, và theo tôi câu trả lời là sự kết hợp giữa năng lực kỹ thuật yếu, ưu tiên phân tán, và các đợt tái cơ cấu vô nghĩa. Bitbucket pipelines và workers thực ra ban đầu gần như do hai người làm, và trong 10 năm qua có lẽ chỉ còn khoảng một người thực sự bảo trì tích cực. Nếu gần đây còn có sa thải nữa thì chắc tình hình còn tệ hơn. Văn phòng đó giờ thậm chí cũng không còn tồn tại về mặt vật lý, và những người hồi đó đều đã rời đi
- Tôi gọi nguyên nhân bằng một từ là Featureitis. Cứ liên tục nhồi tính năng mà không suy nghĩ. Giờ còn có khả năng chồng thêm cả code do AI viết. Chỉ cần ở một dự án tầm trung mà cứ ép thêm tính năng mới thì cũng sẽ thành ra như vậy, và vài dự án tôi từng trải qua cũng đi đúng con đường đó vì trong một backlog khổng lồ, điều duy nhất quan trọng là tick xong tính năng
- Tôi luôn cảm thấy tính năng tìm kiếm của Jira ở mức gần như không dùng được. Có thể đây là phần tệ nhất của cả nền tảng, vậy mà họ vẫn cứ tập trung thêm những tính năng mà tôi chắc chắn không bao giờ dùng, thật chán nản
- Dạo này tôi thấy Jira quá bất ổn vì lỗi lệch đồng bộ. Trên sprint board, modal ticket tự đóng khiến tôi cứ phải mở lại liên tục; mới gần đây còn có chuyện ticket mãi không hiện trên board đó dù làm cách nào đi nữa, rồi sau đó một epic đột nhiên xuất hiện và các ticket riêng lẻ cũng hiện trở lại. Nếu cái gọi là vibe coding mang thêm giá trị cho thế giới thì chắc là kiểu này đây
Tôi muốn dẫn một nguồn tốt hơn, nhưng điểm cốt lõi hiện tại là cả khách hàng miễn phí lẫn trả phí đều đang mặc định opt-in cho việc dùng dữ liệu để huấn luyện AI. Tất cả nội dung như trang Confluence và ticket Jira đều thuộc phạm vi này. Tài liệu hỗ trợ Atlassian có ghi cách tắt, nhưng trên các instance của chúng tôi thì bản thân tùy chọn đó lại không hề xuất hiện
- Theo thông báo tôi nhận qua email, tôi hiểu là cài đặt opt-out sẽ được rollout dần trên Admin portal từ tháng 5. Trước tiên áp dụng cho Jira, Confluence, Jira Service Management và các ứng dụng Atlassian Platform, rồi sẽ dần xuất hiện trong Atlassian Administration đến ngày 19/5/2026, và họ sẽ thông báo lại trước ngày 17/8/2026
- Tôi đã lục hết nhiều trang cài đặt, gồm cả Atlassian Administration > Security, nhưng hoàn toàn không tìm thấy mục Data contribution. Vậy thì có phải hiện giờ là tự động opt-in nhưng trên thực tế lại không có cách opt-out hay không
- Tôi bị sốc khi thấy phạm vi ghi trong FAQ. Họ gọi là nội dung do người dùng tạo ra, và còn bao gồm tiêu đề và nội dung Confluence, tiêu đề issue Jira và phần mô tả, bình luận, tên emoji tùy chỉnh, tên trạng thái tùy chỉnh, cho tới cả tên workflow, nên phạm vi rộng quá mức
- Tôi lo rằng ngay cả thông tin nhạy cảm như dữ liệu khách hàng, ticket riêng tư, nội dung sửa CVE đang bị embargo, hay dữ liệu sức khỏe nhạy cảm cũng có thể bị trộn vào để huấn luyện mô hình rồi sau này rò ra cho nhầm người
- Theo tôi, nguồn trực tiếp nhất để xem giải thích chính thức về thay đổi này là FAQ của Atlassian
Tôi có thấy tin đồn Anthropic đang bàn chuyện mua lại Atlassian, và có lẽ là vì dữ liệu huấn luyện. Thậm chí còn có bài viết trên Reddit nói rằng đã có cả phong trào data poisoning nhắm vào việc này
- Nếu chuyện đó là thật thì tôi biết ít nhất hai công ty sẽ không thể tiếp tục dùng sản phẩm Atlassian nữa. Nó sẽ bị đọc như một tín hiệu rằng họ xem quá nhẹ quyền riêng tư và các yêu cầu tuân thủ
- Trước đây, nếu source code ở các nơi như GitHub bị scrape để AI sinh code, thì giờ tôi có cảm giác chúng ta đang bước sang giai đoạn mà tài liệu đặc tả ở các nơi như Atlassian bị scrape để AI sinh lại đúng những thứ đó. Rồi tiếp theo sẽ là gì, tôi chỉ có thể chua chát tưởng tượng rằng ngay cả tuyên ngôn sứ mệnh công ty hay các khẩu hiệu kiếm tiền cũng sẽ thành mục tiêu
- Nếu giá cổ phiếu cứ tiếp tục giảm thì tôi nghĩ một vụ mua lại như vậy thực sự có thể xảy ra
Tôi cảm thấy trong enterprise SaaS, mô hình thu thập mặc định thay vì mặc định opt-out đang dần bị coi là bình thường. Nhưng vụ này đặc biệt nghiêm trọng vì phạm vi không chỉ là metadata đơn thuần mà còn là toàn bộ nội dung trong ứng dụng, hơn nữa cài đặt opt-out lại còn không render ra. Bản thân quyết định chính sách thì vẫn có thể tranh luận, nhưng khi hai điều này đi cùng nhau thì trông như cố tình tạo ma sát. Ngoài ra còn phải tách riêng vấn đề data residency: nhiều bên mua tưởng việc neo dữ liệu trong một khu vực địa lý là đảm bảo quyền riêng tư toàn diện, nhưng thực tế nó chỉ nói về nơi lưu trữ, chứ không đảm bảo ai được truy cập và dùng vào mục đích gì
- Tôi đặc biệt thấy câu trong bài của The Register rằng ngay cả nếu hủy hợp đồng ngay bây giờ thì cài đặt data contribution mới cũng sẽ không có hiệu lực cho đến ngày 17/8/2026 là xảo quyệt hơn nữa. Tức là trên thực tế họ còn không cho người ta đủ thời gian để đánh giá các lựa chọn
Tôi nghĩ nhiều công ty khác như GitHub, Figma, Adobe, Vercel cũng bật kiểu này mặc định. Vì vậy, có lẽ thực tế hơn là nên giả định rằng hễ giao dữ liệu cho công ty nào thì mặc định họ có thể dùng nó cho huấn luyện mô hình
- Có lẽ năm nay sẽ là năm của self-hosted. Những thứ công khai như blog mà quyền riêng tư không quá quan trọng thì tôi vẫn để trên cloud, nhưng dữ liệu mà tôi không muốn bị đem đi huấn luyện mô hình hay bán quảng cáo thì tôi đã chuyển sang tự host trong mạng của mình
Nếu tin đồn Anthropic mua lại là thật, tôi nghĩ Atlassian sẽ trông như một cơ hội để mua trọn một bộ dữ liệu tín hiệu cao xoay quanh công việc kinh doanh
- Tôi thậm chí còn mỉa mai tưởng tượng rằng giá mà Broadcom mua Atlassian rồi làm như với VMware thì có khi mọi vấn đề sẽ được giải quyết vĩnh viễn
- Tôi không cho rằng dữ liệu bên trong Atlassian là một bộ dữ liệu sạch hay tự nhiên. Nó giống một không gian được thiết kế địa ngục đến mức nuốt trọn công việc của lập trình viên thật vào đủ loại nhiễu loạn
- Nếu mấy tin đồn này mới chỉ dừng ở mức suy đoán trên diễn đàn thì tôi sẽ không tin cho đến khi có nguồn đáng tin cậy. Nghe cũng giống kiểu câu chuyện được tung ra để kéo giá cổ phiếu rồi xả hàng
Tôi muốn biết liệu Atlassian có coi cả code và nội dung trong private Bitbucket repository là đối tượng thu thập hay không. Câu chữ trong policy và FAQ quá mơ hồ nên tôi muốn nghe một câu trả lời rõ ràng kiểu có hoặc không
- Vài tháng trước khi tìm hiểu thì tôi diễn giải là họ không dùng code trong private repo để huấn luyện AI, nhưng sau thông báo lần này thì dù sao tôi cũng định chuyển sang server của mình. Cloud repository đúng là tiện, nhưng cứ phải lo ai đó đến lấy dữ liệu của mình như thể của họ thì không đáng để chấp nhận
- Nếu câu chữ mơ hồ thì coi như câu trả lời thực tế đã có rồi
Ngày xưa người ta nói nếu bạn không trả tiền thì bạn là sản phẩm, còn bây giờ đến doanh nghiệp trả tiền xong mà vẫn thành chính món hàng thì lại càng vô lý hơn
Tôi muốn nhấn mạnh rằng tùy chọn data residency của Atlassian không ngăn được chuyện này. Dù dữ liệu bị khóa vào một region cụ thể thì nó vẫn có thể bị dùng cho mục đích huấn luyện
Vì vậy tôi thấy lý do Atlassian muốn thu hẹp hỗ trợ Data Center bản on-prem giờ càng rõ hơn

Atlassian chuyển sang mặc định dùng dữ liệu khách hàng để huấn luyện AI

Tổng quan thay đổi

Chi tiết kỹ thuật

Thiết lập mặc định theo gói và các đối tượng bị loại trừ

Đóng góp metadata luôn được bật

Bối cảnh và tầm quan trọng

Rủi ro và đánh đổi

Điểm cần chú ý

Cơ sở đánh giá

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News