Huấn luyện mô hình AI riêng

(posthog.com)

1 điểm bởi GN⁺ 2026-05-29 | 1 bình luận | Chia sẻ qua WhatsApp

PostHog đang thử huấn luyện mô hình bằng dữ liệu nội bộ để xây dựng các sản phẩm chủ động và tự trị hơn, tiếp nối AI installation wizard, PostHog AI và MCP
Trọng tâm chính là PostHog Code, nhằm hỗ trợ định hướng sản phẩm có thể tự tìm và thực thi câu trả lời cùng giải pháp thay cho người dùng, đồng thời cải thiện theo thời gian
Công ty muốn cải thiện phân tích session replay, kiểm thử người dùng tổng hợp và dự đoán hành vi người dùng để giảm chi phí phát hiện vấn đề, đồng thời tìm ra lỗi và điểm gây bối rối trước khi triển khai
Dữ liệu huấn luyện sẽ được ẩn danh và chỉ dùng dữ liệu đã có sẵn trong instance PostHog; không bán hoặc gửi cho nhà cung cấp mô hình bên thứ ba
Khách hàng EU cloud và khách hàng có hợp đồng hạn chế huấn luyện sẽ bị loại trừ theo mặc định, còn US cloud được включён theo mặc định; người dùng có thể opt-out trước ngày 29 tháng 6

Kế hoạch huấn luyện mô hình AI riêng của PostHog

Trong năm qua, PostHog đã thêm các tính năng AI như AI installation wizard, PostHog AI và MCP vào sản phẩm, và trong tương lai muốn xây dựng các sản phẩm chủ động và tự trị hơn
Bước tiếp theo của PostHog là hướng tới các sản phẩm có thể tự tìm ra và thực thi câu trả lời cùng giải pháp thay cho người dùng, rồi tiếp tục cải thiện theo thời gian
PostHog Code, hiện đang ở giai đoạn beta, là sản phẩm cốt lõi cho hướng đi này, và để hiện thực hóa điều đó, công ty muốn huấn luyện mô hình bằng dữ liệu nội bộ của PostHog

Những tính năng họ muốn xây dựng

Mục tiêu là làm cho các sản phẩm hiện có thông minh và chủ động hơn, đồng thời giúp các đội ngũ tạo ra sản phẩm tốt hơn nhanh hơn với các sản phẩm mới như PostHog Code
Phân tích session replay
- PostHog AI hiện đã có thể phát hiện vấn đề trong replay, nhưng chi phí cao nên không phù hợp để mở rộng ở quy mô lớn
- Để sử dụng replay mạnh mẽ ở quy mô lớn như khi chẩn đoán vấn đề của từng người dùng riêng lẻ, cần có một mô hình được huấn luyện trên dữ liệu nền tảng cấu thành replay
Kiểm thử người dùng tổng hợp
- Kiểm thử người dùng tổng hợp là ý tưởng tận dụng hiểu biết về hành vi người dùng để tìm ra những điểm người dùng có thể bị bối rối hoặc những luồng có thể hỏng trước khi triển khai lên production
- Khi các mô hình lập trình ngày càng tốt hơn, khối lượng công việc kiểm thử và review cũng tăng mạnh, và PostHog muốn tự động hóa phần việc này để người dùng có thể tập trung vào chính sản phẩm của họ
Dự đoán hành vi người dùng
- Nếu dự đoán hành vi người dùng được cải thiện, có thể đề xuất các thay đổi giúp tăng tỷ lệ chuyển đổi và giảm sự bất mãn của người dùng ngay cả với những tính năng đã triển khai
- Khi việc này được tự động hóa, thời gian phân tích thủ công sẽ giảm xuống, và lượng token tiêu tốn trong quá trình đó cũng giảm theo
- Những ý tưởng này vẫn còn mang tính thử nghiệm, và sẽ cần lặp lại nhiều lần để tìm ra cách huấn luyện mô hình hiệu quả cũng như dữ liệu nào thực sự hữu ích
- PostHog xem đây là hướng đi có cơ sở vì trước đây AI đã cho kết quả tốt khi giúp sản phẩm trở nên đơn giản hơn hoặc mạnh mẽ hơn

Cách thức hoạt động và nguyên tắc sử dụng dữ liệu

Kế hoạch này tập trung vào việc làm cho các tính năng hiện có mạnh hơn và cung cấp các tính năng giúp sản phẩm cải thiện một cách chủ động hơn
Nhiều công cụ tập trung vào việc tạo ra đoạn mã tốt nhất, nhưng PostHog muốn tập trung vào việc làm cho chính sản phẩm của người dùng trở nên tốt hơn
Vì vậy, công ty mô tả PostHog Code là một trình biên tập sản phẩm
Mối bận tâm lớn nhất là việc dùng dữ liệu có trong PostHog để huấn luyện mô hình, và PostHog muốn công khai thông báo điều này thay vì giấu trong một bản cập nhật điều khoản
Cách áp dụng mặc định
- Người dùng EU cloud instance sẽ bị loại trừ theo mặc định
- Người dùng có các hợp đồng như BAA, MSA hoặc hợp đồng tương tự ngăn việc huấn luyện cũng sẽ bị loại trừ theo mặc định
- Những người dùng US cloud instance còn lại sẽ được включён theo mặc định
Xử lý dữ liệu và các giới hạn
- Tất cả dữ liệu sẽ được ẩn danh trước khi được dùng cho huấn luyện
- Chỉ dữ liệu đã tồn tại trong instance PostHog của người dùng mới được sử dụng
- Việc huấn luyện mô hình do chính PostHog trực tiếp thực hiện
- Không bán hoặc gửi dữ liệu người dùng cho các nhà cung cấp mô hình bên thứ ba
Opt-out
- Người dùng có thể opt-out bất kỳ lúc nào trong cài đặt tổ chức của PostHog
- Việc thay đổi cài đặt tổ chức yêu cầu quyền quản trị viên
- Việc huấn luyện sẽ không bắt đầu cho đến ngày 29 tháng 6, nên người dùng có thời gian để quyết định

Kế hoạch truyền thông

PostHog dự định gửi email tới toàn bộ khách hàng với mục đích được nêu rõ ràng
Với những người dùng không đọc email, công ty cũng sẽ thông báo cho tất cả người dùng qua thông báo trong ứng dụng
Kế hoạch sẽ được triển khai theo cách công khai thông báo rộng rãi
Mục tiêu là cải thiện sản phẩm PostHog cho khách hàng, chứ không phải công khai hay bán các mô hình được huấn luyện từ dữ liệu người dùng hoặc kiếm tiền từ dữ liệu đó

Vì sao là opt-out chứ không phải opt-in

Lý do chọn bao gồm theo mặc định rồi mới opt-out thay vì opt-in mặc định là nếu không làm vậy thì sẽ không thể thu thập đủ dữ liệu để huấn luyện một mô hình thực sự hữu ích
Nếu chọn opt-out, người dùng sẽ không thể sử dụng các tính năng mới được xây dựng từ những mô hình này
Những người dùng bị loại trừ theo mặc định, như người dùng EU cloud instance, có thể opt-in thủ công nếu không bị ràng buộc bởi hợp đồng pháp lý với PostHog
PostHog chọn công khai trước thay vì âm thầm triển khai
PostHog cũng đang tuyển dụng nhà nghiên cứu AI để cùng thực hiện công việc này

1 bình luận

GN⁺ 2026-05-29

Ý kiến trên Hacker News

“Opt-in mặc định” là một sự mâu thuẫn. Nếu là mặc định thì không phải tôi đã đồng ý, mà chỉ là nó được bật sẵn
- Cái này cũng rất khó chịu. Nếu là opt-in thì nghĩa là mặc định không bị đưa vào, và nếu muốn thì bạn có thể chọn tham gia
  Còn opt-out thì nghĩa là mặc định bị đưa vào, và nếu muốn thì bạn có thể rút ra, nhưng dạo này người ta lại dùng ngược nên còn phải giải thích thêm
  Trước đây tôi từng thấy một bài về telemetry opt-in đúng nghĩa, vậy mà bình luận top vẫn hiểu nhầm thành “mặc định tham gia” rồi lao vào công kích. Giờ từ này có cảm giác gần như đã mang cả nghĩa ngược lại luôn rồi
- “Opt-in mặc định” đơn giản là opt-out. Cứ dùng thuật ngữ đã có sẵn là được
- Tự động cho bạn “đồng ý” ngay từ đầu, thật là tuyệt vời
- Chuẩn. Tôi từng cân nhắc PostHog, nhưng kiểu diễn đạt này trông cực kỳ đánh lừa nên làm tôi mất cảm tình
- Mấy kiểu CEO lúc nào cũng chỉ chơi chữ lắt léo
PostHog là kiểu hệ thống bạn cấu hình một lần, thỉnh thoảng kiểm tra và nhận được chút giá trị, còn để yên thì nhìn chung vô hại
Nhưng giờ nó đã thành thêm một công cụ nữa phải chủ động cảnh giác, và nếu mặc định tiếp tục trôi theo hướng không thể chấp nhận nổi thì tháo nó khỏi hệ thống rồi chuyển sang cái khác còn dễ hơn
- PostHog từng là một giải pháp phân tích tuyệt vời nhờ cách tiếp cận ưu tiên nhà phát triển, công cụ tốt và mức giá ổn
  Tôi đã bị kiểu mô thức các công ty thành công thay đổi khi lớn lên này lừa không biết bao nhiêu lần trong 20 năm qua rồi. Giữa cơn sốt AI, PostHog cũng lao vào toàn diện, thậm chí có vẻ còn khám phá cả mấy công cụ no-code kiểu đó
  Supabase cũng từng rất ngầu, nhưng giờ cũng có cảm giác đang lao vào vực thẳm AI. Có lẽ người không thay đổi chỉ là tôi, và có lẽ vấn đề nằm ở tôi nên tôi phải chấp nhận các AI overlord mới và chuyển hết sang AI cũng nên
Phần lớn công ty hẳn đã giấu thay đổi kiểu này trong một bản cập nhật điều khoản nhàm chán, nhưng chúng tôi coi trọng sự minh bạch nên sẽ công bố những điều bạn cần biết dưới dạng danh sách đánh số thân thiện với Internet
Người dùng EU cloud instance mặc định bị loại trừ, và những người dùng có hợp đồng cấm huấn luyện cũng bị loại trừ
Ngoài ra, người dùng US cloud instance mặc định sẽ được đưa vào
Họ nói sẽ ẩn danh toàn bộ dữ liệu trước khi huấn luyện, chỉ dùng dữ liệu đã có sẵn trong instance PostHog, và sẽ tự huấn luyện mô hình nên không bán hay gửi dữ liệu cho nhà cung cấp mô hình bên thứ ba
Bạn có thể rút ra bất cứ lúc nào trong phần cài đặt tổ chức, cần quyền quản trị viên, và việc huấn luyện sẽ không bắt đầu cho đến ngày 29 tháng 6 nên vẫn còn nhiều thời gian để quyết định
- “Ngoài ra, người dùng US cloud instance mặc định sẽ được đưa vào”, hay quá nhỉ. Nghĩa là chính công ty là bên quyết định người dùng đã “đồng ý” với điều gì, và không cần bất kỳ đầu vào nào từ người dùng
  Vậy thì cuối tuần này tôi cũng sẽ “tình nguyện” thời gian của bạn để sửa lại sân hiên nhà tôi nhé. Đừng lo, tôi đã tình nguyện hộ bạn rồi
- Nếu mô hình kinh doanh là “chúng tôi biết nếu yêu cầu người dùng chủ động đồng ý thì sẽ không thu đủ dữ liệu, nên sẽ đưa hết mọi người vào”, thì có lẽ đã đến lúc nghĩ lại rồi
- Không có cái gọi là opt-in mặc định. Đây là kiểu lựa chọn chỉ những công ty có thị phần lớn hơn rất nhiều và khách hàng khó rời bỏ mới dám làm khi muốn tự đốt thiện cảm của khách hàng
  Thà giảm giá cho những người đồng ý còn hơn
- Cách phòng thủ kiểu “chúng tôi coi trọng sự minh bạch” trông khá tệ. Minh bạch thông báo thì tốt đấy, nhưng tôi không muốn hệ thống phân tích của mình đi viết code
  Đã có nhiều bên đi trước làm việc đó tốt hơn rồi, tôi thà nối những bên đó vào phân tích của PostHog hơn
- Điều quan trọng là tiêu chuẩn ẩn danh hóa mà họ nói trong câu “chúng tôi sẽ ẩn danh toàn bộ dữ liệu trước khi huấn luyện” thực sự là gì. Nếu theo tiêu chuẩn GDPR thì ngưỡng đó rất cao
  Cũng cần xem liệu câu “ngoài ra, người dùng US cloud instance mặc định sẽ được đưa vào” có bao gồm cả người dùng cuối ở EU hay không. Vì dữ liệu cá nhân được thu trực tiếp từ chủ thể dữ liệu nên nghĩa vụ thông báo theo Điều 13 của GDPR sẽ được áp dụng
  Thiếu Điều 13 thì không thể sửa hồi tố về sau. Phải chứng minh được rằng mọi khách hàng đều đã cung cấp thông báo Điều 13 đầy đủ bao quát hoạt động xử lý này. Và gần như chắc chắn nó cũng sẽ thuộc phạm vi 3(2)(b)
Đây đúng là lời nhắc tuyệt vời rằng tôi nên tự xây công cụ phân tích của mình và tự host nó. PostHog đã mất một khách hàng
Chỉ cần gửi email cho từng khách hàng để hỏi họ có muốn hay không lẽ ra đã rất dễ, nên kiểu giả định này cho thấy họ chẳng có cảm nhận sản phẩm gì với cả khách hàng của họ lẫn khách hàng của khách hàng. Tạm biệt
- Không phải mỉa mai đâu, nhưng tôi tò mò tại sao thay vì “vibe coding” để tự làm hẳn một nền tảng phân tích thì bạn không đơn giản opt-out?
  Việc dùng dữ liệu của tôi để huấn luyện AI làm tôi khó chịu, nhưng cốt lõi của mối lo là dữ liệu đi đâu và liệu tôi có được thông báo, có nhận thức về chuyện đó hay không. Ở đây PostHog đang đưa ra câu trả lời khá ổn cho những câu hỏi đó
Tôi đã lưỡng lự chuyện chuyển sang trong vài tháng qua, nhưng các sản phẩm AI mới và UI kỳ quặc cứ liên tục làm tôi khó chịu. Đây là giọt nước tràn ly
Tôi cho rằng opt-in là một mô hình kinh doanh khủng khiếp
- Đồng ý. Nó chưa đủ làm tôi bận tâm đến mức gỡ khỏi sản phẩm hiện có, nhưng tôi chắc chắn sẽ không bao giờ thêm nó vào sản phẩm mới
  Tôi còn nhớ trước đây mọi người từng tung hô màn redesign web “OS”. Đó là thứ làm UX rối rắm và không cần thiết nhất khi tôi phải tìm session replay để debug. Sau đó họ mới thêm điều hướng ở góc trên bên phải
“Opt-in mặc định” rốt cuộc chẳng phải là opt-out sao?
- Opt có nghĩa là lựa chọn hoặc chọn một phương án thay thế. Họ либо bất tài, либо cố tình nói dối
Giờ chuyện này đã khá rõ, nhưng phải nói về kiểu công ty mang không khí “sự láu cá kiểu SF”
Những thứ như redesign OS, “văn bản pháp lý sexy”, email có tiêu đề kỳ quặc, hay shop bán đồ lưu niệm với mô hình action figure của CEO
Khi nó giúp tăng mức độ chấp nhận bằng những động thái thân thiện với người dùng thì có thể là một điểm cộng. Nhưng khi công ty đưa ra quyết định đi ngược người dùng để đẩy tăng trưởng doanh thu thì nó thành kiểu xúc phạm chồng thêm xúc phạm
Tôi không định nói rộng theo kiểu công nghệ thì không được vui, nhưng nếu thông điệp không khớp với quyết định của lãnh đạo thì sẽ rất tai hại
- Khởi đầu của họ từng rất tốt. Một công cụ phân tích hướng tới nhà phát triển và mới mẻ so với đối thủ
  Nhưng có vẻ điều tốt đẹp nào rồi cũng kết thúc, nhất là với công ty. Trong 2 năm qua họ đã đi theo một hướng hoàn toàn kỳ quặc, và AI khiến mọi thứ còn tệ hơn
  Có lẽ lại phải quay về đào bới các dự án mã nguồn mở thôi
Lập luận là: “Tại sao là opt-out chứ không phải opt-in? Nói ngắn gọn, vì nếu không thì sẽ không có đủ dữ liệu để huấn luyện các mô hình thực sự hữu ích”
Nếu bảo mọi người trực tiếp đồng ý giao dữ liệu cho thêm một AI disservice nữa mà họ lại không muốn, thì đúng là lạ thật
Nếu cách duy nhất để lấy dữ liệu là “cứ giả định có thể lấy, rồi bắt họ phải bảo mình dừng lại”, thì tôi tự hỏi điều đó nói lên điều gì. Chắc là một bí ẩn không ai giải nổi
Đây nên là bài học về giao tiếp tồi. Không làm rõ là đang huấn luyện cái gì là một sai lầm lớn
Thông báo lần này phơi bày rất rõ mặt trái trong triết lý thương hiệu phô trương đến mức ngượng ngùng của PostHog
Mỗi ngày tôi lại càng thấy biết ơn khung pháp lý của EU hơn. Giờ tôi chỉ có thể nói vậy thôi
- Bản thân khung pháp lý đó có thể bảo vệ được về mặt đạo đức. Nhưng nhìn toàn bộ hệ thống thì có một điều thú vị xảy ra
  Luật EU đang ngăn các chiến thuật trích xuất dữ liệu và khóa chặt nền tảng mà Big Tech từng dùng để trở thành độc quyền
  Nhưng các nền tảng lớn không phải trả lại lợi thế mà họ đã giành được, cũng không phải hoàn trả cho những cách làm giờ đã bị hạn chế và bị coi là bất hợp pháp. Thế nên họ có thể âm thầm tiếp tục rút địa tô từ vị thế đã được củng cố lâu hơn, còn mọi bên khác thì không được phép dùng cái thang mà họ đã leo lên
- Bạn chỉ thấy vậy cho đến khi nhìn vào tốc độ tăng trưởng kinh tế của châu Âu và Mỹ kể từ năm 2008

Huấn luyện mô hình AI riêng

Kế hoạch huấn luyện mô hình AI riêng của PostHog

Những tính năng họ muốn xây dựng

Phân tích session replay

Kiểm thử người dùng tổng hợp

Dự đoán hành vi người dùng

Cách thức hoạt động và nguyên tắc sử dụng dữ liệu

Cách áp dụng mặc định

Xử lý dữ liệu và các giới hạn

Opt-out

Kế hoạch truyền thông

Vì sao là opt-out chứ không phải opt-in

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News