- Tác giả gia nhập vào tháng 5/2024, làm việc tại OpenAI hơn 1 năm rồi rời đi, và mô tả thẳng thắn về văn hóa nội bộ và bầu không khí làm việc thực tế
- Trong bối cảnh tăng trưởng siêu tốc (1.000 người → 3.000 người), quy trình nội bộ, tổ chức, văn hóa và cách làm việc thay đổi rất nhanh
- Văn hóa bottom-up/trọng thực lực, mô hình cộng tác xoay quanh Slack rất đặc trưng, năng lực thực thi cao, sự hiện diện rõ ràng của lãnh đạo, khả năng đổi hướng nhanh, và thái độ 'code là câu trả lời' đã thấm vào khắp tổ chức
- Văn hóa chi tiết theo từng nhóm, tốc độ làm việc và độ linh hoạt tổ chức rất mạnh; các nhà nghiên cứu có quyền tự chủ kiểu 'nhà quản lý thu nhỏ', còn các dự án trùng lặp và thử nghiệm ý tưởng nội bộ diễn ra thường xuyên
- OpenAI được mô tả là một tổ chức đầy tham vọng và nghiêm túc, đồng thời chịu sự giám sát tập trung của truyền thông và bên ngoài, có tính bảo mật/bí mật thực chất, và mang song song cảm giác sứ mệnh lẫn căng thẳng xoay quanh AGI và dịch vụ tiêu dùng
Mở đầu và bối cảnh cá nhân
- Tác giả gia nhập vào tháng 5/2024 và gần đây đã rời OpenAI
- Qua bài viết này, tác giả muốn chia sẻ văn hóa thực tế mà mình cảm nhận tại OpenAI cùng góc nhìn cá nhân
- Không tiết lộ bí mật nội bộ; đây là ghi chép về diện mạo hiện tại của một tổ chức thú vị về mặt lịch sử, cùng trải nghiệm với tư cách một cửa sổ nhỏ từ phía nhân viên
- Quyết định nghỉ việc có kèm mâu thuẫn cá nhân, nhưng cũng xuất phát từ khát khao tìm lại cảm giác mới mẻ khi chuyển từ nhà sáng lập startup sang nhân sự của một tổ chức lớn
- Trải nghiệm tham gia xây dựng AGI và trực tiếp đóng góp vào việc ra mắt Codex là điều vô cùng ý nghĩa
Văn hóa tổ chức
- Gia nhập khi công ty có 1.000 người, và chỉ 1 năm sau đã vượt 3.000 người, tức tăng trưởng nhanh bất thường
- Việc mở rộng quá nhanh gây ra nhiều vấn đề trong giao tiếp, hệ thống báo cáo, phát hành sản phẩm và quản lý tổ chức
- Mọi giao tiếp và công việc đều xoay quanh Slack, gần như không dùng email
- Mỗi nhóm có văn hóa/tốc độ rất khác nhau; nhịp vận hành của nghiên cứu, ứng dụng, GTM(Go-To-Market) cũng khác nhau
- Bottom-up thực chất và trọng thực lực rất mạnh; từng nhà nghiên cứu và kỹ sư chủ động dẫn dắt thử nghiệm và ra quyết định
- Với văn hóa tổ chức dựa trên thành quả, ưu tiên năng lực, năng lực thực thi và ý tưởng quan trọng hơn kỹ năng chính trị
- Không có roadmap chính thức; có xu hướng các nhóm tự nhiên tập hợp quanh ý tưởng hay và đổi hướng rất nhanh
- Lãnh đạo coi trọng khả năng thực thi (doing the right thing) và sự linh hoạt trước thay đổi
- Bên trong có rất nhiều phát triển trùng lặp/thử nghiệm song song, nhiều prototype hình thành tự phát, và đây là một tổ chức nơi code vận hành mọi thứ
- Các lãnh đạo đánh giá cao khả năng hiện thực hóa ý tưởng hơn là năng lực chính trị
- Các nhà nghiên cứu lao vào giải quyết vấn đề một cách chủ động, như những "ban điều hành thu nhỏ"
- Ảnh hưởng của các quản lý nghiên cứu giỏi và PM là rất lớn
- Các EM của ChatGPT rất đáng tin cậy, tuyển được người giỏi và trao cho họ quyền tự chủ
- Tốc độ đổi hướng rất nhanh, đã quyết là làm ngay
Cách làm việc và bầu không khí
- Cấu trúc kênh Slack và quyền hạn khá phức tạp, và mọi giao tiếp đều diễn ra trên Slack
- Các vai trò như nhóm nghiên cứu/PM/EM(Engineering Manager) có cách làm khác nhau, nhưng độ linh hoạt trong việc di chuyển giữa nhóm và cộng tác xuyên nhóm rất cao
- Rất nhạy cảm với bảo mật bên ngoài và phơi lộ với truyền thông, nên thông tin nội bộ như kết quả kinh doanh/doanh thu được quản lý chặt chẽ
- Các thành viên thực sự có động lực làm điều đúng đắn, không hoài nghi/cynical như bên ngoài thường nghĩ
- OpenAI được ví như một tổ chức lai giữa 'Los Alamos (phòng nghiên cứu hạt nhân) + dịch vụ tiêu dùng siêu quy mô lớn', nơi nhiều tiểu văn hóa cùng tồn tại
- OpenAI coi trọng phân phối rộng rãi lợi ích của AI; ngay cả các mô hình tiên tiến nhất cũng không chỉ giới hạn cho enterprise mà được công khai để ai cũng dùng được qua API/ChatGPT
An toàn và chính sách nội bộ
- Các vấn đề an toàn AI thực sự được đầu tư nhiều nhân lực và tài nguyên ở bên trong
- Trên thực tế, họ xử lý nhiều hơn các rủi ro thực tế như phát ngôn thù ghét, lạm dụng, thiên kiến chính trị, prompt injection, tự gây hại và thiệt hại liên quan
- Các rủi ro mang tính lý thuyết (bùng nổ trí tuệ, power-seeking) do một số người chuyên trách, nhưng không phải dòng chính
- Phần lớn nghiên cứu hay hệ thống liên quan đến an toàn không được công khai ra bên ngoài
Môi trường phát triển và công nghệ
- Mono-repo khổng lồ và chủ yếu dùng Python, có đưa vào một phần Rust/Golang, gần như không cưỡng chế style guide
- Cùng tồn tại cả hệ thống quy mô lớn do các cựu binh từ Google thiết kế lẫn Jupyter notebook do các tiến sĩ mới viết
- API chủ yếu xoay quanh FastAPI, và việc dùng Pydantic để kiểm tra dữ liệu khá nổi bật
- Toàn bộ hạ tầng đều chạy trên Azure
- Các dịch vụ thực sự đáng tin cậy chỉ giới hạn ở Azure Kubernetes Service, CosmosDB, BlobStore
- Mức IAM và một số dịch vụ còn thua AWS, nên có xu hướng tự phát triển nội bộ
- Làn sóng lớn kỹ sư từ Meta (trước đây là Facebook) đổ vào
- Cảm quan hạ tầng và codebase khá giống Meta/Instagram giai đoạn đầu
- Ví dụ: thường xuyên tự xây hệ thống như tái triển khai TAO, hợp nhất hệ thống xác thực
- Tác giả cảm nhận rõ những vấn đề cố hữu của một tổ chức tăng trưởng nóng như code trùng lặp, thư viện quản lý tool/queue, vận hành backend(monolith) quy mô lớn; cũng tồn tại vấn đề về tốc độ/độ ổn định của CI
- Cấu trúc tin nhắn và hội thoại chat được nhúng rất sâu trong code, và được tái sử dụng lặp đi lặp lại giữa các sản phẩm
- 'Code wins': không có ủy ban hoạch định trung tâm; code của nhóm thực sự làm ra sản phẩm sẽ trở thành chuẩn
- Quyền ra quyết định nằm ở chính nhóm trực tiếp làm việc đó, tạo nên một cơ chế ưu tiên năng lực và thực thi thông qua code
Góc nhìn về thương hiệu tiêu dùng và kinh doanh
- Quy mô khổng lồ của thương hiệu Consumer: các chỉ số cốt lõi được vận hành không theo đơn vị nhóm mà theo thuê bao người dùng cá nhân
- Tăng trưởng sản phẩm và lưu lượng được đo theo đơn vị tiêu dùng như 'số người đăng ký Pro', là một cú sốc mới mẻ với tác giả vốn đến từ tổ chức B2B
- Huấn luyện mô hình và thử nghiệm bắt đầu ở quy mô nhỏ, rồi khi thành công mới mở rộng bằng kỹ thuật hệ phân tán quy mô lớn
- Chi phí GPU chiếm tỷ trọng áp đảo, đến cả tính năng nhỏ cũng cần lượng tài nguyên GPU khổng lồ
- Ước tính mức sử dụng GPU và benchmark: được tính ngược từ tiêu chuẩn trải nghiệm người dùng như độ trễ yêu cầu/số token cần đáp ứng
- Kinh nghiệm vận hành codebase Python quy mô lớn: khi số lượng lập trình viên tăng lên, cần nhiều guardrail khác nhau như đảm bảo chạy mặc định, test, ngăn dùng sai
Vận hành nhóm và lãnh đạo
- Lãnh đạo hiện diện rất rõ và tham gia trực tiếp, mọi lãnh đạo cấp cao đều thường xuyên tham gia thảo luận trên Slack
- Di chuyển nhóm và cộng tác rất nhanh, khi nhóm khác cần hỗ trợ thì lập tức có quân tiếp viện, không phải chờ đợi hay qua thủ tục
- Swag nội bộ cũng hiếm, và chỉ được cung cấp dưới dạng bán giới hạn trong nội bộ
Trải nghiệm ra mắt Codex
- Trong 3 tháng gần đây, việc ra mắt Codex là đỉnh cao sự nghiệp của tác giả
- Tháng 11/2024 đặt mục tiêu phát hành coding agent trong năm 2025, đến khoảng tháng 2/2025 thì công cụ nội bộ đã hoàn thiện và tác giả cảm nhận được áp lực từ tốc độ cạnh tranh của thị trường
- Để ra mắt Codex, các nhóm đã hợp lại và hoàn thiện, phát hành sản phẩm hoàn chỉnh (coding agent) chỉ trong 7 tuần, nhanh chóng hiện thực hóa một sản phẩm có sức ảnh hưởng trong thời gian phát triển rất ngắn
- Thực tế là đã thức đêm, làm cuối tuần, vừa chăm con sơ sinh, như tái hiện lại cảm giác thời YC
- Nhiều tính năng được triển khai rất nhanh như container runtime, tối ưu repo, custom model fine-tuning, tích hợp git, truy cập Internet
- Nhóm gồm 8 kỹ sư senior, 4 nhà nghiên cứu, 2 designer, 2 GTM, 1 PM, tức một đội tinh nhuệ quy mô nhỏ thiên về nhân sự kỳ cựu
- Ngay trước ngày ra mắt, cả nhóm tập trung hoàn tất các việc cuối như tự tay triển khai
- Ngày ra mắt, lưu lượng bùng nổ; chỉ cần xuất hiện trên sidebar của ChatGPT là lập tức có dòng người dùng đổ vào rất lớn
- Codex áp dụng mô hình agent bất đồng bộ (tin nhắn người dùng-agent → xử lý công việc → trả về kết quả PR)
- Nó xử lý yêu cầu người dùng trong một môi trường thực thi độc lập rồi trả về kết quả PR như một cộng tác viên
- Hiện vẫn đan xen cả độ tin cậy lẫn giới hạn của năng lực mô hình
- Codex có khác biệt ở khả năng thực thi đa tác vụ và hiểu codebase lớn
- Chỉ sau 53 ngày ra mắt đã tạo ra 630.000 PR, tương đương hơn 78.000 PR cho mỗi kỹ sư, tạo ra tác động áp đảo
Kết lại và bài học
- Tác giả từng sợ làm việc trong một tổ chức lớn, nhưng nhìn lại thì đó là một trong những quyết định tốt nhất, mang lại cơ hội học hỏi và trưởng thành
- Những mục tiêu đặt ra như trực giác về huấn luyện mô hình, cộng tác với đồng nghiệp xuất sắc, và ra mắt sản phẩm có tác động đều đã đạt được
- Tác giả đã học được kinh nghiệm quản lý codebase Python quy mô lớn, và trực tiếp trải nghiệm benchmark GPU/ước tính dung lượng trong thực chiến
- Nếu là nhà sáng lập startup hoặc đang cân nhắc hướng đi sự nghiệp, thì đây là thời điểm đáng để chủ động thử sức hơn hoặc cân nhắc gia nhập một phòng nghiên cứu lớn
- Cuộc đua hướng tới AGI giống như ba con ngựa, tức OpenAI, Anthropic, Google, mỗi bên theo đuổi một cách tiếp cận khác nhau; trải nghiệm làm việc ở một trong số đó sẽ mở rộng tầm nhìn
- Tác giả đánh giá trải nghiệm ở OpenAI là một trong những lựa chọn tốt nhất với tư cách doanh nhân và kỹ sư
2 bình luận
Bài viết này về https://vi.news.hada.io/topic?id=21081 vẫn còn đọng lại trong tôi.
Ý kiến Hacker News
Không thường thấy người đã nghỉ việc mô tả trải nghiệm làm việc của mình theo hướng tích cực; điều này không hẳn vì OpenAI đặc biệt, mà đúng hơn là phần lớn các bài kiểu “vì sao tôi rời công ty” thực chất có xu hướng đổ lỗi cho tổ chức cho việc cá nhân không phù hợp với tổ chức đó. Đằng sau cách diễn đạt “cực kỳ bottom-up đến khó tin” trong bài này có thể là việc không có roadmap rõ ràng và cũng không có dự án nào thực sự thuộc sở hữu của từng người, khiến một số người mất phương hướng. Ngoài ra, “định hướng hành động” và “xoay trục ngay lập tức” cũng có thể đồng nghĩa với môi trường hỗn loạn và ban điều hành thiếu nhất quán. Và câu “OpenAI thực sự có nhiều người tử tế” thì cũng đúng với hầu hết các công ty đưa ra những quyết định có tính đạo đức phức tạp; ai cũng xem mình là người tốt và hợp lý hóa mọi thứ bằng mục tiêu lớn cùng chính nghĩa của mình
Những điểm gây ấn tượng trong bài này là như sau
Đoạn nói rằng cuộc chạy marathon phát triển Codex là công việc vất vả nhất trong 10 năm qua rất đáng chú ý; hầu hết đều làm đến 11 giờ đêm~nửa đêm, 5 giờ rưỡi sáng thì chăm em bé sơ sinh, rồi 7 giờ lại đến văn phòng. Trong bầu không khí ngành mà các dự án quy mô lớn hoàn thành chỉ trong vài tuần đến vài tháng, tôi nghi ngờ liệu kiểu làm việc như vậy có bền vững lâu dài với nhân viên hay không
Điều tôi thực sự tò mò là liệu OpenAI hay các phòng lab AI khác có thực sự dùng LLM như nền tảng cốt lõi cho vận hành nội bộ hay không; tôi rất muốn biết họ có đầu tư tiền bạc và năng lực thực sự vào việc dùng nó cho công việc như phát triển mã, tùy biến mô hình nội bộ, tổng hợp thông tin mới nhất hay không, nhưng tiếc là bài viết không đề cập
Khiến các kỹ sư mang cảm giác rằng họ đang tạo ra “thần” là chiến lược marketing ở đẳng cấp cao nhất. Cá nhân tôi không tin điều đó là thật, nhưng ý tưởng này có cấu trúc gần như miễn nhiễm với chỉ trích: lúc nào cũng có thể phản bác bằng câu hỏi “nếu nó là thật thì sao?”, và vì lợi ích tiềm năng là vô hạn nên dù xác suất nhỏ đến đâu cũng khó bỏ qua. Dù chỉ 0.00001%, khi nhân với phần thưởng vô hạn thì giá trị kỳ vọng cũng thành vô hạn. Đúng là marketing đỉnh cao
Điều tôi muốn biết nhất là bên trong OpenAI, LLM thực sự được dùng tới mức nào và theo cách nào trong việc xây dựng sản phẩm
Dù là công ty tăng trưởng nhanh đến vậy, việc OpenAI vẫn thiếu technical writer vẫn khiến tôi ngạc nhiên. Họ chỉ nói tài liệu có thể được cải thiện, nhưng nếu so với mức độ tài liệu hóa của Anthropic thì thật khó tìm được đồng nghiệp technical writer ở OpenAI. Muốn làm ra công cụ tốt cho nhà phát triển thì tài liệu xuất sắc là bắt buộc, và nhất định phải có một đội ngũ chuyên trách để xây dựng và nâng cấp nó
Bài này có cực nhiều thông tin thú vị mà tôi thật sự mới nghe lần đầu; đáng để bỏ thời gian đọc
Về ý kiến của tác giả rằng “an toàn được coi trọng hơn mọi người nghĩ”, xét đến việc nhiều lãnh đạo nhóm an toàn của OpenAI đã nghỉ việc hoặc bị sa thải, dự án Superalignment thất bại, và nhiều nhân viên khác từng nhắc đến việc thiếu hỗ trợ cho các vấn đề an toàn, thì phát biểu này có vẻ xa rời thực tế hoặc cố ý gây hiểu lầm
Câu “phần lớn nghiên cứu bắt đầu khi nhà nghiên cứu bị một vấn đề cụ thể ám ảnh” rất thú vị; nếu chẩn đoán này đúng thì tôi nghĩ đó có thể là gót chân Achilles của công ty