Cuộc cách mạng AI của Google: 2 năm chiến đấu để bắt kịp OpenAI

(wired.com)

35 điểm bởi GN⁺ 2025-03-28 | 4 bình luận | Chia sẻ qua WhatsApp

Khởi đầu khủng hoảng của Google khi bị tụt lại trong cuộc cách mạng chatbot

Tháng 12 năm 2022, Sissie Hsiao được giao nhiệm vụ phát triển một sản phẩm cạnh tranh với ChatGPT của Google trong vòng 100 ngày
Hsiao là một cựu binh đã làm việc hơn 16 năm và từng dẫn dắt hàng nghìn người, nhưng đây là lần đầu cô đối mặt với một tình huống khủng hoảng nghiêm trọng đến vậy
Sau khi OpenAI công bố ChatGPT, số người dùng đã nhanh chóng tăng lên hơn 1 triệu, bất chấp các lỗi sai thực tế và sai sót toán học
Một số người bắt đầu xem ChatGPT là phương án thay thế cho Google Search, và điều đó trở thành mối đe dọa với nguồn doanh thu lớn nhất của Google
Google sở hữu mô hình ngôn ngữ LaMDA của riêng mình, nhưng quyền truy cập công khai bị hạn chế, và ngay cả nội dung trình diễn cũng chỉ xoay quanh “câu chuyện về chó con”
Phố Wall (thị trường tài chính) trở nên bất an; trước đó CEO Sundar Pichai từng tuyên bố kỷ nguyên “AI-first” và nói rằng trợ lý thông minh sẽ thay thế thiết bị, nhưng thực tế lại không đạt kỳ vọng
Chính 8 nhà nghiên cứu của Google đã tạo ra kiến trúc Transformer, nhưng họ либо đã rời công ty hoặc ra đi mà không để lại thành quả
Google Assistant do Hsiao quản lý chỉ chủ yếu được dùng để đặt hẹn giờ hoặc phát nhạc
Tất cả những gì Google có chỉ là một chatbot chưa hoàn thiện cung cấp gợi ý nấu ăn và câu đố lịch sử cho thế hệ Gen Z
Đến cuối năm 2022, cổ phiếu Alphabet đã giảm 39% so với năm trước, làm lung lay vị thế của Google như một công ty dẫn đầu về AI

Ứng phó với khủng hoảng AI của Google và chuyển hướng chiến lược

Đầu năm 2023, hội đồng quản trị Google yêu cầu báo cáo theo thời gian thực về AI
- Sergey Brin, đồng sáng lập và cổ đông lớn, cũng trực tiếp tham gia rà soát chiến lược
- Một thông điệp được gửi tới nhân viên là: “Hãy hành động như một startup”
Trước đây, rất nhiều nhân viên có thể phản đối sản phẩm nhưng không có quyền phê duyệt, đó là một phần của văn hóa công ty
Giờ đây, Google đang chuyển sang một văn hóa chấp nhận rủi ro lớn hơn và hành động nhanh hơn
Khi bắt đầu dự án 100 ngày, Sissie Hsiao đưa ra cho nhóm một nguyên tắc khác lạ:
“Chất lượng hơn tốc độ, nhưng phải nhanh (Quality over speed, but fast)”
Một lãnh đạo cấp cao khác, James Manyika, đóng vai trò thay đổi tận gốc chiến lược AI
- Ông là tiến sĩ robot học tốt nghiệp Oxford, từng là cố vấn tại McKinsey và gia nhập Google năm 2022
- Ông đề xuất với Pichai về việc hợp nhất DeepMind và Google Brain
DeepMind (ở London, do Demis Hassabis điều hành) và Google Brain (ở Mountain View, thuộc phạm vi phụ trách của Jeff Dean) vận hành riêng rẽ và tiêu tốn tài nguyên kém hiệu quả
- Sau khi OpenAI ra mắt sản phẩm, ba lãnh đạo đã đề xuất kế hoạch hợp nhất lên hội đồng quản trị
- Hassabis đề xuất tên dự án là ‘Titan’, nhưng bị từ chối, và cái tên ‘Gemini’ do Jeff Dean đề xuất đã được chốt
Sau đó, Manyika nhắc đến việc Google đã đưa ra những lựa chọn táo bạo và có trách nhiệm
- Nhưng ông cũng thừa nhận rằng “không phải lúc nào chúng tôi cũng đưa ra lựa chọn đúng”
- Trong bối cảnh cấp bách, nỗi lo “Google có thể trở thành Yahoo” thậm chí còn lan rộng trong nội bộ nhân viên
- Hsiao mô tả thời điểm đó là cảm giác “chạy nước rút trong một cuộc marathon”
Tuy nhiên, sau 2 năm, cổ phiếu Alphabet hiện đã lập đỉnh cao nhất lịch sử
- Các nhà đầu tư đang thể hiện cái nhìn lạc quan về sự phục hồi năng lực cạnh tranh AI của Google
WIRED đánh giá giai đoạn này là thời kỳ hỗn loạn nhất và có biến đổi văn hóa lớn nhất trong lịch sử Google
- Họ đã phỏng vấn hơn 50 nhân sự hiện tại và trước đây, gồm kỹ sư, marketing, pháp lý, chuyên gia an toàn và nhiều vị trí khác
- Bài viết này lần đầu soi chiếu chi tiết sự thay đổi của Google thông qua lời kể của các lãnh đạo cấp cao

Phát triển Bard: ưu tiên toàn công ty và dồn lực tài nguyên

Để đối phó với ChatGPT, Google khởi động một dự án chatbot mới với mật danh Bard
Sissie Hsiao đã đích thân điều động khoảng 100 nhân sự tinh nhuệ từ khắp Google
- Các quản lý không thể phản đối, và dự án Bard là ưu tiên số một
Hsiao lựa chọn những người có năng lực kỹ thuật, trí tuệ cảm xúc và tầm nhìn tổng thể
Phần lớn được bố trí tại Mountain View, California, và làm việc linh hoạt không câu nệ vai trò
- Cô nhấn mạnh triết lý: “Team Bard là đội đảm nhận mọi vai trò”
Tháng 1 năm 2023, Google công bố đợt sa thải quy mô lớn đầu tiên trong lịch sử: khoảng 12.000 người, tương đương 7% tổng nhân sự
Một số nhân viên bị ám ảnh bởi nỗi sợ có thể bị sa thải nếu không làm đêm hoặc nhận thêm việc
- Nhiều người thậm chí từ bỏ thời gian đưa con đi ngủ để tham gia các cuộc họp buổi tối
Bard được xây dựng dựa trên LaMDA hiện có, nhưng cần cập nhật tri thức và bổ sung các cơ chế an toàn mới
- Nhóm hạ tầng đã điều chuyển những kỹ sư giỏi nhất để tập trung bảo đảm máy chủ và tinh chỉnh hệ thống
- Các trung tâm dữ liệu gần chạm ngưỡng tiêu thụ điện tối đa, dẫn đến nguy cơ thiết bị quá nhiệt
- Vì vậy, một công cụ quản lý mới để xử lý nhu cầu điện năng an toàn hơn cũng được phát triển gấp rút
Để giảm bớt căng thẳng, sự hài hước cũng xuất hiện
- Một thành viên đã làm chip poker tùy chỉnh, khắc tên một loại chip cụ thể rồi chất lên bàn làm việc của các kỹ sư để đùa rằng “Nào, lấy chip đi”
Trong vài tuần đầu, Bard lặp lại các vấn đề cũ dù đã được tăng cường tài nguyên tính toán
- Giống ChatGPT, Bard cũng thường tạo ra ảo giác (hallucination) và các phản hồi không phù hợp hoặc gây khó chịu
- Ở phiên bản đầu, các định kiến chủng tộc nghiêm trọng đến mức lố bịch xuất hiện thường xuyên
  - Khi nhập tên gốc Ấn Độ, Bard thường mô tả họ là “diễn viên Bollywood”, còn tên nam giới gốc Hoa thì là “nhà khoa học máy tính”
- Theo một cựu nhân viên, phản hồi của Bard “không nguy hiểm, nhưng đơn giản là ngu ngốc”
- Một số nhân viên chia sẻ ảnh chụp màn hình các câu trả lời kỳ quặc của Bard để làm trò cười
  - Ví dụ: khi yêu cầu “một bài rap theo phong cách Three 6 Mafia về việc vứt pin ô tô xuống biển”, Bard còn tạo ra cả nội dung trói người vào cục pin rồi dìm xuống biển
Ngoài việc sửa được càng nhiều lỗi càng tốt trong 100 ngày đã định, Google gần như không còn lựa chọn nào khác
- Ngay cả nhân sự hợp đồng bên ngoài vốn phụ trách phát hiện hình ảnh lạm dụng trẻ em cũng được đưa vào thử nghiệm Bard
- Pichai yêu cầu mọi nhân viên có thời gian rảnh thử nghiệm Bard, và kết quả là khoảng 80.000 người đã tham gia
Quảng cáo
Hsiao và ban lãnh đạo hiểu rằng không thể ngăn hoàn toàn các sai sót của Bard, nên đóng gói sản phẩm như một ‘thử nghiệm’ (Experiment)
- Cách làm này tương tự chiến lược OpenAI từng dùng khi giới thiệu ChatGPT là một ‘research preview’
- Bằng cách nhấn mạnh với người dùng và bên đánh giá bên ngoài rằng đây không phải sản phẩm hoàn thiện, họ cố giảm thiểu rủi ro tổn hại thương hiệu
- Chiến lược này là một cách né tránh rủi ro đã được ngành công nghệ nhận thức rộng rãi sau vụ chatbot Twitter Tay của Microsoft phát ngôn kiểu phát xít

Quá trình ra mắt Bard và sai lầm chí mạng

Trước đây, trước khi Google ra mắt sản phẩm AI, 'nhóm đổi mới có trách nhiệm' sẽ mất nhiều tháng để rà soát thiên lệch và lỗi
- Với Bard, do áp lực tiến độ nên quy trình rà soát đã bị cắt giảm đáng kể
- Giám đốc pháp lý Kent Walker chủ trương phát hành nhanh
- Các mô hình và tính năng mới xuất hiện quá nhanh khiến nhóm đánh giá không thể theo kịp dù phải làm đêm và cuối tuần
Đã có cảnh báo yêu cầu trì hoãn việc phát hành Bard, nhưng bị phớt lờ hoặc vô hiệu hóa
- Về việc này, Google nói với WIRED rằng “không có nhóm nào chính thức khuyến nghị phản đối việc phát hành”
  - Công ty giải thích rằng nhiều nhóm đã tham gia thử nghiệm và không có cấu trúc trong đó một nhóm cụ thể chịu trách nhiệm hoàn toàn
Vào tháng 2/2023, khi dự án 100 ngày đã đi được khoảng 2/3 chặng đường, Google nhận được thông tin rằng ChatGPT sắp được tích hợp vào công cụ tìm kiếm Bing
Dù thị phần tìm kiếm vẫn áp đảo, Google xem việc thiếu các tính năng AI tạo sinh là mối đe dọa dài hạn
Để tránh giá cổ phiếu sụt giảm, vào ngày 6/2, tức một ngày trước thông báo của Microsoft, Pichai bất ngờ công bố mở thử nghiệm giới hạn cho Bard
Trong video marketing, Bard được mô tả là trợ lý AI kế thừa sứ mệnh “sắp xếp thông tin” của Google
Câu hỏi trong video: “Trong các khám phá mới của kính thiên văn vũ trụ James Webb, điều gì có thể giải thích cho một đứa trẻ 9 tuổi?”
- Câu trả lời của Bard: “JWST đã chụp bức ảnh đầu tiên về một hành tinh ngoài Hệ Mặt Trời”
Ngay sau đó, Reuters đưa tin về lỗi sai sự thật: bức ảnh đó không phải do kính thiên văn vũ trụ mà do kính thiên văn mặt đất (VLT) chụp
Cổ phiếu Alphabet giảm 9%, làm mất khoảng 100 tỷ USD vốn hóa thị trường
Nội bộ nhóm bị sốc
- Nhân viên marketing tạo ra câu hỏi đó tự trách mình, còn đồng nghiệp an ủi rằng “đội pháp lý và PR đều đã xem qua nhưng không ai nhận ra sai sót”
- Vì ChatGPT cũng thường mắc lỗi, họ không thể đoán rằng một hiểu nhầm nhỏ như vậy lại có thể ảnh hưởng lớn đến giá cổ phiếu
Xiao gọi đây là “một sai lầm ngây thơ”
- Bard xây dựng câu trả lời dựa trên kết quả tìm kiếm Google và có thể đã hiểu sai cách diễn đạt “bức ảnh đầu tiên” trong blog của NASA
- Ban lãnh đạo nhấn mạnh: “Không ai bị sa thải vì việc này. Nhưng chúng ta phải nhanh chóng rút ra bài học”
Xiao: “Chúng ta không phải startup mà là Google. Không thể xem đây chỉ là lỗi kỹ thuật. Chúng ta nhất định phải phản ứng có trách nhiệm”
Sự bất mãn từ bên ngoài nhóm Bard gia tăng
- Trên diễn đàn nội bộ Memegen xuất hiện bài đăng chỉ trích rằng “việc phát hành Bard và sa thải nhân sự đều vội vàng, hỏng việc và thiển cận”
- Một hình ảnh logo Google cháy trong thùng rác cũng được chia sẻ
Tuy nhiên, Google vẫn dồn thêm nhiều nguồn lực cho Bard
- Hàng trăm người được bổ sung, và trong tài liệu của nhóm biểu tượng ảnh đại diện của Pichai xuất hiện hằng ngày, cho thấy mức độ can dự trực tiếp

Sự xuất hiện của GPT-4 và khoảng cách công nghệ

Giữa tháng 3/2023, OpenAI phát hành GPT-4 gây thêm một cú sốc nữa trong nội bộ Google
- Một nhà nghiên cứu cấp cao nói: “Tôi thật sự há hốc mồm và cảm thấy cấp thiết rằng Google phải tăng tốc”
Một tuần sau đó, Bard chính thức ra mắt tại Mỹ và Anh
- Người dùng đánh giá nó hữu ích trong việc viết email, soạn thảo báo cáo và các tác vụ tương tự
- Nhưng ChatGPT cũng làm được những việc đó và còn tốt hơn, nên động lực để người dùng chuyển đổi là không lớn
Trên podcast Hard Fork, Pichai tự giễu rằng Google đã “mang một chiếc Civic được tinh chỉnh đi cạnh tranh với xe thể thao mạnh mẽ”
- Kết luận: “Chúng ta cần một động cơ tốt hơn”

Phát triển Gemini: sáp nhập DeepMind và Google Brain cùng xung đột văn hóa

Sự khác biệt giữa hai tổ chức nghiên cứu AI
- DeepMind được xếp vào nhóm 'Other Bets' của Alphabet và tập trung vào giải quyết các bài toán khoa học, toán học dài hạn
- Google Brain chủ yếu phát triển các công nghệ AI thực dụng mang tính thương mại, như tự động hoàn thành trong Gmail hay xử lý truy vấn tìm kiếm mơ hồ
Theo một cựu kỹ sư cấp cao:
- Google Brain đề cao tính tự chủ, còn Jeff Dean có phong cách “để mọi người tự làm”
- Trong khi đó, DeepMind vận hành như một đội quân rất đồng bộ, còn Demis Hassabis điều hành “một tổ chức hiệu suất cao dưới một chỉ huy duy nhất”
Dean là cựu binh trong nghiên cứu mạng nơ-ron, hoạt động từ những ngày đầu Google thành lập
Hassabis là nhà lãnh đạo theo tầm nhìn, mơ về việc chữa bệnh bằng AI và đang hình dung ra “các tác nhân AI có thể nhìn, nghe và giúp đỡ”
Sự ra đời của Google DeepMind (GDM)
- Tháng 4/2023, Google sáp nhập hai tổ chức để thành lập Google DeepMind (GDM)
  - Hassabis được bổ nhiệm làm CEO của tổ chức hợp nhất
  - Không khí nội bộ khi đó là: “mục tiêu đã sống lại”, “trò đùa đã kết thúc”
  Quảng cáo
- Để nhanh chóng xây dựng mô hình Gemini, cần hợp tác vượt qua 8 múi giờ
- Hàng trăm phòng chat được tạo ra, văn hóa làm việc xuyên đêm dần hình thành
  - Hassabis: “Mỗi ngày đều như cả một đời người”
- GDM chuyển đến Gradient Canopy ở Mountain View, một tòa nhà bảo mật cao
  - Công trình có dạng mái vòm, bao quanh bởi các tác phẩm điêu khắc nghệ thuật
  - Văn phòng CEO Pichai nằm cùng tầng
- Sergey Brin (đồng sáng lập Google) thường xuyên ghé thăm để động viên
- Nhân viên được yêu cầu tăng số ngày đến văn phòng, còn nhân viên Google thông thường không được vào tòa nhà này
- Ngay cả mã nguồn cốt lõi của GDM cũng không thể được các tổ chức khác truy cập
Khi dự án Gemini hút phần lớn nguồn lực của Google, các nhà nghiên cứu ở những lĩnh vực khác như y tế và biến đổi khí hậu phải vật lộn vì thiếu máy chủ
Các hạn chế về công bố bài báo cũng xuất hiện, làm mức độ bất mãn tăng lên vì bài báo là tài sản sự nghiệp quan trọng với các nhà nghiên cứu
- Google siết chặt hạn chế do lo ngại thông tin có thể rò rỉ sang OpenAI
- Công thức huấn luyện Gemini là tài sản cốt lõi cho sự sống còn của công ty
Gemini cũng đối mặt với những vấn đề tương tự Bard
Phó chủ tịch mảng machine learning và cloud AI của Google, Amin Vahdat:
- “Khi mở rộng lên gấp 10 lần, mọi thứ đều vỡ ra”
Trước ngày ra mắt, Vahdat lập war room chuyên trách, tập trung khắc phục bug và lỗi hệ thống

Kiểm tra cuối cùng trước khi ra mắt Gemini và những trăn trở đạo đức

Nhóm phát triển có trách nhiệm của Google DeepMind (GDM) đã dốc toàn lực vào khâu rà soát sản phẩm trước khi phát hành Gemini
- Mô hình rất mạnh, nhưng vẫn có những trường hợp tạo ra phản hồi kỳ lạ hoặc không phù hợp
Theo báo cáo công khai:
- Đặc biệt cần cải thiện ở các phản hồi liên quan đến tư vấn y tế và bắt nạt/quấy rối
- Khi nhận đầu vào là hình ảnh, mô hình có vấn đề suy luận vô căn cứ với các câu hỏi như “Người này học vấn đến đâu?”
Giám đốc đổi mới có trách nhiệm Dawn Bloxwich đánh giá rằng đây “không phải mức độ cần chặn phát hành”
- Tuy nhiên, không còn đủ thời gian để dự đoán những cách dùng sáng tạo (hoặc kỳ quặc) của công chúng
Ở thời điểm này, Google đã có thể giảm tốc, nhưng họ không làm vậy
- OpenAI đã trở thành “Kleenex của AI” và đang nhận được sự chú ý trên toàn cầu
- ChatGPT trở thành biểu tượng vừa của hy vọng công nghệ vừa của các vấn đề xã hội
- Người lao động cảm thấy công việc bị đe dọa, còn giới sáng tạo yêu cầu được bồi thường vì dữ liệu bị khai thác
- Phụ huynh nhận ra chatbot có thể truyền đạt nội dung không phù hợp cho con cái
- Trong giới nghiên cứu AI, người ta bàn về “p(doom)” — xác suất công nghệ sẽ đe dọa nhân loại
Nhà khoa học AI huyền thoại của Google Geoffrey Hinton đã rời công ty vào tháng 5/2023 vì lo ngại đạo đức
- Ông cảnh báo AI có thể đe dọa nhân loại bằng thông tin sai lệch và chất độc tinh vi
Hassabis cũng cảm thấy cần thêm thời gian, nhưng ông vẫn tiếp tục tiến về giấc mơ trợ lý AI vạn năng và chữa bệnh

Gemini được công bố và thành công ban đầu

Tháng 12 năm 2023, Google chính thức ra mắt Gemini
- Giá cổ phiếu tăng sau khi phát hành
- Vượt ChatGPT trong 30/32 bài kiểm tra tiêu chuẩn
- Phân tích bài nghiên cứu và video YouTube, tăng cường năng lực trả lời câu hỏi về toán học và pháp lý
Hassabis tổ chức một bữa tiệc ăn mừng nhỏ tại văn phòng London
- Ông nhớ lại: “Tôi không giỏi ăn mừng. Tôi luôn nghĩ về điều tiếp theo.”
Cùng tháng đó, Jeff Dean được mời vào một phòng chat mới tên là ‘Goldfish’ và biết được bước tiến công nghệ tiếp theo
- Cái tên là một trò đùa, nhưng nội dung thì ngược lại: phát triển một phiên bản Gemini có trí nhớ dài hơn
Thông qua xử lý phân tán trên mạng chip tốc độ cao, Gemini có thể phân tích hàng nghìn trang văn bản hoặc thậm chí cả một loạt phim truyền hình
- Công nghệ này được gọi là “long context”
Dean, Hassabis và Manica tìm cách tích hợp nó vào bộ sản phẩm AI của Google
Tính năng mà Manica muốn có đầu tiên là: tự động tóm tắt PDF dưới dạng podcast
- Ông nói với WIRED: “Rất khó để theo kịp tất cả các bài nghiên cứu đổ về arXiv mỗi tuần.”
Quảng cáo

Sự ổn định sau chuyển đổi sang Gemini và cuộc khủng hoảng mới

Một năm sau báo động đỏ, bầu không khí ở Google chuyển sang phục hồi
- Các nhà đầu tư bớt ồn ào hơn, còn Bard và LaMDA được hợp nhất dưới một thương hiệu duy nhất là “Gemini”
Nhóm của Sissie Hsiao thu hẹp khoảng cách với OpenAI bằng việc phát triển tính năng tạo ảnh từ văn bản
Một tính năng mới tên Gemini Live cũng đang được chuẩn bị
- Tính năng cho phép người dùng duy trì các cuộc trò chuyện dài như với bạn bè hoặc chuyên gia tư vấn
Nhờ mô hình Gemini mạnh hơn, ban lãnh đạo lấy lại sự tự tin
Ngay cả trong bầu không khí ổn định, CEO Pichai vẫn chỉ đạo tái cơ cấu bổ sung
- Doanh thu quảng cáo tăng nhưng không đạt kỳ vọng của Phố Wall
- Ngay cả các lãnh đạo phụ trách quyền riêng tư và tuân thủ cũng bị loại bỏ
  - Việc loại bỏ các nhân sự cấp cao phụ trách bảo vệ người dùng được diễn giải là thông điệp: “Lo ngại thì được phép, nhưng cản trở tiến độ thì không”
Bản thân công cụ tạo ảnh được xây khá dễ, nhưng khâu kiểm duyệt là một dạng lao động tay chân lặp đi lặp lại rất vất vả
- Cần viết các prompt lọc để ngăn xuất hiện phản hồi có vấn đề
Vì không phải mọi nhân viên đều có quyền truy cập vào bản thử nghiệm, nên gánh nặng quá mức dồn lên một nhóm nhỏ
- Ví dụ: với prompt “rapist”, tần suất tạo ra nhân vật da sẫm màu cao → dấy lên lo ngại về thiên kiến chủng tộc
- Vì vậy cũng có đề nghị nội bộ là không cho tạo ảnh người luôn, nhưng đã bị bác bỏ
Một cựu reviewer nhớ lại: “Bầu không khí khi đó là bằng mọi giá cũng phải phát hành”
- Một số người kiểm duyệt đã nghỉ việc vì lo ngại của họ không được chấp nhận
Tháng 2 năm 2024, công cụ tạo ảnh được phát hành chính thức trong ứng dụng Gemini
- Các vấn đề hình ảnh phân biệt chủng tộc và giới tính như dự đoán hầu như không xuất hiện, nhưng một vấn đề khác lại nảy sinh theo hướng ngược lại
Ví dụ: yêu cầu tạo hình ảnh “thượng nghị sĩ Mỹ thế kỷ 19” → tạo ra hình phụ nữ da màu, đàn ông gốc Á, phụ nữ bản địa
- Hoàn toàn không tạo ra đàn ông da trắng
Ví dụ còn gây sốc hơn: tạo binh lính Đức Quốc xã dưới dạng người da màu
Sau đó, các nghị sĩ Đảng Cộng hòa Mỹ và Elon Musk cùng nhiều người khác đã chỉ trích mạnh mẽ “woke AI” của Google
- Musk nêu đích danh một thành viên trong nhóm để tập trung công kích, khiến nhân viên đó đóng tài khoản mạng xã hội và lo ngại bị đe dọa an toàn cá nhân
Google dừng hoàn toàn tính năng tạo ảnh người, còn cổ phiếu Alphabet lại giảm thêm một lần nữa
Ngay sau tranh cãi, hàng chục lãnh đạo Google bắt đầu các cuộc trao đổi khẩn cấp
- Các phó chủ tịch và giám đốc bay tới London để họp trực tiếp với Hassabis
Kết quả:
- Cả nhóm của Hassabis (mô hình Gemini) và nhóm của Hsiao (ứng dụng Gemini) đều được phê duyệt tuyển dụng chuyên gia về độ tin cậy và an toàn
- Thành lập tổng cộng 15 vị trí mới liên quan đến ‘Trust & Safety’
Tại trụ sở Gradient Canopy, Sissie Hsiao đã cho nhóm đủ thời gian để xử lý vấn đề tạo ảnh
Cùng với James Manica, bà thiết lập lại các nguyên tắc công khai (public principles) cho Gemini
Các nguyên tắc này đều được viết bằng cách diễn đạt lấy người dùng làm trung tâm (“you”):
- Gemini “làm theo chỉ dẫn của bạn”
- “được điều chỉnh theo nhu cầu của bạn”
- “bảo vệ trải nghiệm của bạn”
Một trong những điểm nhấn cốt lõi là:
- “Câu trả lời của Gemini có thể không phản ánh lập trường hay niềm tin của Google”
- “Kết quả đầu ra của Gemini chủ yếu dựa trên những gì bạn yêu cầu—Gemini là thứ do bạn tạo ra”
Đây là một cơ chế lập luận giúp giảm thiểu trách nhiệm của Google nếu có vấn đề phát sinh sau này
Nhưng với các nguyên tắc như vậy, Google không nói rõ chính họ sẽ tự chịu trách nhiệm ra sao

Thử nghiệm podcast AI: Westminster Watch

Khoảng 6 giờ 30 tối vào tháng 3 năm 2024, một thí nghiệm thú vị được công bố tại Yellow Zone của Gradient Canopy
Hai nhân viên thuộc Google Labs trình bày một dự án mới với Josh Woodward
- Woodward là người đứng đầu Google Labs, bộ phận ra mắt nhanh các sản phẩm mới mang tính thử nghiệm của Google
Quảng cáo
Nội dung dự án:
- Sử dụng biên bản họp (transcripts) của Quốc hội Anh và Gemini được tích hợp tính năng long context
- Để tạo ra podcast ‘Westminster Watch’ do hai MC AI Kath và Simon dẫn dắt
Trong tập đầu tiên, lời mở đầu của Simon là:
- “Tuần này tại Hạ viện lại có rất nhiều kịch tính, tranh luận, và cả một chút lịch sử nữa.”
Woodward rất ấn tượng với thí nghiệm này, và sau đó đã trực tiếp chia sẻ nó với các nhân vật chủ chốt, bao gồm cả Pichai

Tóm tắt âm thanh bằng AI, đổi mới tìm kiếm và một tranh cãi khác

Tính năng NotebookLM Audio Overviews, nơi AI tóm tắt tài liệu hoặc biên bản cuộc họp dưới dạng podcast, đã được công bố chính thức tại Google I/O tháng 5/2024
Theo Josh Woodward, nhóm nòng cốt đã thử nghiệm hàng nghìn podcast AI suốt ngày đêm để phát triển tính năng này
Tuy nhiên, tại sự kiện công bố, hai màn ra mắt khác lại thu hút nhiều chú ý hơn:
- Astra: trợ lý AI thế hệ mới có khả năng phân tích video theo thời gian thực (do chính Brin trực tiếp trình diễn)
- AI Overviews: tính năng tóm tắt kết quả tìm kiếm và hiển thị ở đầu trang
AI Overviews do nhóm Project Magi phát triển sẽ tóm tắt kết quả tìm kiếm và hiển thị trong hộp tóm tắt (Box)
Ban đổi mới có trách nhiệm ban đầu đã yêu cầu giám sát vì lo ngại về thiên lệch, vấn đề độ chính xác và tác động đạo đức do sụt giảm lưu lượng truy cập
- Tuy nhiên, dự án đã trở nên khó bị giám sát một cách có hệ thống do tái cơ cấu nhóm và công việc bị phân tán
Sau khi ra mắt, đã xuất hiện nhiều phản hồi kỳ quặc:
- “Mỗi ngày nên ăn bao nhiêu viên đá?” → “Theo các nhà địa chất UC Berkeley, nên ăn 1 viên đá nhỏ mỗi ngày”
- “Phô mai không dính lên pizza” → “Hãy thêm 1/8 cốc keo không độc vào nước sốt”
Phần lớn các phản hồi này bắt nguồn từ meme Internet như các bài đùa trên Reddit, nhưng
AI Overviews lại trình bày chúng như sự thật, gây ra vấn đề về độ tin cậy
Google đã tạm thời giảm mức độ hiển thị của tính năng này để điều chỉnh lại
Phản ứng nội bộ của Google và phản hồi từ người dùng
- Nhà khoa học trưởng mảng tìm kiếm Pandu Nayak:
  - “Không thể ngăn trước mọi vấn đề. Chúng tôi chỉ có thể cam kết cải thiện liên tục”
  - “Khi mọi thứ hoạt động tốt thì người ta im lặng, còn khi có gì kỳ lạ thì chỉ biết phàn nàn”
- Bên trong công ty, những nhân viên từng nêu lo ngại về độ chính xác đã thất vọng
  - Từ Bard→Gemini, trình tạo ảnh cho đến AI Overviews đều bị đánh giá là “chuỗi máy tạo bịa đặt”
  - Cũng có lo ngại rằng sứ mệnh nâng cao khả năng tiếp cận thông tin của Google đang sa sút thành một “công cụ chép lại điều vô nghĩa”
- Ngược lại, nhóm tìm kiếm tập trung vào mức độ hài lòng của người dùng
  - AI Overviews vẫn được giữ nguyên trên diện rộng mà không có tùy chọn tắt
  - Sau đó, tính năng tóm tắt AI cũng được đưa vào Google Maps, ứng dụng thời tiết và nhiều sản phẩm khác
- Ví dụ với ứng dụng thời tiết trên Pixel:
  - Dù một số kỹ sư cho rằng đồ họa cũ đã đủ dùng, kết quả thử nghiệm cho thấy 90% phản hồi là “thích”
Dấu hiệu phục hồi và những nhân tài quay trở lại
- Tháng 12/2024, hai năm sau cú sốc ChatGPT, Jeff Dean đã trả lời phỏng vấn WIRED với tâm thế tích cực
  - Mô hình Gemini đã đứng số 1 trên các benchmark công khai
  - Một lãnh đạo còn cho biết ông trò chuyện với Gemini Live trên đường đi làm thay vì gọi cho chị/em gái mình
- CEO NVIDIA Jensen Huang đã đề cử mạnh mẽ NotebookLM Audio Overviews
- Những nhân tài từng rời đi vì bất mãn với văn hóa thận trọng trước đây cũng đã quay lại
  - Noam Shazeer, một trong những người tạo ra Transformer, cũng tái gia nhập công ty
    - Trước đây ông từng nghỉ việc vì thất vọng với chính sách không công bố LaMDA ra bên ngoài của công ty

Tương lai của Gemini, thách thức, và cuộc chiến AI tiếp diễn

Bầu không khí nội bộ tại Google và sự tự tin vào tăng trưởng
- Trong phỏng vấn, Jeff Dean thừa nhận những phán đoán sai trong quá khứ và cho rằng giờ đây Google đã vượt khỏi trạng thái né tránh rủi ro để tiến xa hơn
- Hiện tại, cả 7 dịch vụ chủ lực của Google (Chrome, Gmail, YouTube...) đều đang triển khai các tính năng dựa trên Gemini
- Dean, Noam Shazeer và các lãnh đạo khác đang điều phối các yêu cầu trên toàn công ty:
  - cải thiện dịch tiếng Nhật
  - tăng cường khả năng coding
  - cải thiện phân tích video thời gian thực cho Astra v.v.
- Dean và Shazeer thường họp tại microkitchen của Gradient Canopy để chia sẻ ý tưởng
Quảng cáo
Mở rộng chiến lược xoay quanh tạo nội dung bằng AI
- Shazeer: “Việc tổ chức thông tin là một thị trường nghìn tỷ USD, nhưng thứ đang ngầu lúc này là một triệu tỷ USD”
- Giá cổ phiếu Alphabet đã tăng gần gấp đôi so với đáy khi ChatGPT ra mắt
- Hassabis hiện cũng phụ trách cả đội ứng dụng Gemini của Xiao, và tin rằng tương lai AI chữa bệnh không còn xa
  - Ông nói với WIRED: “Chúng tôi có nền tảng nghiên cứu rộng và sâu hơn bất kỳ tổ chức nào khác”
Vấn đề lợi nhuận và sự quay lại với mô hình quảng cáo
- Hiện nay, phần lớn người dùng không sẵn sàng trả tiền trực tiếp cho các tính năng AI
- Google đang cân nhắc chèn quảng cáo vào ứng dụng Gemini
- Đây là chiến lược truyền thống của Thung lũng Silicon:
  - “Hãy đưa dữ liệu, thời gian và sự chú ý của bạn, rồi dùng miễn phí công cụ tuyệt vời mà chúng tôi tạo ra”
  - Chỉ cần tích vào ô miễn trừ trách nhiệm là Google không phải chịu trách nhiệm
Cạnh tranh thị trường và gánh nặng hạ tầng
- Dữ liệu từ Sensor Tower:
  - lượt tải tích lũy của ứng dụng ChatGPT: khoảng 600 triệu
  - ứng dụng Gemini: khoảng 140 triệu
- Có rất nhiều đối thủ AI:
  - Claude, Copilot, Grok, DeepSeek, Llama, Perplexity v.v.
  - Nhiều trong số đó là đối thủ trực tiếp hoặc đối tượng đầu tư của Google
- AI tạo sinh đòi hỏi đầu tư hàng tỷ USD và tiêu thụ năng lượng khổng lồ
  - Mức tiêu thụ điện đủ lớn đến mức phải kéo dài tuổi thọ của các nhà máy điện than cũ hoặc lò phản ứng hạt nhân
  - Cả ngành vẫn chưa tìm ra cách kiếm tiền rõ ràng
Những rủi ro bổ sung mà Google đang đối mặt
- Trong vài năm tới, tối đa 25% doanh thu quảng cáo tìm kiếm có thể bị mất do kiện tụng chống độc quyền (phân tích của JP Morgan)
- Nội bộ công ty cũng ngày càng nhận thức rõ áp lực bù đắp tài chính
  - Một số người trong đội của Xiao đã làm việc 3 năm liền không có kỳ nghỉ đông
  - Đồng sáng lập Brin gần đây nói với nhân viên rằng “làm 60 giờ mỗi tuần là sweet spot hiệu quả nhất trong cuộc đua AI”
- Các nhân viên trả lời phỏng vấn WIRED cho biết họ lo lắng sâu sắc về các đợt sa thải liên tiếp, burnout và rủi ro pháp lý
Nỗi ám ảnh với AGI và thách thức mang tính triết học
- Hassabis vẫn giữ vững mục tiêu phát triển AGI (trí tuệ nhân tạo tổng quát)
  - Ông đi dạo ở London cùng nguyên mẫu Astra và hình dung về một tương lai có thể nhận biết mọi thứ trên thế giới
- Tuy nhiên, AGI chỉ có thể đạt được khi suy luận, lập kế hoạch và năng lực thực thi đều được cải thiện
Cuộc cạnh tranh “AI tác tử” với OpenAI
- Tháng 1/2025, OpenAI công bố dịch vụ Operator
  - Đây là AI dạng tác tử có thể nhấp chuột và gõ phím trên website thật để thực hiện công việc thay người dùng
  - Có thể đặt chuyến đi, điền biểu mẫu..., nhưng chậm và nhiều lỗi
  - Giá gói dịch vụ: 200 USD/tháng
- Google cũng đang mở rộng tính năng theo cùng hướng:
  - Hiện Gemini có thể lên thực đơn ăn uống, nhưng ở các phiên bản sau sẽ thêm nguyên liệu vào giỏ hàng,
    và bước tiếp theo là hướng tới đưa phản hồi theo thời gian thực khi cắt hành
Sai lầm sẽ còn lặp lại, nhưng tốc độ sẽ không dừng lại
- Tháng 1/2025, trong một quảng cáo trước Super Bowl, Gemini đã mắc một lỗi dở khóc dở cười khi trả lời rằng “hơn một nửa lượng phô mai tiêu thụ trên toàn thế giới là Gouda”
- Tuy nhiên, Google đang phát triển Gemini không chỉ như một cỗ máy thông tin mà thành một phần của cuộc sống, một life coach, một trợ lý vạn năng
- Pichai nói: “Chúng tôi đang tiến lên một cách thận trọng”
- Nhưng ông và ban lãnh đạo chắc chắn sẽ không bao giờ muốn bị bỏ lại phía sau một lần nữa khi đã lên đến đỉnh cao
Cuộc đua AI vẫn tiếp diễn

4 bình luận

joone 2025-05-24

Nhưng mà, những câu chuyện kiểu này được viết thành bài báo như thế nào nhỉ? Trông hơi giống một bài mang tính PR cho Google.
"Chúng tôi đang rất nỗ lực"...

halfenif 2025-03-28

Cảm giác như đang xem phim truyền hình Mỹ vậy.

Nhưng Apple đâu rồi?

ide127 2025-03-28

Cảm giác như thời kỳ từng hứng chịu cú sốc Sputnik vậy.

GN⁺ 2025-03-28

Ý kiến Hacker News

Lúc đầu tôi khá hoài nghi, nhưng tôi nghĩ Google đang làm tốt trong cuộc cạnh tranh với OpenAI. Gemini 2.0 Pro và các mô hình Flash rất xuất sắc. Tính năng nghiên cứu chuyên sâu được triển khai tốt. Cửa sổ ngữ cảnh vẫn là tốt nhất ngành. Khả năng tích hợp với Search, Gmail, bộ ứng dụng văn phòng Google, Google Meet, Android và các dịch vụ khác là rất mạnh
- Giờ đây họ đã có những mô hình đủ tốt để tận dụng danh mục sản phẩm sẵn có, hạ tầng cloud và vị thế đã ăn sâu trong đời sống công việc hiện đại
- Không giống Apple, họ bị hạn chế ít hơn trong việc tiếp cận dữ liệu huấn luyện nhờ chính sách quyền riêng tư bớt nghiêm ngặt hơn
Vấn đề lớn nhất mà Google đang đối mặt là xu hướng đưa vào các mô hình nhẹ cho tất cả mọi người. Mô hình dùng cho tìm kiếm có lẽ chỉ ở mức khoảng 8B, và Flash 2.0 thì ổn nhưng vẫn là mô hình nhẹ
- Giờ đây mọi người đang gắn Google AI/Gemini với kết quả tìm kiếm tệ và câu trả lời kém
- Trong khi đó, các mô hình tiên tiến nhất lại rất mạnh, và Gemini 2.5 có thể đã giành lấy ngai vàng AI
OpenAI không phải công ty đại chúng và không có lãi. Google thì có lãi. Dù vậy, cũng giống Google Meet/Zoom, việc không thể đưa Transformer decoder vào sản xuất là một sai lầm. (Các encoder như BERT thì được dùng rộng rãi)
Ban lãnh đạo Google đang theo đuổi cách tiếp cận thận trọng, và các đợt ra mắt sản phẩm trông hoàn thiện hơn. Có cảm giác hấp dẫn kiểu bước chuyển từ 0 đến 1 như Apple những năm 2000
Vấn đề chính của Google là có nhiều nhóm cùng làm những sản phẩm tương tự và cạnh tranh để giành sự chú ý của người dùng
- Có đủ loại sản phẩm như Google AI Studio, ứng dụng Gemini, ứng dụng Gemini cho người dùng Gemini Advanced, Vertex AI, NotebookLM, v.v.
- Điều này được đem so với ChatGPT.com
- Search của Google. Tìm kiếm. Chỉ cần hiển thị kết quả tìm kiếm như hiện nay ở cột bên phải cùng quảng cáo, rồi đặt Gemini ở bên trái là xong
Với tư cách nhà đầu tư nhỏ lẻ: tôi nghĩ Alphabet/Google có thể làm tốt hơn với một CEO không phải Sundar
- Ngoài ra: nên cân nhắc đầu tư vào các công ty vận hành dịch vụ thúc đẩy người dùng đăng ký thuê bao (ví dụ: Youtube Premium, trước đây là Netflix)
Vấn đề của Google là những người không rành công nghệ đã bắt đầu nhìn AI như thứ gì đó tách biệt với Google (tìm kiếm) và các sản phẩm khác của họ
- Họ cố dùng AI (ví dụ: ChatGPT) thay cho tìm kiếm, và Google đang thua trong cuộc chiến nhận thức này. Đây không phải vấn đề có thể giải quyết nhanh chóng
- Những gì Google đã làm trong AI đối với công chúng từng là Bard (còn ai nhớ không?), và giờ là Gemini
- Điểm khác biệt là gì? Có phải Google cung cấp nhiều dịch vụ miễn phí hơn đối thủ không? Người bình thường không quan tâm liệu nó có giải được bài toán hay không
- Chừng nào mọi người còn xem AI và tìm kiếm là hai thứ riêng biệt, Google sẽ còn gặp vấn đề
Có ai từng gặp một Googler thực sự tự tin vào chiến lược AI của Google chưa? Những người tôi từng nói chuyện dường như đều có lo ngại rất nghiêm trọng, nhưng cũng có thể đây chỉ là mẫu nhỏ
Hình như khoảng 10 năm trước Eric Schmidt từng nói rằng "ai cũng sẽ cần một assistant" (có lẽ vào khoảng năm 2016). Tôi không hiểu tại sao họ đã có thể xây dựng thứ giống như trò chuyện đối thoại mà lại không làm. Thay vào đó họ lại mải mê với những thứ liên quan đến mailbox và tương tự

Cuộc cách mạng AI của Google: 2 năm chiến đấu để bắt kịp OpenAI

Khởi đầu khủng hoảng của Google khi bị tụt lại trong cuộc cách mạng chatbot

Ứng phó với khủng hoảng AI của Google và chuyển hướng chiến lược

Phát triển Bard: ưu tiên toàn công ty và dồn lực tài nguyên

Quá trình ra mắt Bard và sai lầm chí mạng

Sự xuất hiện của GPT-4 và khoảng cách công nghệ

Phát triển Gemini: sáp nhập DeepMind và Google Brain cùng xung đột văn hóa

Sự ra đời của Google DeepMind (GDM)

Kiểm tra cuối cùng trước khi ra mắt Gemini và những trăn trở đạo đức

Gemini được công bố và thành công ban đầu

Sự ổn định sau chuyển đổi sang Gemini và cuộc khủng hoảng mới

Thử nghiệm podcast AI: Westminster Watch

Tóm tắt âm thanh bằng AI, đổi mới tìm kiếm và một tranh cãi khác

Phản ứng nội bộ của Google và phản hồi từ người dùng

Dấu hiệu phục hồi và những nhân tài quay trở lại

Tương lai của Gemini, thách thức, và cuộc chiến AI tiếp diễn

Bầu không khí nội bộ tại Google và sự tự tin vào tăng trưởng

Mở rộng chiến lược xoay quanh tạo nội dung bằng AI

Vấn đề lợi nhuận và sự quay lại với mô hình quảng cáo

Cạnh tranh thị trường và gánh nặng hạ tầng

Những rủi ro bổ sung mà Google đang đối mặt

Nỗi ám ảnh với AGI và thách thức mang tính triết học

Cuộc cạnh tranh “AI tác tử” với OpenAI

Sai lầm sẽ còn lặp lại, nhưng tốc độ sẽ không dừng lại

Bài viết liên quan

4 bình luận

Ý kiến Hacker News