- Ngành robotics hiện đang ở mức GPT-2.5, nơi các foundation model đã bắt đầu cho thấy năng lực thực tế, nhưng khoảng cách giữa thành quả trong phòng thí nghiệm và triển khai ngoài hiện trường vẫn còn rất lớn
- Dự báo thị trường 38 tỷ USD vào năm 2035 mà Goldman Sachs đã nâng lên gấp 6 lần chỉ trong 1 năm vẫn bị Bessemer đánh giá là thận trọng; riêng chi phí dữ liệu robotics trong 2 năm tới được dự đoán sẽ tiêu tốn hơn 3 tỷ USD trên toàn ngành
- 48% nhà sáng lập các công ty robotics tại Mỹ đến từ 4 tổ chức Stanford, MIT, Berkeley, CMU, và sự tập trung nhân tài này được dự báo sẽ đẩy nhanh cấu trúc người thắng ăn cả
- Median Series A của các công ty robotics quốc phòng đạt 105 triệu USD, gấp đôi nhóm phi quốc phòng; cùng với mức định giá 60 tỷ USD của Anduril, bài viết dự đoán IPO đầu tiên vượt 50 tỷ USD sẽ xuất hiện từ lĩnh vực này
- Trong 5 năm qua, chỉ có 42 công ty robotics nhận đầu tư trên 30 triệu USD, bằng 1/18 mức của phần mềm, cho thấy đây không phải bong bóng robotics mà là trạng thái thiếu đầu tư mang tính cấu trúc
Nhu cầu mang tính cấu trúc và triển vọng thị trường của robotics
- Nhu cầu thay thế lao động cho các công việc chân tay lặp đi lặp lại hoặc môi trường làm việc nguy hiểm đang tiếp tục tăng do biến đổi nhân khẩu học tại Mỹ, châu Âu, Nhật Bản và Trung Quốc
- Một số nhà phân tích dự đoán thị trường robotics sẽ đạt 38 tỷ USD vào năm 2035, và Goldman Sachs đã điều chỉnh tăng dự báo này lên gấp 6 lần chỉ trong vòng 1 năm
- Bessemer cho rằng ngay cả dự báo này cũng vẫn thận trọng cả về tốc độ lẫn quy mô
- Jeremy Levine, partner tại Bessemer, nhận định: “Trong 10–20 năm tới, trên Trái Đất sẽ có nhiều robot hơn hiện nay 100.000 lần”
- Bessemer nhìn thấy cơ hội đầu tư tại thời điểm dịch chuyển nhân tài, đột phá công nghệ và các động lực thuận lợi mang tính cấu trúc cùng tăng tốc, với danh mục gồm Waymo, Mind Robotics, Foxglove, Breaker, Noda, Voxel51, DroneDeploy, Auterion, Perceptron, ANYbotics...
Dự đoán 1: ChatGPT moment của robotics đang đến gần nhưng vẫn chưa tới
- Ngành robotics hiện đang ở giai đoạn tương đương GPT-2.5 moment, khi các foundation model đã chứng minh được năng lực đáng kể và các scaling law bắt đầu xuất hiện, nhưng khoảng cách giữa demo trong phòng thí nghiệm và triển khai production vẫn còn lớn
- Mô hình π0 của Physical Intelligence đã thành công trong việc gấp quần áo với độ khéo léo ở mức con người
- Bài báo EgoScale công bố vào tháng 2/2026 đã chứng minh hiệu năng policy cải thiện theo cách có thể dự đoán được tùy theo quy mô dữ liệu tiền huấn luyện, đưa ra bằng chứng mạnh đầu tiên rằng foundation model trong robotics đi theo đường cong cải thiện dựa trên dữ liệu giống như LLM
- Có hai câu hỏi cốt lõi vẫn chưa được giải quyết
- Cần bao nhiêu dữ liệu để thu hẹp khoảng cách giữa hiệu năng trong phòng thí nghiệm và mức độ tin cậy 99,9% mà production yêu cầu
- Khi ChatGPT moment của robotics thực sự đến, nó sẽ trông như thế nào
- Khác với chatbot, robotics không thể chứng minh năng lực chỉ bằng một ô văn bản; bằng chứng sẽ là robot thực hiện tác vụ phức tạp trong môi trường lạ mà không cần con người can thiệp
- Những lĩnh vực đã thương mại hóa: tự động hóa kho, hỗ trợ phẫu thuật, giao hàng chặng cuối, kiểm tra công nghiệp và các hệ thống chuyên biệt cho môi trường giới hạn hiện đã tạo ra doanh thu
- Armen Aghajanyan, CEO Perceptron: “Cốt lõi của robotics trong thế giới thực không phải thuật toán điều khiển tốt hơn mà là foundation model hiểu thế giới vật lý, còn điều khiển robot chỉ là một lớp mỏng nằm trên đó”
Dự đoán 2: Sự xuất hiện của scaling law — dữ liệu đắt đỏ, vốn là hào lũy, và world model có thể là lối tắt
- LLM có thể tận dụng hàng trăm nghìn tỷ token văn bản từ internet, nhưng robotics thì không có một corpus tương ứng
- Dữ liệu thao tác robot trên toàn cầu được ước tính chỉ khoảng 300.000 giờ, tạo ra khoảng cách mang tính cấu trúc nếu so với khoảng 1 tỷ giờ video internet và 300 nghìn tỷ token văn bản
- Bessemer ước tính tổng chi phí dữ liệu robotics của toàn ngành trong 2 năm tới sẽ vượt 3 tỷ USD
- Bao gồm teleoperation, video egocentric, mô phỏng và thu thập trình diễn vật lý
- Dữ liệu robot không thể scrape hay mua được, mà phải tự tạo trực tiếp theo từng tác vụ và từng môi trường
- Ian Glow, CEO Zeromatter: “Chỉ teleop thôi sẽ không thể tạo ra một chiến lược dữ liệu thành công; cần đưa dữ liệu vào từ internet hoặc simulator thông qua reinforcement learning để đạt được quy mô và độ đa dạng cần thiết”
- World model: mạng nơ-ron học các quy luật vật lý từ video ở quy mô internet
- V-JEPA 2 của Meta sau khi được huấn luyện trên hơn 1 triệu giờ video, chỉ cần thêm 62 giờ dữ liệu robot đã đạt tỷ lệ thành công zero-shot 80% cho pick-and-place trên cánh tay robot thực
- Tuy vậy, Cosmos của NVIDIA đã sử dụng 10.000 GPU H100 trong 3 tháng để huấn luyện, cho thấy world model cũng là một cách tiếp cận thâm dụng vốn
- Mô phỏng và reinforcement learning: chuyển đổi sim-to-real hoạt động tốt với locomotion, nhưng với manipulation thì các vấn đề về độ trung thực của vật thể mềm, vải và chất lỏng vẫn là bài toán nghiên cứu chưa có lời giải
- Brian Moore, CEO Voxel51: “Điều phân biệt người dẫn đầu với kẻ phô trương trong physical AI là sự ám ảnh với chất lượng dữ liệu; dữ liệu tệ không chỉ là kém hiệu quả mà còn là rủi ro”
Dự đoán 3: Sự tập trung nhân tài sẽ nhanh chóng quyết định người thắng — đây không phải thị trường nơi 50 công ty đều thành công
- Trong số các công ty robotics tại Mỹ được thành lập trong 5 năm gần đây và nhận đầu tư trên 30 triệu USD, 43% nhà sáng lập có bằng tiến sĩ
- Trong số đó, 48% xuất thân từ 4 tổ chức Stanford, MIT, Berkeley, CMU
- 56% có ít nhất 1 đồng sáng lập là tiến sĩ, và 43% có nhà sáng lập trực tiếp đi lên từ giới học thuật
- Hào lũy nhân tài tạo ra hiệu ứng cộng dồn theo chuỗi nhân tài → vốn → đối tác dữ liệu → quan hệ khách hàng → bộ dữ liệu độc quyền, khiến cấu trúc người thắng ăn cả hình thành nhanh hơn hầu hết dự đoán
- Trong lĩnh vực LLM, mã nguồn mở như Llama hay Mistral đã dân chủ hóa khả năng tiếp cận năng lực, nhưng trong robotics, dù các dự án open source như LeRobot, Genesis, Isaac Lab đang phát triển, vẫn tồn tại ma sát vật lý là “vẫn cần có robot”
- Những đội ngũ có chuyên môn sâu nhất về sim-to-real, manipulation, locomotion, sensor fusion đang xây dựng lợi thế mà không thể dễ dàng bị sao chép chỉ bằng phát hành open source
Dự đoán 4: Công ty full-stack sẽ nắm bắt giá trị ngắn hạn — còn các công ty foundation model thuần túy sẽ phải chờ
- Với LLM, chỉ cần một API endpoint duy nhất như GPT-4 là cả một nhóm 2 người cũng có thể lập tức xây sản phẩm frontier AI; nhưng robotics lại cần thu thập dữ liệu theo domain, fine-tune theo môi trường, tích hợp phần cứng và hạ tầng vận hành
- Hào lũy hiện nay nằm ở pipeline dữ liệu độc quyền, chuyên môn theo domain, hạ tầng triển khai và quan hệ khách hàng tạo ra feedback loop, nhiều hơn là ở kiến trúc mô hình
- Chi phí phần cứng giảm đang thúc đẩy nhanh động lực này
- Mike Winn, CEO DroneDeploy: “Robot mặt đất trong ngành xây dựng đã giảm từ 100.000 USD xuống dưới 15.000 USD mỗi chiếc, còn drone có dock giảm từ 200.000 USD xuống dưới 20.000 USD, nghĩa là đang vượt qua ngưỡng để mở rộng triển khai”
- Stack đang tách thành ba lớp
- Lớp hạ tầng: foundation model, world model
- Lớp ứng dụng: các công ty full-stack có phần cứng tùy biến riêng (humanoid, hệ thống công nghiệp) + các công ty full-stack áp dụng AI lên các nền tảng thương mại sẵn có
- Giá trị tập trung ở lớp ứng dụng vì lớp hạ tầng hiện vẫn chưa đủ phổ quát để tự hỗ trợ triển khai end-to-end
- Khi foundation model cải thiện và sim-to-real trưởng thành hơn, robotics sẽ bước vào API moment, nhưng đó là câu chuyện sau năm 2028; trong giai đoạn hiện tại, tích hợp theo chiều dọc mới là nơi tạo ra giá trị bền vững
- Adrian Macneil, CEO Foxglove: “Lợi thế quyết định trong physical AI không nằm ở độ mới của mô hình mà ở chất lượng của hạ tầng dữ liệu; khi các mô hình dần hội tụ, công ty có data flywheel mạnh nhất sẽ chiến thắng”
Dự đoán 5: Robotics quốc phòng sẽ dẫn dắt IPO đầu tiên của danh mục này vượt 50 tỷ USD
- Median Series A của các công ty robotics quốc phòng tính đến năm 2025 là 105 triệu USD, hơn gấp đôi mức 50 triệu USD của nhóm phi quốc phòng, và khoảng cách này đã mở rộng mỗi năm kể từ 2021
- Anduril chốt vòng vào tháng 3/2026 với mức định giá 60 tỷ USD, còn Saronic trong cùng tháng huy động Series D 1,75 tỷ USD cho tàu tự hành
- Chu kỳ mua sắm quốc phòng dài nhưng có thể dự đoán, quy mô hợp đồng lớn, tỷ lệ gia hạn cao và chi phí chuyển đổi đáng kể
- Khác với robotics thương mại, bên mua quốc phòng vận hành theo phép tính khác: rủi ro an ninh quốc gia chứ không phải ROI
- Yếu tố địa chính trị càng khuếch đại điều này: khoảng 90% robot humanoid bán ra trên toàn cầu năm 2025 là sản phẩm từ Trung Quốc
- Mô hình AI của Trung Quốc hiện vẫn chậm hơn Mỹ trung bình khoảng 7 tháng, nhưng khoảng cách đó đang liên tục thu hẹp, và chính phủ Mỹ bắt đầu xem robotics là yếu tố thiết yếu cho an ninh quốc gia
- Ở góc độ dual-use, những công ty có tính phòng thủ mạnh nhất không xây dựng hệ thống vũ khí đơn mục đích mà tập trung vào nền tảng tự hành, hệ thống nhận thức và hạ tầng ra quyết định có thể ứng dụng cả thương mại
- Matthew Buffa, đồng sáng lập Breaker: “Những công ty thú vị nhất không chọn một trong hai giữa quốc phòng và thương mại, mà xây dựng những hệ thống đủ năng lực để đáp ứng yêu cầu quốc phòng đồng thời cũng đổi mới về mặt thương mại”
Dự đoán 6: Không có bong bóng robotics — ngược lại, dòng vốn vào lĩnh vực này vẫn chưa đủ
- Trong 5 năm qua, có 745 công ty phần mềm nhận đầu tư trên 30 triệu USD, trong khi robotics chỉ có 42 công ty, tức ít hơn 18 lần
- Trong khi đó, thị trường nền tảng của robotics lại lớn hơn 30 lần so với tổng chi tiêu phần mềm toàn cầu
- Ngay cả khi tính đến tính chất thâm dụng vốn của kinh doanh phần cứng, đây vẫn là trạng thái thiếu đầu tư mang tính cấu trúc so với cơ hội
- Phần lớn nhà phân tích dự báo ngành này sẽ tăng trưởng gấp 50 lần trong 10 năm tới, nhưng Bessemer cho rằng ngay cả con số đó cũng chỉ phản ánh việc tự động hóa quy trình hiện có và chưa tính đến các loại hình hoạt động kinh tế mới do robot đa dụng tạo ra
- Không phải mọi công ty đã gọi vốn đều sẽ thành công; một số mức định giá đang bị thổi cao, và vốn sẽ tập trung vào một số ít người dẫn đầu
- Tuy nhiên, tính chọn lọc và độ khan hiếm là hai chuyện khác nhau; xét tổng thể, mức đầu tư vào robotics vẫn thiếu xa so với quy mô cơ hội và tốc độ phát triển năng lực
- Trước khi ChatGPT moment đến và trước khi quá trình hợp nhất nhân tài hoàn tất, ngay lúc này là cửa sổ để đầu tư vào các công ty cốt lõi; nếu chờ bằng chứng về điểm bẻ cong thì sẽ bỏ lỡ cơ hội
- Nikita Rudin, CEO Flexion: “5 năm nữa, phần lớn robot được triển khai trên thế giới sẽ không do các startup nổi tiếng hiện nay tạo ra, mà bởi những công ty hiện còn chưa bắt đầu làm robot nhưng biết cách sản xuất ở quy mô lớn”
Những bài toán chưa có lời giải và các tranh luận còn mở
- Khoảng cách về độ tin cậy: nâng tỷ lệ thành công của tác vụ từ 80% lên 99,9% không phải bài toán tuyến tính
- Cần các cách tiếp cận căn bản khác như cảm biến xúc giác, force feedback, sim-to-real cho manipulation
- Lisa Yan, CEO Argus Systems: “Từ kinh nghiệm ở Waymo, triển khai thực tế theo thời gian sẽ bộc lộ những bài toán ngày càng khó hơn về dữ liệu và data curation chuyên biệt; việc thu hẹp khoảng cách từ 99% lên 99,9% sẽ mất nhiều thời gian hơn hầu hết dự đoán”
- Bài toán chi phí suy luận: world model và các mô hình vision-language-action cỡ lớn có chi phí chạy thời gian thực rất cao
- Mô hình văn bản có thể batch trên hạ tầng dùng chung cho hàng nghìn người dùng đồng thời, nhưng mô hình robotics phải sinh trạng thái môi trường mỗi vài mili giây cho từng robot, nên trên thực tế cần pipeline GPU chuyên dụng
- Chi phí suy luận của LLM đã giảm khoảng 1.000 lần trong 3 năm, và việc robotics có đi theo đường cong tương tự hay không sẽ quyết định tính khả thi thương mại của cách tiếp cận foundation model
- Interpretability đang nổi lên như lớp hạ tầng thế hệ tiếp theo
- Chỉ riêng quý 1/2026 đã có khoảng 6 tỷ USD đổ vào 6–7 công ty world model
- Mahesh Krishnamurthi, đồng sáng lập Vayu Robotics: “Khi ngành trưởng thành hơn, interpretability sẽ trở thành yếu tố không thể thỏa hiệp; hiện các mô hình này vẫn là hộp đen, và sẽ có một làn sóng startup xây công cụ để mở chúng ra”
- Open source vs closed: trong LLM, open source đã tăng tốc hệ sinh thái một cách mạnh mẽ, nhưng trong robotics — nơi dữ liệu vật lý và hạ tầng triển khai quan trọng ngang với kiến trúc mô hình — chưa rõ động lực tương tự có lặp lại hay không
- Open source có thể sẽ thương mại hóa kiến trúc mô hình nhanh hơn dự đoán, nhưng lớp dữ liệu và triển khai vẫn có khả năng giữ tính độc quyền đủ lâu
- Những công ty hiểu rõ phần nào của stack nên mở và phần nào nên bảo vệ sẽ có lợi thế chiến lược
Sự cùng tồn tại của hai sự thật
- Brad Porter, CEO Cobot: “ChatGPT moment của robotics đang đến nhanh hơn phần lớn mọi người nghĩ, và khi nó tới thì thời gian sản xuất (robot thật, tác vụ thật, môi trường thật) sẽ là nút thắt; những công ty tối ưu cho triển khai chứ không phải demo sẽ tạo ra khác biệt quyết định”
- Philipp Wu, đồng sáng lập một công ty robotics đang ở chế độ stealth: “Timeline sẽ dài hơn rất nhiều so với hầu hết dự đoán, và robotics đa dụng vẫn còn cách ít nhất 5 năm nữa”
- Hai góc nhìn này không mâu thuẫn mà đang mô tả hai chiều khác nhau: Porter nói về con đường dẫn đến điểm bẻ cong, còn Wu nói về việc điểm bẻ cong đó thực ra vẫn còn xa đến đâu
- Hàm ý cho nhà sáng lập: hãy triển khai một cách quyết liệt ngay bây giờ, nhưng xây dựng với generic moment ở phía chân trời
- Điểm bẻ cong đang tới gần; nhân tài đang dịch chuyển, phần cứng đang được hàng hóa hóa, hạ tầng dữ liệu đang được xây dựng, và những công ty sẽ định hình physical AI trong 10 năm tới đang được thành lập và nhận đầu tư ngay lúc này
1 bình luận
Tò mò không biết sẽ có những công ty nào xuất hiện.