Công nghiệp hóa trí tuệ robot hiện thân (Embodied)

(medium.com)

4 điểm bởi GN⁺ 2026-04-04 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Dù một lượng vốn khổng lồ và nhân tài hàng đầu đang đổ vào lĩnh vực robot, việc triển khai thực tế ngoài các môi trường hạn chế như tự động hóa công nghiệp vẫn còn rất ít
Những thay đổi mang tính cấu trúc đang diễn ra đồng thời, như chi phí linh kiện giảm, hiệu quả kinh tế của pin được cải thiện, kiến trúc mô hình phát triển và môi trường mô phỏng được nâng cấp
So với khoảng 1 tỷ giờ video trên internet, dữ liệu thao tác robot trên toàn thế giới chỉ vào khoảng 300.000 giờ, nên về bản chất vẫn đang ở trạng thái bị ràng buộc bởi dữ liệu
Chi phí cho actuator, pin, compute và hệ thống đang giảm, trong khi chi phí lao động tăng lên, đưa thị trường tới điểm giao cắt kinh tế nơi giá trị cận biên của tự động hóa tăng lên
Ba khu vực nút thắt gồm thu thập dữ liệu, phòng thí nghiệm AI robot và nhà cung cấp giải pháp theo chiều dọc sẽ là trọng tâm tích lũy giá trị trong thời gian tới

Hiện trạng: giao điểm giữa sự cường điệu và thay đổi cấu trúc

Dù dòng vốn lớn đang chảy vào robot và các bản demo ấn tượng liên tục xuất hiện, việc triển khai thực tế tại kho hàng, nông trại, nhà máy, bệnh viện, công trường xây dựng vẫn chưa khác nhiều so với môi trường lao động truyền thống
Sự cường điệu này được nâng đỡ bởi các thay đổi cấu trúc như chi phí linh kiện giảm, hiệu quả kinh tế của pin tốt hơn, kiến trúc mô hình mạnh hơn, môi trường mô phỏng và huấn luyện tốt hơn, cùng vòng quay nhân tài được tạo ra bởi dòng vốn và tham vọng cận AGI
Câu hỏi cốt lõi không còn là liệu robot có tiềm năng hay không, mà là liệu chúng ta đã ở điểm bẻ cong của việc chấp nhận thương mại và tiêu dùng hay chưa, và phải kiểm chứng động lực hiện tại như thế nào

Bốn thời kỳ trong lịch sử robot

I. 1950–2000: Giai đoạn thâm nhập công nghiệp và xây nền tảng

Đây là thời đại được định hình bởi cơ điện tử có thể lập trình, với robot công nghiệp đầu tiên Unimate của General Motors được đưa vào sử dụng năm 1961 cho các chuyển động cơ khí hạn chế
Stanford Arm mở rộng năng lực đa trục và tiếp tục là trọng tâm nghiên cứu chính cho tới thập niên 1990
Sự xuất hiện của PLC của Modicon năm 1968 và vi xử lý Intel 4004 năm 1971 đã giúp trí thông minh của máy móc có thể mở rộng một cách kinh tế trên toàn bộ lĩnh vực tự động hóa công nghiệp
Khi IBM PC trong thập niên 1980 đưa điện toán vào dòng chính của kỹ thuật, robot cũng được tích hợp như một phần của môi trường sản xuất số, thay vì là các hệ thống cơ khí lắp đặt tách biệt

II. 2000–2010: Thời đại robot mở và linh kiện di động

Năm 2007, commit đầu tiên của ROS (Robot Operating System) và nền tảng nghiên cứu PR2 lần đầu cung cấp cho cộng đồng một lớp phần mềm dùng chung và môi trường phát triển chung
Cùng năm đó, sự ra mắt của iPhone từ Apple khởi động quá trình nén chi phí dài hạn trên toàn chuỗi cung ứng cảm biến, pin, camera, compute nhúng và linh kiện điện tử công suất thấp, điều mà robot sau này được hưởng lợi
Universal Robots (thành lập năm 2005), Roomba của iRobot (2002) và Kiva Systems (2003) là những bên hưởng lợi trực tiếp
Thương vụ Amazon mua lại Kiva năm 2012 là tín hiệu thực chất đầu tiên cho thấy robot có thể tạo ra giá trị thương mại chiến lược vượt ra ngoài sự hào hứng trong nghiên cứu

III. 2010–2020: Robot cộng tác và edge compute

Ba xu hướng hội tụ: (1) robot cộng tác đạt được độ tin cậy thương mại — KUKA LBR iiwa là robot nhạy cảm sản xuất hàng loạt đầu tiên được chứng nhận cho hợp tác người-máy, còn Universal Robots tiếp tục thúc đẩy tính dễ tiếp cận và dễ triển khai
(2) Việc ra mắt Nvidia Jetson năm 2014 giúp GPU edge compute trở nên thực dụng, đưa AI thời gian thực và thị giác máy tính tới gần các hệ thống có thể triển khai (sau CUDA năm 2006 và kiến trúc transformer)
(3) Sự chuyển dịch căn bản của stack AI — các đột phá như Trust Region Policy Optimization, Model-Agnostic Meta-Learning và Non-Local Neural Networks bắt đầu thay thế pipeline thủ công bằng nhận thức và điều khiển đầu-cuối dựa trên dữ liệu
Kết quả là robot chuyển từ các quy tắc hard-code có cấu trúc sang học dựa trên nhận thức thông qua reinforcement learning, mô phỏng và bắt chước, tiếp thu kỹ năng vận động từ dữ liệu thay vì lập trình tường minh

IV. 2020–nay: Physical AI

Bài báo transformer năm 2017 của Google dẫn tới RT-1 (2022), đóng khung điều khiển robot như một bài toán transformer được huấn luyện trên các bộ dữ liệu thực tế lớn và đa dạng
RT-2 (2023) mở rộng thành mô hình vision-language-action (VLA) học trên cả dữ liệu web lẫn dữ liệu robot
NVIDIA công bố Project GR00T (2024), rồi giới thiệu mô hình nền tảng robot hình người mở GR00T N1 (2025)
Các phòng thí nghiệm mô hình robot mới như Physical Intelligence, Skild AI và Field AI đã xuất hiện
Kết nối không dây nhanh hơn nhờ 5G và teleoperation đáng tin cậy hơn, cùng pipeline dữ liệu tốt hơn và năng lực phần cứng hiện trường được cải thiện, đang mở rộng vận hành từ xa, phần mềm quản lý đội robot và vòng lặp thu thập dữ liệu

Sự thay đổi của các điều kiện kinh tế

Chi phí linh kiện và hệ thống giảm

Các thành phần chính của một hệ thống robot gồm actuator, cảm biến, pin, bán dẫn/chip và cấu trúc cơ khí; robot hình người là một chỉ dấu hợp lý vì chứa hầu hết các thành phần này
Morgan Stanley đã phân rã BOM của Tesla Optimus theo từng phần để minh họa mức đóng góp của mỗi linh kiện trong toàn hệ thống

Actuator

Trong nhiều hệ thống robot, đây là hạng mục chi phí lớn nhất, và việc Trung Quốc thống trị thị trường khiến các trường hợp sử dụng cụ thể cũng như khả năng chống chịu chuỗi cung ứng trở nên phức tạp hơn
Giá actuator trung bình đang có xu hướng tăng nhanh hơn lạm phát, nhưng nếu chuẩn hóa theo mật độ thì triển vọng thực tế được cải thiện đáng kể
Độ chính xác, khả năng điều khiển và chuyển động tinh vi của actuator tuyến tính điện tiếp tục được cải thiện — sai số bám của động cơ tuyến tính nam châm vĩnh cửu đã giảm từ dưới 7μm năm 2003 xuống khoảng 0,5μm RMS trong các nghiên cứu sau này

Chi phí pin

Đã giảm mạnh nhờ ngành ô tô và hệ thống lưu trữ quy mô lưới điện
Với Li-Ion, chi phí trên mỗi kWh đã giảm khoảng 87% kể từ năm 2013, và tiếp tục giảm khoảng 36% kể từ năm 2020, dù được dự báo sẽ tiến tới vùng ổn định

Chi phí compute

Dù không phải là hạng mục BOM trực tiếp, đây là yếu tố then chốt của tính kinh tế dài hạn
Để robot vượt lao động con người, cần chi phí edge compute tiếp tục giảm và hiệu năng của các mô hình tham số hóa tiếp tục tăng
Xét theo dòng chip Nvidia Jetson, hiệu năng trên mỗi đô la đã cải thiện ở mức một bậc độ lớn kể từ năm 2014

Chi phí hệ thống

Lấy robot công nghiệp làm ví dụ, chi phí đã giảm đáng kể trong 30 năm qua và được kỳ vọng còn tiếp tục giảm

Chi phí lao động tại Mỹ

Mức lương theo giờ trung bình trong kho bãi và logistics — một trường hợp sử dụng tiêu biểu — đã tăng đều
Tăng trưởng lương của lao động vận tải và kho bãi vượt lạm phát theo chỉ số gốc năm 2003, cho thấy tầm quan trọng của nhu cầu lao động trong lĩnh vực này

Giá trị kinh tế của tự động hóa tăng lên

Khi tổng hợp các đường cong chi phí, có thể thấy giá trị cận biên của tự động hóa/robot đang tăng
Điều này thể hiện rõ nếu mô hình hóa theo NPV, nhưng "đường biên hiệu quả" sẽ khác nhau tùy mô hình
- Giả định: lương và phúc lợi kho bãi cấp thấp theo Indeed, vòng đời hữu ích 8 năm, chi phí bảo trì 20% trong mô hình trả trước và tỷ lệ chiết khấu 10%

Những đánh đổi chính tại điểm bẻ cong chấp nhận

Phần cứng vs. trí tuệ — phản ánh khác biệt trong cách tiếp cận giữa Trung Quốc và Mỹ. Trung Quốc có lợi thế về phát triển phần cứng nhờ hạ tầng sản xuất và chuỗi cung ứng sẵn có; Mỹ đi trước ở AI/ML và các phòng thí nghiệm mô hình nền tảng LLM đời đầu. Theo thời gian, vùng giao thoa giữa hai bên sẽ mở rộng
Công nghiệp vs. tiêu dùng — gắp pallet và nhặt đĩa bề ngoài có vẻ giống nhau, nhưng động học chuyển động, cơ chế nắm và ngưỡng chịu lực lại khác biệt. Do robot đã hiện diện trong môi trường công nghiệp và ROI rõ ràng hơn, robot công nghiệp sẽ mở rộng trước, còn robot hình người cho gia đình phổ cập đại trà sẽ đến sau
Mã nguồn mở (Android) vs. đóng (iOS) — giống sự phân tách Android/iOS trên smartphone, robot cũng đang bắt đầu phân hóa giữa nền tảng mở hướng tới nhà phát triển (tương đương ROS, hệ sinh thái phần cứng mở) và các hệ thống đóng tích hợp theo chiều dọc nơi phần cứng, phần mềm và mô hình gắn chặt với nhau

Stack trí tuệ: vượt ra ngoài kinh tế học

Việc chi phí linh kiện giảm làm tăng khả năng huy động vốn cho robot, nhưng không giải thích được vì sao câu chuyện thị trường lại chuyển từ tự động hóa hẹp sang robot đa dụng — sự chuyển dịch đó thuộc về lớp trí tuệ
Robot đang chuyển từ nhận thức, lập kế hoạch và các giả định về thế giới dựa nhiều hơn vào kỹ thuật đơn giản, sang biểu diễn được học từ video quy mô lớn, trình diễn robot, dự đoán tổng hợp và đầu vào đa phương thức

1. Bài toán dữ liệu

Robot vẫn chưa có dữ liệu tương đương internet của thế giới vật lý
LLM đã thu hoạch văn bản và media được số hóa, còn việc huấn luyện robot vẫn phụ thuộc vào teleoperation, người vận hành, phần cứng vật lý và môi trường thực tế
Khoảng cách dữ liệu: khoảng 1 tỷ giờ video internet → khoảng 350 triệu giờ dữ liệu xe tự lái → khoảng 20 triệu giờ proxy huấn luyện world model (như Cosmos) → khoảng 300.000 giờ dữ liệu thao tác robot trên toàn cầu (theo báo cáo của Bessemer)
Không phải mọi dữ liệu đều được tạo ra hay có thể sử dụng như nhau; nhìn chung giá trị dữ liệu và khả năng mở rộng có tương quan nghịch

2. Cải thiện hiệu năng của lớp trí tuệ

Cả tri thức về thế giới (world model) lẫn tri thức về hành động (mô hình VLM/VLA, mô hình nền tảng robot đa phương thức) đều đang tiến bộ nhanh
Tri thức về thế giới — như chuyển động của vật thể, dòng chảy của chất lỏng hay độ rủ của vải — ngày càng có thể được học từ video phong phú và mô hình hóa
Tri thức về hành động — cách một cánh tay robot, bàn tay hay robot hình người cụ thể chuyển lệnh thành hành động — vẫn gắn chặt với hiện thân cụ thể, nhưng có thể chỉ cần ít dữ liệu robot chuyên biệt hơn nhiều so với các thế hệ trước từng giả định
V-JEPA 2 của Meta được pretrain trên hơn 1 triệu giờ video, sau đó điều kiện hóa hành động bằng chưa tới 62 giờ video robot
RT-2 của Google mở rộng việc học thị giác-ngôn ngữ ở quy mô web sang điều khiển robot thực tế
Trình mô phỏng vẫn còn giá trị và locomotion vẫn ánh xạ tốt vào engine vật lý, nhưng vai trò của chúng đang thu hẹp. Trong thao tác giàu tiếp xúc, world model được học trở nên quan trọng hơn

3. Chuyển từ lý thuyết sang giải pháp

Mô hình tốt hơn trước tiên thể hiện qua kết quả thực dụng: grasping tốt hơn, ít cần can thiệp teleoperation hơn, thích nghi nhanh hơn với SKU mới, thao tác vững hơn và thời gian vận hành tự động dài hơn trong các workflow hạn chế
Tranh luận về “khoảnh khắc ChatGPT” của robot vẫn tiếp diễn, nhưng câu hỏi phù hợp hơn là liệu lớp trí tuệ mới đã vượt qua ngưỡng để chuyển từ pilot sang production hay chưa
Thứ tự giải quyết của stack: thu thập dữ liệu → các phòng thí nghiệm neo robot chuyển nó thành trí tuệ có thể tái sử dụng → các nhà cung cấp giải pháp theo chiều dọc chuyển nó thành kinh tế lao động đo lường được

Các lĩnh vực đầu tư đáng chú ý: ba nút thắt cốt lõi

1. Thiếu khả năng tiếp cận dữ liệu → Data Enablement

Nếu robot về bản chất đang bị ràng buộc bởi dữ liệu, thì thu thập dữ liệu là một trong những nhóm ngắn hạn quan trọng nhất của toàn stack
Bao gồm thu thập dữ liệu góc nhìn thứ nhất (egocentric) và teleoperation, tạo môi trường tổng hợp, đánh giá edge case, tinh lọc tín hiệu và tạo vòng phản hồi để cải thiện hệ thống
Các tham chiếu đáng xem: Scale AI (gán nhãn và annotation dữ liệu), Mercor / Mirco1 (dữ liệu con người)
Tương tự làn sóng gán nhãn dữ liệu AI ban đầu, các doanh nghiệp mạnh nhất có thể dùng mũi nhọn dịch vụ/công cụ ban đầu để tiến tới phần mềm workflow giá trị cao, công cụ cận mô hình và vòng lặp dữ liệu độc quyền khó thay thế
Lần này, phần cứng có thể cũng là một phần của câu chuyện

2. Lớp trí tuệ vẫn còn sớm → Phòng thí nghiệm neo robot (Robotic Neo Labs)

Khi lớp trí tuệ đang hữu ích hơn nhưng vẫn còn ở giai đoạn đầu, phòng thí nghiệm neo robot trở thành khu vực logic tiếp theo
Đây là các công ty muốn biến những mô hình thế giới vật lý vốn từng phân mảnh thành trí tuệ có thể tái sử dụng
Giá trị sẽ tích lũy vào các đội ngũ xây dựng quanh world model, action model, mô hình nền tảng robot đa phương thức, cùng công cụ huấn luyện, đánh giá và triển khai
Skild, Physical Intelligence và Field AI đã đạt tới định giá hàng tỷ đô la, mở ra chu kỳ “kingmaker” cho các phòng thí nghiệm robot
Mối quan tâm lớn hơn không nằm ở bản thân phòng thí nghiệm mà ở những gì được xây quanh và bên dưới chúng — các đội ngũ có thể tạo hiệu ứng lãi kép trên dữ liệu, hiện thân, đánh giá và hiệu quả suy luận mới là người chiến thắng thực sự
Lộ trình exit cũng có thể khác với các chu kỳ robot trước đây — thay vì các cột mốc truyền thống, tốc độ, mật độ nhân tài, dữ liệu độc quyền và định vị kỹ thuật có thể quan trọng hơn
Dự kiến sẽ có nhiều thương vụ M&A kiểu acquihire, các kết quả dựa trên IP và đối tác chiến lược hơn
Sự quan tâm tới edge inference và compute on-device chuyên biệt có thể quay trở lại khi các phòng thí nghiệm và đối tác tìm cách giảm phụ thuộc vào compute tập trung đắt đỏ

3. Chuyển tiến bộ kỹ thuật thành kết quả workflow thực tế → Nhà cung cấp giải pháp theo chiều dọc (VSP)

Nếu trí tuệ tốt hơn làm robot có năng lực hơn trong các môi trường hạn chế, thì bên hưởng lợi thương mại trực tiếp nhất sẽ là các công ty biết triển khai chúng vào workflow khách hàng thực tế
Nhiều workflow vật lý đủ ràng buộc để có thể học, đủ giá trị để biện minh cho triển khai, và đủ phức tạp để trí tuệ tốt hơn chính là mảnh ghép còn thiếu
Các trường hợp sử dụng công nghiệp và thương mại hứa hẹn hơn tiêu dùng trong ngắn hạn — ROI rõ ràng hơn, vấn đề lao động cấp bách hơn và việc mua lại con đường từ pilot sang production dễ hơn
Thách thức nằm ở việc chưa có tiêu chuẩn chấp nhận phổ quát — khách hàng đánh giá trên thang trượt giữa tốc độ (số món được đóng gói mỗi giờ), độ chính xác (tỷ lệ món được gắp đúng) và chi phí (chi phí chuẩn hóa theo giờ), trong đó hiệu quả lao động là chỉ số cuối cùng
Việc mở rộng có khả năng bắt đầu từ bổ sung nhân lực — ROI sẽ xuất hiện trước ở các phân khúc thiếu lao động và các khung giờ ít lao động sẵn có như ban đêm hay cuối tuần, nơi ngưỡng tốc độ và độ chính xác thấp hơn có thể biện minh cho chi phí ban đầu cao, rồi tích lũy quy mô trong nước
Lớp chiếm lĩnh tiếp theo đã lộ diện: tích hợp, bảo trì dịch vụ, quản lý thời gian hoạt động, bảo dưỡng và tài chính
- Formic đã sớm chỉ ra thực tế này; khi robot chuyển từ pilot sang fleet, hệ sinh thái xung quanh cũng trở thành đối tượng đầu tư được
- Trong nhiều thị trường, đây chính là nơi cuối cùng hình thành các doanh nghiệp bền vững

Công nghiệp hóa trí tuệ robot hiện thân (Embodied)

Hiện trạng: giao điểm giữa sự cường điệu và thay đổi cấu trúc

Bốn thời kỳ trong lịch sử robot

I. 1950–2000: Giai đoạn thâm nhập công nghiệp và xây nền tảng

II. 2000–2010: Thời đại robot mở và linh kiện di động

III. 2010–2020: Robot cộng tác và edge compute

IV. 2020–nay: Physical AI

Sự thay đổi của các điều kiện kinh tế

Chi phí linh kiện và hệ thống giảm

Actuator

Chi phí pin

Chi phí compute

Chi phí hệ thống

Chi phí lao động tại Mỹ

Giá trị kinh tế của tự động hóa tăng lên

Những đánh đổi chính tại điểm bẻ cong chấp nhận

Stack trí tuệ: vượt ra ngoài kinh tế học

1. Bài toán dữ liệu

2. Cải thiện hiệu năng của lớp trí tuệ

3. Chuyển từ lý thuyết sang giải pháp

Các lĩnh vực đầu tư đáng chú ý: ba nút thắt cốt lõi

1. Thiếu khả năng tiếp cận dữ liệu → Data Enablement

2. Lớp trí tuệ vẫn còn sớm → Phòng thí nghiệm neo robot (Robotic Neo Labs)

3. Chuyển tiến bộ kỹ thuật thành kết quả workflow thực tế → Nhà cung cấp giải pháp theo chiều dọc (VSP)

Bài viết liên quan

Chưa có bình luận nào.