Trí tuệ không gian là biên cương tiếp theo của AI

(drfeifei.substack.com)

14 điểm bởi GN⁺ 2025-11-12 | 1 bình luận | Chia sẻ qua WhatsApp

Trí tuệ không gian (spatial intelligence) là lĩnh vực cốt lõi có thể thay đổi tận gốc cách AI hiểu và tương tác với thế giới thực lẫn thế giới ảo
Các mô hình ngôn ngữ lớn (LLM) hiện nay rất giỏi xử lý ngôn ngữ, nhưng năng lực suy luận không gian như khoảng cách, phương hướng và tính nhất quán vật lý vẫn chưa đạt mức con người
Một hướng tiếp cận mới để giải quyết vấn đề này là “mô hình thế giới (world model)”, một kiến trúc mô hình sinh thế hệ tiếp theo mang đặc tính sinh tạo, đa phương thức và tương tác
World Labs đang phát triển các mô hình như vậy, và phiên bản đầu tiên mang tên “Marble” đã trình diễn khả năng tạo và duy trì môi trường 3D nhất quán dựa trên nhiều đầu vào
Trí tuệ không gian là bước tiếp theo của AI trong việc tăng cường năng lực con người ở nhiều lĩnh vực như sáng tạo, robot, khoa học, y tế và giáo dục

Khái niệm và tầm quan trọng của trí tuệ không gian

Trí tuệ của con người đã tiến hóa dựa trên vòng lặp nhận thức-hành động (perception-action loop), và trí tuệ không gian là yếu tố cốt lõi giúp điều đó trở nên khả thi
- Mọi hành vi thường ngày như đỗ xe, cầm nắm đồ vật hay di chuyển trong môi trường phức tạp đều phụ thuộc vào suy luận không gian
- Ngay cả trong quá trình phát triển của trẻ nhỏ trước khi có ngôn ngữ, cảm nhận không gian cũng được hình thành thông qua tương tác với môi trường
Sáng tạo và trí tưởng tượng cũng dựa trên trí tuệ không gian
- Từ tranh hang động đến phim ảnh, trò chơi và thực tế ảo (VR), con người đã biểu đạt thế giới thông qua tư duy không gian
- Mô phỏng không gian cũng đóng vai trò then chốt trong thiết kế công nghiệp, digital twin và huấn luyện robot
Xét về lịch sử, trí tuệ không gian cũng là động lực thúc đẩy sự phát triển của văn minh
- Việc Eratosthenes tính chu vi Trái Đất, cải tiến cấu trúc của spinning jenny hay khám phá cấu trúc DNA đều là kết quả của tư duy không gian
Dù AI hiện nay đã tiến bộ trong nhận diện và tạo sinh hình ảnh, sự nhất quán không gian như hiểu khoảng cách, phương hướng và quy luật vật lý vẫn còn thiếu
- Ngay cả các mô hình đa phương thức mới nhất cũng cho kết quả yếu ở các bài toán như xoay vật thể, tìm đường trong mê cung hay dự đoán vật lý
- Hạn chế này khiến các ứng dụng trong thế giới thực như điều khiển robot, xe tự hành và học tập nhập vai bị giới hạn

Mô hình thế giới: kiến trúc AI mới để hiện thực hóa trí tuệ không gian

Để hiện thực hóa trí tuệ không gian, cần một mô hình thế giới (world model) phức tạp hơn LLM
- Mô hình này phải hiểu, tạo ra và tương tác một cách tích hợp với độ phức tạp ngữ nghĩa, vật lý, hình học và động lực học của thế giới thực lẫn thế giới ảo
Ba năng lực cốt lõi của mô hình thế giới
1. Sinh tạo (Generative): tạo ra các thế giới nhất quán về tri giác, hình học và vật lý
  - Có thể mô phỏng không gian thực hoặc ảo, đồng thời duy trì tính liên tục giữa trạng thái hiện tại và trạng thái trong quá khứ
2. Đa phương thức (Multimodal): tích hợp và xử lý nhiều loại đầu vào như hình ảnh, video, văn bản và cử chỉ
  - Đồng thời phải có cả độ trung thực thị giác lẫn năng lực diễn giải ngữ nghĩa
3. Tương tác (Interactive): dự đoán và tạo ra trạng thái tiếp theo theo hành động đầu vào
  - Khi có trạng thái mục tiêu, mô hình còn phải có khả năng dự đoán cả sự thay đổi của thế giới và các hành động phù hợp để đạt được nó
Vì phải phản ánh nhất quán các quy luật vật lý, cấu trúc hình học và động lực học phức tạp hơn rất nhiều so với sinh ngôn ngữ, nên độ khó kỹ thuật là cực kỳ cao

Nghiên cứu của World Labs và các thách thức kỹ thuật

World Labs được thành lập vào đầu năm 2024 và đang nghiên cứu mô hình thế giới tập trung vào trí tuệ không gian
Các chủ đề nghiên cứu chính
- Định nghĩa hàm học tập phổ quát: xây dựng mục tiêu học vừa đơn giản như “dự đoán token tiếp theo” của LLM, vừa phản ánh các quy luật vật lý và hình học
- Dữ liệu huấn luyện quy mô lớn: tận dụng nhiều nguồn như hình ảnh, video trên Internet, dữ liệu tổng hợp, thông tin độ sâu và xúc giác
- Kiến trúc mô hình mới: nghiên cứu token hóa và cấu trúc bộ nhớ dựa trên nhận thức 3D·4D
  - Ví dụ: RTFM (Real-Time Frame-based Model) sử dụng các khung không gian làm bộ nhớ để tạo sinh thời gian thực và duy trì tính nhất quán
Marble, kết quả ban đầu, có thể tạo và duy trì môi trường 3D nhất quán từ nhiều đầu vào và đã được trình diễn cho một số người dùng
- Hiện đang được phát triển với mục tiêu công bố trong tương lai

Các lĩnh vực ứng dụng của trí tuệ không gian

Sáng tạo và sản xuất nội dung

Marble cung cấp cho nhà làm phim, nhà thiết kế game, kiến trúc sư và các đối tượng khác khả năng tạo thế giới 3D có thể khám phá hoàn toàn
- Có thể thử nghiệm nhiều cảnh và góc nhìn khác nhau mà không bị ràng buộc bởi ngân sách hay địa lý
- Tạo ra trải nghiệm nhập vai trong kể chuyện, nghệ thuật, giáo dục và thiết kế
Thiết kế tự sự không gian giúp rút ngắn quá trình trực quan hóa trong kiến trúc, công nghiệp và thiết kế thời trang
Việc mở rộng trải nghiệm nhập vai dựa trên VR·XR cũng cho phép các nhà sáng tạo cá nhân tự xây dựng thế giới của riêng mình

Robot

Điểm nghẽn của việc huấn luyện robot là thiếu dữ liệu huấn luyện, và mô hình thế giới có thể bù đắp điều này
- Có thể học trong nhiều môi trường khác nhau bằng cách thu hẹp khoảng cách giữa mô phỏng và thực tế
Trí tuệ không gian là yếu tố thiết yếu để hiện thực hóa robot cộng tác với con người
- Có thể phát triển robot biết đồng cảm với mục tiêu và hành vi của con người, rồi hợp tác trong phòng thí nghiệm, gia đình và các môi trường khác
Cũng có thể được dùng để xây dựng môi trường huấn luyện và benchmark cho nhiều dạng robot khác nhau — nanobot, robot mềm, robot cho biển sâu và không gian

Khoa học, y tế, giáo dục

Nghiên cứu khoa học: tăng tốc thí nghiệm bằng mô phỏng đa chiều, giảm chi phí tính toán trong nghiên cứu khí hậu, vật liệu và các lĩnh vực khác
Y tế: mở rộng ứng dụng của AI dựa trên trí tuệ không gian trong khám phá thuốc, chẩn đoán hình ảnh và theo dõi bệnh nhân
Giáo dục: trực quan hóa các khái niệm phức tạp và cung cấp môi trường học tập nhập vai được cá nhân hóa cho người học
- Học sinh có thể khám phá cấu trúc tế bào hoặc các sự kiện lịch sử, còn chuyên gia có thể luyện kỹ năng qua các mô phỏng chân thực

Tầm nhìn phát triển AI lấy con người làm trung tâm

Mục tiêu của phát triển AI là tăng cường năng lực con người, chứ không phải thay thế
- AI nên phát triển theo hướng nâng cao sáng tạo, năng suất, kết nối và mức độ hài lòng trong cuộc sống
Trí tuệ không gian được xem là công nghệ giúp mở rộng trí tưởng tượng, năng lực chăm sóc và khả năng khám phá của con người
Để hiện thực hóa tầm nhìn này, cần sự hợp tác của toàn bộ hệ sinh thái AI gồm nhà nghiên cứu, doanh nghiệp và nhà hoạch định chính sách

Kết luận

AI đã làm thay đổi toàn xã hội, nhưng trí tuệ không gian được xem là làn sóng đổi mới tiếp theo
Thông qua mô hình thế giới, có thể phát triển các cỗ máy thông minh về không gian biết tương tác hài hòa với thế giới thực
Đây được đánh giá là bước ngoặt công nghệ giúp nâng cao những hoạt động cốt lõi của con người như nghiên cứu bệnh tật, kể chuyện và chăm sóc
Cũng như trí tuệ con người khởi nguồn từ trí tuệ không gian, tầm nhìn được đưa ra là AI cũng sẽ được hoàn thiện thông qua trí tuệ không gian

1 bình luận

GN⁺ 2025-11-12

Ý kiến trên Hacker News

Đọc xong bài viết mà vẫn không rõ họ thực sự đang hiểu điều gì
Ghi chú gần như không có thông tin thực chất, chỉ ở mức “thu thập dữ liệu không gian như ImageNet”
Những người nghiên cứu trí tuệ không gian chủ yếu ở phía khoa học thần kinh
Trong bài báo tổng quan tôi viết, tôi giải thích rằng entorhinal cortex, grid cell và phép biến đổi tọa độ có thể là yếu tố cốt lõi
Mọi loài động vật đều biến đổi tọa độ theo thời gian thực để khám phá thế giới, và con người là loài có nhiều biểu diễn tọa độ nhất
Tôi nghĩ trí tuệ ở mức con người là biết khi nào và bằng cách nào chuyển đổi hệ tọa độ để rút ra thông tin hữu ích
Dù bài đó được viết trước làn sóng LLM, tôi vẫn tin đây là hướng đi đúng
- Tôi đã có suy nghĩ tương tự từ những năm 1990
  Nó dẫn đến nghiên cứu về phát hiện va chạm, hoạt họa dựa trên vật lý, giải phương trình phi tuyến và di chuyển bằng chân trên địa hình gồ ghề, nhưng đó không phải AI
  Ngày nay người ta đổ vào lượng tính toán khổng lồ với kỳ vọng hệ thống học sẽ tự tìm ra biểu diễn nội tại của thế giới không gian
  Khả năng đi bộ của robot đã khá tốt, nhưng thao tác trong môi trường phi cấu trúc (manipulation) vẫn còn rất tệ
  So với video từ phòng thí nghiệm McCarthy ở Stanford những năm 1960 thì cũng không khác biệt nhiều
  Trước đây tôi nghĩ phải đạt được trí tuệ mức chuột hay sóc trước khi đạt mức con người, nên khá bất ngờ khi AI trừu tượng lại xuất hiện trước
  Gần đây, nghiên cứu sinh video dự đoán khung hình tiếp theo từ một đoạn video ngắn khiến tôi thấy hứng thú
  Tôi nghĩ cốt lõi của common sense chính là khả năng dự đoán “điều gì sẽ xảy ra tiếp theo” trong thời gian ngắn
- Thật thú vị khi cả bạn và vợ chồng Moser (những người đoạt Nobel) đều tin rằng grid cell là chìa khóa để động vật hiểu vị trí của chúng trong thế giới
  Có thể tham khảo thêm thông cáo báo chí Nobel liên quan
- Tôi đọc được vài đoạn rồi bỏ cuộc vì không thấy định nghĩa của ‘trí tuệ không gian’
  Có quá nhiều từ ngữ sáo rỗng kiểu VC như “transform”, “revolutionize”, “next frontier”, “North Star”, nên độ tin cậy giảm hẳn
- Tôi đọc bài báo rồi, phần tài liệu tham khảo đặc biệt thú vị
  "Vector-based navigation using grid-like representations in artificial agents" trên Nature năm 2018,
  "Modeling hippocampal spatial cells in rodents navigating in 3D environments" trên Nature năm 2024,
  và cả mô phỏng grid-cell của DeepMind cũng rất đáng xem
  Khoa học thần kinh đã nghiên cứu nhận thức không gian từ khá lâu rồi
- Cuối cùng điều quan trọng là liệu có thể rút ra được insight thực chất từ kiểu nghiên cứu này hay không
  Việc sao chép nguyên xi hệ thống sinh học gần như đều thất bại
  CNN lấy cảm hứng từ não bộ nhưng khác về mặt cấu trúc, còn LLM thì gần như không giống não người
  Sự tương đồng về mặt chức năng của LLM không đến từ việc mô phỏng cấu trúc não mà đến từ quá trình huấn luyện
Đây rốt cuộc chỉ là một hệ thống mô phỏng hoạt động trong một thế giới ảo hẹp
Loại hệ thống này gần như không giúp ích gì cho việc học động lực học phức tạp của thế giới thực
Mô hình thế giới ảo chỉ là một trường hợp đặc biệt đã được đơn giản hóa của mô hình thế giới vật lý, và tôi không thấy bằng chứng nào cho thấy công ty này đã đạt tiến bộ thực chất trong lĩnh vực trí tuệ không gian
Gần đây tôi áp dụng agentic coding vào CAD và có một trải nghiệm đáng kinh ngạc
Tôi cần thêm ren vào một mẫu in 3D, nên đã dùng hình học tính toán để giúp tác nhân có thể ‘cảm nhận’ được mô hình
Tôi tích chập bán kính của một hình cầu lên toàn bộ mô hình để tìm vị trí cổng và thêm ren
Sau vài lần thử thì thành công, và trải nghiệm này khiến tôi nhận ra mô hình cần có một kiểu ‘xúc giác’
Cuối cùng, mô hình 3D phải được hiện thực hóa bằng mã để có thể kiểm chứng
- Tiềm năng của Generative CAD là rất lớn
  Tôi đã thử với OpenSCAD, nhưng các mô hình hiện nay vẫn thiếu common sense về kết nối hình học
  Nếu có nhiều bộ dữ liệu CAD dựa trên mã hơn thì sẽ hữu ích hơn rất nhiều
  Nếu không, cuối cùng vẫn sẽ cần học dựa trên mô phỏng vật lý
- Không biết bạn có dùng CadQuery không, nếu có bài viết tổng kết những gì đã học được thì tôi rất muốn xem
- Tôi muốn biết chi tiết hơn về quá trình triển khai, cũng tò mò liệu bạn có định viết thành bài hay không
- Tôi cũng đang thử nghiệm cách tiếp cận đối tượng 3D sinh sinh, nên rất muốn nghe thêm
- Không giống như prompt cho LLM, việc mô tả đối tượng hình học bằng văn bản thực sự rất khó
  Nó dễ rơi vào kiểu mơ hồ như “đừng đặt nó ở đó, hãy đặt nó ở kia”
Genie 3 phần nào đã đạt được mục tiêu mà cô ấy nói tới, tức là một mô hình thế giới có thể điều khiển được với các quy luật vật lý nhất quán
Mô hình cùng họ Veo 3 cũng cho thấy khả năng giải quyết vấn đề không gian
Genie và Veo gần với tầm nhìn của cô ấy hơn World Labs rất nhiều
Nhưng bài viết hoàn toàn không nhắc đến các mô hình của Google, nên tạo cảm giác như một bài quảng bá cho công ty mình
- Gemini ER cũng là một mô hình hoạt động theo không gian trong thế giới thực
  Tham khảo DeepMind Gemini Robotics ER
AI hiện nay chỉ học từ web và không thể học từ tương tác với con người
Con người học thông qua bối cảnh và ký ức tích lũy suốt đời, còn AI thì khi cuộc trò chuyện kết thúc, bối cảnh đó cũng biến mất
Nếu có một bộ nhớ ngữ cảnh khổng lồ được cá nhân hóa thì giá trị sẽ cao hơn rất nhiều
- Nested Learning của Google Research có thể là lời giải cho vấn đề này
  Cách hiện tại gây ra catastrophic forgetting khi học thêm, còn Nested Learning chia thành nhiều mô hình nhỏ để việc tái huấn luyện không làm hỏng các phần khác
- ‘Ngữ cảnh’ của con người là kết quả của sự tích lũy tiến hóa qua hàng tỷ năm
  Hiểu biết không gian mà chúng ta có là thứ đồ sộ như một mô phỏng lượng tử ở quy mô vũ trụ
  Trong khi đó, thứ mà ngày nay chúng ta có thể mô phỏng đầy đủ chỉ mới ở mức nguyên tử hoặc tế bào
Đọc bài này làm tôi nghĩ rằng trường hợp đầu tiên con người ‘nghĩ vượt tự nhiên’ có lẽ là bánh xe
Tự nhiên thì gồ ghề, còn con người tạo ra đường phẳng để cho chuyển động lăn trở nên khả thi
Sự phát triển của khoa học và công nghệ là một ví dụ khác cho phép trực giác về mẫu hình được truyền qua nhiều thế hệ
Tôi không biết ‘siêu trí tuệ’ có thể tồn tại dưới hình thức nào khác ngoài tốc độ hay không, nhưng năng lực tư duy ba chiều sẽ là thứ thiết yếu để AI vượt qua con người và tự nhiên
- Cơ thể con người là một hệ thống có tổ chức nơi các tế bào hợp tác với nhau
  Cũng như mạch máu vận chuyển dinh dưỡng và tín hiệu, đường sá cũng vận chuyển tài nguyên
  Có lẽ tự nhiên chỉ đơn giản là đã mở rộng năng lực tổ chức đó lên cấp độ loài, nên cũng không có nhiều cơ sở để nói con người ở trên tự nhiên
Nhận thức của con người là một cấu trúc được xây trên trí tuệ không gian
Nó không chỉ được tạo nên bởi tư duy trừu tượng mà là trải nghiệm tích hợp dựa trên cảm giác
Tiến hóa không đạt được sự khái quát hóa bằng một bộ não mang tính biểu tượng, mà bằng sự hợp nhất của các giác quan
Trí tuệ không đến từ thuật toán mà từ sự hài hòa nhất quán giữa các giác quan
Tính toàn vẹn của cảm giác mới là hướng đi phía trước
Tôi đang theo dõi một bài blog tổng hợp hiện trạng suy luận không gian của LLM
Kết luận là… vẫn còn rất xa mới tới đích
Spatial token có thể hữu ích nhưng không phải bắt buộc
Nhiều bài toán vật lý vẫn có thể giải bằng giấy và bút
Thật ấn tượng khi ảnh 512×512 có thể được biểu diễn bằng 85 token, còn video là 263 token mỗi giây
Đây có vẻ là một bài toán cân bằng mới giữa bộ nhớ và embedding
Giống như câu hỏi “bạn có thể xoay một quả táo trong đầu không”, embedding không gian sẽ cho phép hiểu động lực học một cách trực quan
Ở FlyShirley, nhóm chúng tôi cũng đang nghiên cứu mảng này thông qua mô phỏng huấn luyện phi công, và dự định sẽ thử mô hình của Fei-Fei
Vì việc học và suy luận dựa trên video đòi hỏi tài nguyên tính toán khổng lồ,
nên tôi nghi ngờ cách tiếp cận này có thực sự hữu ích cho các trợ lý tác nhân (lập trình, marketing, quản lý lịch trình, v.v.) hay không
Tôi nghĩ cấu trúc tính toán này có lẽ sẽ phù hợp hơn nhiều với lĩnh vực robot

Trí tuệ không gian là biên cương tiếp theo của AI

Khái niệm và tầm quan trọng của trí tuệ không gian

Mô hình thế giới: kiến trúc AI mới để hiện thực hóa trí tuệ không gian

Nghiên cứu của World Labs và các thách thức kỹ thuật

Các lĩnh vực ứng dụng của trí tuệ không gian

Sáng tạo và sản xuất nội dung

Robot

Khoa học, y tế, giáo dục

Tầm nhìn phát triển AI lấy con người làm trung tâm

Kết luận

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News