4 điểm bởi xguru 2024-03-14 | 2 bình luận | Chia sẻ qua WhatsApp
  • Robot Figure 01 giờ đây có thể trò chuyện hoàn toàn với con người
  • Mô hình OpenAI cung cấp năng lực thị giác và ngôn ngữ ở cấp độ cao
  • Mạng nơ-ron của Figure cho phép robot thực hiện các chuyển động nhanh, linh hoạt ở cấp độ thấp
  • Robot có thể mô tả những gì nó nhìn thấy, khi được yêu cầu đồ ăn thì nhặt một quả táo và đưa cho người dùng, đồng thời thực hiện các hành động như đánh giá tình huống để dọn dẹp cốc và bàn

2 bình luận

 
erados 2024-03-14

Lại có thêm một phương thức đầu ra nữa rồi nhỉ

 
xguru 2024-03-14

Ý kiến trên Hacker News

  • Tôi ấn tượng với sự nhanh nhẹn của robot, nhưng với ai đã từng trải nghiệm GPT-4 thì khả năng giọng nói và suy luận của robot có lẽ không quá đáng kinh ngạc. Tính năng gọi hàm rất ấn tượng, nhưng “thế giới” mà nó tương tác lại cực kỳ đơn giản. Việc nhìn thấy robot tương tác với thế giới thực rất thú vị. Điều đang kìm hãm sự phát triển của AI hiện nay là chi phí và tốc độ suy luận. Nếu tìm ra cách xử lý hàng nghìn token mỗi giây với chi phí rẻ, chúng ta có thể giải quyết nhiều vấn đề khó và thực sự thấy được những ứng dụng đáng kinh ngạc.
  • Việc chọn một trong các hành động được huấn luyện sẵn bằng giọng nói thì hay nhưng không mang tính đột phá. Dùng GPT-4V để mô tả cảnh cũng tương đối đơn giản. Điều ấn tượng nhất là tốc độ nhặt rác rất nhanh và chuyển đồ linh hoạt từ tay này sang tay kia. Chưa rõ chính sách chuyển động này mang tính tổng quát đến đâu. Nhìn người đứng hoàn toàn bất động, tôi có cảm giác nếu mọi thứ không được thiết lập chính xác thì nó sẽ thất bại. Tôi muốn xem một bản demo có nhiều biến đổi hơn. Dù vậy, tôi vẫn thấy bản demo này rất xuất sắc và muốn xem thêm.
  • Suy luận độ trễ thấp của Groq cho thấy tính hữu dụng thực tế. Có thể nó không gây ấn tượng vì vẫn có độ trễ trong phản hồi, nhưng dù vậy vẫn rất đáng nể.
  • Tôi thắc mắc việc robot đặt chiếc đĩa bẩn có rác và táo lên trên vào giá úp bát. Cái đĩa đó đáng ra phải được rửa trước.
  • Khả năng chuyển văn bản thành chuyển động servo thật đáng kinh ngạc, và có vẻ GPT-4 Vision cùng Whisper đã được dùng rất nhiều. Thuật ngữ “suy luận” cũng đang được dùng theo cách mới. Có thể gọi đây là một công ty AI wrapper. Tất nhiên, phương tiện không giống ứng dụng. Ngay cả khi sự phát triển AI dừng lại hôm nay, vẫn đã có rất nhiều ứng dụng AI đáng kinh ngạc.
  • Hình dáng humanoid và giọng nói mang lại cảm giác khác hẳn so với một phiên bản chỉ trò chuyện thuần túy. Nếu thêm ánh mắt và giao tiếp bằng mắt, nó sẽ tạo ấn tượng sâu sắc hơn. Tôi tưởng tượng cảnh trình diễn thứ này cho công chúng.
  • Việc chuyển giọng nói thành chuyển động servo thật ấn tượng. Tốc độ thực hiện các tác vụ đòi hỏi sự khéo léo thật đáng kinh ngạc, và đây là bản demo robot thao tác vật thể đầu tiên trông “tự nhiên” mà không cần tăng tốc video.
  • Tôi muốn được làm một đứa trẻ 5 tuổi không biết mọi thứ này phi thực tế và vô dụng đến mức nào, để chỉ một lần có thể suy nghĩ tích cực về tương lai. Nhưng con người dường như không hiểu rằng không thể vận hành “những con số tưởng tượng đi lên” khi các nhu cầu nhà ở cơ bản còn chưa được đáp ứng, và cũng không có cách nào để biến công nghệ này thành thứ hữu ích, rẻ, đáng tin cậy và tốt đẹp.
  • Phần ấn tượng nhất của bản demo này là robot có thể “nhìn” và dùng các phần phụ giống con người để nhặt vật thể lên. Có lẽ tôi đã bỏ sót điều gì đó, nhưng tôi từng nghĩ đây là việc cực kỳ khó. Tôi biết động học nghịch rất khó, liệu họ đã giải quyết nó bằng mạng nơ-ron chăng?
  • Liên kết đến cùng video trên YouTube: Figure Status Update - OpenAI Speech-to-Speech Reasoning