12 điểm bởi ironlung 2022-09-22 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

AI đa phương thức ngoài việc tạo ảnh còn có thể hoàn thiện ảnh chưa hoàn chỉnh, dự đoán lời nói tiếp theo trong video, tìm kiếm kết hợp văn bản+hình ảnh, dịch truyện tranh, dự đoán nguy cơ mắc ung thư, phát hiện phát ngôn thù ghét, v.v.

1.Hoàn thiện ảnh chưa hoàn chỉnh

  • NÜWA do Microsoft Research Asia và Đại học Bắc Kinh phát triển đã trình diễn chức năng liên quan
  • Khi nhận một hình ảnh chưa hoàn chỉnh, hệ thống sẽ điền nốt phần còn thiếu để hoàn thiện hình
  • Khi nhận một bản phác thảo, hệ thống tạo ra hình ảnh hoặc video phù hợp với nó
  • Hệ thống cũng dự đoán và tạo ra cảnh tiếp theo của video

2.Dự đoán lời nói tiếp theo trong video

  • Mô hình do Google Research phát triển có thể dự đoán phát ngôn tiếp theo khi được cung cấp cảnh video và bản chép lại lời nói của người nói
  • Video và văn bản được dùng làm “ngữ cảnh” để dự đoán phát ngôn của người nói

3.Tìm kiếm văn bản+hình ảnh

  • MUM do Google phát triển có thể hiểu hình ảnh khi người dùng tải ảnh giày leo núi lên ô tìm kiếm và nhập “Tôi có thể dùng đôi giày này để leo núi Phú Sĩ không?”, rồi liên kết hình ảnh đó với câu hỏi của người dùng để cho biết rằng “đôi giày leo núi này có thể hoạt động tốt”
  • Hệ thống cũng có thể đưa ra các blog có danh sách thiết bị được khuyến nghị

4.Dịch truyện tranh

  • “Khung dịch nhận biết ngữ cảnh đa phương thức” do Đại học Tokyo và nhóm nghiên cứu của công ty dịch máy Nhật Bản Mantra giới thiệu có thể dịch truyện tranh sang ngôn ngữ khác bằng cách đồng thời xem xét tranh minh họa và lời thoại
  • Hệ thống này trích xuất thông tin ngữ cảnh như cảnh, thứ tự đọc lời thoại và thông tin thị giác từ hình ảnh manga Nhật Bản
  • Sau đó dùng thông tin đó để dịch lời thoại trong bong bóng thoại từ tiếng Nhật sang tiếng Anh

5.Dự đoán nguy cơ mắc ung thư

  • AI đa phương thức do nhóm nghiên cứu tại Bệnh viện Brigham and Women’s thuộc Trường Y Harvard phát triển có thể dự đoán khả năng mắc ung thư bằng cách tham chiếu ảnh mô tế bào và dữ liệu genomics dạng văn bản
  • Nhóm nghiên cứu đã huấn luyện hai mô hình riêng biệt bằng ảnh vi mô của mô tế bào và dữ liệu genomics dạng văn bản
  • Sau đó, hai mô hình được tích hợp vào một hệ thống duy nhất để dự đoán “bệnh nhân có nguy cơ cao hay thấp đối với nhiều loại ung thư”

6.Học “hình ảnh” của một vật thể cụ thể để nhận diện “dữ liệu 3D” hoặc “video” của cùng vật thể đó

  • Omnivore do Meta giới thiệu dù chỉ học hình ảnh quả bí ngô vẫn có thể nhận ra cả mô hình 3D của quả bí ngô
  • Ngoài ra, dù chỉ học hình ảnh du thuyền, hệ thống vẫn có thể nhận diện cả video về du thuyền

7.Phát hiện phát ngôn thù ghét

  • AI đa phương thức cũng có thể giúp phát hiện phát ngôn thù ghét trong các bài đăng trên mạng xã hội bằng cách tham chiếu đồng thời cả nội dung hình ảnh lẫn văn bản
  • Phát ngôn thù ghét cũng tồn tại dưới dạng meme kết hợp hình ảnh và văn bản
  • Meta giải thích rằng “để (AI) nhận biết một meme có mang tính thù ghét hay không, cần phải xem xét cả hình ảnh meme lẫn nội dung văn bản”
  • Một meme có ảnh sa mạc trống rỗng kèm dòng chữ “Hãy xem có bao nhiêu người yêu quý bạn” mang tính công kích một cách tinh vi
  • Để AI phát hiện ý nghĩa thực sự của meme chứa phát ngôn thù ghét, hệ thống cần phân tích meme một cách tổng thể
  • Cần kết hợp hình ảnh và văn bản, đồng thời hiểu cách ý nghĩa thay đổi khi chúng xuất hiện cùng nhau
  • AI đa phương thức được kỳ vọng sẽ thực hiện được chức năng này bằng cách xử lý đồng thời hình ảnh và văn bản
  • Meta cho rằng năng lực hiện tại của họ trong việc hiểu toàn diện nội dung bài đăng trên mạng xã hội nhằm nhận diện phát ngôn thù ghét sẽ phát triển thành AI đa phương thức
  • Meta đã xây dựng và chia sẻ bộ dữ liệu “Hateful Memes” nhằm hỗ trợ phát triển các hệ thống xác định phát ngôn thù ghét đa phương thức

Chưa có bình luận nào.

Chưa có bình luận nào.