AI đa phương thức có thể làm gì ngoài tạo ảnh

(blog.naver.com)

12 điểm bởi ironlung 2022-09-22 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

AI đa phương thức ngoài việc tạo ảnh còn có thể hoàn thiện ảnh chưa hoàn chỉnh, dự đoán lời nói tiếp theo trong video, tìm kiếm kết hợp văn bản+hình ảnh, dịch truyện tranh, dự đoán nguy cơ mắc ung thư, phát hiện phát ngôn thù ghét, v.v.

1.Hoàn thiện ảnh chưa hoàn chỉnh

NÜWA do Microsoft Research Asia và Đại học Bắc Kinh phát triển đã trình diễn chức năng liên quan
Khi nhận một hình ảnh chưa hoàn chỉnh, hệ thống sẽ điền nốt phần còn thiếu để hoàn thiện hình
Khi nhận một bản phác thảo, hệ thống tạo ra hình ảnh hoặc video phù hợp với nó
Hệ thống cũng dự đoán và tạo ra cảnh tiếp theo của video

2.Dự đoán lời nói tiếp theo trong video

Mô hình do Google Research phát triển có thể dự đoán phát ngôn tiếp theo khi được cung cấp cảnh video và bản chép lại lời nói của người nói
Video và văn bản được dùng làm “ngữ cảnh” để dự đoán phát ngôn của người nói

3.Tìm kiếm văn bản+hình ảnh

MUM do Google phát triển có thể hiểu hình ảnh khi người dùng tải ảnh giày leo núi lên ô tìm kiếm và nhập “Tôi có thể dùng đôi giày này để leo núi Phú Sĩ không?”, rồi liên kết hình ảnh đó với câu hỏi của người dùng để cho biết rằng “đôi giày leo núi này có thể hoạt động tốt”
Hệ thống cũng có thể đưa ra các blog có danh sách thiết bị được khuyến nghị

4.Dịch truyện tranh

“Khung dịch nhận biết ngữ cảnh đa phương thức” do Đại học Tokyo và nhóm nghiên cứu của công ty dịch máy Nhật Bản Mantra giới thiệu có thể dịch truyện tranh sang ngôn ngữ khác bằng cách đồng thời xem xét tranh minh họa và lời thoại
Hệ thống này trích xuất thông tin ngữ cảnh như cảnh, thứ tự đọc lời thoại và thông tin thị giác từ hình ảnh manga Nhật Bản
Sau đó dùng thông tin đó để dịch lời thoại trong bong bóng thoại từ tiếng Nhật sang tiếng Anh

5.Dự đoán nguy cơ mắc ung thư

AI đa phương thức do nhóm nghiên cứu tại Bệnh viện Brigham and Women’s thuộc Trường Y Harvard phát triển có thể dự đoán khả năng mắc ung thư bằng cách tham chiếu ảnh mô tế bào và dữ liệu genomics dạng văn bản
Nhóm nghiên cứu đã huấn luyện hai mô hình riêng biệt bằng ảnh vi mô của mô tế bào và dữ liệu genomics dạng văn bản
Sau đó, hai mô hình được tích hợp vào một hệ thống duy nhất để dự đoán “bệnh nhân có nguy cơ cao hay thấp đối với nhiều loại ung thư”

6.Học “hình ảnh” của một vật thể cụ thể để nhận diện “dữ liệu 3D” hoặc “video” của cùng vật thể đó

Omnivore do Meta giới thiệu dù chỉ học hình ảnh quả bí ngô vẫn có thể nhận ra cả mô hình 3D của quả bí ngô
Ngoài ra, dù chỉ học hình ảnh du thuyền, hệ thống vẫn có thể nhận diện cả video về du thuyền

7.Phát hiện phát ngôn thù ghét

AI đa phương thức cũng có thể giúp phát hiện phát ngôn thù ghét trong các bài đăng trên mạng xã hội bằng cách tham chiếu đồng thời cả nội dung hình ảnh lẫn văn bản
Phát ngôn thù ghét cũng tồn tại dưới dạng meme kết hợp hình ảnh và văn bản
Meta giải thích rằng “để (AI) nhận biết một meme có mang tính thù ghét hay không, cần phải xem xét cả hình ảnh meme lẫn nội dung văn bản”
Một meme có ảnh sa mạc trống rỗng kèm dòng chữ “Hãy xem có bao nhiêu người yêu quý bạn” mang tính công kích một cách tinh vi
Để AI phát hiện ý nghĩa thực sự của meme chứa phát ngôn thù ghét, hệ thống cần phân tích meme một cách tổng thể
Cần kết hợp hình ảnh và văn bản, đồng thời hiểu cách ý nghĩa thay đổi khi chúng xuất hiện cùng nhau
AI đa phương thức được kỳ vọng sẽ thực hiện được chức năng này bằng cách xử lý đồng thời hình ảnh và văn bản
Meta cho rằng năng lực hiện tại của họ trong việc hiểu toàn diện nội dung bài đăng trên mạng xã hội nhằm nhận diện phát ngôn thù ghét sẽ phát triển thành AI đa phương thức
Meta đã xây dựng và chia sẻ bộ dữ liệu “Hateful Memes” nhằm hỗ trợ phát triển các hệ thống xác định phát ngôn thù ghét đa phương thức

AI đa phương thức có thể làm gì ngoài tạo ảnh

Bài viết liên quan

Chưa có bình luận nào.