1 điểm bởi GN⁺ 2023-09-29 | 1 bình luận | Chia sẻ qua WhatsApp
  • Ngày 25 tháng 9 năm 2023, OpenAI đã công bố ra mắt hai tính năng mới cho GPT-4, một mô hình tiên tiến
  • Những tính năng mới này cho phép người dùng đặt câu hỏi về hình ảnh và sử dụng giọng nói làm đầu vào truy vấn, qua đó đưa GPT-4 trở thành một mô hình đa phương thức
  • GPT-4V(ision) hoặc GPT-4V là một mô hình đa phương thức cho phép người dùng tải hình ảnh lên làm đầu vào và đặt câu hỏi về hình ảnh; đây là một tác vụ được gọi là trả lời câu hỏi trực quan (VQA)
  • GPT-4V đã được thử nghiệm trên nhiều tác vụ như trả lời câu hỏi trực quan, nhận dạng ký tự quang học (OCR), OCR toán học, phát hiện đối tượng, CAPTCHA, ô chữ và Sudoku
  • Mô hình này hoạt động tốt với các câu hỏi hình ảnh thông thường và cho thấy khả năng nhận biết ngữ cảnh ở một số hình ảnh. Ngoài ra, nó còn trả lời thành công các câu hỏi về bộ phim được hiển thị trong ảnh ngay cả khi không được cho biết bằng văn bản đó là phim gì
  • Tuy nhiên, GPT-4V có những hạn chế. Nó không thể trả về chính xác các hộp giới hạn cho phát hiện đối tượng, cho thấy hiện tại chưa phù hợp cho mục đích này. Ngoài ra, đôi khi nó cũng trả về thông tin không chính xác do Hallucination
  • OpenAI đã cung cấp phiên bản alpha của mô hình thị giác cho một nhóm nhỏ người dùng để tiến hành nghiên cứu, đồng thời thu thập phản hồi và hiểu biết sâu hơn về cách GPT-4V hoạt động thông qua các prompt do nhiều người khác nhau cung cấp
  • OpenAI đã nỗ lực xác định, nghiên cứu và giảm thiểu nhiều rủi ro liên quan đến mô hình. Ví dụ, GPT-4V tránh việc nhận dạng một người cụ thể trong ảnh và không phản hồi các prompt liên quan đến biểu tượng thù ghét
  • Dù còn những hạn chế, GPT-4V vẫn là một bước tiến đáng chú ý trong lĩnh vực học máy và xử lý ngôn ngữ tự nhiên

1 bình luận

 
GN⁺ 2023-09-29
Ý kiến trên Hacker News
  • Bài viết về tiềm năng của mô hình AI GPT-4V, dự đoán rằng nó có thể trở thành giao diện người dùng xuất sắc cho nhiều thiết bị và ứng dụng khác nhau.
  • Dù có một vài thất bại khá cực đoan, khả năng của AI trong việc hiểu và tương tác với các yếu tố giao diện người dùng và bố cục vẫn rất ấn tượng.
  • GPT-4V có thể mô tả chính xác hình ảnh truyện tranh theo từng khung, cho thấy năng lực thị giác máy tính ở mức cao.
  • Khả năng diễn giải sự hài hước trong hình ảnh của AI đã cải thiện đáng kể trong 10 năm qua.
  • Một số hạn chế của GPT-4V bao gồm diễn giải sai cấu trúc của bàn cờ hoặc bỏ sót những yếu tố cụ thể trong hình ảnh.
  • AI không thể giải thích chính xác một trò đùa về chiến lược định giá GPU của NVIDIA.
  • Câu trả lời của GPT-4V đôi khi có thể thiếu nhất quán, đặc biệt khi diễn giải tiền tệ trong các bộ đồng xu.
  • AI thường ngần ngại khi trả lời các câu hỏi mang tính chủ quan, gây ra sự không hài lòng ở một số người dùng.
  • Dù có các tính năng tiên tiến, GPT-4V vẫn gặp khó khăn với những trò chơi đơn giản như cờ ca-rô.