- Ngày 25 tháng 9 năm 2023, OpenAI đã công bố ra mắt hai tính năng mới cho GPT-4, một mô hình tiên tiến
- Những tính năng mới này cho phép người dùng đặt câu hỏi về hình ảnh và sử dụng giọng nói làm đầu vào truy vấn, qua đó đưa GPT-4 trở thành một mô hình đa phương thức
- GPT-4V(ision) hoặc GPT-4V là một mô hình đa phương thức cho phép người dùng tải hình ảnh lên làm đầu vào và đặt câu hỏi về hình ảnh; đây là một tác vụ được gọi là trả lời câu hỏi trực quan (VQA)
- GPT-4V đã được thử nghiệm trên nhiều tác vụ như trả lời câu hỏi trực quan, nhận dạng ký tự quang học (OCR), OCR toán học, phát hiện đối tượng, CAPTCHA, ô chữ và Sudoku
- Mô hình này hoạt động tốt với các câu hỏi hình ảnh thông thường và cho thấy khả năng nhận biết ngữ cảnh ở một số hình ảnh. Ngoài ra, nó còn trả lời thành công các câu hỏi về bộ phim được hiển thị trong ảnh ngay cả khi không được cho biết bằng văn bản đó là phim gì
- Tuy nhiên, GPT-4V có những hạn chế. Nó không thể trả về chính xác các hộp giới hạn cho phát hiện đối tượng, cho thấy hiện tại chưa phù hợp cho mục đích này. Ngoài ra, đôi khi nó cũng trả về thông tin không chính xác do Hallucination
- OpenAI đã cung cấp phiên bản alpha của mô hình thị giác cho một nhóm nhỏ người dùng để tiến hành nghiên cứu, đồng thời thu thập phản hồi và hiểu biết sâu hơn về cách GPT-4V hoạt động thông qua các prompt do nhiều người khác nhau cung cấp
- OpenAI đã nỗ lực xác định, nghiên cứu và giảm thiểu nhiều rủi ro liên quan đến mô hình. Ví dụ, GPT-4V tránh việc nhận dạng một người cụ thể trong ảnh và không phản hồi các prompt liên quan đến biểu tượng thù ghét
- Dù còn những hạn chế, GPT-4V vẫn là một bước tiến đáng chú ý trong lĩnh vực học máy và xử lý ngôn ngữ tự nhiên
1 bình luận
Ý kiến trên Hacker News