HyperCLOVA X Vision: Mở mắt

(clova.ai)

5 điểm bởi GN⁺ 2024-08-21 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

HCX Vision phát triển từ mô hình ngôn ngữ lớn (LLM) hiện có thành mô hình ngôn ngữ-thị giác lớn (LVLM) bằng cách bổ sung khả năng hiểu hình ảnh
Được huấn luyện bổ sung với nhiều loại dữ liệu thị giác và ngôn ngữ, cho phép hiểu đồng thời hình ảnh và văn bản
Thu thập dữ liệu phù hợp với nhiều kịch bản để thực hiện các tác vụ hiểu thị giác và ngôn ngữ trong nhiều tình huống như nhận diện tài liệu, hiểu văn bản trong ảnh
Dựa trên kinh nghiệm công nghệ OCR của Naver để tăng cường khả năng xử lý tài liệu và nhận dạng ký tự, cung cấp dịch vụ chính xác và đáng tin cậy
Dựa trên HCX, mô hình sở hữu kiến thức về tiếng Hàn và văn hóa Hàn Quốc, nhờ đó thể hiện hiệu năng vượt trội trong việc hiểu tài liệu tiếng Hàn và văn bản trong ảnh

Các chỉ số định lượng của HyperCLOVA X Vision

Trên các public benchmark, đạt hiệu năng trung bình 71,59%, tương đương 99,94% mức của GPT-4V
Trên các câu hỏi thi chứng chỉ tương đương tiểu học, THCS và THPT tại Hàn Quốc, đạt tỷ lệ đúng 83,8%, cao hơn GPT-4o với 77,8%

Detailed Image Captioning: Nhận diện và mô tả chính xác đến từng chi tiết của hình ảnh
Reasoning: Suy luận tình huống và dự đoán bước tiếp theo dựa trên sự hiểu biết chi tiết về hình ảnh
Entity Recognition: Hiểu các thực thể có ý nghĩa như con người, địa điểm, sản phẩm chỉ từ hình ảnh
Chart Understanding: Hiểu dữ liệu số trừu tượng ở dạng biểu đồ
Table Understanding: Nhận diện dữ liệu bảng trong ảnh chụp màn hình và hiểu các mối quan hệ vị trí
Document Understanding: Hiểu tài liệu ở nhiều ngôn ngữ như Hán tự, tiếng Nhật
Culture and Humor (Meme Understanding): Hiểu meme được cấu thành từ cặp hình ảnh và văn bản
Equation Understanding: Nhận diện công thức được render và chuyển đổi sang cú pháp TeX
Code Generation: Tạo mã để sinh ra các hình dạng, biểu đồ, đồ thị cụ thể
Math Problem Solving: Hiểu các bài toán có chứa hình vẽ và cung cấp lời giải
Creative Writing (with Image Grounding): Có thể viết sáng tạo dựa trên các yếu tố xuất hiện trong hình ảnh

Với độ dài ngữ cảnh lên đến hàng triệu đơn vị, mô hình được kỳ vọng có thể hiểu phim thời lượng dài và xử lý video theo thời gian thực
Nếu đi kèm công nghệ xử lý thời gian thực, AI sẽ có thể phản ứng linh hoạt với tình huống như một thực thể độc lập
Với LVLM, tính sovereignty theo khu vực hoặc nền tảng văn hóa cũng sẽ ngày càng quan trọng
Naver đang ở vị thế thuận lợi để bảo đảm hiệu quả dữ liệu cần thiết nhờ là nền tảng hàng đầu tại Hàn Quốc

Công nghệ LVLM của Naver đang phát triển theo hướng giao tiếp gần gũi hơn nữa
Naver đang nỗ lực để HCX Vision trở thành AI hữu ích cho những người có nhiều bối cảnh khác nhau
Kỳ vọng rằng trong tương lai, HCX Vision sẽ hòa vào đời sống con người

HCX Vision được kỳ vọng sẽ cho phép giao tiếp tự nhiên hơn với con người nhờ khả năng hiểu hình ảnh. Đặc biệt, mô hình sẽ có tính ứng dụng cao trong các lĩnh vực nơi thông tin thị giác đóng vai trò quan trọng
Giống như việc thể hiện hiệu năng cao trong giải các bài thi chứng chỉ tương đương, HCX Vision có thể được dùng làm công cụ hỗ trợ học tập trong giáo dục. Tuy nhiên, cũng có lo ngại về việc làm suy giảm năng lực tự học của học sinh
Việc bảo đảm dữ liệu và đảm bảo sovereignty sẽ là các yếu tố quan trọng trong phát triển LVLM. Naver được kỳ vọng có thể phát triển LVLM cạnh tranh nhờ tận dụng dữ liệu quy mô lớn và nền tảng sẵn có
Nếu phát triển từ mức hiểu ảnh đơn lẻ hiện nay lên hiểu phim và video thời gian thực, mô hình có thể được áp dụng trong nhiều lĩnh vực như giải trí, an ninh, xe tự hành. Đồng thời cũng cần chuẩn bị cho các thách thức kỹ thuật và đạo đức
Dù cho thấy hiệu năng tương tự so với GPT-4 của OpenAI, HCX Vision có vẻ có lợi thế ở khía cạnh hiểu tiếng Hàn và văn hóa Hàn Quốc. Để đảm bảo năng lực cạnh tranh toàn cầu, mô hình sẽ cần cải thiện khả năng xử lý đa ngôn ngữ