- HCX Vision phát triển từ mô hình ngôn ngữ lớn (LLM) hiện có thành mô hình ngôn ngữ-thị giác lớn (LVLM) bằng cách bổ sung khả năng hiểu hình ảnh
- Được huấn luyện bổ sung với nhiều loại dữ liệu thị giác và ngôn ngữ, cho phép hiểu đồng thời hình ảnh và văn bản
- Thu thập dữ liệu phù hợp với nhiều kịch bản để thực hiện các tác vụ hiểu thị giác và ngôn ngữ trong nhiều tình huống như nhận diện tài liệu, hiểu văn bản trong ảnh
- Dựa trên kinh nghiệm công nghệ OCR của Naver để tăng cường khả năng xử lý tài liệu và nhận dạng ký tự, cung cấp dịch vụ chính xác và đáng tin cậy
- Dựa trên HCX, mô hình sở hữu kiến thức về tiếng Hàn và văn hóa Hàn Quốc, nhờ đó thể hiện hiệu năng vượt trội trong việc hiểu tài liệu tiếng Hàn và văn bản trong ảnh
Các chỉ số định lượng của HyperCLOVA X Vision
- Trên các public benchmark, đạt hiệu năng trung bình 71,59%, tương đương 99,94% mức của GPT-4V
- Trên các câu hỏi thi chứng chỉ tương đương tiểu học, THCS và THPT tại Hàn Quốc, đạt tỷ lệ đúng 83,8%, cao hơn GPT-4o với 77,8%
Các tính năng của HyperCLOVA X Vision dựa trên ví dụ
- Detailed Image Captioning: Nhận diện và mô tả chính xác đến từng chi tiết của hình ảnh
- Reasoning: Suy luận tình huống và dự đoán bước tiếp theo dựa trên sự hiểu biết chi tiết về hình ảnh
- Entity Recognition: Hiểu các thực thể có ý nghĩa như con người, địa điểm, sản phẩm chỉ từ hình ảnh
- Chart Understanding: Hiểu dữ liệu số trừu tượng ở dạng biểu đồ
- Table Understanding: Nhận diện dữ liệu bảng trong ảnh chụp màn hình và hiểu các mối quan hệ vị trí
- Document Understanding: Hiểu tài liệu ở nhiều ngôn ngữ như Hán tự, tiếng Nhật
- Culture and Humor (Meme Understanding): Hiểu meme được cấu thành từ cặp hình ảnh và văn bản
- Equation Understanding: Nhận diện công thức được render và chuyển đổi sang cú pháp TeX
- Code Generation: Tạo mã để sinh ra các hình dạng, biểu đồ, đồ thị cụ thể
- Math Problem Solving: Hiểu các bài toán có chứa hình vẽ và cung cấp lời giải
- Creative Writing (with Image Grounding): Có thể viết sáng tạo dựa trên các yếu tố xuất hiện trong hình ảnh
Triển vọng tương lai của HyperCLOVA X Vision và Sovereign AI
- Với độ dài ngữ cảnh lên đến hàng triệu đơn vị, mô hình được kỳ vọng có thể hiểu phim thời lượng dài và xử lý video theo thời gian thực
- Nếu đi kèm công nghệ xử lý thời gian thực, AI sẽ có thể phản ứng linh hoạt với tình huống như một thực thể độc lập
- Với LVLM, tính sovereignty theo khu vực hoặc nền tảng văn hóa cũng sẽ ngày càng quan trọng
- Naver đang ở vị thế thuận lợi để bảo đảm hiệu quả dữ liệu cần thiết nhờ là nền tảng hàng đầu tại Hàn Quốc
Kết lại
- Công nghệ LVLM của Naver đang phát triển theo hướng giao tiếp gần gũi hơn nữa
- Naver đang nỗ lực để HCX Vision trở thành AI hữu ích cho những người có nhiều bối cảnh khác nhau
- Kỳ vọng rằng trong tương lai, HCX Vision sẽ hòa vào đời sống con người
Ý kiến của GN⁺
- HCX Vision được kỳ vọng sẽ cho phép giao tiếp tự nhiên hơn với con người nhờ khả năng hiểu hình ảnh. Đặc biệt, mô hình sẽ có tính ứng dụng cao trong các lĩnh vực nơi thông tin thị giác đóng vai trò quan trọng
- Giống như việc thể hiện hiệu năng cao trong giải các bài thi chứng chỉ tương đương, HCX Vision có thể được dùng làm công cụ hỗ trợ học tập trong giáo dục. Tuy nhiên, cũng có lo ngại về việc làm suy giảm năng lực tự học của học sinh
- Việc bảo đảm dữ liệu và đảm bảo sovereignty sẽ là các yếu tố quan trọng trong phát triển LVLM. Naver được kỳ vọng có thể phát triển LVLM cạnh tranh nhờ tận dụng dữ liệu quy mô lớn và nền tảng sẵn có
- Nếu phát triển từ mức hiểu ảnh đơn lẻ hiện nay lên hiểu phim và video thời gian thực, mô hình có thể được áp dụng trong nhiều lĩnh vực như giải trí, an ninh, xe tự hành. Đồng thời cũng cần chuẩn bị cho các thách thức kỹ thuật và đạo đức
- Dù cho thấy hiệu năng tương tự so với GPT-4 của OpenAI, HCX Vision có vẻ có lợi thế ở khía cạnh hiểu tiếng Hàn và văn hóa Hàn Quốc. Để đảm bảo năng lực cạnh tranh toàn cầu, mô hình sẽ cần cải thiện khả năng xử lý đa ngôn ngữ
Chưa có bình luận nào.