10 điểm bởi GN⁺ 2025-02-27 | 3 bình luận | Chia sẻ qua WhatsApp
  • Kakao đang phát triển ‘Kanana Model Family’ với mục tiêu là các mô hình AI được tối ưu cho việc áp dụng vào dịch vụ, đồng thời cân nhắc cả hiệu năng cao lẫn hiệu quả chi phí
  • Đã hoàn tất huấn luyện mô hình ngôn ngữ siêu lớn ‘Kanana Flag’, đồng thời hoàn thiện dòng mô hình ngôn ngữ gồm Kanana Essence, Kanana Nano và các biến thể khác
  • Nhằm đóng góp cho hệ sinh thái nghiên cứu AI và hợp tác với cộng đồng AI toàn cầu, Kakao công bố mã nguồn mở mô hình ‘Kanana Nano 2.1B’ (base, instruct, embedding)

1. Đạt hiệu năng tiếng Hàn và tiếng Anh ở mức hàng đầu toàn cầu

  • Với mục tiêu phát triển mô hình có năng lực cạnh tranh toàn cầu, Kakao đã thử nghiệm nhiều kỹ thuật huấn luyện khác nhau để đạt hiệu năng tốt nhất trong phạm vi tài nguyên hạn chế
  • Kanana Flag ghi nhận hiệu năng ở mức hàng đầu (SOTA) đồng thời giảm hơn 50% chi phí huấn luyện so với mô hình của các công ty khác nhờ tối ưu tài nguyên huấn luyện
  • Trên các benchmark tiếng Anh (MMLU, MT-Bench), mô hình cho thấy hiệu năng tương đương các mô hình toàn cầu; còn trên benchmark tiếng Hàn (KMMLU, KoMT-Bench), mô hình chứng minh hiệu năng vượt trội so với các đối thủ cạnh tranh
  • Tóm tắt hiệu năng benchmark
    • Hiệu năng hội thoại và thực thi yêu cầu
      • Kanana Flag 32.5B đạt điểm số cao hơn các mô hình cạnh tranh trong hội thoại dựa trên tiếng Anh và tiếng Hàn
      • Đặc biệt, mô hình cho thấy hiệu năng nổi bật ở hội thoại tiếng Hàn dựa trên tri thức (KoMT-Bench) và đánh giá tư duy logic (LogicKor)
    • Hiệu năng về tri thức, lập trình và toán học
      • Mô hình đạt điểm cao trong đánh giá tri thức tiếng Anh (81.08 điểm) và tiếng Hàn (64.19 điểm), cho kết quả vượt trội so với các mô hình cạnh tranh
      • Mô hình cũng cho thấy độ chính xác cao trong hoàn thành mã và lời giải mã, đồng thời đạt kết quả ấn tượng 90.83 điểm ở toán cơ bản (GSM8K)

2. Tối ưu hiệu quả huấn luyện để giảm chi phí xuống dưới một nửa so với các mô hình cùng cỡ

  • Vì huấn luyện mô hình ngôn ngữ quy mô lớn đòi hỏi lượng tài nguyên tính toán khổng lồ, Kakao đã áp dụng chiến lược pre-training nhằm tối đa hóa hiệu quả huấn luyện
  • Bằng cách sử dụng phương pháp Staged pre-training, Kakao huấn luyện các mô hình kích thước 8B và 26.8B, sau đó thông qua tối ưu hóa để xây dựng mô hình Kanana Nano 2.1B
  • Mô hình nhẹ được tối ưu bằng các kỹ thuật pruningdistillation
  • Kakao cũng áp dụng kỹ thuật DUS (Depth Up-Scaling) để phát triển Kanana Essence 9.8B và Kanana Flag 32.5B
  • Nhờ đó, công ty đã thành công trong việc tối ưu huấn luyện với chi phí thấp hơn một nửa so với các mô hình toàn cầu có quy mô tương tự

3. Công bố mã nguồn mở Kanana Nano 2.1B, mô hình gọn nhẹ hiệu năng cao có thể dùng cả trên thiết bị

  • Xét đến mức độ hữu dụng với nhà nghiên cứu và nhà phát triển, Kakao đã công bố mã nguồn mở các phiên bản base, instruct, embedding của ‘Kanana Nano 2.1B’
  • Kanana Nano 2.1B được thiết kế để có thể vận hành trơn tru ngay cả trong môi trường on-device, nên có thể được sử dụng cho mục đích nghiên cứu và phát triển
  • Sau khi cân nhắc bài toán chi phí cao của mô hình lớn và độ chính xác thấp của mô hình nhỏ, Kakao quyết định công bố ở kích thước thực tiễn nhất
  • Dù là mô hình tương đối nhỏ, nó vẫn cho thấy hiệu năng có thể so sánh với các mô hình toàn cầu và mở ra nhiều khả năng ứng dụng
  • Tuy vậy, ở các tác vụ khó như suy luận phức tạp hay giải toán, mô hình vẫn có thể có giới hạn; nhưng Kakao cho biết sẽ hỗ trợ để các nhà nghiên cứu và nhà phát triển có thể tiến hành nhiều nghiên cứu đa dạng dựa trên nền tảng này

Kết luận

  • Thông qua báo cáo kỹ thuật lần này, Kakao giới thiệu toàn bộ dòng mô hình ngôn ngữ Kanana cùng mô hình mã nguồn mở Kanana Nano 2.1B
  • Trong tương lai, công ty dự kiến tích hợp các công nghệ dựa trên reinforcement learning (RL) để tăng cường năng lực reasoning, hiệu năng toán học và lập trình
  • Kakao cũng có kế hoạch cải thiện khả năng duy trì kiến thức cũ trong khi liên tục học dữ liệu mới thông qua continual learning
  • Công ty sẽ tiếp tục nâng cao công nghệ alignment để tăng cường khả năng thực thi yêu cầu của người dùng, đồng thời giúp AI hiểu và hội thoại tự nhiên hơn
  • Về lâu dài, mô hình Kanana sẽ phát triển thành AI đa phương thức có thể nhìn, nghe, nói và giao tiếp trực quan như con người
  • Kakao cho biết sẽ tiếp tục thử thách bản thân và nâng cao năng lực công nghệ để AI có thể mang lại giá trị cho cuộc sống hằng ngày của người dùng

Kanana GitHub link
Kanana Technical Report link
Kanana Nano 2.1B Download

[1] Pruning: kỹ thuật cắt tỉa các thành phần của mô hình AI để chỉ giữ lại những yếu tố quan trọng
[2] Distillation: kỹ thuật truyền tri thức từ mô hình lớn sang mô hình nhỏ hơn
[3] Depth Up-Scaling: phương pháp mở rộng quy mô mô hình một cách hiệu quả bằng cách chồng thêm nhiều layer lên mô hình hiện có

3 bình luận

 
rtyu1120 2025-02-27

Tôi thử xem giấy phép thế nào thì thấy là CC BY-NC-ND 4.0..?? Nếu là NonCommercial thì có nghĩa là các công ty ngoài Kakao không được dùng sao... Tôi không rõ ý định là gì nữa

 
bobross0 2025-03-13

kkkkkk

 
cosine20 2025-03-03

kkk