24 điểm bởi lemonmint 2025-03-19 | 9 bình luận | Chia sẻ qua WhatsApp
  • EXAONE Deep, mô hình Reasoning AI mới do LG AI Research phát triển, đã được công bố
  • Mô hình suy luận hiệu năng cao, thiết yếu cho quá trình chuyển sang kỷ nguyên Agentic AI
  • Đã chứng minh năng lực suy luận vượt trội trong các lĩnh vực toán học, khoa học và lập trình
  • Các đặc điểm chính:
    • Toán học: Hiệu năng vượt trội so với các mô hình cạnh tranh trên các benchmark toán học độ khó cao (đạt hiệu năng tương đương với kích thước mô hình nhỏ hơn)
    • Khoa học & lập trình: Đứng đầu các benchmark chủ chốt (mô hình 7.8B và 2.4B)
    • MMLU: Đạt hiệu năng cao nhất trong số các mô hình nội địa Hàn Quốc (mô hình 32B)
  • Được Epoch AI đưa vào danh sách các mô hình AI đáng chú ý, qua đó xác thực hiệu năng (là mô hình Exaone thứ hai sau EXAONE 3.5)

Hiệu năng nổi bật trong lĩnh vực toán học

  • Tất cả các mô hình EXAONE Deep (32B, 7.8B, 2.4B) đều đạt điểm cao nhất trong phần toán của kỳ thi tuyển sinh đại học năm học 2025
  • EXAONE Deep 32B:
    • Ghi nhận 94.5 điểm ở toán kỳ thi đại học và 90.0 điểm ở AIME 2024
    • Đạt hiệu năng tương đương mô hình DeepSeek-R1 (671B) tại AIME 2025
    • Đặc biệt thể hiện hiệu năng xuất sắc trên benchmark độ khó cao AIME, qua đó chứng minh hiệu quả học tập và hiệu quả chi phí
  • EXAONE Deep 7.8B & 2.4B:
    • Dẫn đầu các benchmark chủ chốt trong từng hạng mục mô hình nhẹ và mô hình on-device
    • Mô hình 7.8B: MATH-500 94.8 điểm, AIME 2025 59.6 điểm
    • Mô hình 2.4B: MATH-500 92.3 điểm, AIME 2024 47.9 điểm
  • Các benchmark toán học chính:
    • CSAT (kỳ thi tuyển sinh đại học)
    • AIME (American Invitational Mathematics Examination)
    • MATH-500

Chuyên môn vượt trội trong lĩnh vực khoa học và lập trình

  • Cũng đã chứng minh hiệu năng vượt trội so với các mô hình cạnh tranh trong các lĩnh vực khoa học và lập trình
  • EXAONE Deep 32B:
    • 66.1 điểm trong bài test GPQA Diamond (đánh giá năng lực giải quyết các bài toán khoa học ở cấp độ PhD)
    • 59.5 điểm trên LiveCodeBench (đánh giá năng lực lập trình), vượt qua các mô hình Reasoning AI có quy mô tương tự
    • Cho thấy tiềm năng ứng dụng cao ngay cả trong các lĩnh vực đòi hỏi kiến thức chuyên môn
  • EXAONE Deep 7.8B & 2.4B:
    • Đứng đầu trên GPQA Diamond và LiveCodeBench
    • Tiếp nối EXAONE 3.5 2.4B, khẳng định vị thế là mô hình dẫn đầu toàn cầu trong mảng mô hình nhẹ/on-device
  • Các benchmark khoa học và lập trình chính:
    • GPQA Diamond
    • LiveCodeBench

9 bình luận

 
sice81 2025-03-20

Wow, ủng hộ LG. Chẳng phải LLM gần như là tốt nhất ở Hàn Quốc sao? Nghe nói họ cũng tận dụng rất tốt trong hệ thống nội bộ... Nhưng phần giấy phép thì hơi tiếc. Nếu có phiên bản mới ra mắt, sẽ thật tốt nếu bản cũ được phát hành theo giấy phép MIT.

 
mindok 2025-03-19

EXAONE 3.5 đã khá ổn để chạy cục bộ trên laptop rồi, nên mình khá kỳ vọng vào bản này.

 
bungker 2025-03-19

Thật sự bất ngờ. Tôi cứ tưởng chỉ là chiêu trò truyền thông, vậy mà một LG vốn bảo thủ như thế lại tung ra thứ này, còn công khai nữa..

 
halfenif 2025-03-20

Tôi cũng khá tò mò không biết có thể tận dụng như thế nào với giấy phép mà tôi tìm được.

  1. Restrictions
    3.1 Commercial Use: Bên được cấp phép bị nghiêm cấm rõ ràng việc sử dụng Model, Derivatives hoặc Output cho
    bất kỳ mục đích thương mại nào, bao gồm nhưng không giới hạn ở việc phát triển hoặc triển khai sản phẩm, dịch vụ hoặc
    ứng dụng tạo ra doanh thu, चाहे trực tiếp hay gián tiếp.

3.1 Sử dụng thương mại: Bên được cấp phép bị nghiêm cấm rõ ràng việc sử dụng mô hình, sản phẩm phái sinh hoặc đầu ra cho mục đích thương mại, bao gồm nhưng không giới hạn ở việc phát triển hoặc triển khai sản phẩm, dịch vụ hoặc ứng dụng tạo ra doanh thu, dù trực tiếp hay gián tiếp.

  1. Ownership
    4.2 Output: Mọi quyền, quyền sở hữu và lợi ích đối với Output do Model và Derivatives tạo ra,
    dù ở dạng nguyên bản hay đã chỉnh sửa, đều là và sẽ tiếp tục là tài sản độc quyền của Licensor.

4.2 Đầu ra: Mọi quyền, quyền sở hữu và lợi ích đối với đầu ra do mô hình và sản phẩm phái sinh tạo ra, bất kể ở dạng nguyên bản hay đã chỉnh sửa, đều là và sẽ tiếp tục là tài sản độc quyền của bên cấp phép.

 
yosemite 2025-03-20

Vâng. Đây là giấy phép không cho phép sử dụng thương mại. Vì vậy, với tôi nó bị loại khỏi danh sách cân nhắc.

 
junia3 2025-03-19

Tôi đã cài lên máy chủ để dùng thử, nhưng so với qwq thì thời gian think dài hơn quá nhiều.
Không rõ khả năng đưa ra đáp án đúng đến đâu, nhưng có cảm giác độ trễ nặng hơn tôi nghĩ.

 
junia3 2025-03-19

Hóa ra chỉ là với một số bài toán thôi. Tôi thử chạy thêm vài cái để so sánh thì có vẻ kết quả ra khá tương tự.

 
nowdoit7 2025-03-19

Ủng hộ nhé~ LG~ cố lên~

 
jujumilk3 2025-03-19

Ủng hộ nhé. Tôi đang bấm thích ở mọi nơi nhìn thấy trên LinkedIn.