Upstage ra mắt Solar Pro 2, mô hình suy luận cấp frontier

(upstage.ai)

7 điểm bởi GN⁺ 2025-07-14 | 2 bình luận | Chia sẻ qua WhatsApp

Solar Pro 2 là mô hình ngôn ngữ frontier mới của Upstage, dù có quy mô nhỏ gọn chỉ 31B tham số nhưng vẫn sở hữu năng lực suy luận thế hệ mới, khả năng tận dụng đa dạng công cụ, cùng hiệu năng xử lý tiếng Hàn và đa ngôn ngữ hàng đầu cùng phân khúc
Trên các benchmark tiếng Hàn chủ chốt (ví dụ: Ko-Arena-Hard-Auto, Ko-MMLU, v.v.), mô hình cho kết quả ngang bằng hoặc vượt GPT-4 và Claude 3, đồng thời tạo ra câu trả lời nhất quán và chính xác trong các miền chuyên môn như pháp lý, tài chính, y tế
Ở chế độ suy luận nâng cao, mô hình có thể xử lý nhiều tác vụ như bài toán, hỏi đáp logic, suy luận đa bước phức tạp, đồng thời chứng minh hiệu quả xuất sắc trong đánh giá code và kỹ thuật
Mô hình được trang bị kiến trúc dạng agent cho ứng dụng thực tế cùng các tính năng tích hợp công cụ, tạo tệp, thực thi tự động, nên có thể triển khai ngay trong môi trường doanh nghiệp
Đây là LLM thế hệ mới chú trọng tính ứng dụng kinh doanh thực tế như triển khai cloud và on-premise, tăng cường độ ổn định và khả năng sử dụng, cùng hỗ trợ triển khai trong doanh nghiệp

Chính thức ra mắt Solar Pro 2, chứng minh hiệu năng cấp frontier toàn cầu

Solar Pro 2 là mô hình ngôn ngữ frontier thế hệ mới do Upstage phát triển; dù có quy mô nhỏ gọn 31B tham số, mô hình vẫn cung cấp xử lý đa ngôn ngữ trên diện rộng, năng lực suy luận nâng cao và khả năng tận dụng công cụ được tối ưu cho công việc thực tế
Đặc biệt trong xử lý tiếng Hàn, mô hình đã chứng minh hiệu năng đủ sức cạnh tranh với GPT-4 và Claude 3, đồng thời thể hiện độ chính xác và nhất quán trong các miền có độ khó cao như pháp lý, tài chính, y tế

Trên các benchmark như Ko-Arena-Hard-Auto, mô hình đạt kết quả ngang hàng với các mô hình hàng đầu
Trên nhiều bài toán NLP tiếng Hàn như Ko-MMLU, Hae-Rae, Ko-IFEval, mô hình cho thấy hiệu năng dẫn đầu trên toàn bộ các khía cạnh hiểu và sinh ngôn ngữ
Ngay cả trong các miền chuyên môn (pháp lý, tài chính, y tế, v.v.), mô hình cũng cung cấp kết quả ổn định và chính xác

Trong bối cảnh hiện nay khi tính minh bạch và khả năng giải thích của quá trình suy luận ngày càng quan trọng, Solar Pro 2 vượt xa dự đoán đơn thuần để thực hiện phân tích, tổng hợp và tư duy đa bước
Trên các benchmark suy luận tổng quát như MMLU, MMLU-Pro, HumanEval, hiệu năng ở các tác vụ đa bước bằng tiếng Hàn đã được cải thiện đáng kể
Mô hình cũng nổi trội ở các bài toán toán học độ khó cao như Math500, AIME, cũng như các bài toán phát triển phức tạp như SWE-Bench Agentless
Mô hình mang lại hiệu quả suy luận vượt trội so với số lượng tham số

Solar Pro 2 là LLM dạng agent được trang bị các chức năng có thể áp dụng ngay vào công việc thực tế như tích hợp công cụ, tạo tệp, thực thi công việc tự động
Upstage nhấn mạnh đây không phải là mô hình chỉ lớn về kích thước, mà là AI thực tế có thể được đưa vào công việc một cách hiệu quả
Ví dụ: có thể áp dụng cho nhiều kịch bản tự động hóa công việc như tự động tạo báo cáo xu hướng đối thủ cạnh tranh

idunno 2025-07-15

Giá mà bài viết cho thấy bằng các con số mức độ cải thiện lớn, sự vượt trội và độ chính xác thì sẽ tốt hơn.

sanxiyn 2025-07-15

So sánh với Claude 3 vào thời điểm Claude 4 đã ra mắt thì chẳng phải gần như là lừa đảo sao...