Huấn luyện ModernBERT nhỏ hơn 100 lần dựa trên năng lực suy luận của DeepSeek R1

(link.medium.com)

7 điểm bởi sigridjineth 2025-01-30 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Có thể dùng các nhãn được tạo từ DeepSeek R1 để huấn luyện mô hình ModernBERT dự đoán liệu “bài báo có giới thiệu một bộ dữ liệu mới hay không”. Mô hình được tạo theo cách này có thể dùng ngay, và trong môi trường dịch vụ thực tế khi chỉ suy luận thì không cần tài nguyên khổng lồ như LLM. Dù vậy, vì đây là bài toán phân loại cần nhãn và đã gián tiếp chuyển giao năng lực suy luận của LLM, nên độ chính xác vẫn được duy trì ở mức khá tốt.

Đặc biệt, trong RAG khi không thể giải quyết chỉ bằng so khớp văn bản đơn giản mà cần một mức độ suy luận nhất định, hoặc khi thiếu nhiều nhãn hay khó tạo nhãn, thì cách huấn luyện mô hình ModernBERT dựa trên các nhãn do DeepSeek tạo ra sẽ rất hữu ích.

Huấn luyện ModernBERT nhỏ hơn 100 lần dựa trên năng lực suy luận của DeepSeek R1

Bài viết liên quan

Chưa có bình luận nào.