BERT hóa ra là mô hình khuếch tán cho văn bản: tạo AI sinh văn bản trong 30 phút với RoBERTa
(aisparkup.com)Cách thức đào tạo BERT mà chúng ta đã dùng từ năm 2018 hóa ra theo nguyên lý giống hệt mô hình diffusion hiện đại. Đây không chỉ là một phát hiện mang tính học thuật; nó còn cho thấy khả năng thực tế khi chuyển đổi các mô hình BERT sẵn có thành mô hình tạo văn bản theo kiểu GPT.
Những điểm chính:
- Mô hình hóa ngôn ngữ che giấu (MLM) của BERT là quá trình diffusion với tỷ lệ cố định: Phương thức đào tạo BERT đã dùng suốt 7 năm thực chất dựa trên nguyên lý diffusion loại loại bỏ nhiễu. Khi điều chỉnh tỷ lệ masking linh hoạt, có thể chuyển đổi thành một mô hình sinh hoàn chỉnh.
- Tạo văn bản tương đương GPT-2 chỉ sau 30 phút đào tạo bổ sung: Chuyển đổi mô hình RoBERTa hiện có thành mô hình tạo văn bản thông qua fine-tuning nhẹ nhàng. Khác với cách GPT dự đoán từng từ liên tiếp, phương pháp này hoạt động bằng cách phục hồi toàn bộ câu dần dần.
- Khả năng mới trong tạo văn bản: Đề xuất hướng tiếp cận thay thế dựa trên diffusion ngoài phương pháp tự hồi quy của GPT. Đây là khởi đầu cho một làn sóng mới cùng với Gemini Diffusion của Google DeepMind.
Chưa có bình luận nào.