1 điểm bởi GN⁺ 2024-10-09 | 1 bình luận | Chia sẻ qua WhatsApp
  • Transformer thường có xu hướng phân bổ quá nhiều sự chú ý vào những ngữ cảnh không liên quan.

  • Diff Transformer đề xuất một cách tiếp cận mới nhằm khuếch đại sự chú ý vào ngữ cảnh liên quan và loại bỏ nhiễu.

  • Cơ chế chú ý vi sai

    • Tính điểm chú ý thông qua hiệu giữa hai bản đồ chú ý softmax riêng biệt.
    • Phép trừ này loại bỏ nhiễu và thúc đẩy sự xuất hiện của các mẫu chú ý thưa.
  • Kết quả thực nghiệm

    • Trong các thí nghiệm mô hình hóa ngôn ngữ, Diff Transformer cho thấy hiệu năng vượt trội hơn Transformer ở nhiều quy mô mô hình và thiết lập token huấn luyện khác nhau.
    • Trong các ứng dụng thực tiễn, mô hình này mang lại những lợi ích đáng chú ý trong mô hình hóa ngữ cảnh dài, truy xuất thông tin cốt lõi, giảm ảo giác, học trong ngữ cảnh và giảm các ngoại lệ kích hoạt.
  • Lợi ích thực tiễn

    • Ít bị ảnh hưởng bởi ngữ cảnh không liên quan hơn, nên có thể giảm ảo giác trong hỏi đáp và tóm tắt văn bản.
    • Không chỉ cải thiện độ chính xác trong học trong ngữ cảnh mà còn tăng độ bền vững trước các biến đổi thứ tự.
  • Kết luận

    • Diff Transformer được định vị là một kiến trúc rất hiệu quả và đầy hứa hẹn để thúc đẩy sự phát triển của các mô hình ngôn ngữ lớn.

Tổng hợp của GN⁺

  • Diff Transformer là một kiến trúc mới được đề xuất để khắc phục những hạn chế của Transformer, tập trung vào việc khuếch đại sự chú ý đối với ngữ cảnh liên quan và loại bỏ nhiễu không cần thiết.
  • Nghiên cứu này nhấn mạnh việc cải thiện hiệu năng của các mô hình ngôn ngữ lớn, đặc biệt là những lợi thế trong các ứng dụng thực tiễn như mô hình hóa ngữ cảnh dài.
  • Mô hình góp phần giảm ảo giác do ít bị ngữ cảnh không liên quan làm nhiễu hơn, đồng thời nâng cao độ chính xác và độ bền vững của học trong ngữ cảnh.

1 bình luận

 
GN⁺ 2024-10-09
Ý kiến trên Hacker News
  • Cơ chế chú ý softmax thông thường gặp khó khăn trong việc gán trọng số chú ý gần 0 cho thông tin không liên quan. Phương pháp mới giải quyết điều này, nhưng cũng có thể tạo ra trọng số chú ý âm. Khó hiểu mạng xử lý việc đó như thế nào

  • Những tinh chỉnh chi tiết như thế này rất thú vị. Thay đổi nhỏ nên người khác có thể dễ dàng áp dụng. Tuy nhiên, câu cuối của phần "2 Differential Transformer" không rõ ràng, điều này có thể ảnh hưởng đến việc so sánh

  • Trong thế giới mới của machine learning, thật khó hiểu vì sao cách này lại hiệu quả. Phép so sánh với tai nghe chống ồn có ích, nhưng ở đây không thể phân biệt rõ tín hiệu và nhiễu

  • Differential attention loại bỏ nhiễu chú ý bằng cách lấy hiệu của hai hàm chú ý softmax. Kiến trúc này dùng gấp đôi bộ nhớ chú ý để đạt mô hình chất lượng cao hơn, hoặc dùng ít tham số hơn để có chất lượng tương đương

    • DIFF Transformer kích thước 6.8B đạt validation loss tương đương Transformer 11B, trong khi chỉ cần 62.2% số tham số
    • Tò mò liệu với chỉ 60% tham số thì có còn giữ được cấu hình bộ nhớ tương tự transformer truyền thống hay không
    • Tò mò liệu sự đánh đổi này có thay đổi đáng kể giữa huấn luyện và suy luận hay không
  • Nếu hai nhóm chú ý học cùng một thứ, mặt nạ chú ý sẽ bị trừ lẫn nhau khiến chú ý giảm về 0 và loss tăng lên. Để giảm loss, chúng phải học những thứ khác nhau. Một nhóm học chiến lược tập trung vào ngữ cảnh liên quan, nhóm còn lại vào ngữ cảnh không liên quan

  • Thiết lập λᵢₙᵢₜ = 0.8 − 0.6 × exp(−0.3 · (l − 1)) hoạt động tốt trong thực nghiệm. Tò mò về cơ sở đằng sau công thức này

  • Tò mò việc loại bỏ nhiễu vị trí có giá trị đến mức nào. Muốn xem bảng so sánh giữa phiên bản alibi và baseline alibi. Xin chúc mừng các nhà nghiên cứu

  • Tò mò điều gì bị đánh mất ở đây. Tò mò nó ảnh hưởng thế nào đến tính sáng tạo hoặc khả năng nội suy giữa các khái niệm. Cảm giác rằng ảo giác và sáng tạo có liên hệ rất nhiều

  • Giải quyết vấn đề là tốt, nhưng tôi nghĩ cách tiếp cận này đi sai hướng. Cần nắm bắt toàn bộ ngữ cảnh theo cách phân cấp. Nếu tính vector sai khác từ cùng đầu vào với vector chú ý, thì không thể biết cách hiệu chỉnh vector chú ý cho đúng

  • Tò mò liệu có phải softmax không thể đẩy giá trị về 0, nhưng việc trừ hai bản đồ softmax lại có thể cho ra 0 hay không