1 điểm bởi GN⁺ 2024-05-02 | 1 bình luận | Chia sẻ qua WhatsApp

Huấn luyện mô hình ngôn ngữ quy mô lớn tốt hơn nhờ dự đoán nhiều token

  • Các mô hình ngôn ngữ quy mô lớn như GPT và Llama được huấn luyện bằng hàm mất mát dự đoán token tiếp theo.
  • Nghiên cứu này đề xuất rằng nếu huấn luyện mô hình ngôn ngữ để dự đoán cùng lúc nhiều token trong tương lai thì hiệu quả sử dụng mẫu sẽ tăng lên.
  • Cụ thể, tại mỗi vị trí trong corpus huấn luyện, mô hình được yêu cầu dự đoán n token tiếp theo bằng cách sử dụng n head đầu ra độc lập chạy trên cùng một phần lõi mô hình dùng chung.
  • Xem dự đoán nhiều token như một nhiệm vụ huấn luyện phụ, nghiên cứu này đo được năng lực nhiệm vụ phụ được cải thiện cho cả mô hình mã và mô hình ngôn ngữ tự nhiên mà không gây thêm chi phí thời gian huấn luyện.

Càng hữu ích hơn với mô hình lớn và vẫn có lợi khi học nhiều epoch

  • Cách tiếp cận này càng hữu ích hơn khi mô hình lớn hơn, và vẫn giữ được hiệu quả ngay cả khi huấn luyện qua nhiều epoch.
  • Lợi thế đặc biệt rõ ràng trên các benchmark sinh như coding; mô hình này liên tục vượt baseline mạnh hơn từ vài điểm phần trăm.
  • Mô hình 13B tham số giải được nhiều bài hơn 12% trên HumanEval và 17% trên MBPP.

Có lợi cho phát triển induction head và khả năng suy luận thuật toán

  • Các thí nghiệm trên bài toán thuật toán nhỏ cho thấy dự đoán nhiều token có lợi cho việc phát triển induction head và khả năng suy luận thuật toán.
  • Một lợi thế khác là mô hình được huấn luyện với dự đoán 4 token có tốc độ suy luận nhanh hơn tối đa 3 lần kể cả với batch size lớn.

Ý kiến của GN⁺

  • Đây là một nghiên cứu thú vị đề xuất một phương pháp huấn luyện mới nhằm nâng cao hiệu quả mô hình ngôn ngữ; đặc biệt đáng chú ý là mức cải thiện càng rõ rệt khi mô hình có quy mô lớn.

  • Sẽ rất có ích nếu có thêm thí nghiệm về tác động của dự đoán nhiều token đến học phụ thuộc dài hạn. Chẳng hạn, việc xem xét sự thay đổi hiệu năng trên các bài toán phụ thuộc xa như giải quyết tham chiếu liên câu cũng có giá trị.

  • Nghiên cứu cho rằng cải thiện ở các nhiệm vụ sinh của một số miền như coding hoặc giải toán rất lớn, nhưng vẫn băn khoăn liệu tác động sẽ ra sao trong các tác vụ hiểu ngôn ngữ tự nhiên hay QA thông thường. Sẽ tốt hơn nếu có thêm kết quả từ các benchmark đa dạng.

  • Việc tăng tốc suy luận có thể là lợi thế thực tế lớn, đặc biệt thuận lợi khi áp dụng cho chatbot hay hệ thống hỏi đáp có yêu cầu thời gian thực.

  • Trong bối cảnh các mô hình dựa trên RLHF như Constitutional AI của Anthropic hay InstructGPT của OpenAI đang được chú ý, nghiên cứu này có ý nghĩa vì đề xuất cách nâng cao hiệu năng mô hình ngôn ngữ chỉ bằng học có giám sát. Tất nhiên, các vấn đề về căn chỉnh giá trị đạo đức vẫn còn là thách thức, nhưng về mặt hiệu quả huấn luyện đây vẫn là một hướng tiếp cận đủ cạnh tranh.

1 bình luận

 
GN⁺ 2024-05-02
Ý kiến trên Hacker News

Tóm tắt:

  • Cần có các giải thích dễ hiểu hơn về cách các thuật ngữ như dữ liệu, tiền huấn luyện, huấn luyện, suy luận, expert-mixing và RAG được dùng trong ngữ cảnh nào của LLM
  • Self-speculative decoding (giải mã tự đoán) là cách nạp lại chuỗi nhãn đã dự đoán trở lại vào mạng và chỉ giữ dự đoán cho đến điểm khớp, do đó có thể tăng tốc mà không làm giảm hiệu năng
  • LLM hiện tại không xét phân phối xác suất cho mọi tổ hợp token đến tổng số token đầu ra; nếu xét đến chúng, có thể kỳ vọng hiệu năng sẽ tốt hơn
  • Sửa hàm mất mát entropy chéo của LLM để chỉ xem xét token tương lai thứ n trong dữ liệu huấn luyện và phân tích hiệu năng của LLM theo n có thể là một chủ đề nghiên cứu thú vị
  • Tò mò xem có phương pháp nào để tận dụng trạng thái của token do LLM xuất ra cho câu trả lời tiếp theo hay không
  • Hỏi xem có nên huấn luyện LLM nhằm dự đoán một vector mã hóa toàn bộ nghĩa của cả câu
  • Phần giải thích ở mục 5.2 của bài báo có vẻ còn hơi thiếu; đặc biệt là phần bỏ đi H(Y|X) chưa rõ ràng
  • Có thể cân nhắc để LLM đầu ra một mô hình nhỏ như PixelCNN cho N token tiếp theo để mô tả xác suất có điều kiện cho các token tương lai
  • Cũng tò mò xem dự đoán không chỉ n token tiếp theo mà cả các token ở tương lai xa hơn như 128, 512, 2048 để học cấu trúc thoại dài hạn có thể hoạt động như thế nào
  • Đặt câu hỏi nếu khi dự đoán nhiều token cùng lúc có hiện tượng can thiệp lẫn nhau, làm sao có thể giải quyết