2 điểm bởi GN⁺ 2024-03-17 | 1 bình luận | Chia sẻ qua WhatsApp

Quiet-STaR: Có thể dạy mô hình ngôn ngữ suy nghĩ trước khi trả lời

  • Con người đôi khi dừng lại để suy nghĩ khi viết hoặc nói, và kiểu suy luận này hiện diện ngầm trong hầu hết mọi văn bản.
  • Trong Self-Taught Reasoner (STaR), tác giả trình bày cách học những suy nghĩ hữu ích bằng cách suy ra lập luận từ một vài ví dụ trong bài toán hỏi-đáp, rồi học từ các lập luận dẫn đến đáp án đúng.
  • Quiet-STaR là một khái quát hóa của STaR, huấn luyện mô hình ngôn ngữ tạo ra lập luận tại mỗi token để giải thích văn bản tương lai, qua đó cải thiện khả năng dự đoán.

Thách thức chính và hướng giải quyết

  • Có các thách thức như chi phí tính toán của việc sinh văn bản liên tục, việc mô hình ngôn ngữ ban đầu không biết cách tạo ra hoặc sử dụng suy nghĩ nội tại, và nhu cầu dự đoán vượt ra ngoài từng token kế tiếp riêng lẻ.
  • Để giải quyết các vấn đề này, tác giả đề xuất thuật toán lấy mẫu song song theo từng token sử dụng các token có thể học được để đánh dấu điểm bắt đầu và kết thúc của suy nghĩ, cùng với kỹ thuật teacher-forcing mở rộng.

Cải thiện hiệu năng mô hình

  • Các lập luận được tạo ra giúp dự đoán những token khó và cải thiện khả năng của mô hình ngôn ngữ trong việc trả lời trực tiếp các câu hỏi khó.
  • Khi tiếp tục tiền huấn luyện mô hình ngôn ngữ bằng Quiet-STaR trên kho văn bản Internet, tác giả ghi nhận cải thiện zero-shot trên GSM8K (5.9%→10.9%) và CommonsenseQA (36.3%→47.2%), đồng thời quan sát thấy perplexity được cải thiện trên các token khó trong văn bản tự nhiên.
  • Những cải thiện này đạt được mà không cần tinh chỉnh riêng cho các tác vụ đó.

Ý kiến của GN⁺

  • Quiet-STaR cho thấy mô hình ngôn ngữ đã tiến thêm một bước theo hướng học suy luận theo cách tổng quát và có khả năng mở rộng hơn.
  • Nghiên cứu này thể hiện một bước tiến quan trọng trong việc tăng cường khả năng hiểu ngôn ngữ và suy luận trong lĩnh vực trí tuệ nhân tạo, đồng thời có thể góp phần thúc đẩy sự phát triển của công nghệ xử lý ngôn ngữ tự nhiên.
  • Nếu nhìn một cách phản biện, khi áp dụng công nghệ này vào các vấn đề phức tạp của thế giới thực, nó cũng có thể dẫn tới những hệ quả ngoài dự kiến; vì vậy cần thêm nghiên cứu và các biện pháp an toàn.
  • Các dự án khác cung cấp chức năng tương tự bao gồm dòng GPT của OpenAI và BERT của Google; cả hai cũng đang tiếp tục được nghiên cứu để nâng cao khả năng hiểu và sinh ngôn ngữ.
  • Những điểm cần cân nhắc khi áp dụng công nghệ này gồm chất lượng và độ đa dạng của dữ liệu huấn luyện, việc sử dụng mô hình một cách có đạo đức, và chi phí tính toán; lợi ích có thể đạt được khi chọn công nghệ này là tạo ra các mô hình ngôn ngữ chính xác và tinh tế hơn.

1 bình luận

 
GN⁺ 2024-03-17
Ý kiến Hacker News
  • Nếu một mạng có độ sâu khoảng 50 lớp, điều đó có nghĩa là mạng này có thể suy luận về các câu hỏi mang tính biểu tượng trong khoảng 50 'bước'. Có thể 50 bước trong không gian con mà mô hình được huấn luyện có thể đạt được nhiều hơn một bước của con người, nhưng chúng ta biết con người có khả năng suy nghĩ và cân nhắc vượt ra ngoài những bước đó.
  • Edsger Dijkstra là người bản ngữ tiếng Hà Lan nhưng lại có văn phong tiếng Anh cực kỳ chính xác. Ông từng nhớ lại rằng từ nhỏ đã được dạy rằng trước khi bắt đầu một câu, phải biết mình sẽ kết thúc câu đó như thế nào. Có suy đoán rằng giữa hai quan sát này tồn tại một mối quan hệ nhân quả.
  • Tôi chợt nghĩ rằng mẫu suy luận 'chain of thought' góp phần cải thiện hiệu năng của các hệ thống dựa trên LLM song song với mô hình hai hệ thống được bàn tới trong cuốn 'Thinking, Fast and Slow' của Kahneman. 'System 1' là cho các suy nghĩ được xử lý với ít nỗ lực và tính toán, còn 'System 2' được dùng cho công việc nhận thức có ý thức và mức độ cao. Trước những chỉ trích rằng LLM dường như chỉ sử dụng 'System 1', khi ta thúc đẩy LLM suy nghĩ từng bước, điều đó tương tự như cung cấp cho nó một sandbox ra quyết định kiểu 'System 2'.
  • Phương pháp này là mảnh ghép còn thiếu để có thể huấn luyện AI cho nhiều tác vụ vốn đã có đáp án đã biết nhưng thiếu các bước suy luận. Với phương pháp này, ngay cả một lượng nhỏ dữ liệu được gắn nhãn cũng có thể giúp đạt tới năng lực suy luận. Nếu những suy nghĩ được sinh ra có thể khó hiểu với con người nhưng lại hữu ích hơn nhiều trong việc tìm ra đáp án đúng, thì có thể nói rằng chúng ta đã tạo ra thứ gì đó thông minh hơn chính mình.
  • Phần lớn ý nghĩa của văn bản nằm giữa các dòng, và nếu không hiểu vì sao một phát biểu lại xuất hiện trong tài liệu, người đọc chỉ có được sự hiểu biết hời hợt. Tuy nhiên, hầu hết mọi người đều có một mô hình về thế giới và phần nào biết được lý do các phát biểu xuất hiện trong sách. Ví dụ, khi đọc một giáo trình động lực học chất lưu, bạn có thể không hiểu toán học, nhưng vẫn biết vì sao phát biểu đó xuất hiện.
  • Có câu hỏi liệu các tác giả của bài báo này có liên quan đến mô hình Q* đầy tin đồn của OpenAI hay không, hay chỉ đơn giản là sự trùng hợp về tên gọi.
  • Họ đã không trích dẫn bài báo [1] từ gần 8 năm trước, đi trước công trình của họ, về mô hình hóa ngôn ngữ áp dụng tính toán biến thiên (đã học được) trong RNN. Khi đó Microsoft cũng có thứ tương tự cho nhận dạng hình ảnh.
  • Về cơ bản điều này giống với thứ tôi đã thử ở mức prompt vào sáng nay, nhưng tôi còn nghĩ xa hơn tới việc đưa vào các 'meta-token' để giúp LLM tái khám phá ngữ cảnh của nó. Một số meta-token này có thể có các tác dụng phụ như nhấn mạnh, cấu trúc hóa, tóm tắt hoặc quên đi một phần ngữ cảnh. Điều này không chỉ có thể trao cho LLM năng lực logic/suy luận mà còn có thể cung cấp phương tiện để nó tự tạo ra cấu trúc nhận thức của chính mình.
  • Có trường hợp nhóm Intel đã cố dùng Base Mistral 7B theo cách khiến nó không phù hợp cho đánh giá, tương tự như với NeuralChat.
  • Nghiên cứu này có vẻ rất thú vị, và có câu hỏi liệu các nhà nghiên cứu có khả năng sớm công bố mã nguồn hay không.