[Bản dịch] MoA (Mixture-of-Agents, kỹ thuật pha trộn tác tử), một kỹ thuật mới để cải thiện hiệu năng của LLM

(discuss.pytorch.kr)

3 điểm bởi ninebow 2024-06-24 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

PyTorchKR

Tiếp nối MoE (Mixture-of-Experts) và MoD (Mixture-of-Depths), nay có thêm một kỹ thuật mới được đề xuất để cải thiện hiệu năng của LLM. Kỹ thuật này có tên là pha trộn tác tử (MoA, Mixture-of-Agents), tập hợp điểm mạnh của nhiều LLM để tận dụng tri thức chuyên môn tập thể và có thể cải thiện hiệu năng một cách đáng kể. Hãy cùng tìm hiểu nhé. :smiley:

Giới thiệu ngắn gọn về kỹ thuật MoE (Mixture-of-Experts)

Kỹ thuật MoE (Mixture-of-Experts), còn gọi là pha trộn chuyên gia, là phương pháp cải thiện hiệu năng mô hình bằng cách huấn luyện để bao gồm nhiều mô hình chuyên gia ngay từ giai đoạn học. Nhờ đó, dù kích thước mô hình lớn, tại thời điểm chạy (suy luận, Inference) chỉ kích hoạt một số chuyên gia phù hợp có thể trả lời tốt truy vấn (Query) của người dùng. #mixture-of-experts

Giới thiệu ngắn gọn về kỹ thuật MoD (Mixture-of-Depths)

Gần đây, cũng đã có nghiên cứu và công bố về kỹ thuật MoD (Mixture-of-Depths), có thể gọi là kỹ thuật pha trộn theo chiều sâu. Đây là phương pháp giảm số lượng layer được kích hoạt, tức là giảm độ sâu (depth). #mixture-of-depths

MoA (Mixture-of-Agents, kỹ thuật pha trộn tác tử), một kỹ thuật mới để cải thiện hiệu năng của LLM

Giới thiệu bài báo về kỹ thuật MoA (Mixture-of-Agents)

Gần đây, nhiều mô hình ngôn ngữ lớn (LLM) đã được phát hành và công bố, và mỗi LLM đều cho thấy hiệu năng ấn tượng ở một hoặc nhiều lĩnh vực. Tuy nhiên, hiệu năng của các LLM này thường tỷ lệ với kích thước mô hình, dữ liệu huấn luyện và hạ tầng tính toán, nên việc tiếp tục mở rộng các mô hình như vậy trở nên rất tốn kém.

Bài báo này (Mixture-of-Agents Enhances Large Language Model Capabilities) đề xuất một framework Mixture-of-Agents có thể cải thiện năng lực suy luận và sinh ngôn ngữ bằng cách tận dụng điểm mạnh của nhiều LLM. Kỹ thuật pha trộn tác tử này dựa trên tính cộng tác (Collaborativeness) giữa các LLM: khi mô hình tận dụng câu trả lời từ mô hình khác, ngay cả khi chất lượng câu trả lời đó thấp, nó vẫn có thể tạo ra câu trả lời tốt hơn so với khi không tham chiếu.

Thông qua kỹ thuật MoA này, có thể kết hợp chuyên môn riêng của nhiều LLM để cuối cùng đạt được hiệu năng tốt hơn. Kết quả là nó cho thấy hiệu năng xuất sắc trên nhiều benchmark như AlpacaEval 2.0, MT-Benchmark, FLASK, và đặc biệt còn vượt GPT-4o (GPT-4 Omni).

Quan trọng hơn hết, ưu điểm lớn của MoA là có thể sử dụng mà không cần thay đổi bản thân LLM hiện có, chỉ cần thay đổi prompt đầu vào của LLM và một số thiết lập (sampling options bao gồm temperature). Nói cách khác, không cần quy trình riêng như fine-tuning, đồng thời cung cấp tính linh hoạt và khả năng mở rộng để áp dụng ngay các LLM mới nhất bất kể quy mô hay kiến trúc của tác tử LLM được sử dụng.

Giới thiệu kỹ thuật MoA (Mixture-of-Agents)

Phương pháp Mixture-of-Agents (MoA) hướng tới việc tận dụng tri thức chuyên môn tập thể của nhiều LLM thông qua cấu trúc phân tầng. Mỗi tầng gồm nhiều tác tử LLM, tạo phản hồi dựa trên đầu ra của tầng trước để dần cải thiện đầu ra cuối cùng.

Ý tưởng cốt lõi của MoA bắt đầu từ việc mô hình ngôn ngữ lớn (LLM) có thể tạo ra phản hồi chất lượng cao hơn khi tham khảo câu trả lời từ mô hình khác. Nói cách khác, bằng cách để nhiều LLM tham khảo câu trả lời của nhau và có được tính cộng tác (collaborativeness), có thể nâng cao hiệu năng của câu trả lời cuối cùng. Nhờ vậy, ngay cả khi chất lượng của kết quả trung gian thấp, chất lượng câu trả lời cuối vẫn có thể được cải thiện đáng kể.

Các đặc điểm chính của kỹ thuật pha trộn tác tử có thể tóm tắt như sau:

Cấu trúc phân tầng: Framework MoA sử dụng cấu trúc nhiều tầng gồm nhiều tác tử LLM. Mỗi tác tử cải thiện phản hồi của tầng trước để từng bước nâng cao đầu ra cuối cùng.
Đa dạng mô hình: Framework nhấn mạnh việc sử dụng nhiều LLM khác nhau ở mỗi tầng. Khi nhiều mô hình đa dạng được kết hợp, có thể tạo ra phản hồi phong phú và tinh tế hơn.
Cải tiến lặp: Quy trình lặp cho phép liên tục cải thiện văn bản được sinh ra, và thông qua sự tổng hợp cộng tác của nhiều mô hình, rút ra kết quả tốt nhất.

Tính cộng tác (Collaborativeness) của mô hình ngôn ngữ lớn

Tính cộng tác (collaborativeness) của mô hình ngôn ngữ lớn (LLM, Large Language Models) là khả năng để nhiều LLM tạo ra phản hồi tốt hơn khi tham chiếu đầu ra của nhau. Theo nhiều nghiên cứu, khi một mô hình ngôn ngữ dùng đầu ra của mô hình khác như thông tin bổ trợ, chất lượng phản hồi sẽ được cải thiện. Điều này khả thi vì mỗi mô hình có các điểm mạnh khác nhau.

Ví dụ, có mô hình rất giỏi làm theo chỉ thị phức tạp, trong khi mô hình khác có thể vượt trội hơn ở sinh mã. Sự đa dạng này giúp mỗi mô hình trong môi trường cộng tác bù đắp điểm yếu của mô hình khác. Để chứng minh thực nghiệm tính cộng tác này, nhiều bài kiểm thử benchmark đã được sử dụng; đặc biệt ở benchmark AlpacaEval 2.0, có thể xác nhận rằng hiệu năng tăng lên đáng kể khi nhiều mô hình tham chiếu đầu ra của nhau.

Từ đó, có thể quan sát thấy hiệu năng tổng thể được cải thiện rõ rệt khi LLM được cung cấp các câu trả lời được tạo độc lập. Kết quả như vậy cho thấy hiện tượng rằng LLM về bản chất có tính cộng tác. Đồng thời, nó cũng gợi ý rằng ngay cả đầu ra chất lượng thấp vẫn có thể giúp tạo ra phản hồi tốt hơn khi mô hình khác khai thác thông tin từ đó.

Trong bài báo này, vai trò của các LLM được dùng trong kỹ thuật MoA được chia thành 2 loại là Proposer và Aggregator như sau:

LLM Proposer: Là LLM nổi trội trong việc tạo ra các phản hồi tham chiếu hữu ích để mô hình khác có thể sử dụng. Một proposer tốt không nhất thiết tự tạo ra phản hồi đạt điểm cao, nhưng có thể cung cấp nhiều ngữ cảnh và góc nhìn đa dạng hơn, từ đó cuối cùng đóng góp vào phản hồi tốt hơn khi dùng cùng Aggregator.
LLM Aggregator: Là mô hình thành thạo trong việc tổng hợp phản hồi từ mô hình khác thành một đầu ra chất lượng cao duy nhất. Một aggregator hiệu quả phải có khả năng duy trì hoặc cải thiện chất lượng câu trả lời cuối cùng ngay cả khi đầu vào nhận từ Proposer có chất lượng thấp hơn so với câu trả lời mà chính aggregator LLM có thể tự tạo ra.

Cấu trúc của kỹ thuật pha trộn tác tử (Architecture of MoA, Mixture-of-Agents)

Framework MoA, như hình trên, được cấu thành từ nhiều tầng (Layer, $l$), và mỗi tầng (Layer-$i$) chứa nhiều ($n$) LLM. Trong hình, các LLM tại tầng thứ $i$ được ký hiệu là $A_{i,1}$, $A_{i,2}$, ...$A_{i,n}$. Trong cấu trúc này, tác tử của mỗi tầng tạo phản hồi bằng cách dùng toàn bộ đầu ra của tầng trước làm thông tin bổ trợ. Điểm cần lưu ý là mỗi LLM có thể được tái sử dụng trong cùng một tầng và giữa các tầng khác nhau.

Ban đầu, LLM của tầng đầu tiên sẽ độc lập tạo phản hồi cho prompt được đưa vào. Sau đó, phản hồi này được chuyển cho các tác tử ở tầng tiếp theo để tạo ra phản hồi tinh chỉnh hơn. Quá trình này được lặp lại cho đến khi cuối cùng tạo ra phản hồi chính xác và toàn diện hơn. Quá trình được thực hiện qua nhiều vòng lặp, và cuối cùng có thể thu được phản hồi mạnh mẽ và tổng hợp hơn. Qua đó, có thể vượt qua giới hạn của từng mô hình đơn lẻ và tạo ra phản hồi chất lượng cao tích hợp thông tin và góc nhìn đa dạng hơn, đặc biệt rất hữu ích trong giải quyết các vấn đề phức tạp.

Một yếu tố quan trọng khác trong cấu trúc kỹ thuật pha trộn tác tử là lựa chọn mô hình. Việc cẩn thận chọn mô hình đưa vào mỗi tầng dựa trên hiệu năng và tính đa dạng là rất quan trọng. Cấu hình tác tử tối ưu được xác định bằng cách cân nhắc các chỉ số hiệu năng và độ đa dạng của mô hình.

Tiêu chí lựa chọn tác tử (LLM) để sử dụng

Trong kỹ thuật pha trộn tác tử, ngoài các chỉ số hiệu năng thể hiện mô hình thực hiện tốt đến đâu trên một tác vụ cụ thể, việc lựa chọn mô hình còn dựa trên độ đa dạng, tức khả năng tạo ra các câu trả lời đa dạng:

Chỉ số hiệu năng (Performance Metrics): Thể hiện mức độ mà từng mô hình thực hiện tốt một tác vụ cụ thể, qua đó chọn ra các mô hình có thể tạo đầu ra chất lượng cao. Độ đa dạng là khả năng để các mô hình tiếp cận và giải quyết vấn đề theo những cách khác nhau. Ví dụ, một mô hình có thể xuất sắc trong xử lý ngôn ngữ tự nhiên, trong khi mô hình khác lại làm tốt hơn ở sinh mã hoặc giải toán. Bằng cách pha trộn các mô hình có năng lực đa dạng như vậy, cấu trúc đa tác tử có thể tạo ra phản hồi toàn diện và mạnh mẽ hơn.
Cân nhắc về tính đa dạng (Diversity Considerations): Tính đa dạng của mô hình giúp giảm thiên lệch mà một mô hình đơn lẻ có thể mang theo và cho phép giải quyết phạm vi vấn đề rộng hơn. Ví dụ, nếu cùng một mô hình bị dùng lặp lại qua nhiều tầng, chất lượng phản hồi có thể giảm do giới hạn của chính mô hình đó. Vì vậy, việc sử dụng nhiều mô hình đa dạng là rất quan trọng. Bằng cách cân nhắc cả chỉ số hiệu năng lẫn tính đa dạng để chọn mô hình phù hợp cho từng tầng, có thể tối đa hóa chất lượng phản hồi cuối cùng.

Cấu trúc Single-Proposer và Multi-Proposer

Nhìn từ góc độ trừu tượng ở mức cao (High-level perspective), kỹ thuật Mixture-of-Agents (MoA) có thể được xem là việc nâng kỹ thuật Mixture-of-Experts (MoE) lên cấp độ mô hình. Kỹ thuật MoA này có thể hoạt động hoàn toàn thông qua giao diện prompt mà không cần sửa đổi activation hay weight bên trong LLM. Nói cách khác, thay vì có các mạng con chuyên biệt bên trong một mô hình đơn như MoE, nó sử dụng nhiều (hoặc một) LLM trải rộng qua nhiều tầng.

Cấu trúc Single-Proposer: Kỹ thuật MoA về cơ bản dựa trên việc sử dụng nhiều tác tử (LLM), nhưng cũng có thể sử dụng cùng một LLM nhiều lần. Trong trường hợp này, khi đưa đầu vào cho cùng một mô hình, các thiết lập sampling khác nhau bao gồm temperature sẽ được thay đổi để tạo ra nhiều đầu ra khác nhau. Trong cấu trúc Single-Proposer này, ở mỗi tầng chỉ một hoặc một vài mô hình được kích hoạt, nhưng các phản hồi đa dạng mà những mô hình đó tạo ra đóng vai trò quan trọng để Aggregator tạo ra phản hồi cuối cùng.
Cấu trúc Multi-Proposer: Sử dụng nhiều mô hình đa dạng ở mỗi tầng để tạo ra các đầu ra khác nhau. Điều này giúp tối đa hóa sự tương tác và tính cộng tác giữa các mô hình, từ đó tạo ra phản hồi toàn diện hơn và chất lượng cao hơn. Cấu trúc Multi-Proposer tận dụng tối đa sự đa dạng của mô hình để mở rộng phạm vi giải quyết vấn đề và vượt qua những giới hạn vốn có của một mô hình đơn lẻ. Thông qua thiết lập này, cấu trúc đa tác tử có thể cung cấp lời giải mạnh mẽ và tổng hợp hơn.

Ở đây, proposers và aggregators đóng vai trò bổ sung lẫn nhau. Proposer tạo các phản hồi ban đầu thông qua nhiều cách tiếp cận khác nhau, còn aggregator tổng hợp những phản hồi này để đảm bảo chất lượng của phản hồi cuối cùng. Nhờ cấu trúc cộng tác này, hệ thống đa tác tử có thể cung cấp phản hồi mạnh mẽ và toàn diện hơn so với một mô hình đơn lẻ.

Hiệu năng và hiệu quả chi phí của kỹ thuật MoA

Hiệu năng của kỹ thuật MoA

Trong bảng trên, MoA và MoA-Lite là các mô hình có 6 proposer, lần lượt gồm 3 tầng (Layer) và 2 tầng (Layer). MoA w/ GPT-4o là mô hình dùng GPT-4o làm aggregator cuối cùng của MoA. Benchmark trên được công bố kèm độ lệch chuẩn và điểm trung bình sau khi chạy 3 lần cho mỗi trường hợp.

Các mô hình sử dụng kỹ thuật MoA đạt 65.1% trên AlpacaEval 2.0, vượt 57.5% của GPT-4o. Ngoài ra, trên MT-Benchmark, chúng cũng cho hiệu năng tốt hơn GPT-4o.

Như hình trên cho thấy, kỹ thuật MoA có hiệu năng vượt trội hơn so với khi chỉ dùng một LLM đơn lẻ. Điều này có vẻ là do aggregator không chỉ đơn thuần chọn một trong các phản hồi do proposer LLM tạo ra, mà tạo câu trả lời bằng cách tham chiếu tổng hợp đến các câu trả lời đã được đề xuất.

Phần bên phải của hình trên là so sánh phản hồi của aggregator với phản hồi của proposer bằng cách sử dụng các điểm số tương đồng như BLEU. Với mỗi mẫu, người ta tính hệ số tương quan thứ hạng giữa $n$ điểm ưu tiên do bộ đánh giá dựa trên GPT-4 quyết định và $n$ điểm tương đồng, dựa trên $n$ phản hồi của proposer. Nói cách khác, có thể xác nhận rằng tồn tại tương quan dương giữa tỷ lệ thắng và điểm BLEU.

Ngoài ra, để tìm số lượng proposer phù hợp cho mỗi tầng, nhóm nghiên cứu cũng phân tích ảnh hưởng của việc thay đổi số proposer ($n$ trong bảng phía trên bên trái) lên chất lượng cuối cùng. Khi $n$ tăng, chất lượng cuối cùng cũng tăng, và điều này có thể được lý giải là do aggregator có nhiều thông tin hơn để sử dụng vì nhiều mô hình đa dạng đưa ra nhiều câu trả lời đa dạng hơn. (Ở đây, cấu trúc Single-Proposer là kết quả khi dùng một LLM đơn với temperature cố định ở 0.7.)

Bên cạnh đó, nhóm nghiên cứu cũng tiến hành thí nghiệm để kiểm tra liệu có mô hình nào đặc biệt xuất sắc ở vai trò proposer hoặc aggregator hay không. (Bảng phía trên bên phải) Các mô hình GPT-4o, Qwen, LLaMA-3 đều cho hiệu năng tốt dù được dùng làm proposer hay aggregator, trong khi một số mô hình như WizardLM cho thấy hiệu năng tốt hơn ở vai trò proposer hơn là aggregator.

Hiệu quả token và chi phí của kỹ thuật MoA

Bao gồm cả phân tích ngân sách và token, kết quả cho thấy MoA có thể cung cấp hiệu năng cao với chi phí thấp hơn so với các mô hình tiên tiến khác. Điều này cho thấy phương pháp này không chỉ hiệu quả mà còn tiết kiệm chi phí, mang lại một giải pháp thực tế để mở rộng năng lực LLM mà không phát sinh chi phí quá lớn.

Ở phần bên trái (a) của hình trên, tác giả cho thấy chi phí suy luận trung bình trên mỗi instance của benchmark AlpacaEval 2.0 và tỷ lệ thắng LC. Con số được tính dựa trên chi phí của từng nhà cung cấp API, cho thấy kỹ thuật MoA là một phương pháp tiết kiệm chi phí có thể đạt hiệu năng cao mà không làm phát sinh chi phí quá mức. Đặc biệt, đáng chú ý là MoA-Lite tốt hơn GPT-4 Turbo khoảng 4% nhưng hiệu quả chi phí lại cao hơn gấp đôi.

Ở phần bên phải (b) của hình trên, tác giả cho thấy mối quan hệ giữa tỷ lệ thắng LC và số teraFLOP. Ở đây, số teraFLOP được dùng thay cho giá trị có thể đại diện cho độ trễ (latency). Tại đây cũng quan sát được Pareto frontier tương tự như trong phân tích hiệu quả chi phí. Nói cách khác, điều này cho thấy tài nguyên tính toán được sử dụng hiệu quả trong khi vẫn tối đa hóa tỷ lệ thắng LC.

Một số bàn luận khác về tính cộng tác và tính đa dạng

Từ kết quả của nhiều thí nghiệm trong bài báo này, có thể xác nhận rằng LLM tạo ra phản hồi tốt hơn khi tham chiếu đầu ra của mô hình khác. Tính cộng tác này là yếu tố cốt lõi giúp cải thiện hiệu năng thông qua kỹ thuật MoA. Ngoài ra, cũng đã được chứng minh rằng việc sử dụng nhiều LLM đa dạng ở mỗi tầng luôn cho kết quả tốt hơn một cách nhất quán so với việc phụ thuộc vào một mô hình đơn lẻ. Nói cách khác, có thể xác nhận rằng sự đa dạng trong câu trả lời xuất hiện nhờ tính đa dạng của mô hình là yếu tố hiệu quả trong việc cải thiện hiệu năng tổng thể.

Kết luận

Như đã xem xét ở trên, kỹ thuật Mixture-of-Agents (MoA) là một bước tiến quan trọng trong việc tận dụng sức mạnh tập thể của nhiều LLM. Thông qua cách tiếp cận phân tầng và cộng tác, MoA thể hiện hiệu năng xuất sắc trên nhiều benchmark và chứng minh giá trị của tính đa dạng mô hình cũng như quá trình tinh chỉnh lặp. Kỳ vọng rằng cách tiếp cận này có thể mở ra những thử nghiệm mới cho các hệ thống LLM mạnh mẽ và hiệu quả hơn.

Bài báo về kỹ thuật MoA

https://arxiv.org/abs/2406.04692

Kho lưu trữ của kỹ thuật MoA

https://github.com/togethercomputer/moa

OpenPipe cung cấp mô hình vượt hiệu năng GPT-4 với giá rẻ hơn 25 lần nhờ áp dụng kỹ thuật MoA

https://discuss.pytorch.kr/t/openpipe-moa-25-gpt-4/4668

Bài viết này được biên soạn dựa trên một bài tổng hợp bằng mô hình GPT, nên có thể có những phần được diễn giải khác với nội dung hoặc ý định của nguyên tác. Nếu chủ đề này khiến bạn quan tâm, hãy tham khảo thêm cả nguyên văn! Nếu trong lúc đọc bạn phát hiện nội dung gượng gạo hoặc sai sót, mong bạn hãy cho biết qua phần bình luận. 🤗

⚠️Quảng cáo⚠️: Bài viết này do :pytorch:Nhóm người dùng PyTorch Hàn Quốc🇰🇷 tổng hợp, bạn thấy hữu ích chứ? Nếu đăng ký thành viên, chúng tôi sẽ gửi các bài viết nổi bật qua email💌 cho bạn! (Mặc định là Weekly, nhưng cũng có thể đổi sang Daily.)