Llama 2 chính xác gần ngang GPT-4 trong tác vụ tóm tắt và rẻ hơn 30 lần

xguru · 2023-08-30T11:08:02+09:00

Tóm tắt (Summarizing) là một trong những ứng dụng thực tiễn nhất của LLM, nhưng cần có niềm tin rằng phần tóm tắt là chính xác Muốn dùng các LLM mã nguồn mở như Llama 2 vì vấn đề chi phí hoặc khả năng tiếp cận dữ liệu, nhưng chưa thể chắc chắn về độ chính xác Thông qua thí nghiệm, họ phát hiện Llama-2-70b có độ trung thực về mặt sự kiện tương đương gpt-4 và vượt trội hơn nhiều so với gpt-3.5-turbo Sử dụng Anyscale Endpoint để so sánh Llama 2 7b/13b/70b với gpt-3.5/4 Gắn nhãn 373 câu trong các bản tin thời sự đã được kiểm chứng chéo bởi bên thứ ba, rồi đưa ra một đáp án đúng và một đáp án sai cho mỗi câu Yêu cầu từng LLM chọn phát biểu nào là bản tóm tắt chính xác dựa trên sự thật Có 2 vấn đề Mô hình nhỏ không tuân theo chỉ dẫn tốt. Mô hình lớn tuân thủ hướng dẫn tốt hơn. Vì vậy họ phải dùng một LLM khác để diễn giải đầu ra của LLM nhỏ Thiên lệch thứ tự. Việc trình bày mục nào trước ảnh hưởng đến lựa chọn. Vì vậy họ cũng kiểm tra bằng cách đảo thứ tự Kết quả Con người: 84% (theo nghiên cứu trước đó) gpt-3.5-turbo: 67.0% câu trả lời đúng (vấn đề thiên lệch thứ tự rất nghiêm trọng) gpt-4: 85.5% câu trả lời đúng Llama-2-7b: vấn đề thiên lệch thứ tự cực kỳ nghiêm trọng, thấp hơn cả độ chính xác ngẫu nhiên Llama-2-13b: 58.9% câu trả lời đúng Llama-2-70b: 81.7% Chi phí (để tóm tắt 100K từ) gpt-4 : $5.48 gpt-3.5-turbo : $0.25 Llama-2-7b : $0.05 Llama-2-13b : $0.09 Llama-2-70b : $0.19

(anyscale.com)

12 điểm bởi xguru 2023-08-30 | 5 bình luận | Chia sẻ qua WhatsApp

Tóm tắt (Summarizing) là một trong những ứng dụng thực tiễn nhất của LLM, nhưng cần có niềm tin rằng phần tóm tắt là chính xác
Muốn dùng các LLM mã nguồn mở như Llama 2 vì vấn đề chi phí hoặc khả năng tiếp cận dữ liệu, nhưng chưa thể chắc chắn về độ chính xác
Thông qua thí nghiệm, họ phát hiện Llama-2-70b có độ trung thực về mặt sự kiện tương đương gpt-4 và vượt trội hơn nhiều so với gpt-3.5-turbo
Sử dụng Anyscale Endpoint để so sánh Llama 2 7b/13b/70b với gpt-3.5/4
- Gắn nhãn 373 câu trong các bản tin thời sự đã được kiểm chứng chéo bởi bên thứ ba, rồi đưa ra một đáp án đúng và một đáp án sai cho mỗi câu
- Yêu cầu từng LLM chọn phát biểu nào là bản tóm tắt chính xác dựa trên sự thật
Có 2 vấn đề
- Mô hình nhỏ không tuân theo chỉ dẫn tốt. Mô hình lớn tuân thủ hướng dẫn tốt hơn. Vì vậy họ phải dùng một LLM khác để diễn giải đầu ra của LLM nhỏ
- Thiên lệch thứ tự. Việc trình bày mục nào trước ảnh hưởng đến lựa chọn. Vì vậy họ cũng kiểm tra bằng cách đảo thứ tự
Kết quả
- Con người: 84% (theo nghiên cứu trước đó)
- gpt-3.5-turbo: 67.0% câu trả lời đúng (vấn đề thiên lệch thứ tự rất nghiêm trọng)
- gpt-4: 85.5% câu trả lời đúng
- Llama-2-7b: vấn đề thiên lệch thứ tự cực kỳ nghiêm trọng, thấp hơn cả độ chính xác ngẫu nhiên
- Llama-2-13b: 58.9% câu trả lời đúng
- Llama-2-70b: 81.7%
Chi phí (để tóm tắt 100K từ)
- gpt-4 : $5.48
- gpt-3.5-turbo : $0.25
- Llama-2-7b : $0.05
- Llama-2-13b : $0.09
- Llama-2-70b : $0.19

5 bình luận

mhj5730 2023-08-30

Chi phí của GPT-4 đúng là áp đảo so với các GPT khác nhỉ...

xguru 2023-08-30

Dùng mà không suy nghĩ gì nên tôi đã vượt hạn mức $120 mỗi tháng và phải xin tăng thêm rồi. Hiện tại đúng là vẫn đắt thật. Mong là giá sẽ sớm giảm xuống mức như GPT-3.5 thôi haha

kuroneko 2023-08-30

Tôi luôn dùng Universal Summarizer của Kagi để tóm tắt.
Tôi cũng thấy nó tiện hơn ChatGPT, lại còn không giới hạn token nữa...

Nhưng với tiếng Hàn thì đúng là nó chỉ dịch kết quả sang thôi, nên rõ ràng chất lượng tiếng Hàn còn kém hơn cả GPT 3.5.
Có vẻ các model cấp doanh nghiệp chỉ dùng trả phí thì tốt hơn thật, nhưng hình như là 1 đô la cho mỗi lần tóm tắt, nên dùng cho mục đích cá nhân thì hơi nặng gánh.

ragingwind 2023-08-30

Có vẻ như tính năng tóm tắt trong LLM chắc chắn là một yếu tố quan trọng khi lựa chọn.

xguru 2023-08-30

Vấn đề là... thí nghiệm này không phải LLM tóm tắt, mà là đánh giá phần đã được tóm tắt... Dùng thử thì thấy GPT-4 đúng là có khả năng tóm tắt rất xuất sắc. Dịch tiếng Hàn cũng là một vấn đề nữa. Từng bị hấp dẫn vì chi phí của GN⁺... nhưng có lẽ hiện tại vẫn cứ phải dùng GPT-4 thôi.

Llama 2 chính xác gần ngang GPT-4 trong tác vụ tóm tắt và rẻ hơn 30 lần

Bài viết liên quan

5 bình luận