- Tóm tắt (Summarizing) là một trong những ứng dụng thực tiễn nhất của LLM, nhưng cần có niềm tin rằng phần tóm tắt là chính xác
- Muốn dùng các LLM mã nguồn mở như Llama 2 vì vấn đề chi phí hoặc khả năng tiếp cận dữ liệu, nhưng chưa thể chắc chắn về độ chính xác
- Thông qua thí nghiệm, họ phát hiện Llama-2-70b có độ trung thực về mặt sự kiện tương đương gpt-4 và vượt trội hơn nhiều so với gpt-3.5-turbo
- Sử dụng Anyscale Endpoint để so sánh Llama 2 7b/13b/70b với gpt-3.5/4
- Gắn nhãn 373 câu trong các bản tin thời sự đã được kiểm chứng chéo bởi bên thứ ba, rồi đưa ra một đáp án đúng và một đáp án sai cho mỗi câu
- Yêu cầu từng LLM chọn phát biểu nào là bản tóm tắt chính xác dựa trên sự thật
- Có 2 vấn đề
- Mô hình nhỏ không tuân theo chỉ dẫn tốt. Mô hình lớn tuân thủ hướng dẫn tốt hơn. Vì vậy họ phải dùng một LLM khác để diễn giải đầu ra của LLM nhỏ
- Thiên lệch thứ tự. Việc trình bày mục nào trước ảnh hưởng đến lựa chọn. Vì vậy họ cũng kiểm tra bằng cách đảo thứ tự
- Kết quả
- Con người: 84% (theo nghiên cứu trước đó)
- gpt-3.5-turbo: 67.0% câu trả lời đúng (vấn đề thiên lệch thứ tự rất nghiêm trọng)
- gpt-4: 85.5% câu trả lời đúng
- Llama-2-7b: vấn đề thiên lệch thứ tự cực kỳ nghiêm trọng, thấp hơn cả độ chính xác ngẫu nhiên
- Llama-2-13b: 58.9% câu trả lời đúng
- Llama-2-70b: 81.7%
- Chi phí (để tóm tắt 100K từ)
- gpt-4 : $5.48
- gpt-3.5-turbo : $0.25
- Llama-2-7b : $0.05
- Llama-2-13b : $0.09
- Llama-2-70b : $0.19
5 bình luận
Chi phí của GPT-4 đúng là áp đảo so với các GPT khác nhỉ...
Dùng mà không suy nghĩ gì nên tôi đã vượt hạn mức $120 mỗi tháng và phải xin tăng thêm rồi. Hiện tại đúng là vẫn đắt thật. Mong là giá sẽ sớm giảm xuống mức như GPT-3.5 thôi haha
Tôi luôn dùng Universal Summarizer của Kagi để tóm tắt.
Tôi cũng thấy nó tiện hơn ChatGPT, lại còn không giới hạn token nữa...
Nhưng với tiếng Hàn thì đúng là nó chỉ dịch kết quả sang thôi, nên rõ ràng chất lượng tiếng Hàn còn kém hơn cả GPT 3.5.
Có vẻ các model cấp doanh nghiệp chỉ dùng trả phí thì tốt hơn thật, nhưng hình như là 1 đô la cho mỗi lần tóm tắt, nên dùng cho mục đích cá nhân thì hơi nặng gánh.
Có vẻ như tính năng tóm tắt trong LLM chắc chắn là một yếu tố quan trọng khi lựa chọn.
Vấn đề là... thí nghiệm này không phải LLM tóm tắt, mà là đánh giá phần đã được tóm tắt... Dùng thử thì thấy GPT-4 đúng là có khả năng tóm tắt rất xuất sắc. Dịch tiếng Hàn cũng là một vấn đề nữa. Từng bị hấp dẫn vì chi phí của GN⁺... nhưng có lẽ hiện tại vẫn cứ phải dùng GPT-4 thôi.