Google Bard tăng lên vị trí thứ 2 trên bảng xếp hạng hiệu năng LLM, ngay dưới GPT-4 Turbo
(twitter.com/JeffDean)- Google Bard (Gemini Pro) đã vượt qua GPT-4-0314/0613 và nhảy vọt lên vị trí thứ 2 (1215), ngay dưới GPT-4 Turbo (Arena ELO 1249)
- Ngoài ra, tỷ lệ Hallucination trên bảng xếp hạng HHEM cũng giảm từ 12% xuống 4.9%. (GPT-4/4 Turbo là 3.0%, GPT 3.5 Turbo là 3.5%)
- Rất mong chờ xem Bard + Gemini Ultra sẽ được phát hành như thế nào
1 bình luận
Ý kiến trên Hacker News
Giới hạn hiệu năng của Google Bard: Một người dùng cho biết họ từ lâu đã nghi ngờ hiệu năng của Google Bard bị giới hạn vì chi phí. Google đang cung cấp Bard miễn phí, và có lẽ họ không muốn vận hành miễn phí một mô hình khổng lồ cho mọi người dùng mãi mãi. Có thể đã có đột phá về chi phí suy luận, hoặc họ đã chán việc bị đánh giá là đang tụt lại trong cạnh tranh nên quyết định tạm thời chấp nhận chi phí. Người dùng này cho rằng Google nên bắt đầu một dịch vụ thuê bao để mọi người có thể công khai thấy họ đang vận hành mô hình tốt nhất.
Sự thất vọng ban đầu về Bard và các cải thiện: Bard từng gây thất vọng khi mới ra mắt, nhưng thật tốt khi thấy nó đang được cải thiện. Theo trải nghiệm cá nhân của một người dùng, họ sử dụng Claude 2 nhiều hơn GPT 4/Turbo và thích phong cách phản hồi cũng như cách nó trả lời câu hỏi hơn. Cũng đáng chú ý là Kagi đánh giá Claude 1 ngang với GPT 4 (không phải turbo), và đánh giá chất lượng của Claude 2 ở mức tương đương 4 Turbo.
Số phiếu bình chọn cho mô hình Bard: Mô hình Bard hiện có số phiếu bình chọn tương đối ít. Người dùng sẽ chờ cho đến khi số phiếu của nó đạt mức tương tự các mô hình khác.
Bard ít bị hạn chế hơn: Bard bị hạn chế ít hơn nhiều so với GPT-4, và chỉ riêng điều đó thôi cũng khiến nó tốt hơn GPT-4 rất nhiều theo cảm nhận của một người dùng.
Tính hữu dụng của Bard trong số các LLM miễn phí: Trong tất cả các LLM miễn phí, một người dùng cho rằng Bard là hữu ích nhất. ChatGPT 3.5 không thể so sánh được và khá lười biếng.
Thắc mắc về phương pháp benchmark: Có người tò mò benchmark được thực hiện như thế nào. Họ nghi ngờ rằng nó có thể được cải thiện để phản ánh tốt hơn kỳ vọng hoặc tính hữu dụng đối với người dùng.
Sự không khớp với trải nghiệm cá nhân: Theo trải nghiệm cá nhân, mỗi khi cần một câu trả lời, người dùng này lại quay về với GPT. Trong đa số trường hợp, họ thích ChatGPT 3.5 hơn Google Bard, và cảm thấy GPT 4 rõ ràng tốt hơn Bard.
So sánh Bard và ChatGPT: Về mặt cá nhân, có người cho rằng Bard tốt hơn ChatGPT rất nhiều. Họ muốn sử dụng Mistral không bị kiểm duyệt.
Độ phản hồi của Bard và việc bổ sung kiểm duyệt: Trước đây Bard phản hồi theo yêu cầu và không từ chối. Có vẻ như một lớp kiểm duyệt đã được thêm vào. Họ cảm thấy nhớ Bard của ngày trước.