Google Bard tăng lên vị trí thứ 2 trên bảng xếp hạng hiệu năng LLM, ngay dưới GPT-4 Turbo

xguru · 2024-01-28T09:41:59+09:00

Google Bard (Gemini Pro) đã vượt qua GPT-4-0314/0613 và nhảy vọt lên vị trí thứ 2 (1215), ngay dưới GPT-4 Turbo (Arena ELO 1249) Ngoài ra, tỷ lệ Hallucination trên bảng xếp hạng HHEM cũng giảm từ 12% xuống 4.9%. (GPT-4/4 Turbo là 3.0%, GPT 3.5 Turbo là 3.5%) Rất mong chờ xem Bard + Gemini Ultra sẽ được phát hành như thế nào

(twitter.com/JeffDean)

7 điểm bởi xguru 2024-01-28 | 1 bình luận | Chia sẻ qua WhatsApp

Google Bard (Gemini Pro) đã vượt qua GPT-4-0314/0613 và nhảy vọt lên vị trí thứ 2 (1215), ngay dưới GPT-4 Turbo (Arena ELO 1249)
Ngoài ra, tỷ lệ Hallucination trên bảng xếp hạng HHEM cũng giảm từ 12% xuống 4.9%. (GPT-4/4 Turbo là 3.0%, GPT 3.5 Turbo là 3.5%)
Rất mong chờ xem Bard + Gemini Ultra sẽ được phát hành như thế nào

1 bình luận

xguru 2024-01-28

Ý kiến trên Hacker News

Giới hạn hiệu năng của Google Bard: Một người dùng cho biết họ từ lâu đã nghi ngờ hiệu năng của Google Bard bị giới hạn vì chi phí. Google đang cung cấp Bard miễn phí, và có lẽ họ không muốn vận hành miễn phí một mô hình khổng lồ cho mọi người dùng mãi mãi. Có thể đã có đột phá về chi phí suy luận, hoặc họ đã chán việc bị đánh giá là đang tụt lại trong cạnh tranh nên quyết định tạm thời chấp nhận chi phí. Người dùng này cho rằng Google nên bắt đầu một dịch vụ thuê bao để mọi người có thể công khai thấy họ đang vận hành mô hình tốt nhất.

Theo tweet của Jeff Dean, một mô hình mới có tên "Gemini Pro-scale model" đã được ra mắt và đứng thứ 2 trên bảng xếp hạng lmsys độc lập. Chưa rõ "Pro-scale" có nghĩa là gì, và liệu tất cả người dùng đã đang sử dụng mô hình này hay chưa.
Sự thất vọng ban đầu về Bard và các cải thiện: Bard từng gây thất vọng khi mới ra mắt, nhưng thật tốt khi thấy nó đang được cải thiện. Theo trải nghiệm cá nhân của một người dùng, họ sử dụng Claude 2 nhiều hơn GPT 4/Turbo và thích phong cách phản hồi cũng như cách nó trả lời câu hỏi hơn. Cũng đáng chú ý là Kagi đánh giá Claude 1 ngang với GPT 4 (không phải turbo), và đánh giá chất lượng của Claude 2 ở mức tương đương 4 Turbo.
Số phiếu bình chọn cho mô hình Bard: Mô hình Bard hiện có số phiếu bình chọn tương đối ít. Người dùng sẽ chờ cho đến khi số phiếu của nó đạt mức tương tự các mô hình khác.
Bard ít bị hạn chế hơn: Bard bị hạn chế ít hơn nhiều so với GPT-4, và chỉ riêng điều đó thôi cũng khiến nó tốt hơn GPT-4 rất nhiều theo cảm nhận của một người dùng.
Tính hữu dụng của Bard trong số các LLM miễn phí: Trong tất cả các LLM miễn phí, một người dùng cho rằng Bard là hữu ích nhất. ChatGPT 3.5 không thể so sánh được và khá lười biếng.
Thắc mắc về phương pháp benchmark: Có người tò mò benchmark được thực hiện như thế nào. Họ nghi ngờ rằng nó có thể được cải thiện để phản ánh tốt hơn kỳ vọng hoặc tính hữu dụng đối với người dùng.

Sau khi xem tweet của Jeff Dean, tôi đã thử dùng Bard. So với GPT-4, nó vẫn gây thất vọng. Nó đi chệch khỏi câu hỏi nhưng lại không nhận ra điều đó.
Khi tôi yêu cầu tạo biểu đồ, nó đã trả lời đến ba lần rằng "đây là biểu đồ", nhưng thực tế không có biểu đồ nào cả, rồi cuối cùng lại nói rằng nó không có tính năng đó.
Sự không khớp với trải nghiệm cá nhân: Theo trải nghiệm cá nhân, mỗi khi cần một câu trả lời, người dùng này lại quay về với GPT. Trong đa số trường hợp, họ thích ChatGPT 3.5 hơn Google Bard, và cảm thấy GPT 4 rõ ràng tốt hơn Bard.
So sánh Bard và ChatGPT: Về mặt cá nhân, có người cho rằng Bard tốt hơn ChatGPT rất nhiều. Họ muốn sử dụng Mistral không bị kiểm duyệt.
Độ phản hồi của Bard và việc bổ sung kiểm duyệt: Trước đây Bard phản hồi theo yêu cầu và không từ chối. Có vẻ như một lớp kiểm duyệt đã được thêm vào. Họ cảm thấy nhớ Bard của ngày trước.

Google Bard tăng lên vị trí thứ 2 trên bảng xếp hạng hiệu năng LLM, ngay dưới GPT-4 Turbo

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News