- Vài ngày trước, có người công bố Reflection 70B cùng với kết quả benchmark gây kinh ngạc và tuyên bố đây là phiên bản tinh chỉnh của Llama 3.1 70B
- Việc phát hành weight khá lộn xộn. Họ nói là bản fine-tune cho 3.1 nhưng lại phát hành Lora cho 3.0
- Khi chạy với các trọng số đã phát hành, kết quả đánh giá ban đầu không đạt kỳ vọng
- Khi dùng endpoint được host sẵn, kết quả đánh giá bắt đầu đạt mức SOTA
- Mọi người đã tìm ra một cách khá khéo để kiểm tra xem mô hình nào đang chạy ở endpoint
- Token theo từng mô hình và cơ chế kiểm duyệt đặc thù của từng mô hình
- Theo những gì họ tìm ra, họ cho rằng đó không phải mô hình tự tinh chỉnh của nhóm này mà là một lớp bọc quanh Sonnet 3.5
- Sau khi có bài đăng trên Twitter nói rằng đó là Sonnet, nội dung lại thay đổi
- Sau đó một người dùng khác nói rằng họ đã tìm được bằng chứng, cũng bằng cách tương tự, cho thấy mô hình host đã bị đổi sang GPT 4o
- Kết quả bị lẫn lộn và thiếu nhất quán, nên không rõ đâu là thật và đâu là giả
- Tweet phát hành của tác giả gốc: https://twitter.com/mattshumer_/status/1831767014341538166
- Chuỗi tweet theo dõi việc mọi thứ liên tục thay đổi thông qua prompt: https://x.com/RealJosephus/status/1832904398831280448
1 bình luận
Ý kiến Hacker News
Đã có thông báo rằng mô hình Llama 3.1 70B có hiệu năng vượt trội, nhưng sau đó phát sinh nhiều vấn đề
Có ý kiến cho rằng bài đăng này đáng được chú ý nhiều hơn
Người ta làm nhiều chuyện chỉ để có danh tiếng; thật tò mò mục tiêu cuối cùng của Schumer là gì
Tweet gốc của tác giả (sắp bị xóa)
Có một câu đùa về một người có tên bắt vần với "odd" và bắt đầu bằng chữ cái thứ ba (C*** Debussy)
Có người thắc mắc liệu đã nhận được sự "xác nhận" từ nguồn đáng tin cậy hay chưa, vì khó có thể tin vào bài đăng Reddit, thread Twitter, hay ảnh chụp màn hình với nguồn gốc không rõ ràng