3 điểm bởi GN⁺ 2024-09-10 | 1 bình luận | Chia sẻ qua WhatsApp
  • Vài ngày trước, có người công bố Reflection 70B cùng với kết quả benchmark gây kinh ngạc và tuyên bố đây là phiên bản tinh chỉnh của Llama 3.1 70B
    • Việc phát hành weight khá lộn xộn. Họ nói là bản fine-tune cho 3.1 nhưng lại phát hành Lora cho 3.0
    • Khi chạy với các trọng số đã phát hành, kết quả đánh giá ban đầu không đạt kỳ vọng
    • Khi dùng endpoint được host sẵn, kết quả đánh giá bắt đầu đạt mức SOTA
  • Mọi người đã tìm ra một cách khá khéo để kiểm tra xem mô hình nào đang chạy ở endpoint
    • Token theo từng mô hình và cơ chế kiểm duyệt đặc thù của từng mô hình
    • Theo những gì họ tìm ra, họ cho rằng đó không phải mô hình tự tinh chỉnh của nhóm này mà là một lớp bọc quanh Sonnet 3.5
    • Sau khi có bài đăng trên Twitter nói rằng đó là Sonnet, nội dung lại thay đổi
    • Sau đó một người dùng khác nói rằng họ đã tìm được bằng chứng, cũng bằng cách tương tự, cho thấy mô hình host đã bị đổi sang GPT 4o
  • Kết quả bị lẫn lộn và thiếu nhất quán, nên không rõ đâu là thật và đâu là giả
  • Tweet phát hành của tác giả gốc: https://twitter.com/mattshumer_/status/1831767014341538166
  • Chuỗi tweet theo dõi việc mọi thứ liên tục thay đổi thông qua prompt: https://x.com/RealJosephus/status/1832904398831280448

1 bình luận

 
GN⁺ 2024-09-10
Ý kiến Hacker News
  • Đã có thông báo rằng mô hình Llama 3.1 70B có hiệu năng vượt trội, nhưng sau đó phát sinh nhiều vấn đề

    • Trọng số của Lora for Llama 3.0 đã được phát hành sai
    • Đánh giá ban đầu không đạt kỳ vọng
    • Endpoint được host cho thấy hiệu năng SOTA
    • Nhiều phương pháp đã được sử dụng để xác minh mô hình đó thực sự là mô hình nào
    • Cuối cùng bị phát hiện là đã sử dụng mô hình Sonnet 3.5
    • Sau đó còn tìm thấy bằng chứng cho thấy đã chuyển sang mô hình GPT 4o
    • Gây ra sự hỗn loạn và lãng phí thời gian
  • Có ý kiến cho rằng bài đăng này đáng được chú ý nhiều hơn

    • Danh tiếng của một người vốn được biết đến là nhân vật lớn trong lĩnh vực AI đã bị tổn hại
    • Có các bằng chứng như việc lọc từ "claude", lỗi tag, và mô hình tự thừa nhận mình là claude
    • Hành vi mang tính quyết định nhất là mô hình trả lời bằng tiếng Ả Rập, dù phiên bản Llama không hỗ trợ điều đó
  • Người ta làm nhiều chuyện chỉ để có danh tiếng; thật tò mò mục tiêu cuối cùng của Schumer là gì

  • Tweet gốc của tác giả (sắp bị xóa)

    세계 최고의 오픈 소스 모델인 Reflection 70B를 발표하게 되어 기쁩니다.
    Reflection-Tuning을 사용하여 훈련되었으며, LLM이 스스로의 실수를 수정할 수 있게 했어요.
    다음 주에 405B가 출시될 예정이며, 세계 최고의 모델이 될 것으로 기대합니다.
    
  • Có một câu đùa về một người có tên bắt vần với "odd" và bắt đầu bằng chữ cái thứ ba (C*** Debussy)

  • Có người thắc mắc liệu đã nhận được sự "xác nhận" từ nguồn đáng tin cậy hay chưa, vì khó có thể tin vào bài đăng Reddit, thread Twitter, hay ảnh chụp màn hình với nguồn gốc không rõ ràng