11 điểm bởi xguru 2023-07-26 | 3 bình luận | Chia sẻ qua WhatsApp
  • "Overview of SHARD: A System for Highly Available Replicated Data" 1988
    • Bài báo đầu tiên giới thiệu sharding cơ sở dữ liệu, được trích dẫn trong vô số bài báo nhưng lại "không tồn tại"
  • "Integral Neural Networks"
  • "Blue Is the New Black (Market): Privacy Leaks and Re-Victimization from Police-Auctioned Cellphones"
  • "Latency Lags Bandwidth"
  • "Liquid solution centrifugation for safe, scalable, and efficient isotope separation"
  • "Co-cultivation enhanced microbial protein production based on autotrophic nitrogen-fixing hydrogen-oxidizing bacteria"
  • "Enso: A Streaming Interface for NIC-Application Communication"
  • "Search-Based Regular Expression Inference on a GPU"
  • "Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm"
  • "FP2: Fully in-Place Functional Programming"
  • "Enabling tabular deep learning when d ≫ n with an auxiliary knowledge graph"
  • "A Holistic Approach to Undesired Content Detection in the Real World"

3 bình luận

 
cosine20 2023-07-26

Integral Neural Networks thực sự rất ấn tượng.
Có vẻ cốt lõi là khái niệm rời rạc hóa phân bố trọng số; giống như lý thuyết lấy mẫu, tức là có thể rời rạc hóa phân bố trọng số được biểu diễn bằng hàm liên tục để tối ưu hóa lượng tính toán.
Nhìn vào các LLM gần đây cũng thấy người ta lượng tử hóa mô hình để tạo ra các mô hình cần ít phép tính hơn mà vẫn cho hiệu năng tương tự, nên có vẻ đây là một phương pháp luận tương tự.

 
xguru 2023-07-26

Mục đầu tiên hơi khó đỡ nhưng khá thú vị đấy
Where is the original "Overview of SHARD" paper?

 
cosine20 2023-07-26

Nhìn phần bình luận ở liên kết đó thì có vẻ chính tác giả đã trả lời gần đây.
Vì đó là tài liệu dùng nội bộ trong doanh nghiệp/viện nghiên cứu nên không có cách nào để truy cập công khai.

"I'm the Ronni Rosenberg. This was an internal CCA paper (not from academia or a published journal), from 35 years ago! I don't have a copy and I have no idea how to get it. Sorry about that. It does seem to be the earliest reference to data "sharding." (The other early reference mentioned in Wikipedia is from much later, 1997.)

Fortunately, you need not go back 35 years to read about sharding; it's easy to get current info. Cheers."

Thực ra những trường hợp như vậy cũng khá thường gặp; dù không thể xác nhận nội dung gốc, người ta vẫn gắn trích dẫn để làm rõ nguồn gốc của khái niệm đặc thù hoặc nghiên cứu mà bài báo nhắc tới. Từ góc nhìn của các nhà nghiên cứu khác, cần phải kiểm chứng xem Sharding mà nghiên cứu đó nói đến có phải là cùng một Sharding mà những người khác đang hiểu hay không, hay chỉ trùng tên nhưng thực chất là một khái niệm Sharding khác do người khác đề xuất, hoặc thậm chí là một khái niệm không hề tồn tại mà bị gán tên Sharding để đánh lừa.
Ngay cả trong deep learning cũng thường có những mô hình mạng có cùng tên nhưng thực ra là các kết quả nghiên cứu khác nhau.