29 điểm bởi GN⁺ 2025-12-21 | 6 bình luận | Chia sẻ qua WhatsApp
  • Anna’s Archive đã sao lưu toàn bộ siêu dữ liệu và tệp nhạc của Spotify và công bố dưới dạng kho lưu trữ torrent khoảng 300TB
  • Bao gồm siêu dữ liệu của khoảng 256 triệu bài hát86 triệu tệp nhạc, bao phủ 99,6% lượt nghe
  • Lưu các bài phổ biến ở chất lượng gốc OGG Vorbis 160kbit/s, còn các bài kém phổ biến ở OGG Opus 75kbit/s để đạt hiệu quả bảo tồn
  • Dữ liệu được cung cấp dưới dạng cơ sở dữ liệu SQLite, bao gồm cả cấu trúc chi tiết như playlist, audio feature, album art
  • Đây là kho lưu trữ bảo tồn âm nhạc mở hoàn toàn đầu tiên trên thế giới nhằm bảo tồn vĩnh viễn di sản âm nhạc của nhân loại trước thiên tai, chiến tranh, cắt giảm ngân sách, v.v.

Tổng quan dự án

  • Anna’s Archive đã scrape trên quy mô lớn toàn bộ siêu dữ liệu và tệp nhạc của Spotify để sao lưu
    • Tổng dung lượng khoảng 300TB, được phân phối dưới dạng torrent nhóm theo độ phổ biến
    • Bao gồm 256 triệu track186 triệu mã ISRC duy nhất
  • Kho lưu trữ này là kho bảo tồn âm nhạc mở hoàn toàn mà bất kỳ ai cũng có thể mirror, bao gồm 86 triệu tệp nhạc
    • Con số này đại diện cho khoảng 99,6% toàn bộ lượt nghe trên Spotify
  • Trước đây Anna’s Archive chủ yếu tập trung vào bảo tồn văn bản (sách, bài báo, v.v.), nhưng lần này đã mở rộng sang âm nhạc, một loại hình phi văn bản
  • Sau khi phát hiện phương pháp scrape có hệ thống đối với cấu trúc của Spotify, họ đã thúc đẩy việc xây dựng kho lưu trữ tập trung vào bảo tồn âm nhạc

Giới hạn của các nỗ lực bảo tồn âm nhạc trước đây

  • Các nỗ lực bảo tồn âm nhạc trước đây có ba vấn đề chính
    1. Thiên lệch tập trung vào nghệ sĩ nổi tiếng khiến âm nhạc ngoài dòng chính bị bỏ quên
    2. Ám ảnh với chất lượng không mất dữ liệu dẫn đến dung lượng lưu trữ kém hiệu quả
    3. Thiếu danh sách torrent đại diện cho toàn bộ âm nhạc
  • Bản sao lưu Spotify lần này khắc phục các vấn đề đó để xây dựng kho lưu trữ âm nhạc lấy bảo tồn làm trung tâm

Cấu trúc dữ liệu và thống kê

  • Đã thu thập 99,9% siêu dữ liệu trong khoảng 256 triệu track của Spotify
  • Ưu tiên được xác định theo chỉ số độ phổ biến (popularity)
    • Track popularity>0 được lưu ở chất lượng gốc OGG Vorbis 160kbit/s
    • Track popularity=0 được mã hóa lại thành OGG Opus 75kbit/s
  • Bao gồm phần lớn các bài hát phát hành trước tháng 7 năm 2025
  • Tổng số lượt stream của 3 bài đứng đầu (Lady Gaga, Billie Eilish, Bad Bunny) nhiều hơn tổng cộng của 20 triệu đến 100 triệu bài ở nhóm dưới
  • Hơn 70% tổng số bài là các bài ít phổ biến với dưới 1.000 lượt nghe

Cấu trúc phân phối torrent

  • Dữ liệu gồm hai phần: siêu dữ liệu và tệp nhạc
    • Siêu dữ liệu: cung cấp dưới dạng SQLite DB, khoảng 200GB (nén)
    • Dữ liệu phân tích âm thanh: 4TB (nén)
  • Tệp nhạc được phân phối ở định dạng Anna’s Archive Containers (AAC)
    • Sau khi loại bỏ các gói OGG lỗi của Spotify, hệ thống chèn siêu dữ liệu như tiêu đề, ISRC, album art, thông tin replaygain
    • Một số tệp có lỗi ở thẻ REPLAYGAIN_ALBUM_PEAK

Khám phá và phân tích dữ liệu

  • Phân bố độ phổ biến: phần lớn lượt nghe đến từ các bài trong khoảng popularity 50~80
  • Độ dài track: xuất hiện các đỉnh ở mốc 2 phút, 3 phút và 4 phút
  • Bao gồm thống kê về nội dung Explicitcác bài trùng ISRC
  • Phân bố thể loại của nghệ sĩ: cung cấp trực quan hóa theo thể loại chi tiết và thể loại đã nhóm
  • Phân tích năm phát hành album: âm nhạc tạo tự động và nhạc do AI tạo đang tăng mạnh gần đây
  • Phân tích audio feature: BPM trung bình khoảng 120, xác nhận mối tương quan giữa loudness và energy

Cấu trúc chi tiết của siêu dữ liệu

  • Các tệp SQLite chính gồm
    • spotify_clean.sqlite3: bản sao gần như đầy đủ của API cho artist, album và track
    • spotify_clean_audio_features.sqlite3: lưu audio feature như BPM, key, energy, valence theo từng track
    • spotify_clean_playlists.sqlite3: bao gồm 6,6 triệu playlist1,7 tỷ mục track
    • spotify_clean_track_files.sqlite3: ánh xạ giữa track và tệp thực tế, bao gồm trạng thái tệp, hash SHA256, thông tin bên cấp phép
  • Các tệp JSONL bổ sung bao gồm dữ liệu về audiobook, podcast, show và episode
  • spotify_2025_07_coverart.tar.torrent lưu các tệp hình ảnh album art

Kêu gọi tham gia và bảo tồn

  • Anna’s Archive kêu gọi quyên góp và tham gia seed torrent
    • Chỉ cần seed quy mô nhỏ cũng có thể đóng góp cho việc bảo tồn toàn bộ
  • Mục tiêu là bảo tồn vĩnh viễn di sản âm nhạc của nhân loại trước thiên tai, chiến tranh, cắt giảm ngân sách, v.v.

Tính năng bổ sung và thử nghiệm

  • Có thể triển khai tính năng ‘True Shuffle’ cho toàn bộ track trên Spotify
    • Có thể tạo danh sách phát ngẫu nhiên thực sự thông qua truy vấn SQLite
  • Nếu trong tương lai có đủ quan tâm, họ cũng đề cập khả năng bổ sung tính năng tải xuống từng tệp riêng lẻ

Tóm tắt

  • Anna’s Archive đã sao lưu gần như toàn bộ dữ liệu của Spotify để xây dựng cơ sở dữ liệu siêu dữ liệu âm nhạc công khai lớn nhất thế giới
  • Với vai trò là kho lưu trữ bảo tồn mở hoàn toàn, bất kỳ ai cũng có thể mirror
  • Đây là dự án hội tụ cả tính minh bạch của cấu trúc dữ liệu, độ chính xác kỹ thuật và khả năng bảo tồn dài hạn
  • Vượt ra ngoài sự phụ thuộc của ngành âm nhạc vào các nền tảng thương mại, dự án đặt nền móng cho việc lưu giữ vĩnh viễn hồ sơ văn hóa

6 bình luận

 
tested 2025-12-24

Không biết Spotify có nổi điên lên không nhỉ

 
lsdcnu 2026-01-25

Spotify가 Anna’s Archive 상대 소송에서 승소하여 .org 도메인 폐쇄
Xem tin tức gần đây thì có vẻ họ đã bị kiện.

 
vndk2234 2025-12-23

Đâu đó giữa hiệp khách nghĩa tặc và kẻ ngoài vòng pháp luật...

 
roxie 2025-12-21

Bản quyền thì...

 
devworld 2025-12-21

Giờ thì có vẻ các mô hình tạo nhạc trước đây chỉ dừng ở mức thương mại như Suno cũng sẽ có thể được huấn luyện dưới dạng open-weight, open-source.

 
GN⁺ 2025-12-21
Ý kiến trên Hacker News
  • Thật sự rất đáng kinh ngạc
    Tôi không biết DRM của Spotify đã bị phá đến mức có thể tải xuống với quy mô lớn như vậy
    Có vẻ không quá hữu ích với người dùng phổ thông, nhưng với các nhà nghiên cứu phân loại hoặc tạo sinh âm nhạc thì đây có thể là một cơ hội rất lớn
    Tuy vậy, có lẽ sẽ khó công khai mình đã huấn luyện bằng bộ dữ liệu nào
    Tôi cũng tò mò không biết việc này là theo yêu cầu của các nhà nghiên cứu AI, hay chỉ đơn thuần vì mục đích lưu trữ bảo tồn

    • Tôi không đồng ý với ý nói nó vô dụng với người dùng phổ thông
      Các thiết bị hay ứng dụng tự động tìm luồng phát lậu TV và phim đã trở nên rất phổ biến
      Về mặt kỹ thuật thì hoàn toàn khả thi, và cả người không chuyên trong gia đình tôi cũng đang dùng những thứ này
      Chỉ là đội Anna’s Archive là một nhóm hoạt động vì động cơ ý thức hệ, chứ không phải làm cho các công ty AI
    • Tôi không dùng Spotify
      Khi cần nhạc thì tôi tải từ YouTube bằng ytldp, nhưng dạo này cũng hầu như không làm nữa
      Tôi dùng YouTube nhiều hơn cho tin tức hoặc để chạy nền hơn là để nghe nhạc
      Việc Google kiểm soát điều này khiến tôi hơi buồn
    • Thực ra metadata có thể còn giá trị hơn cả các tệp nhạc
    • Gọi đây là “việc dành cho các nhà nghiên cứu phân loại âm nhạc” nghe như một kiểu tự hợp lý hóa rằng không cần hỗ trợ nghệ sĩ
      Hướng đi đúng là phải quản lý các công ty như Spotify để bảo đảm mức thù lao xứng đáng cho nhạc sĩ
      Kiểu công khai dữ liệu này ngược lại chỉ càng khuyến khích việc tạo ra rác AI
    • Với dạng dữ liệu này, có lẽ sẽ dễ hơn nhiều để làm các công cụ tự động sưu tầm nhạc theo từng bài như Lidarr
  • Nghĩ đến quy mô thì thật sự khổng lồ
    What.CD ngày xưa từng được gọi là “thư viện Alexandria của thế giới âm nhạc”, và khi đó cũng chỉ ở mức vài triệu torrent
    Trong khi đó, bản rip Spotify của Anna chứa 186 triệu bản ghi duy nhất
    Chắc chắn ở phần cuối sẽ có lẫn cả nhạc bot các kiểu, nhưng riêng quy mô thôi cũng đã áp đảo rồi

    • Điều khiến What.CD vĩ đại không chỉ là số lượng mà còn là độ hiếm và chất lượng
      Từ các EP đầu tay của những ban nhạc tỉnh lẻ cho đến các ấn phẩm hiếm không thể đưa lên streaming vì quyền sở hữu không rõ ràng, ở đó đều có
      Niềm vui khám phá được tạo ra từ gợi ý và đánh giá của cộng đồng, cùng các playlist làm thủ công, là thứ thuật toán không thể thay thế
      Nhờ vậy mà đến giờ tôi biết được rất nhiều nghệ sĩ mình yêu thích
    • Trước What.CD còn có OiNK’s Pink Palace
      Đó là một cộng đồng thực sự yêu âm nhạc, và Trent Reznor cũng từng công khai khen ngợi nó
      Thật tiếc là giờ những cộng đồng âm nhạc thuần túy như vậy đã biến mất
    • Đúng vậy, What.CD có rất nhiều âm nhạc không có trên Spotify như CD, bootleg, băng cassette v.v.
      Spotify có giới hạn vì chỉ bao gồm các bài có giấy phép streaming
    • Tôi cũng hay nghe những bài kén người nghe trên YouTube Music, và thường thấy bình luận kiểu “tiếc là không có trên Spotify”
      Nếu muốn trở thành một kho lưu trữ âm nhạc hoàn chỉnh thì vẫn còn rất xa
    • What.CD đếm torrent theo album, còn Spotify thì còn bao gồm cả podcast và nội dung do AI tạo ra
  • Tôi nghĩ những dự án như thế này là thực sự cần thiết
    Những nơi như Anna’s Archive quan trọng không kém Internet Archive
    Cốt lõi là bảo tồn di sản số như website, game, sách và nhiều thứ khác
    Khi thế hệ thay đổi, có rất nhiều người không còn cơ hội trải nghiệm sự sáng tạo của web thời trước
    Tôi nghĩ thế hệ hiện nay là thế hệ có cơ hội để bảo tồn những thứ đó

  • Trong thời đại mà nhạc và phim cứ lần lượt biến mất khỏi các nền tảng, kiểu lưu trữ này thực sự rất quan trọng
    Tôi cũng có tới ba playlist bị làm mờ — đến cả tiêu đề cũng biến mất nên tôi chẳng biết trước đó mình đã nghe gì
    Vì vậy những bản nhạc tôi muốn giữ vĩnh viễn thì tôi mua CD, còn nhạc dance thì cứ để nó trôi qua

  • Đây thực sự là một việc quan trọng
    Chỉ cần nhìn các bài báo từ 10 năm trước là thấy đa số liên kết ngoài đều đã thành 404
    Dù vẫn có thể đặt câu hỏi liệu có nên lưu giữ mọi thứ hay không, nhưng nếu có thể thì nên lưu giữ

  • Thật bất ngờ
    Bản thân việc Spotify đã bị scrape trên quy mô lớn đã là điều thú vị
    Dù họ sẽ không công khai chi tiết phương pháp, nhưng nếu được đọc thì chắc sẽ rất hay

    • Thực ra không khó đến vậy
      Chỉ là đừng lạm dụng nó, cứ vui ở mức dự án sở thích là được
      Máy chủ nhạc của tôi cũng phát các track Spotify theo cách này
      Liên kết mã nguồn
    • Điều đáng ngạc nhiên hơn là họ đã truyền 300TB dữ liệu một cách ẩn danh
    • Có lẽ họ đã dùng công cụ kiểu này → spotizerr-spotify
  • Cá nhân tôi không thích chuyện này lắm
    Đã có sẵn những nguồn âm thanh chất lượng tốt hơn, và kiểu rip quy mô lớn như thế này chỉ làm tăng rủi ro pháp lý
    Tôi đặc biệt lo là đến cả thư viện ebook cũng sẽ bị liên lụy
    Ngay trong thông báo họ cũng nói rằng “âm nhạc đã được bảo tồn đủ rồi”, nên lẽ ra phải tách nó thành một dự án riêng

  • Nhà cung cấp Internet ở Đức (SIM.de/Drillisch) từng chặn Anna’s Archive
    Khi tôi tắt VPN thì không vào được, và chỉ mở được khi bật Mullvad VPN
    Tôi không biết ở Đức lại có kiểu kiểm duyệt như vậy

    • Tôi cũng có trải nghiệm tương tự
      Khi tìm alextud popcorntime, kết quả PopcornTimeTV GitHub không hiện ra
      Google, Kagi, DuckDuckGo, Bing đều như vậy
      Bản fork thì hiện, còn bản gốc thì không, nên tôi nghi là có lọc kết quả tìm kiếm
  • Trước đây từng có những bản nhạc bị xóa cùng lúc khỏi nhiều nền tảng
    Tôi tự hỏi liệu có thể tìm lại chúng trong kho lưu trữ kiểu này không
    Giờ đây lost media phiên bản hiện đại đang xuất hiện mỗi ngày
    Một số nhà phát hành cố tình xóa sạch mọi bản sao, và tôi thấy đó là một hành vi kinh khủng về mặt tinh thần
    Việc phá hủy hoàn toàn một tác phẩm sáng tạo không thể được biện minh vì bất kỳ lý do gì
    Nếu nó chỉ còn tồn tại trên cuộn băng trong một két sắt thép, thì cũng chẳng khác gì không tồn tại

  • Về mặt kỹ thuật, cũng có thể tạo một máy chủ streaming dùng torrent làm backend
    Cách hoạt động là mỗi khi có yêu cầu thì chỉ tải xuống phần cần thiết

    • Spotify đến tận năm 2014 vẫn còn dùng streaming P2P
      Liên kết bài báo liên quan
    • Gần đây tôi cũng dựng một *stack arr homelab, nhưng với nhạc thì tôi vẫn chưa thấy đủ cần thiết so với chi phí
      Spotify hiện vẫn còn rẻ nên tôi chưa bận tâm, nhưng vấn đề thù lao cho nghệ sĩ thì vẫn còn đó
      Tôi hy vọng một ngày nào đó sẽ có thể dễ dàng dựng máy chủ nhạc tự host dựa trên torrent
    • Về mặt kỹ thuật thì không nên làm, nhưng hoàn toàn có thể làm được
    • Kiểu như Popcorn Time vậy