- Anna’s Archive đã sao lưu toàn bộ siêu dữ liệu và tệp nhạc của Spotify và công bố dưới dạng kho lưu trữ torrent khoảng 300TB
- Bao gồm siêu dữ liệu của khoảng 256 triệu bài hát và 86 triệu tệp nhạc, bao phủ 99,6% lượt nghe
- Lưu các bài phổ biến ở chất lượng gốc OGG Vorbis 160kbit/s, còn các bài kém phổ biến ở OGG Opus 75kbit/s để đạt hiệu quả bảo tồn
- Dữ liệu được cung cấp dưới dạng cơ sở dữ liệu SQLite, bao gồm cả cấu trúc chi tiết như playlist, audio feature, album art
- Đây là kho lưu trữ bảo tồn âm nhạc mở hoàn toàn đầu tiên trên thế giới nhằm bảo tồn vĩnh viễn di sản âm nhạc của nhân loại trước thiên tai, chiến tranh, cắt giảm ngân sách, v.v.
Tổng quan dự án
- Anna’s Archive đã scrape trên quy mô lớn toàn bộ siêu dữ liệu và tệp nhạc của Spotify để sao lưu
- Tổng dung lượng khoảng 300TB, được phân phối dưới dạng torrent nhóm theo độ phổ biến
- Bao gồm 256 triệu track và 186 triệu mã ISRC duy nhất
- Kho lưu trữ này là kho bảo tồn âm nhạc mở hoàn toàn mà bất kỳ ai cũng có thể mirror, bao gồm 86 triệu tệp nhạc
- Con số này đại diện cho khoảng 99,6% toàn bộ lượt nghe trên Spotify
- Trước đây Anna’s Archive chủ yếu tập trung vào bảo tồn văn bản (sách, bài báo, v.v.), nhưng lần này đã mở rộng sang âm nhạc, một loại hình phi văn bản
- Sau khi phát hiện phương pháp scrape có hệ thống đối với cấu trúc của Spotify, họ đã thúc đẩy việc xây dựng kho lưu trữ tập trung vào bảo tồn âm nhạc
Giới hạn của các nỗ lực bảo tồn âm nhạc trước đây
- Các nỗ lực bảo tồn âm nhạc trước đây có ba vấn đề chính
- Thiên lệch tập trung vào nghệ sĩ nổi tiếng khiến âm nhạc ngoài dòng chính bị bỏ quên
- Ám ảnh với chất lượng không mất dữ liệu dẫn đến dung lượng lưu trữ kém hiệu quả
- Thiếu danh sách torrent đại diện cho toàn bộ âm nhạc
- Bản sao lưu Spotify lần này khắc phục các vấn đề đó để xây dựng kho lưu trữ âm nhạc lấy bảo tồn làm trung tâm
Cấu trúc dữ liệu và thống kê
- Đã thu thập 99,9% siêu dữ liệu trong khoảng 256 triệu track của Spotify
- Ưu tiên được xác định theo chỉ số độ phổ biến (popularity)
- Track
popularity>0 được lưu ở chất lượng gốc OGG Vorbis 160kbit/s
- Track
popularity=0 được mã hóa lại thành OGG Opus 75kbit/s
- Bao gồm phần lớn các bài hát phát hành trước tháng 7 năm 2025
- Tổng số lượt stream của 3 bài đứng đầu (Lady Gaga, Billie Eilish, Bad Bunny) nhiều hơn tổng cộng của 20 triệu đến 100 triệu bài ở nhóm dưới
- Hơn 70% tổng số bài là các bài ít phổ biến với dưới 1.000 lượt nghe
Cấu trúc phân phối torrent
- Dữ liệu gồm hai phần: siêu dữ liệu và tệp nhạc
- Siêu dữ liệu: cung cấp dưới dạng SQLite DB, khoảng 200GB (nén)
- Dữ liệu phân tích âm thanh: 4TB (nén)
- Tệp nhạc được phân phối ở định dạng Anna’s Archive Containers (AAC)
- Sau khi loại bỏ các gói OGG lỗi của Spotify, hệ thống chèn siêu dữ liệu như tiêu đề, ISRC, album art, thông tin replaygain
- Một số tệp có lỗi ở thẻ
REPLAYGAIN_ALBUM_PEAK
Khám phá và phân tích dữ liệu
- Phân bố độ phổ biến: phần lớn lượt nghe đến từ các bài trong khoảng
popularity 50~80
- Độ dài track: xuất hiện các đỉnh ở mốc 2 phút, 3 phút và 4 phút
- Bao gồm thống kê về nội dung Explicit và các bài trùng ISRC
- Phân bố thể loại của nghệ sĩ: cung cấp trực quan hóa theo thể loại chi tiết và thể loại đã nhóm
- Phân tích năm phát hành album: âm nhạc tạo tự động và nhạc do AI tạo đang tăng mạnh gần đây
- Phân tích audio feature: BPM trung bình khoảng 120, xác nhận mối tương quan giữa loudness và energy
Cấu trúc chi tiết của siêu dữ liệu
- Các tệp SQLite chính gồm
spotify_clean.sqlite3: bản sao gần như đầy đủ của API cho artist, album và track
spotify_clean_audio_features.sqlite3: lưu audio feature như BPM, key, energy, valence theo từng track
spotify_clean_playlists.sqlite3: bao gồm 6,6 triệu playlist và 1,7 tỷ mục track
spotify_clean_track_files.sqlite3: ánh xạ giữa track và tệp thực tế, bao gồm trạng thái tệp, hash SHA256, thông tin bên cấp phép
- Các tệp JSONL bổ sung bao gồm dữ liệu về audiobook, podcast, show và episode
spotify_2025_07_coverart.tar.torrent lưu các tệp hình ảnh album art
Kêu gọi tham gia và bảo tồn
- Anna’s Archive kêu gọi quyên góp và tham gia seed torrent
- Chỉ cần seed quy mô nhỏ cũng có thể đóng góp cho việc bảo tồn toàn bộ
- Mục tiêu là bảo tồn vĩnh viễn di sản âm nhạc của nhân loại trước thiên tai, chiến tranh, cắt giảm ngân sách, v.v.
Tính năng bổ sung và thử nghiệm
- Có thể triển khai tính năng ‘True Shuffle’ cho toàn bộ track trên Spotify
- Có thể tạo danh sách phát ngẫu nhiên thực sự thông qua truy vấn SQLite
- Nếu trong tương lai có đủ quan tâm, họ cũng đề cập khả năng bổ sung tính năng tải xuống từng tệp riêng lẻ
Tóm tắt
- Anna’s Archive đã sao lưu gần như toàn bộ dữ liệu của Spotify để xây dựng cơ sở dữ liệu siêu dữ liệu âm nhạc công khai lớn nhất thế giới
- Với vai trò là kho lưu trữ bảo tồn mở hoàn toàn, bất kỳ ai cũng có thể mirror
- Đây là dự án hội tụ cả tính minh bạch của cấu trúc dữ liệu, độ chính xác kỹ thuật và khả năng bảo tồn dài hạn
- Vượt ra ngoài sự phụ thuộc của ngành âm nhạc vào các nền tảng thương mại, dự án đặt nền móng cho việc lưu giữ vĩnh viễn hồ sơ văn hóa
6 bình luận
Không biết Spotify có nổi điên lên không nhỉ
Spotify가 Anna’s Archive 상대 소송에서 승소하여 .org 도메인 폐쇄
Xem tin tức gần đây thì có vẻ họ đã bị kiện.
Đâu đó giữa hiệp khách nghĩa tặc và kẻ ngoài vòng pháp luật...
Bản quyền thì...
Giờ thì có vẻ các mô hình tạo nhạc trước đây chỉ dừng ở mức thương mại như Suno cũng sẽ có thể được huấn luyện dưới dạng open-weight, open-source.
Ý kiến trên Hacker News
Thật sự rất đáng kinh ngạc
Tôi không biết DRM của Spotify đã bị phá đến mức có thể tải xuống với quy mô lớn như vậy
Có vẻ không quá hữu ích với người dùng phổ thông, nhưng với các nhà nghiên cứu phân loại hoặc tạo sinh âm nhạc thì đây có thể là một cơ hội rất lớn
Tuy vậy, có lẽ sẽ khó công khai mình đã huấn luyện bằng bộ dữ liệu nào
Tôi cũng tò mò không biết việc này là theo yêu cầu của các nhà nghiên cứu AI, hay chỉ đơn thuần vì mục đích lưu trữ bảo tồn
Các thiết bị hay ứng dụng tự động tìm luồng phát lậu TV và phim đã trở nên rất phổ biến
Về mặt kỹ thuật thì hoàn toàn khả thi, và cả người không chuyên trong gia đình tôi cũng đang dùng những thứ này
Chỉ là đội Anna’s Archive là một nhóm hoạt động vì động cơ ý thức hệ, chứ không phải làm cho các công ty AI
Khi cần nhạc thì tôi tải từ YouTube bằng ytldp, nhưng dạo này cũng hầu như không làm nữa
Tôi dùng YouTube nhiều hơn cho tin tức hoặc để chạy nền hơn là để nghe nhạc
Việc Google kiểm soát điều này khiến tôi hơi buồn
Hướng đi đúng là phải quản lý các công ty như Spotify để bảo đảm mức thù lao xứng đáng cho nhạc sĩ
Kiểu công khai dữ liệu này ngược lại chỉ càng khuyến khích việc tạo ra rác AI
Nghĩ đến quy mô thì thật sự khổng lồ
What.CD ngày xưa từng được gọi là “thư viện Alexandria của thế giới âm nhạc”, và khi đó cũng chỉ ở mức vài triệu torrent
Trong khi đó, bản rip Spotify của Anna chứa 186 triệu bản ghi duy nhất
Chắc chắn ở phần cuối sẽ có lẫn cả nhạc bot các kiểu, nhưng riêng quy mô thôi cũng đã áp đảo rồi
Từ các EP đầu tay của những ban nhạc tỉnh lẻ cho đến các ấn phẩm hiếm không thể đưa lên streaming vì quyền sở hữu không rõ ràng, ở đó đều có
Niềm vui khám phá được tạo ra từ gợi ý và đánh giá của cộng đồng, cùng các playlist làm thủ công, là thứ thuật toán không thể thay thế
Nhờ vậy mà đến giờ tôi biết được rất nhiều nghệ sĩ mình yêu thích
Đó là một cộng đồng thực sự yêu âm nhạc, và Trent Reznor cũng từng công khai khen ngợi nó
Thật tiếc là giờ những cộng đồng âm nhạc thuần túy như vậy đã biến mất
Spotify có giới hạn vì chỉ bao gồm các bài có giấy phép streaming
Nếu muốn trở thành một kho lưu trữ âm nhạc hoàn chỉnh thì vẫn còn rất xa
Tôi nghĩ những dự án như thế này là thực sự cần thiết
Những nơi như Anna’s Archive quan trọng không kém Internet Archive
Cốt lõi là bảo tồn di sản số như website, game, sách và nhiều thứ khác
Khi thế hệ thay đổi, có rất nhiều người không còn cơ hội trải nghiệm sự sáng tạo của web thời trước
Tôi nghĩ thế hệ hiện nay là thế hệ có cơ hội để bảo tồn những thứ đó
Trong thời đại mà nhạc và phim cứ lần lượt biến mất khỏi các nền tảng, kiểu lưu trữ này thực sự rất quan trọng
Tôi cũng có tới ba playlist bị làm mờ — đến cả tiêu đề cũng biến mất nên tôi chẳng biết trước đó mình đã nghe gì
Vì vậy những bản nhạc tôi muốn giữ vĩnh viễn thì tôi mua CD, còn nhạc dance thì cứ để nó trôi qua
Đây thực sự là một việc quan trọng
Chỉ cần nhìn các bài báo từ 10 năm trước là thấy đa số liên kết ngoài đều đã thành 404
Dù vẫn có thể đặt câu hỏi liệu có nên lưu giữ mọi thứ hay không, nhưng nếu có thể thì nên lưu giữ
Thật bất ngờ
Bản thân việc Spotify đã bị scrape trên quy mô lớn đã là điều thú vị
Dù họ sẽ không công khai chi tiết phương pháp, nhưng nếu được đọc thì chắc sẽ rất hay
Chỉ là đừng lạm dụng nó, cứ vui ở mức dự án sở thích là được
Máy chủ nhạc của tôi cũng phát các track Spotify theo cách này
Liên kết mã nguồn
Cá nhân tôi không thích chuyện này lắm
Đã có sẵn những nguồn âm thanh chất lượng tốt hơn, và kiểu rip quy mô lớn như thế này chỉ làm tăng rủi ro pháp lý
Tôi đặc biệt lo là đến cả thư viện ebook cũng sẽ bị liên lụy
Ngay trong thông báo họ cũng nói rằng “âm nhạc đã được bảo tồn đủ rồi”, nên lẽ ra phải tách nó thành một dự án riêng
Nhà cung cấp Internet ở Đức (SIM.de/Drillisch) từng chặn Anna’s Archive
Khi tôi tắt VPN thì không vào được, và chỉ mở được khi bật Mullvad VPN
Tôi không biết ở Đức lại có kiểu kiểm duyệt như vậy
Khi tìm
alextud popcorntime, kết quả PopcornTimeTV GitHub không hiện raGoogle, Kagi, DuckDuckGo, Bing đều như vậy
Bản fork thì hiện, còn bản gốc thì không, nên tôi nghi là có lọc kết quả tìm kiếm
Trước đây từng có những bản nhạc bị xóa cùng lúc khỏi nhiều nền tảng
Tôi tự hỏi liệu có thể tìm lại chúng trong kho lưu trữ kiểu này không
Giờ đây lost media phiên bản hiện đại đang xuất hiện mỗi ngày
Một số nhà phát hành cố tình xóa sạch mọi bản sao, và tôi thấy đó là một hành vi kinh khủng về mặt tinh thần
Việc phá hủy hoàn toàn một tác phẩm sáng tạo không thể được biện minh vì bất kỳ lý do gì
Nếu nó chỉ còn tồn tại trên cuộn băng trong một két sắt thép, thì cũng chẳng khác gì không tồn tại
Về mặt kỹ thuật, cũng có thể tạo một máy chủ streaming dùng torrent làm backend
Cách hoạt động là mỗi khi có yêu cầu thì chỉ tải xuống phần cần thiết
Liên kết bài báo liên quan
Spotify hiện vẫn còn rẻ nên tôi chưa bận tâm, nhưng vấn đề thù lao cho nghệ sĩ thì vẫn còn đó
Tôi hy vọng một ngày nào đó sẽ có thể dễ dàng dựng máy chủ nhạc tự host dựa trên torrent