继大规模爬取图书资源后,被称为“影子图书馆”的Anna's Archive将目标转向音乐领域——全球最大音乐流媒体平台Spotify的曲库遭到该组织爬取,约300TB音乐内容及海量元数据被打包为种子文件非法发布,供用户免费下载。目前Spotify已确认此事并启动调查,相关泄露的后续影响正逐步显现。

泄露规模:覆盖37%曲目、99.9%播放量,元数据近乎完整
Anna's Archive此次爬取的内容规模惊人:
- 音频文件:共8600万个文件,占Spotify全平台曲目的37%,但覆盖了平台99.9%的播放量;格式以Spotify原生的OGG Vorbis 160 kbps为主,仅流行度评级为0的歌曲被重新编码为75kbps以节省存储空间。
- 元数据:包含2.56亿行播放记录(覆盖99.6%的Spotify播放数据),已整合成可查询的SQL数据库;同时近乎无损重建了Spotify API的JSON结构,涵盖1.86亿个唯一ISRC(全球单曲录音标识符),以及专辑信息、艺人资料、封面艺术等全部配套内容。
Anna's Archive在其发布的博客中还披露了基于爬取数据的分析结论:Spotify平台上约70%的歌曲几乎无人问津,仅0.1%的曲目属于最受欢迎行列;多数歌曲为单曲而非专辑收录内容,120 BPM是最常见的曲目节奏。
平台回应与泄露动机:第三方规避DRM,声称“为音乐保存”
Spotify向Android Authority发表声明证实了此次泄露事件:“一项针对未经授权访问的调查发现,第三方抓取了公共元数据,并使用了非法手段规避DRM(数字版权管理),以访问平台的部分音频文件。我们正在积极调查此事。”
值得注意的是,声明中“部分”的表述与实际泄露规模存在差异——Anna's Archive泄露的内容已覆盖绝大多数高播放量曲目。该组织声称,此次大规模爬取的核心动机是“音乐保存”,认为Spotify曲库过度集中于流行艺人和特定音质,需要建立一份“囊括所有已创作音乐的权威种子列表”,这一逻辑与此前其未经授权开源图书的行为完全一致。
泄露形式与后续影响:AAC格式打包,分批发布逐步发酵
Anna's Archive采用自托管方式发布种子文件,所有内容均使用该组织沿用多年的自定义格式Anna's Archive Containers(AAC)打包。目前元数据已全部公开,音频文件则按曲目流行度分类,以大文件块的形式分批发布——这意味着此次爬取的真正影响不会一次性爆发,而是会随着后续内容的逐步释放持续发酵。
此前Anna's Archive因非法开源图书资源引发版权争议,此次进军音乐领域的大规模爬取行为,不仅直接侵犯Spotify及音乐版权方的权益,也可能对音乐流媒体行业的版权保护体系形成冲击。Spotify的调查进展及后续应对措施,将成为影响事件走向的关键。


0条评论