- Tính năng AI DJ của Spotify cho thấy giới hạn của AI và vấn đề của metadata âm nhạc qua những trường hợp không thể nhận diện đúng nhạc cổ điển
- Khi người dùng yêu cầu “Giao hưởng số 7 của Beethoven”, AI không hiểu cấu trúc tác phẩm hay thứ tự các chương, rồi phát nhầm chương khác hoặc cả tác phẩm của nhà soạn nhạc khác
- Dù đã có lệnh cụ thể như “hãy phát tất cả các chương theo đúng thứ tự”, AI vẫn chọn nhầm bản giao hưởng hoặc các bản thu bị xáo trộn thứ tự, cho ra kết quả thiếu nhất quán
- Nguyên nhân gốc rễ của các lỗi này là metadata âm nhạc số được thiết kế xoay quanh nhạc pop, nên không phản ánh được các khái niệm nhà soạn nhạc, tác phẩm và chương nhạc
- Bài viết chỉ ra khoảng cách giữa kỳ vọng và thực tế về “trí thông minh” của AI, và khép lại bằng kết luận đầy mỉa mai rằng việc bảo tồn truyền thống âm nhạc phương Tây không liên quan đến lợi ích doanh nghiệp
Trải nghiệm dùng AI DJ và nhận ra vấn đề
- Bài viết mở đầu bằng câu hỏi “AI có thực sự thông minh không?”, qua đó nêu ra vấn đề liệu trách nhiệm về các lỗi của AI có thuộc về lập trình viên hay không
- Tác giả thử tìm nhạc cổ điển bằng tính năng AI DJ trong ứng dụng Spotify, và một lần nữa xác nhận giới hạn trong cấu trúc tìm kiếm hiện có của Spotify
- Là một người nghe yêu thích 500 năm truyền thống âm nhạc phương Tây chứ không phải nhạc pop, tác giả nêu ví dụ các nhà soạn nhạc từ Tallis đến Shaw
Giới hạn mang tính cấu trúc của metadata âm nhạc số
- Metadata của các tệp nhạc số được cấu thành từ ba thẻ Artist, Album, Song, và đây là một thiết kế lấy nhạc pop làm trung tâm
- Tác giả chỉ ra rằng thuật ngữ “Song” là một cách gọi không phù hợp khi dùng cả cho nhạc không lời, và giải thích rằng với nhạc cổ điển thì “composition” hoặc “work” mới thích hợp
- Khái niệm “chương nhạc (movement)”, yếu tố cốt lõi trong cấu trúc của nhạc cổ điển, không được phản ánh trong metadata, nên Spotify không thể nhận diện cấu trúc tổng thể của tác phẩm
Thử nghiệm phát Giao hưởng số 7 của Beethoven
- Với lệnh “Play Beethoven’s 7th Symphony”, AI chỉ phát chương 2 Allegretto rồi sau đó chuyển sang các bản nhạc hoàn toàn không liên quan
- Với yêu cầu “Play Beethoven’s 7th Symphony in its entirety”, AI lại hiểu sai thành toàn bộ tác phẩm dài 9 phút và vẫn chỉ phát chương 2
- Với lệnh “Play Beethoven’s 7th Symphony from beginning to end”, kết quả vẫn là chỉ phát chương 2, rồi chuyển sang tác phẩm của John Field
- Khi yêu cầu “Play all four movements”, AI bắt đầu từ chương 1 nhưng trộn lẫn các bản thu của nhiều dàn nhạc khác nhau và đảo lộn thứ tự
- Với lệnh “Play all four movements in numerical order”, hệ thống cho ra kết quả sai hoàn toàn, chẳng hạn bắt đầu bằng chương 1 của Giao hưởng số 3
AI thiếu hiểu biết về âm nhạc
- Tác giả chỉ ra rằng AI hoàn toàn không hiểu cấu trúc chương nhạc hay khái niệm thứ tự trong một tác phẩm
- Chỉ cần đọc câu đầu tiên trên Wikipedia cũng có thể biết giao hưởng của Beethoven gồm 4 chương, vậy mà AI vẫn không phản ánh được điều đó
- Tác giả ví những lỗi này với việc đọc chương cuối của sách nói trước tiên, qua đó châm biếm sự thiếu hiểu biết của AI
Kết luận: AI và sự đứt gãy với truyền thống âm nhạc
- Bài viết bày tỏ sự hoài nghi trước tuyên bố rằng AI có thể “sáng tác nhạc”, và phê phán rằng một AI còn không hiểu nổi những khái niệm cơ bản thì không thể bàn đến sáng tạo
- Dù thừa nhận Spotify DJ vẫn đang ở giai đoạn beta, tác giả vẫn khép lại bằng cái nhìn bi quan thực tế rằng doanh nghiệp không có động lực để bảo tồn truyền thống âm nhạc phương Tây
- Tổng thể, bài viết xem đây là vấn đề kết hợp giữa giới hạn của công nghệ AI, sự thiên lệch trong thiết kế metadata và sự thờ ơ về mặt văn hóa
1 bình luận
Ý kiến trên Hacker News
Đây không phải vấn đề AI mà là vấn đề thiết kế sản phẩm. Spotify DJ về bản chất chỉ ở mức “shuffle + lời thoại bằng giọng nói”, và rất có thể có đoạn mã được cố tình thêm vào để ngăn không cho phát trọn vẹn cả album
Việc khái quát hóa AI như một khái niệm duy nhất là cách tiếp cận sai. Kiểu lập luận “nếu tính năng này không làm được thì AI là vô dụng” là một lỗi phạm trù (category error)
Cả bài trộn lẫn nhiều ý kiến nên khá rối, mà một nửa chỉ là liệt kê tên các tác phẩm cổ điển. Đồng ý là Spotify DJ không hay, nhưng đây không phải cách phê bình có sức thuyết phục
Không có nỗ lực nào để tìm hiểu mặt mạnh mặt yếu của công nghệ, mà chỉ đi theo kiểu mẫu quen thuộc là dùng một trường hợp hẹp để hạ thấp toàn bộ AI. AI không phải con người nên việc nó có giới hạn là điều hiển nhiên
Tôi cũng thấy điều tương tự với trợ lý lập trình AI. Người ta phủ định sạch trơn vì lý do bảo mật, nhưng lại bỏ qua khả năng “tạo ứng dụng Mac native chỉ bằng một câu lệnh”
Sức hấp dẫn của các bản mix DJ trên YouTube như Hör Berlin nằm ở lựa chọn và cách diễn giải của DJ, cũng như nền tảng văn hóa của họ. Việc AI rút ra một danh sách tối ưu sẽ làm mất đi bản chất đó
Spotify pha trộn giữa giấy phép kiểu radio và giấy phép tương tác để giảm chi phí. Playlist do AI tạo ra không phải lựa chọn trực tiếp của người dùng, nên rất có thể bị xử lý theo dạng radio
Tôi hay nghe các kênh như dublab, NTS1, NTS2, nơi bạn có thể gặp những bản nhạc không ngờ tới
Dù đổ vào hàng trăm triệu đô la cũng không thể tạo ra gợi ý hoàn hảo, và nó không thay thế được niềm tin xã hội (social proof) mà DJ là con người mang lại
Cũng đáng tiếc là góc nhìn về âm nhạc như thể chỉ có nhạc pop và cổ điển phương Tây mới là tất cả
Tôi xem đây là thất bại trong thiết kế prompt. Nếu thử cùng yêu cầu đó bằng ví dụ ChatGPT thì AI phản hồi đúng
Nghĩa là rất có thể model của Spotify yếu hơn, hoặc prompt nội bộ của họ đã dẫn hệ thống đi sai hướng
Lập luận “AI không thể sáng tác nhạc” cũng là một phép so sánh sai. AI đã cho thấy khả năng hiểu lý thuyết âm nhạc và tiềm năng sáng tác. Cuối cùng vẫn là vấn đề chất lượng và gu thẩm mỹ
Mỗi lần mọi người gọi LLM là “AI” thì nhận thức lại bị bóp méo.
Đây là thành công lớn nhất của ngành marketing và cũng là một trong những thiệt hại lớn nhất mà nó gây ra cho thế giới