1 điểm bởi GN⁺ 2026-03-16 | 1 bình luận | Chia sẻ qua WhatsApp
  • Tính năng AI DJ của Spotify cho thấy giới hạn của AI và vấn đề của metadata âm nhạc qua những trường hợp không thể nhận diện đúng nhạc cổ điển
  • Khi người dùng yêu cầu “Giao hưởng số 7 của Beethoven”, AI không hiểu cấu trúc tác phẩm hay thứ tự các chương, rồi phát nhầm chương khác hoặc cả tác phẩm của nhà soạn nhạc khác
  • Dù đã có lệnh cụ thể như “hãy phát tất cả các chương theo đúng thứ tự”, AI vẫn chọn nhầm bản giao hưởng hoặc các bản thu bị xáo trộn thứ tự, cho ra kết quả thiếu nhất quán
  • Nguyên nhân gốc rễ của các lỗi này là metadata âm nhạc số được thiết kế xoay quanh nhạc pop, nên không phản ánh được các khái niệm nhà soạn nhạc, tác phẩm và chương nhạc
  • Bài viết chỉ ra khoảng cách giữa kỳ vọng và thực tế về “trí thông minh” của AI, và khép lại bằng kết luận đầy mỉa mai rằng việc bảo tồn truyền thống âm nhạc phương Tây không liên quan đến lợi ích doanh nghiệp

Trải nghiệm dùng AI DJ và nhận ra vấn đề

  • Bài viết mở đầu bằng câu hỏi “AI có thực sự thông minh không?”, qua đó nêu ra vấn đề liệu trách nhiệm về các lỗi của AI có thuộc về lập trình viên hay không
  • Tác giả thử tìm nhạc cổ điển bằng tính năng AI DJ trong ứng dụng Spotify, và một lần nữa xác nhận giới hạn trong cấu trúc tìm kiếm hiện có của Spotify
  • Là một người nghe yêu thích 500 năm truyền thống âm nhạc phương Tây chứ không phải nhạc pop, tác giả nêu ví dụ các nhà soạn nhạc từ Tallis đến Shaw

Giới hạn mang tính cấu trúc của metadata âm nhạc số

  • Metadata của các tệp nhạc số được cấu thành từ ba thẻ Artist, Album, Song, và đây là một thiết kế lấy nhạc pop làm trung tâm
  • Tác giả chỉ ra rằng thuật ngữ “Song” là một cách gọi không phù hợp khi dùng cả cho nhạc không lời, và giải thích rằng với nhạc cổ điển thì “composition” hoặc “work” mới thích hợp
  • Khái niệm “chương nhạc (movement)”, yếu tố cốt lõi trong cấu trúc của nhạc cổ điển, không được phản ánh trong metadata, nên Spotify không thể nhận diện cấu trúc tổng thể của tác phẩm

Thử nghiệm phát Giao hưởng số 7 của Beethoven

  • Với lệnh “Play Beethoven’s 7th Symphony”, AI chỉ phát chương 2 Allegretto rồi sau đó chuyển sang các bản nhạc hoàn toàn không liên quan
  • Với yêu cầu “Play Beethoven’s 7th Symphony in its entirety”, AI lại hiểu sai thành toàn bộ tác phẩm dài 9 phút và vẫn chỉ phát chương 2
  • Với lệnh “Play Beethoven’s 7th Symphony from beginning to end”, kết quả vẫn là chỉ phát chương 2, rồi chuyển sang tác phẩm của John Field
  • Khi yêu cầu “Play all four movements”, AI bắt đầu từ chương 1 nhưng trộn lẫn các bản thu của nhiều dàn nhạc khác nhau và đảo lộn thứ tự
  • Với lệnh “Play all four movements in numerical order”, hệ thống cho ra kết quả sai hoàn toàn, chẳng hạn bắt đầu bằng chương 1 của Giao hưởng số 3

AI thiếu hiểu biết về âm nhạc

  • Tác giả chỉ ra rằng AI hoàn toàn không hiểu cấu trúc chương nhạc hay khái niệm thứ tự trong một tác phẩm
  • Chỉ cần đọc câu đầu tiên trên Wikipedia cũng có thể biết giao hưởng của Beethoven gồm 4 chương, vậy mà AI vẫn không phản ánh được điều đó
  • Tác giả ví những lỗi này với việc đọc chương cuối của sách nói trước tiên, qua đó châm biếm sự thiếu hiểu biết của AI

Kết luận: AI và sự đứt gãy với truyền thống âm nhạc

  • Bài viết bày tỏ sự hoài nghi trước tuyên bố rằng AI có thể “sáng tác nhạc”, và phê phán rằng một AI còn không hiểu nổi những khái niệm cơ bản thì không thể bàn đến sáng tạo
  • Dù thừa nhận Spotify DJ vẫn đang ở giai đoạn beta, tác giả vẫn khép lại bằng cái nhìn bi quan thực tế rằng doanh nghiệp không có động lực để bảo tồn truyền thống âm nhạc phương Tây
  • Tổng thể, bài viết xem đây là vấn đề kết hợp giữa giới hạn của công nghệ AI, sự thiên lệch trong thiết kế metadata và sự thờ ơ về mặt văn hóa

1 bình luận

 
GN⁺ 2026-03-16
Ý kiến trên Hacker News
  • Có cảm giác tác giả dù có nền tảng kỹ thuật nhưng lại viết một bài khá kỳ lạ
    Đây không phải vấn đề AI mà là vấn đề thiết kế sản phẩm. Spotify DJ về bản chất chỉ ở mức “shuffle + lời thoại bằng giọng nói”, và rất có thể có đoạn mã được cố tình thêm vào để ngăn không cho phát trọn vẹn cả album
    Việc khái quát hóa AI như một khái niệm duy nhất là cách tiếp cận sai. Kiểu lập luận “nếu tính năng này không làm được thì AI là vô dụng” là một lỗi phạm trù (category error)
    Cả bài trộn lẫn nhiều ý kiến nên khá rối, mà một nửa chỉ là liệt kê tên các tác phẩm cổ điển. Đồng ý là Spotify DJ không hay, nhưng đây không phải cách phê bình có sức thuyết phục
    • Charles Petzold không chỉ là một kỹ sư đơn thuần mà là tác giả sách kinh điển về Win32 và MFC. Gọi ông ấy đơn giản là “kỹ sư” cũng giống như gọi Donald Knuth là “giảng viên” vậy
    • Tổ chức sản phẩm của Spotify cực kỳ kém hiệu quả. Tính năng trên ứng dụng desktop và mobile lệch nhau, còn trên CarPlay thì ngay cả việc đơn giản cũng làm trực tiếp trên điện thoại nhanh hơn nhiều
    • Có vẻ như tác giả cố tình làm ragebait. Lập luận “AI không thể sáng tác nhạc” vô lý chẳng khác nào nói “LLM không đếm được số chữ R nên không thể tạo câu đúng ngữ pháp”
    • Tôi lại nhìn theo hướng ngược lại. Chính vì về mặt kỹ thuật điều này hoàn toàn có thể làm được mà kết quả vẫn như vậy, nên tôi nghĩ bài viết đã truyền đạt tốt thông điệp rằng “chuyện này không có gì để bào chữa”
    • Nói là “lỗi phạm trù” thì không đúng lắm, mà gần với đánh tráo luận điểm (begging the question) hơn. Họ đặt tính năng DJ và khả năng sáng tác lên cùng một mặt bằng rồi ngầm giả định sẵn kết luận
  • Tôi chưa trực tiếp dùng AI DJ, nhưng khó đồng cảm với cách phê bình của tác giả
    Không có nỗ lực nào để tìm hiểu mặt mạnh mặt yếu của công nghệ, mà chỉ đi theo kiểu mẫu quen thuộc là dùng một trường hợp hẹp để hạ thấp toàn bộ AI. AI không phải con người nên việc nó có giới hạn là điều hiển nhiên
    Tôi cũng thấy điều tương tự với trợ lý lập trình AI. Người ta phủ định sạch trơn vì lý do bảo mật, nhưng lại bỏ qua khả năng “tạo ứng dụng Mac native chỉ bằng một câu lệnh”
    • “AI có thể làm gì” và “những người truyền đạo AI tuyên bố gì” là hai chuyện hoàn toàn khác nhau. Mỗi khi bị hỏi về giới hạn, họ thường đáp kiểu “cứ dùng AI nhiều hơn là được” hoặc “5 năm nữa mọi thứ sẽ được giải quyết”. Những lời hứa phóng đại như vậy làm xói mòn niềm tin
    • Ví dụ “tạo app chỉ bằng một câu” khó đáng tin trong thực tế vì chất lượng mang tính xác suất (probabilistic)
    • Thực tế thì nếu không phải mức “Hello World” thì không thể tạo ra một ứng dụng hoàn chỉnh chỉ bằng một câu. Vẫn bắt buộc phải chỉnh sửa và bổ sung
    • Bỏ qua phê bình sản phẩm Spotify để lái sang chuyện “app Mac bằng một câu” là một mạch lập luận kỳ lạ
    • Tôi không đồng ý với việc tác giả khái quát hóa AI, nhưng Spotify DJ thực sự là một sản phẩm rất tệ. Không thể đem so với Claude Code
  • AI DJ tạo cảm giác giống như AI viết review nhà hàng. Làm thì có thể làm, nhưng con người muốn gu thẩm mỹ của chuyên gia là người thật hơn là ý kiến của máy
    Sức hấp dẫn của các bản mix DJ trên YouTube như Hör Berlin nằm ở lựa chọn và cách diễn giải của DJ, cũng như nền tảng văn hóa của họ. Việc AI rút ra một danh sách tối ưu sẽ làm mất đi bản chất đó
    • Tương lai sẽ là thời đại của tuyển chọn nội dung. Những curator là con người với tri thức sâu và cảm quan tốt sẽ còn được đánh giá cao hơn
    • Các bản mix của Spotify 10 năm nay gần như không thay đổi nhiều. Chỉ là DJ chọn một bản mix rồi LLM thêm lời thoại vào. Rốt cuộc nó vẫn chỉ là hệ thống gợi ý ML
    • Tôi thích khám phá nhạc mới qua các danh sách tự động của SoundCloud. Không hoàn hảo, nhưng có cái thú của khám phá có chủ đích
    • DJ là con người biết đọc phản ứng của khán giả tại buổi diễn hoàn toàn khác với Spotify DJ. Cái sau chỉ như shuffle đơn giản có chèn thêm vài câu nói từ LLM
    • Tất nhiên cũng có người tiêu thụ nghệ thuật như chính tác phẩm tự thân. Sự hiện diện của curator là con người không phải lúc nào cũng là điều bắt buộc
  • Cốt lõi vấn đề là cấu trúc cấp phép âm nhạc. Giấy phép kiểu radio không cho phép người dùng trực tiếp chọn track, và cũng hạn chế việc phát trọn album
    Spotify pha trộn giữa giấy phép kiểu radio và giấy phép tương tác để giảm chi phí. Playlist do AI tạo ra không phải lựa chọn trực tiếp của người dùng, nên rất có thể bị xử lý theo dạng radio
  • Nếu nghe chủ yếu nhạc cổ điển thì chuyển sang Apple Music Classical sẽ tốt hơn nhiều. Có PDF booklet, so sánh theo nghệ sĩ biểu diễn, tính năng khám phá, và mọi mặt đều vượt trội
    • Tôi nghĩ Apple Music Classical hoặc Idagio tốt hơn hẳn. Spotify không quan tâm vì thị trường nhạc cổ điển quá nhỏ
  • Các dịch vụ gợi ý kiểu Spotify khá nhàm chán. Danh sách nhạc do DJ là người chọn thú vị hơn nhiều
    Tôi hay nghe các kênh như dublab, NTS1, NTS2, nơi bạn có thể gặp những bản nhạc không ngờ tới
    • Vấn đề lớn nhất của AI curation là chất lượng dữ liệu đầu vào. Dựa trên độ tương đồng, tính ngẫu nhiên hay mẫu hình đều có giới hạn. Cuối cùng nó không nắm bắt được sự đa dạng trong gu thưởng thức của con người
      Dù đổ vào hàng trăm triệu đô la cũng không thể tạo ra gợi ý hoàn hảo, và nó không thay thế được niềm tin xã hội (social proof) mà DJ là con người mang lại
    • Trong nghiên cứu về hệ thống gợi ý, điều này được gọi là bài toán serendipity. Tăng đồng thời cả mức độ liên quan lẫn yếu tố bất ngờ là một nhiệm vụ rất khó
    • Tôi thích tự làm mixtape hoặc trộn các file MP3 rip từ CD để nghe. Tôi cũng nghe radio châu Âu để duy trì ngoại ngữ, và thích các kênh như YouTube, KEXP, Tiny Desk
    • NTS thật sự rất tuyệt. Thuật toán streaming nhìn chung cho cảm giác chỉ được thiết kế để làm tiếng ồn nền
    • Cảm ơn vì gợi ý. Tôi thử mở NTS rồi cứ nghe mãi. Hoan nghênh thêm các đề xuất khác
  • Ngay từ đầu bài, đoạn liệt kê các nhà soạn nhạc cổ điển đã cho cảm giác quá phô trương nên tôi mất hứng. Từ “DJ” tự nó đã hợp với nhạc điện tử hiện đại hơn
    • Những cách diễn đạt như “that moste illustriouse of musical traditionnes” tạo cảm giác khoe mẽ quá đà
    • Nói đến DJ là nghĩ tới người mở nhạc pop hay dance ở đám cưới hoặc câu lạc bộ, chứ không phải người mix Bach hay Vivaldi
    • Cứ như thể AI đã tự động sinh ra danh sách các nhà soạn nhạc vậy
    • Tôi cũng có cảm giác đó. Thêm nữa, việc cố tình chua thêm rằng “tôi biết mọi người có lẽ không biết họ là ai” nghe khá buồn cười
    • Ban đầu tôi tưởng là trò đùa, nhưng hóa ra bài viết nghiêm túc đến cuối nên thấy hơi ngỡ ngàng. Tôi học lập trình Windows bằng sách của Petzold, nên khá bất ngờ trước những phát biểu dường như còn không hiểu nguyên lý cơ bản của mô hình Transformer
      Cũng đáng tiếc là góc nhìn về âm nhạc như thể chỉ có nhạc pop và cổ điển phương Tây mới là tất cả
  • Đến câu nói kiểu “trụ cột của văn minh phương Tây” thì tôi thấy rất khó đọc tiếp. Chung quy kết luận vẫn quá rõ — Spotify không phù hợp với nhạc cổ điển, vậy thì dùng dịch vụ khác thôi
  • Câu hỏi cốt lõi của bài là: “Khi AI hành xử ngu ngốc thì ai phải chịu trách nhiệm?”
    Tôi xem đây là thất bại trong thiết kế prompt. Nếu thử cùng yêu cầu đó bằng ví dụ ChatGPT thì AI phản hồi đúng
    Nghĩa là rất có thể model của Spotify yếu hơn, hoặc prompt nội bộ của họ đã dẫn hệ thống đi sai hướng
    Lập luận “AI không thể sáng tác nhạc” cũng là một phép so sánh sai. AI đã cho thấy khả năng hiểu lý thuyết âm nhạc và tiềm năng sáng tác. Cuối cùng vẫn là vấn đề chất lượng và gu thẩm mỹ
    • Nếu prompt là kiểu “hãy nối tiếp bằng các bài của nghệ sĩ tương tự”, thì đó cũng có thể là logic kinh doanh nhằm đẩy người dùng sang các bài có mức royalty thấp hơn
    • Đổ trách nhiệm cho người dùng là rất khó chịu. Prompt đã đủ rõ ràng. Kiểu lan rộng của ngành AI như thế này đang khiến thế giới trở nên ngu ngốc hơn và đơn điệu hơn
  • Bài này là một ví dụ hay về thuyết tương đối ngôn ngữ, tức ngôn ngữ định hình tư duy
    Mỗi lần mọi người gọi LLM là “AI” thì nhận thức lại bị bóp méo.
    Đây là thành công lớn nhất của ngành marketing và cũng là một trong những thiệt hại lớn nhất mà nó gây ra cho thế giới