LLMs sind kein Allheilmittel: Praxistest zur Musik-Klassifikation anhand von Metadaten

Die Fragestellung war, ob aktuelle Large Language Models (LLMs) wie GPT-4 oder DeepSeek in der Lage sind, Musikstücke – speziell Salsa-Songs – anhand von Titel, Künstler, Songtext und Metadaten automatisch und zuverlässig in „Salsa Cubana“ oder „Salsa Línea“ zu klassifizieren. Es war bekannt, dass die Informationslage (Metadaten, Genre-Tags, Lyrics) lückenhaft und teilweise uneinheitlich ist. Der Test diente explizit dazu, die praktischen Grenzen heutiger LLMs in diesem Kontext zu ermitteln.

Vorgehen
Für jeden Song einer Spotify-Playlist wurden sämtliche verfügbaren Metadaten erfasst: Titel, Künstler, Album, Genres, Veröffentlichungsdatum, Lyrics (über Genius), zusätzliche Tags und Biografien (über Last.fm). Diese Daten wurden in strukturierter Form an das LLM übergeben. Der Prompt war detailliert gestaltet: Neben Rollendefinition und Klassifikationskriterien enthielt er Beispiele und klare Instruktionen, damit das Modell ausschließlich „Cubana“ oder „Línea“ auswählt.

Beobachtungen und Erkenntnisse

Die Klassifikation durch das LLM erfolgte rein textbasiert. Ein wirkliches Musikverständnis ist damit ausgeschlossen.
Die verfügbaren Metadaten reichten für die Stilunterscheidung nicht aus: Genre-Tags waren allgemein, Labels wie „Salsa Cubana“ oder „Línea“ fehlten meistens.
Songtexte lieferten selten eindeutige Anhaltspunkte, da die thematische Bandbreite in der Salsa sehr groß ist.
LLMs zeigten bei identischen Prompts und Daten zum Teil inkonsistente Ergebnisse. Unterschiedliche Modelle (z.B. DeepSeek, GPT-4o) kamen bei gleicher Eingabe teilweise zu unterschiedlichen Resultaten.
Auch durch das Hinzufügen weiterer Metadaten und externer Quellen wie Last.fm ließ sich die Qualität der Zuordnung nicht steigern. Die Ergebnisse blieben unzuverlässig, oft wurde pauschal „Cubana“ zugeordnet, unabhängig von tatsächlichen Stilmerkmalen.

Fazit
Eine zuverlässige Musikstil-Klassifikation nur anhand von Metadaten und Lyrics ist mit aktuellen LLMs nicht möglich. Die Resultate sind inkonsistent, die Fehlerquote hoch und die Zuordnungen meist nicht nachvollziehbar. Zusätzliche Metadaten und aufwändige Prompt-Templates mit Beispielen und Instruktionen konnten die Grenzen der Modelle nicht überwinden. Für eine präzise stilistische Musik-Klassifikation bleibt menschliches Fachwissen oder eine spezifische musikalische Analyse weiterhin erforderlich.