Wie funktionieren Musikerkennungs-Apps wie Shazam?

Musikerkennungs-Apps wirken zunächst wie Magie, aber unter der Haube steckt ein ausgeklügelter Algorithmus, der Songs im Handumdrehen finden kann. So funktionieren sie.

Die Magie der Musikidentifikation

Es ist wahrscheinlich uns allen passiert. Sie essen in einem schönen Restaurant zu Abend, hängen in einem Café ab oder gehen in einem Geschäft herum, als Sie plötzlich ein großartiges Lied aus den Lautsprechern hören. Vielleicht ist es ein Lied, das Sie schon einmal gehört haben, oder ein Stück, das Sie noch nie gehört haben. Also ziehst du dein Handy heraus, öffnest Shazam und hältst dein Gerät an die Decke. Im Handumdrehen sagt Ihnen die App, um welches Lied es sich handelt, wer der Künstler ist und wo Sie es streamen können.

Sie sind schnell, bemerkenswert genau und können selbst die obskursten Songs identifizieren. Kurz gesagt, sie arbeiten, indem sie den Song aus einer Aufnahme isolieren und ihn mit einer umfangreichen Datenbank von Tracks durchsuchen. Aber die Technologie dahinter ist ziemlich komplex und beeindruckend.

Sie werden vielleicht schockiert sein zu erfahren, dass die Shazam-App, die wir heute kennen, bereits 2002 veröffentlicht wurde und das System damals genauso genau und schnell war wie heute. Das alles ist einem einzigartigen Algorithmus zu verdanken, der die Musikwelt revolutionieren würde.

  Was ist Komposition in der Fotografie?

Es sind nicht nur die Texte

Auf den ersten Blick mögen Musikerkennungs-Apps wie Shazam einfach erscheinen. Sie könnten denken, dass sie sich einfach den Songtext anhören, genau wie jeder Sprachassistent, und ihn in einer Datenbank mit Songtexten durchsuchen, um Ihnen zu sagen, was der Song ist.

Die meisten Musikerkennungs-Apps sind jedoch in der Lage, den Titel eines Instrumentals oder sogar den Sänger eines Coversongs zu erkennen. Das liegt daran, dass sie, anstatt den Songtext zu analysieren, in ihren umfangreichen Datenbanken nach „Fingerabdrücken“ suchen, die für jeden Song einzigartig sind.

Fingerabdruck-Technologie

Sie haben wahrscheinlich Geräte, die mit Ihrem Fingerabdruck entsperrt werden können, d. h. die Anordnung der kleinen Linien auf Ihrem Finger, die für Sie einzigartig sind. Wenn Sie Ihr Mikrofon hochhalten, um einen kurzen Clip eines Songs aufzunehmen, wird dieser Clip in Datenmuster umgewandelt, die Shazam oder eine andere App in ihrer Datenbank nachschlagen kann.

Auf den ersten Blick scheint diese Methode anfällig für mehrere Probleme zu sein. Die meiste Zeit, wenn Sie Musik in der Öffentlichkeit hören, gibt es Hintergrundgeräusche und Verzerrungen durch die Lautsprecher, die Songs unidentifizierbar machen oder zu ungenauen Übereinstimmungen führen können. Außerdem werden selbst in einem kurzen Soundclip viele Daten erfasst, was die Suche nach diesen Mustern in einer Datenbank mit Millionen von Songs verlangsamen kann.

  Erstellen Sie Meetings, teilen Sie sie per SMS und E-Mail, unterstützt RSVP und iCloud

Im Interview mit Wissenschaftlicher Amerikaner 2003 erklärt Avery Li-Chun Wang, Chef-Datenwissenschaftler und Mitbegründer von Shazam, wie ihr Algorithmus diese Probleme behebt. Die Informationen eines Audioclips können mit einem als Spektrogramm bezeichneten 3D-Diagramm visualisiert werden, das eine Änderung der Frequenzen über einen bestimmten Zeitraum darstellt. Es berücksichtigt auch die Amplitude, also die Lautstärke eines Tons. Dies wird in einem Spektrogramm anhand der Farbintensität dargestellt.

So wie Menschen Geräusche nur dann wahrnehmen können, wenn sie sich auf einer bestimmten Frequenz befinden, nimmt Shazam bei der Suche nur „Peaks“ auf, die den höchsten Energiegehalt innerhalb eines Audioclips darstellen . Die erfassten Fingerabdrücke nehmen nur die höchsten Frequenzpunkte innerhalb eines bestimmten Zeitrahmens und dann die Spitzenamplitudenpunkte innerhalb dieser Frequenzen auf.

In einer Forschungsarbeit für Universität von Columbia, sagte Wang, dass die Methode es ihnen ermöglicht, die meisten unnötigen Teile eines Audioclips wie Hintergrundgeräusche zu entfernen und Verzerrungen zu beseitigen. Es macht auch die Größe der Ausdrucke so klein, dass es nur Millisekunden dauert, um ein Lied in ihrer riesigen Datenbank zu identifizieren.

  So zeichnen Sie die Aussprache Ihres Namens auf LinkedIn auf und zeigen sie an

Shazams Einfluss

Abgesehen davon, dass sie für durchschnittliche Hörer hilfreich sind, die ein Lied hören, das ihnen gefällt, tragen Musikerkennungs-Apps auch dazu bei, die Musikwelt zu gestalten.

Radiosender und Streaming-Dienste verwenden oft die Daten darüber, was die Leute am meisten shazam-ing, um herauszufinden, welche Titel von der Öffentlichkeit gehört werden. Dies ist hilfreich, da es unabhängig vom Interpreten die Eingängigkeit und potenzielle Popularität eines Songs anzeigt. Wenn Sie ein Lied mit der App identifizieren, sehen Sie sofort, wie viele Leute es auch versucht haben.

Seit dem Aufstieg von Shazam sind auch eine Handvoll Konkurrenten aufgetaucht. Soundhound behauptet, ein Lied einfach dadurch identifizieren zu können, dass Sie es singen oder summen, mit gemischten Ergebnissen. Es gibt auch eine Song-ID, die in Sprach-Apps wie Google Assistant integriert ist, die sehr ähnlich wie das System von Shazam funktionieren.