So hört Alexa auf Wake-Wörter

Alexa hört immer zu, nimmt aber nicht ständig auf. Es sendet nichts an Cloud-Server, bis Sie das Aktivierungswort (Alexa, Echo oder Computer) hören. Aber auf Weckwörter zu hören ist schwieriger, als Sie vielleicht denken.

Echo-Hardware ist nicht so intelligent. Ohne das Internet wird jede Anfrage oder Frage, die Sie stellen, fehlschlagen. Dies liegt daran, dass Ihre Befehle zur Interpretation und Entscheidung an die Cloud gesendet werden. Amazon möchte nicht, dass jedes Gespräch, das Sie vor einem Smart Speaker führen, aufgezeichnet wird, sondern nur die Befehle, die Sie dem Smart Speaker geben. Aus diesem Grund setzt das Unternehmen ein Weckwort ein, um die Aufmerksamkeit des Smart Speakers zu erregen. Um dies zu erreichen, verwendet Amazon eine Kombination aus fein abgestimmten Mikrofonen, einem kurzen Speicherpuffer und neuronalem Netztraining.

Fein abgestimmte Mikrofone lokalisieren Ihre Stimme

Die hellblaue LED zeigt immer in die Richtung Ihrer Stimme.

Lautsprecher von Sprachassistenten wie Echo und Echo Dot verfügen normalerweise über mehrere integrierte Mikrofone. Der Echo Dot zum Beispiel hat sieben. Dieses Array verleiht den Geräten verschiedene Fähigkeiten, vom Hören von weit entfernten Befehlen bis hin zur Trennung von Hintergrundgeräuschen von Stimmen.

Letzteres ist besonders hilfreich für die Wake-Word-Erkennung. Mit seinen mehreren Mikrofonen kann das Echo Ihren Standort relativ zu seiner Position bestimmen und in diese Richtung hören, während der Rest des Raums ignoriert wird.

Sie sehen dies in Aktion, wenn Sie das Wake-Wort verwenden. Stellen Sie sich an die Seite eines Echos oder Echo Dots und sagen Sie das Weckwort. Beachten Sie, dass der Ring in Dunkelblau und dann in einem helleren Blau aufleuchtet, während er kreist und auf Sie „zeigt“. Gehen Sie nun einige Schritte zur Seite und sagen Sie das Weckwort noch einmal. Beachten Sie, dass die hellblauen Lichter Ihnen folgen.

Zu wissen, wo Sie sich befinden, hilft dem Gerät, sich besser auf Sie zu konzentrieren und schalte Geräusche aus, die von woanders kommen.

Kurzes Gedächtnis verhindert, dass der Lautsprecher zu viel hält

Echo-Geräte haben viel Speicherplatz, aber sie verbrauchen nicht viel davon. Laut Rohit Prasad, dem Vizepräsidenten bei Amazon und Head Scientist von Alexa Artificial Intelligence, ist ein Echo kann nur ein paar Sekunden Audio physisch speichern.

Durch die Reduzierung seiner Fähigkeiten bietet Amazon Ihnen nicht nur mehr Privatsphäre (es ist ein Ort weniger, an dem Ihre Stimme gespeichert wird), sondern verhindert auch, dass Echo ganze Gespräche mithört, und beschränkt seinen Fokus darauf, das Aktivierungswort zu finden.

Stellen Sie sich vor, Sie hätten eine Drei-Sekunden-Kassette und ein Tonbandgerät. Angenommen, nachdem das Band das Ende erreicht hat, wird es immer wieder zum Anfang zurückgeschleift. Wenn Sie mit der Aufzeichnung eines Gesprächs beginnen, wird alles, was Sie vor vier Sekunden gesagt haben, gelöscht und sofort aufgezeichnet. Das macht ein Amazon Echo.

Es zeichnet kontinuierlich auf, löscht jedoch gleichzeitig alles, was gerade aufgenommen wurde. Diese kurze Aufmerksamkeitsspanne bedeutet, dass sie nur das Wort „Alexa“ hören kann und nicht viel mehr. Drei Sekunden sind jedoch lang genug, um dieses Wort aufzuzeichnen, zu untersuchen und angemessen darauf zu reagieren.

Neuronales Netztraining hilft beim Pattern Matching

Eine Darstellung der Layer, die von den Algorithmen von Amazon verwendet werden.

Schließlich ist Amazon abhängig von Neuronales Netztraining um dem Echo beizubringen, wie man Muster abgleicht. Ähnlich wie bei anderen Formen des maschinellen Lernens trainiert Amazon seine Algorithmen, indem es Instanz für Instanz das Wort Alexa (oder Computer oder Echo, je nachdem, welches Weckwort das Unternehmen trainiert) füttert.

Die Idee ist, jeden Tonfall und Akzent abzudecken, aber auch den Kontext. Amazon möchte, dass Ihr Echo den Unterschied erkennt, wenn Sie mit ihm sprechen, wenn Sie darüber sprechen oder vielleicht, wenn Sie mit einer Person namens Alexa sprechen. Die Richtmikrofone unterstützen dieses Ziel ebenfalls.

Bei jedem Wort, das das Echo hört, führt es Audio durch Schichten von Algorithmen. Jede Schicht ist so konzipiert, dass sie falsch positive Ergebnisse ausschließt, indem nach ähnlichen oder kontextbezogenen Hinweisen gesucht wird. Wenn eine Schichtprüfung bestanden wird, geht das Wort zur nächsten. Wenn das lokale Gerät schließlich entscheidet, dass es das Aktivierungswort gehört hat, beginnt es mit der Aufzeichnung und leitet das Audio an die Cloud-Server von Amazon weiter. Amazon verwendet vier Algorithmen: einen für jedes Weckwort (Alexa, Computer, Echo) und einen für Alexa Guard, der bestimmte Geräusche wie das Zerbrechen von Glas wie ein Weckwort behandelt.

Aber selbst wenn es zu einer Übereinstimmung kommt, führt Amazon immer noch kompliziertere Prüfungen durch. Ist Ihnen aufgefallen, dass, wenn jemand das Wort Alexa in einer Fernsehsendung oder Werbung spricht, Ihr Echo normalerweise keine Reaktion hervorruft? Denn auch Amazon macht einen Cloud-Check.

Cloud-Checks schließen einige Fehlalarme aus

Dies urkomische Alexa-Werbung wird Ihr Echo nicht aufwecken.

Wenn Unternehmen Werbespots mit Alexa machen, können sie Senden Sie das Audio an Amazon. Das Unternehmen lässt das Audio durch ähnliche Mustervergleichsalgorithmen laufen, die verwendet werden, um das Aktivierungswort zu identifizieren. Sobald genau diese Instanz vollständig katalogisiert ist, wird sie einer Datenbank hinzugefügt.

Als Teil des Vorgangs, wenn Sie die Cloud erreichen, enthält Ihr Echo Informationen über das gehörte Aktivierungswort und überprüft diese Datenbank. Immer wenn eine Übereinstimmung gefunden wird, weist Amazon Ihr Echo an, das Aktivierungswort zu ignorieren, herunterzufahren und alle aufgezeichneten Audiodaten zu verwerfen.

Darüber hinaus prüft Amazon, ob das gleichzeitig gesprochene Weckwort vorkommt. Nicht jedes Unternehmen sendet Audio an Amazon, daher hat das Unternehmen eine neuartige Backup-Lösung entwickelt. Nach der Überprüfung auf eine Übereinstimmung mit der Datenbank vergleicht das Unternehmen den Aufdruck des Aktivierungsworts mit allen anderen gleichzeitig eingehenden Instanzen. Es ist unwahrscheinlich, dass zwei Personen, die gleichzeitig Alexa sagen, genau gleich klingen würden. Wenn es also eine Übereinstimmung gibt, weiß Amazon, dass es sich wahrscheinlich um eine Werbesendung oder eine Fernsehsendung handelt, und ignoriert die Anfrage.

Trotz aller Prüfungen kommt es immer noch zu Fehlalarmen. Sie können sich anhören, was Ihr Echo aufgenommen hat unter Amazons Datenschutz-Hub, und Sie werden wahrscheinlich mindestens ein falsch positives Ergebnis in der Menge finden. Aber die Technologie wird ständig verbessert und Amazon möchte, dass sie irgendwann ganz ohne Weckwort funktioniert.