Was ist Natural Language Processing und wie funktioniert es?

Die Verarbeitung natürlicher Sprache ermöglicht es Computern, das Gesagte in Befehle zu verarbeiten, die sie ausführen können. Finden Sie heraus, wie es funktioniert und wie es verwendet wird, um unser Leben zu verbessern.

Was ist Natural Language Processing?

Ob Alexa, Siri, Google Assistant, Bixby oder Cortana, jeder, der ein Smartphone oder einen Smart Speaker besitzt, hat heute einen sprachaktivierten Assistenten. Jedes Jahr scheinen diese Sprachassistenten besser darin zu werden, die Dinge zu erkennen und auszuführen, die wir ihnen sagen. Aber haben Sie sich jemals gefragt, wie diese Assistenten die Dinge verarbeiten, die wir sagen? Dies gelingt ihnen dank Natural Language Processing, kurz NLP.

In der Vergangenheit war die meiste Software nur in der Lage, auf einen festen Satz spezifischer Befehle zu reagieren. Eine Datei wird geöffnet, weil Sie auf Öffnen geklickt haben, oder eine Tabelle berechnet eine Formel basierend auf bestimmten Symbolen und Formelnamen. Ein Programm kommuniziert unter Verwendung der Programmiersprache, in der es codiert wurde, und erzeugt somit eine Ausgabe, wenn es eine Eingabe erhält, die es erkennt. Wörter sind in diesem Zusammenhang wie ein Satz verschiedener mechanischer Hebel, die immer die gewünschte Leistung liefern.

Dies steht im Gegensatz zu menschlichen Sprachen, die komplex und unstrukturiert sind und eine Vielzahl von Bedeutungen haben, die auf Satzstruktur, Tonfall, Akzent, Timing, Interpunktion und Kontext basieren. Natural Language Processing ist ein Zweig der künstlichen Intelligenz, der versucht, die Lücke zwischen dem, was eine Maschine als Eingabe erkennt, und der menschlichen Sprache zu überbrücken. Auf diese Weise erzeugt die Maschine, wenn wir natürlich sprechen oder tippen, eine Ausgabe, die dem entspricht, was wir gesagt haben.

Dies geschieht, indem riesige Mengen von Datenpunkten verwendet werden, um die Bedeutung der verschiedenen Elemente der menschlichen Sprache zusätzlich zu den Bedeutungen der eigentlichen Wörter abzuleiten. Dieser Prozess ist eng mit dem als maschinelles Lernen bekannten Konzept verbunden, das es Computern ermöglicht, mehr zu lernen, wenn sie mehr Datenpunkte erhalten. Aus diesem Grund scheinen die meisten Maschinen zur Verarbeitung natürlicher Sprache, mit denen wir häufig interagieren, im Laufe der Zeit besser zu werden.

Um das Konzept besser zu beleuchten, werfen wir einen Blick auf zwei der wichtigsten Techniken, die im NLP zur Verarbeitung von Sprache und Informationen verwendet werden.

Tokenisierung

Tokenisierung bedeutet das Aufteilen von Sprache in Wörter oder Sätze. Jedes Textstück ist ein Token, und diese Token werden angezeigt, wenn Ihre Sprache verarbeitet wird. Klingt einfach, ist aber in der Praxis ein kniffliger Prozess.

Angenommen, Sie verwenden eine Text-to-Speech-Software wie die Google-Tastatur, um einem Freund eine Nachricht zu senden. Sie möchten eine Nachricht senden: „Treffen Sie mich im Park“. Wenn Ihr Telefon diese Aufnahme aufnimmt und durch den Text-to-Speech-Algorithmus von Google verarbeitet, muss Google das gerade Gesagte in Token aufteilen. Diese Token wären „meet“, „me“, „at“, „the“ und „park“.

Menschen haben unterschiedlich lange Pausen zwischen den Wörtern, und andere Sprachen haben möglicherweise nicht sehr wenig hörbare Pausen zwischen den Wörtern. Der Tokenisierungsprozess variiert drastisch zwischen Sprachen und Dialekten.

Stemming und Lemmatisierung

Stemming und Lemmatisierung beinhalten beide den Prozess der Entfernen von Ergänzungen oder Variationen zu einem Wurzelwort, das die Maschine erkennen kann. Dies geschieht, um die Sprachinterpretation über verschiedene Wörter hinweg, die alle im Wesentlichen dasselbe bedeuten, konsistent zu machen, was die NLP-Verarbeitung beschleunigt.

Stemming ist ein grober, schneller Prozess, bei dem Affixe von einem Wortstamm entfernt werden, bei denen es sich um Zusätze zu einem Wort handelt, das vor oder nach dem Stamm angehängt wird. Dadurch wird das Wort zur einfachsten Grundform, indem einfach Buchstaben entfernt werden. Beispielsweise:

Aus „Gehen“ wird „Gehen“
Aus „schneller“ wird „schnell“
„Schwere“ wird zu „schwer“

Wie Sie sehen, kann das Wortstammen den negativen Effekt haben, die Bedeutung eines Wortes vollständig zu ändern. „Severity“ und „Sever“ bedeuten nicht dasselbe, aber das Suffix „ity“ wurde beim Stemming entfernt.

Auf der anderen Seite ist die Lemmatisierung ein komplexerer Prozess, bei dem ein Wort auf seine Basis reduziert wird, das als Lemma bekannt ist. Dies berücksichtigt den Kontext des Wortes und wie es in einem Satz verwendet wird. Es beinhaltet auch das Nachschlagen eines Begriffs in einer Datenbank mit Wörtern und ihrem jeweiligen Lemma. Beispielsweise:

„Sind“ wird zu „Sein“
Aus „Bedienen“ wird „Betreiben“
Aus „Schwere“ wird „schwer“

In diesem Beispiel gelang es der Lemmatisierung, den Begriff „Schwere“ in „schwer“ umzuwandeln, was seine Lemmaform und sein Wurzelwort ist.

NLP-Anwendungsfälle und die Zukunft

Die vorherigen Beispiele kratzen nur an der Oberfläche dessen, was Natural Language Processing ist. Es umfasst eine Vielzahl von Praktiken und Nutzungsszenarien, von denen wir viele in unserem täglichen Leben verwenden. Dies sind einige Beispiele dafür, wo NLP derzeit eingesetzt wird:

Textvorhersage: Wenn Sie eine Nachricht auf Ihrem Smartphone eingeben, schlägt es Ihnen automatisch Wörter vor, die in den Satz passen oder die Sie bereits verwendet haben.
Maschinelle Übersetzung: Weit verbreitete Übersetzungsdienste für Verbraucher wie Google Translate, um eine High-Level-Form von NLP zu integrieren, um Sprache zu verarbeiten und zu übersetzen.
Chatbots: NLP ist die Grundlage für intelligente Chatbots, insbesondere im Kundenservice, wo sie Kunden unterstützen und ihre Anfragen bearbeiten können, bevor sie einer realen Person gegenüberstehen.

Es kommt noch mehr. NLP-Anwendungen werden derzeit in Bereichen wie Nachrichtenmedien, Medizintechnik, Arbeitsplatzmanagement und Finanzen entwickelt und eingesetzt. Es besteht die Möglichkeit, dass wir in Zukunft ein vollwertiges, anspruchsvolles Gespräch mit einem Roboter führen können.

Wenn Sie mehr über NLP erfahren möchten, gibt es viele fantastische Ressourcen auf der Auf dem Weg zum Data Science-Blog oder der Standford Nationale Sprachverarbeitungsgruppe die du auschecken kannst.