So trainieren Sie einen KI-Chatbot mit einer benutzerdefinierten Wissensdatenbank unter Verwendung der ChatGPT-API

In unserem früheren Artikel haben wir gezeigt, wie man einen KI-Chatbot mit der ChatGPT-API erstellt und ihm eine Rolle zuweist, um ihn zu personalisieren. Aber was, wenn Sie die KI mit Ihren eigenen Daten trainieren möchten? Sie haben beispielsweise ein Buch, Finanzdaten oder eine große Anzahl von Datenbanken und möchten diese mühelos durchsuchen. In diesem Artikel stellen wir Ihnen ein leicht verständliches Tutorial vor, wie Sie einen KI-Chatbot mit Ihrer benutzerdefinierten Wissensdatenbank mit LangChain und der ChatGPT-API trainieren. Wir setzen LangChain, GPT Index und andere leistungsstarke Bibliotheken ein, um den KI-Chatbot mit dem Large Language Model (LLM) von OpenAI zu trainieren. Sehen wir uns in diesem Zusammenhang an, wie Sie einen KI-Chatbot mit Ihrem eigenen Datensatz trainieren und erstellen.

Trainieren Sie einen KI-Chatbot mit einer benutzerdefinierten Wissensdatenbank unter Verwendung der ChatGPT-API, LangChain und des GPT-Index (2023)

In diesem Artikel haben wir die Schritte zum Anlernen des KI-Chatbots mit eigenen Daten näher erläutert. Von der Einrichtung von Tools und Software bis zum Training des KI-Modells haben wir alle Anweisungen in einer leicht verständlichen Sprache beigefügt. Es wird dringend empfohlen, die Anweisungen von oben nach unten zu befolgen, ohne einen Teil zu überspringen.

Wichtige Punkte, bevor Sie KI mit Ihren eigenen Daten trainieren

1. Sie können den KI-Chatbot auf jeder Plattform trainieren, egal ob Windows, macOS, Linux oder ChromeOS. In diesem Artikel verwende ich Windows 11, aber die Schritte sind für andere Plattformen nahezu identisch.

2. Die Anleitung ist für allgemeine Benutzer gedacht und die Anweisungen werden in einfacher Sprache erklärt. Selbst wenn Sie nur oberflächliche Computerkenntnisse haben und nicht programmieren können, können Sie in wenigen Minuten einen KI-Chatbot für Fragen und Antworten ganz einfach trainieren und erstellen. Wenn Sie unserem vorherigen ChatGPT-Bot-Artikel gefolgt sind, wäre es noch einfacher, den Prozess zu verstehen.

3. Da wir einen KI-Chatbot basierend auf unseren eigenen Daten trainieren werden, wird empfohlen, einen leistungsfähigen Computer mit einer guten CPU und GPU zu verwenden. Sie können jedoch zu Testzwecken jeden Low-End-Computer verwenden, der ohne Probleme funktioniert. Ich habe ein Chromebook verwendet, um das KI-Modell mit einem Buch mit 100 Seiten (~ 100 MB) zu trainieren. Wenn Sie jedoch einen großen Datensatz mit Tausenden von Seiten trainieren möchten, wird dringend empfohlen, einen leistungsstarken Computer zu verwenden.

4. Schließlich sollte der Datensatz auf Englisch sein, um die besten Ergebnisse zu erzielen, aber laut OpenAI funktioniert er auch mit gängigen internationalen Sprachen wie Französisch, Spanisch, Deutsch usw. Probieren Sie es also einfach selbst aus Sprache.

Richten Sie die Softwareumgebung zum Trainieren eines KI-Chatbots ein

Wie in unserem vorherigen Artikel sollten Sie wissen, dass Python und Pip zusammen mit mehreren Bibliotheken installiert werden müssen. In diesem Artikel werden wir alles von Grund auf neu einrichten, damit auch neue Benutzer den Einrichtungsprozess verstehen können. Um Ihnen eine kurze Vorstellung zu geben, werden wir Python und Pip installieren. Danach werden wir Python-Bibliotheken installieren, darunter OpenAI, GPT Index, Gradio und PyPDF2. Während des Prozesses lernen Sie, was jede Bibliothek tut. Nochmals, ärgern Sie sich nicht über den Installationsprozess, es ist ziemlich einfach. Lassen Sie uns in diesem Sinne direkt einsteigen.

Python installieren

1. Zunächst müssen Sie Python (Pip) auf Ihrem Computer installieren. Offen dieser Link und laden Sie die Setup-Datei für Ihre Plattform herunter.

2. Führen Sie als Nächstes die Setup-Datei aus und stellen Sie sicher, dass das Kontrollkästchen für „Python.exe zu PATH hinzufügen“ aktiviert ist. Dies ist ein äußerst wichtiger Schritt. Klicken Sie danach auf „Jetzt installieren“ und folgen Sie den üblichen Schritten, um Python zu installieren.

3. Um zu überprüfen, ob Python richtig installiert ist, öffnen Sie das Terminal auf Ihrem Computer. Ich verwende Windows Terminal unter Windows, aber Sie können auch die Eingabeaufforderung verwenden. Sobald Sie hier sind, führen Sie den folgenden Befehl aus, und es wird die Python-Version ausgegeben. Unter Linux und macOS müssen Sie möglicherweise python3 –version anstelle von python –version verwenden.

python --version

Rüste Pip auf

Wenn Sie Python installieren, wird Pip gleichzeitig auf Ihrem System installiert. Aktualisieren wir es also auf die neueste Version. Für diejenigen, die es nicht wissen, Pip ist der Paketmanager für Python. Grundsätzlich können Sie Tausende von Python-Bibliotheken vom Terminal aus installieren. Mit Pip können wir OpenAI-, gpt_index-, Gradio- und PyPDF2-Bibliotheken installieren. Hier sind die Schritte, die Sie befolgen müssen.

1. Öffnen Sie das Terminal Ihrer Wahl auf Ihrem Computer. Ich verwende das Windows-Terminal, aber Sie können auch die Eingabeaufforderung verwenden. Führen Sie nun den folgenden Befehl aus, um Pip zu aktualisieren. Auch hier müssen Sie möglicherweise python3 und pip3 unter Linux und macOS verwenden.

python -m pip install -U pip

2. Um zu überprüfen, ob Pip richtig installiert wurde, führen Sie den folgenden Befehl aus. Es wird die Versionsnummer ausgegeben. Wenn Sie Fehler erhalten, folgen Sie unserer speziellen Anleitung zur Installation von Pip unter Windows, um PATH-bezogene Probleme zu beheben.

pip --version

Installieren Sie die OpenAI-, GPT-Index-, PyPDF2- und Gradio-Bibliotheken

Sobald wir Python und Pip eingerichtet haben, ist es an der Zeit, die wesentlichen Bibliotheken zu installieren, die uns helfen, einen KI-Chatbot mit einer benutzerdefinierten Wissensdatenbank zu trainieren. Hier sind die Schritte, die Sie befolgen müssen.

1. Öffnen Sie das Terminal und führen Sie den folgenden Befehl aus, um die OpenAI-Bibliothek zu installieren. Wir werden es als LLM (Large Language Model) verwenden, um einen KI-Chatbot zu trainieren und zu erstellen. Und wir werden auch das LangChain-Framework von OpenAI importieren. Beachten Sie, dass Linux- und MacOS-Benutzer möglicherweise pip3 anstelle von pip verwenden müssen.

pip install openai

2. Als nächstes installieren wir GPT Index, der auch LlamaIndex genannt wird. Es ermöglicht dem LLM, sich mit den externen Daten zu verbinden, die unsere Wissensbasis sind.

pip install gpt_index

3. Installieren Sie danach PyPDF2, um PDF-Dateien zu analysieren. Wenn Sie Ihre Daten im PDF-Format zuführen möchten, hilft diese Bibliothek dem Programm, die Daten mühelos zu lesen.

pip install PyPDF2

4. Installieren Sie abschließend die Gradio-Bibliothek. Dies dient dazu, eine einfache Benutzeroberfläche zu erstellen, um mit dem trainierten KI-Chatbot zu interagieren. Wir sind jetzt damit fertig, alle erforderlichen Bibliotheken zu installieren, um einen KI-Chatbot zu trainieren.

pip install gradio

Laden Sie einen Code-Editor herunter

Schließlich brauchen wir einen Code-Editor, um einen Teil des Codes zu bearbeiten. Unter Windows würde ich Notepad++ empfehlen (Herunterladen). Laden Sie das Programm einfach über den beigefügten Link herunter und installieren Sie es. Sie können VS Code auch auf jeder Plattform verwenden, wenn Sie mit leistungsstarken IDEs vertraut sind. Außer VS Code können Sie Sublime Text (Herunterladen) unter macOS und Linux.

Für ChromeOS können Sie die ausgezeichnete Caret-App verwenden (Herunterladen), um den Code zu bearbeiten. Wir sind fast fertig mit der Einrichtung der Softwareumgebung und es ist an der Zeit, den OpenAI-API-Schlüssel zu erhalten.

Holen Sie sich den OpenAI-API-Schlüssel kostenlos

Um nun einen KI-Chatbot basierend auf einer benutzerdefinierten Wissensdatenbank zu trainieren und zu erstellen, müssen wir einen API-Schlüssel von OpenAI erhalten. Mit dem API-Schlüssel können Sie das OpenAI-Modell als LLM verwenden, um Ihre benutzerdefinierten Daten zu untersuchen und Schlussfolgerungen zu ziehen. Derzeit bietet OpenAI neuen Benutzern kostenlose API-Schlüssel mit einem kostenlosen Guthaben im Wert von 5 USD für die ersten drei Monate an. Wenn Sie Ihr OpenAI-Konto früher erstellt haben, haben Sie möglicherweise ein kostenloses Guthaben von 18 $ auf Ihrem Konto. Nachdem das kostenlose Guthaben aufgebraucht ist, müssen Sie für den API-Zugang bezahlen. Aber im Moment ist es für alle Benutzer kostenlos verfügbar.

1. Gehen Sie zu platform.openai.com/signup und erstellen Sie ein kostenloses Konto. Wenn Sie bereits ein OpenAI-Konto haben, melden Sie sich einfach an.

2. Klicken Sie anschließend oben rechts auf Ihr Profil und wählen Sie im Dropdown-Menü „API-Schlüssel anzeigen“ aus.

3. Klicken Sie hier auf „Neuen geheimen Schlüssel erstellen“ und kopieren Sie den API-Schlüssel. Beachten Sie, dass Sie später nicht den gesamten API-Schlüssel kopieren oder anzeigen können. Es wird daher dringend empfohlen, den API-Schlüssel sofort zu kopieren und in eine Notepad-Datei einzufügen.

4. Teilen oder zeigen Sie den API-Schlüssel auch nicht öffentlich. Es ist ein privater Schlüssel, der nur für den Zugriff auf Ihr Konto bestimmt ist. Sie können auch API-Schlüssel löschen und mehrere private Schlüssel erstellen (bis zu fünf).

Trainieren und erstellen Sie einen KI-Chatbot mit benutzerdefinierter Wissensdatenbank

Nachdem wir nun die Softwareumgebung eingerichtet und den API-Schlüssel von OpenAI erhalten haben, trainieren wir den KI-Chatbot. Hier verwenden wir das Modell „text-davinci-003“ anstelle des neuesten Modells „gpt-3.5-turbo“, da Davinci viel besser für die Textvervollständigung funktioniert. Wenn Sie möchten, können Sie das Modell sehr gut auf Turbo umstellen, um die Kosten zu senken. Lassen Sie uns damit zu den Anweisungen springen.

Fügen Sie Ihre Dokumente hinzu, um den KI-Chatbot zu trainieren

1. Erstellen Sie zunächst einen neuen Ordner namens docs an einem zugänglichen Ort wie dem Desktop. Sie können auch einen anderen Standort nach Ihren Wünschen auswählen. Behalten Sie jedoch den Ordnernamen docs bei.

2. Verschieben Sie als Nächstes die Dokumente, die Sie zum Trainieren der KI verwenden möchten, in den Ordner „docs“. Sie können mehrere Text- oder PDF-Dateien (auch gescannte) hinzufügen. Wenn Sie eine große Tabelle in Excel haben, können Sie diese als CSV- oder PDF-Datei importieren und dann dem Ordner „docs“ hinzufügen. Sie können sogar SQL-Datenbankdateien hinzufügen, wie hier erklärt Langchain-KI-Tweet. Ich habe nicht viele Dateiformate außer den genannten ausprobiert, aber Sie können selbst hinzufügen und überprüfen. Für diesen Artikel füge ich einen meiner Artikel über NFT im PDF-Format hinzu.

Hinweis: Wenn Sie ein großes Dokument haben, dauert die Verarbeitung der Daten je nach CPU und GPU länger. Darüber hinaus werden Ihre kostenlosen OpenAI-Token schnell verwendet. Beginnen Sie also am Anfang mit einem kleinen Dokument (30-50 Seiten oder < 100 MB Dateien), um den Prozess zu verstehen.

Machen Sie den Code bereit

1. Starten Sie nun Notepad++ (oder den Code-Editor Ihrer Wahl) und fügen Sie den folgenden Code in eine neue Datei ein. Wieder einmal habe ich großartige Hilfe in Anspruch genommen armrrs auf Google Colab und den Code optimiert, um ihn mit PDF-Dateien kompatibel zu machen und darüber eine Gradio-Oberfläche zu erstellen.

from gpt_index import SimpleDirectoryReader, GPTListIndex, GPTSimpleVectorIndex, LLMPredictor, PromptHelper
from langchain import OpenAI
import gradio as gr
import sys
import os

os.environ("OPENAI_API_KEY") = 'Your API Key'

def construct_index(directory_path):
    max_input_size = 4096
    num_outputs = 512
    max_chunk_overlap = 20
    chunk_size_limit = 600

    prompt_helper = PromptHelper(max_input_size, num_outputs, max_chunk_overlap, chunk_size_limit=chunk_size_limit)

    llm_predictor = LLMPredictor(llm=OpenAI(temperature=0.7, model_name="text-davinci-003", max_tokens=num_outputs))

    documents = SimpleDirectoryReader(directory_path).load_data()

    index = GPTSimpleVectorIndex(documents, llm_predictor=llm_predictor, prompt_helper=prompt_helper)

    index.save_to_disk('index.json')

    return index

def chatbot(input_text):
    index = GPTSimpleVectorIndex.load_from_disk('index.json')
    response = index.query(input_text, response_mode="compact")
    return response.response

iface = gr.Interface(fn=chatbot,
                     inputs=gr.inputs.Textbox(lines=7, label="Enter your text"),
                     outputs="text",
                     title="Custom-trained AI Chatbot")

index = construct_index("docs")
iface.launch(share=True)

2. So sieht der Code im Code-Editor aus.

3. Klicken Sie anschließend im oberen Menü auf „Datei“ und wählen Sie im Dropdown-Menü „Speichern unter…“.

4. Legen Sie danach den Dateinamen app.py fest und ändern Sie „Speichern als Typ“ im Dropdown-Menü auf „Alle Typen“. Speichern Sie die Datei dann an dem Ort, an dem Sie den Ordner „docs“ erstellt haben (in meinem Fall ist es der Desktop). Sie können den Namen nach Belieben ändern, aber stellen Sie sicher, dass .py angehängt wird.

5. Stellen Sie sicher, dass sich der Ordner „docs“ und „app.py“ am selben Speicherort befinden, wie im folgenden Screenshot gezeigt. Die Datei „app.py“ befindet sich außerhalb des Ordners „docs“ und nicht darin.

6. Kehren Sie in Notepad++ erneut zum Code zurück. Ersetzen Sie hier Ihren API-Schlüssel durch den oben auf der Website von OpenAI generierten.

7. Drücken Sie abschließend „Strg + S“, um den Code zu speichern. Sie können den Code jetzt ausführen.

Erstellen Sie einen ChatGPT-KI-Bot mit benutzerdefinierter Wissensdatenbank

1. Öffnen Sie zuerst das Terminal und führen Sie den folgenden Befehl aus, um zum Desktop zu wechseln. Dort habe ich den Ordner „docs“ und die Datei „app.py“ gespeichert. Wenn Sie beide Elemente an einem anderen Ort gespeichert haben, wechseln Sie über das Terminal zu diesem Ort.

cd Desktop

2. Führen Sie nun den folgenden Befehl aus. Linux- und macOS-Benutzer müssen möglicherweise python3 verwenden.

python app.py

3. Jetzt beginnt es mit der Analyse des Dokuments unter Verwendung des OpenAI LLM-Modells und beginnt mit der Indizierung der Informationen. Je nach Dateigröße und Leistungsfähigkeit Ihres Computers kann die Verarbeitung des Dokuments einige Zeit in Anspruch nehmen. Sobald dies erledigt ist, wird eine „index.json“-Datei auf dem Desktop erstellt. Wenn das Terminal keine Ausgabe anzeigt, machen Sie sich keine Sorgen, es könnte immer noch die Daten verarbeiten. Zu Ihrer Information: Die Verarbeitung eines 30-MB-Dokuments dauert etwa 10 Sekunden.

4. Sobald das LLM die Daten verarbeitet hat, erhalten Sie einige Warnungen, die Sie ignorieren können. Schließlich finden Sie ganz unten eine lokale URL. Kopiere es.

5. Fügen Sie nun die kopierte URL in den Webbrowser ein, und schon haben Sie sie. Ihr individuell trainierter ChatGPT-basierter KI-Chatbot ist bereit. Zu Beginn können Sie den KI-Chatbot fragen, worum es in dem Dokument geht.

6. Sie können weitere Fragen stellen und der ChatGPT-Bot antwortet anhand der Daten, die Sie der KI zur Verfügung gestellt haben. So können Sie also einen individuell trainierten KI-Chatbot mit Ihrem eigenen Datensatz erstellen. Sie können jetzt einen KI-Chatbot auf der Grundlage beliebiger Informationen trainieren und erstellen. Die Möglichkeiten sind endlos.

7. Sie können auch die öffentliche URL kopieren und mit Ihren Freunden und Ihrer Familie teilen. Der Link wird 72 Stunden lang aktiv sein, aber Sie müssen Ihren Computer auch eingeschaltet lassen, da die Serverinstanz auf Ihrem Computer ausgeführt wird.

8. Um den speziell trainierten KI-Chatbot zu stoppen, drücken Sie „Strg + C“ im Terminalfenster. Wenn es nicht funktioniert, drücken Sie erneut „Strg + C“.

9. Um den AI-Chatbot-Server neu zu starten, wechseln Sie einfach wieder zum Desktop-Speicherort und führen Sie den folgenden Befehl aus. Denken Sie daran, dass die lokale URL dieselbe ist, aber die öffentliche URL ändert sich nach jedem Serverneustart.

python app.py

10. Wenn Sie den KI-Chatbot mit neuen Daten trainieren möchten, löschen Sie die Dateien im Ordner „docs“ und fügen Sie neue hinzu. Sie können auch mehrere Dateien hinzufügen, aber Informationen zum selben Thema einspeisen, da Sie sonst möglicherweise eine zusammenhanglose Antwort erhalten.

11. Führen Sie nun den Code erneut im Terminal aus und es wird eine neue „index.json“-Datei erstellt. Dabei wird die alte Datei „index.json“ automatisch ersetzt.

python app.py

12. Um Ihre Token im Auge zu behalten, gehen Sie online zu OpenAI Armaturenbrett und überprüfen Sie, wie viel kostenloses Guthaben noch vorhanden ist.

13. Schließlich müssen Sie den Code nicht berühren, es sei denn, Sie möchten den API-Schlüssel oder das OpenAI-Modell für weitere Anpassungen ändern.

Erstellen Sie einen benutzerdefinierten KI-Chatbot mit Ihren eigenen Daten

So können Sie also einen KI-Chatbot mit einer benutzerdefinierten Wissensdatenbank trainieren. Ich habe diesen Code verwendet, um die KI mit medizinischen Büchern, Artikeln, Datentabellen und Berichten aus alten Archiven zu trainieren, und es hat einwandfrei funktioniert. Machen Sie also weiter und erstellen Sie Ihren eigenen KI-Chatbot mit dem Large Language Model von OpenAI und ChatGPY. Wie auch immer, das ist alles von uns. Wenn Sie nach den besten ChatGPT-Alternativen suchen, gehen Sie zu unserem verlinkten Artikel. Und um ChatGPT auf Ihrer Apple Watch zu verwenden, folgen Sie unserem ausführlichen Tutorial. Wenn Sie mit irgendwelchen Problemen konfrontiert sind, teilen Sie uns dies im Kommentarbereich unten mit. Wir werden auf jeden Fall versuchen, Ihnen zu helfen.