GPT4all mit lokalen Dokumenten füttern

Steinzone

Додати в
- Мій плейлист
- Переглянути пізніше
Поділитися

Поділитися

Вставка

Розмір відео:

Показувати елементи керування програвачем

Автоматичне відтворення

Автоповтор

Опубліковано 27 жов 2023
In diesem Video zeige ich Euch, wie man GPT4all nutzen kann um Fragen zu Dokumenten zu stellen, die Ihr diesem vorher gegeben hattet.
Wie man GPT4all auf dem Computer installiert, findet ihr hier: • GPT4All ausprobiert (w...

КОМЕНТАРІ • 17

@Harre223 7 місяців тому
Gutes Video, danke :)
@steinzone 7 місяців тому
Immer gerne
@23d23d 6 місяців тому ⁺²
Wir wollen wissen, was die Parameter bedeuten / Wozu man welche Parameter braucht!
@NameWurdeVon_ChatGPT_generiert Місяць тому ⁺¹
Hey, danke für diese Einführung. Hab ein bisschen damir rumgespielt und es bleiben ein paar Fragen. Das Indizieren dauert auf meinem Rechner vergleichsweise lange.
1. Kann man auch Ordner einzeln indizieren (local collection) und diese dann mehrere local collections mergen?
2. Was ist wenn ich einem Ordner ein neues PDF File hinzufüge? Wie kann ich dann nur das neue dokument indizieren? Bei mir scannt er immer den gesamten Ordner neu in eine collection.
@steinzone Місяць тому
1. Es gibt die Option mehrere Collections hinzuzufügen. Wenn man im Hauptfenster dann die Collections wählt, hat man Kontrolle darüber, was das Modell letztlich berücksichtigt. Ich denke Merge ist damit indirekt abgebildet. Aufgrund der erforderlichen Ressourcen, ist es wahrscheinlich sogar besser genau zu überlegen, was es Wert ist zu indizieren. Btw. Hattest Du eine GPU mit genutzt?
2. Gute Frage, das müsste man sich näher ansehen. Das Video ist jetzt auch ein paar Monate alt und GPT4All hat sich weiterentwickelt. Vielleicht ist es inzwischen etwas cleverer geworden und merkt, wenn einzelne Dokumente neu dazukommen.
Danke für die Hinweise. Ich finde es super, dass man lokal indizieren und dem System Fragen stellen kann. Allerdings sieht mir das Ganze noch danach aus, dass die Entwicklung am Anfang ist. Ich denke auch dieses Feature wird zukünftig noch verbessert. Ich werde mir dieses Feature nochmal näher ansehen. Viele Grüße
@NameWurdeVon_ChatGPT_generiert Місяць тому ⁺¹
@@steinzoneIch habe auf meinem Notebook indiziert. Also ohne GPU. Erstaunlicherweise ist bei mir ein wesentlicher Faktor für die Langsamkeit, wenn ich die Dateien, die ich indiziere auf dem NAS liegen habe. Keine Ahnung warum. Ich habe ein Gigabit Netz. Aber es ist locker Faktor 3 langsamer über das Netz.
Insgesamt finde ich das Konzept großartig. Ich habe so viele Anwendungsfälle dafür. Allerdings ist die usability derzeit noch recht "bescheiden". Na mal sehen, wie sich das noch entwickelt.
@michaelbethke3228 3 місяці тому ⁺²
Hallo. Kann man zwei PDF Dokumente einlesen lassen und miteinander vergleichen lassen. Um bei dem Beispiel mit dem Koalitionsvertrag zu bleiben, also den Koalitionsvertrag "Merkel" mit dem der "Ampel" zu vergleichen?
@w8llyt890 2 місяці тому ⁺¹
Eine sehr spezifische frage😂
@steinzone 2 місяці тому ⁺¹
Das müsste ich mir näher ansehen. Ich könnte mir aber vorstellen, dass es stark darauf ankommt, wie Du die Frage dem System stellt (Prompting) und mit welchem Modell.
@aketo8082 4 місяці тому ⁺²
Vielen Dank. Sehr spannend. Mich würde interessieren, ob es mit GPT4All (mag die Offline-Option) möglich ist, sich eine Art Lern-Assistent zu bauen. Über diese Dokument-Funktion könnte der gesamte Lernstoff "gefüttert" werden, und dann mittels Chat abgefragt werden? Wäre sowas möglich? Könnte man sich dafür eine eigene LLM erstellen? Wenn ja, wie würde sowas aufgebaut werden? Habe leider nichts dazu gefunden. Danke für Infos und Tipps.
@steinzone 4 місяці тому ⁺²
Hallo @aketo8082,
vielen Dank für Deine Fragen. Ich denke zwar, dass man das System mit einem ganzen Lernstoff füttern kann, doch sollte man dafür sorgen, dass man ein performantes System hat. Mit den paar Dokumenten ist schon aufgefallen, dass es länger dauert eine Antwort zu erhalten, als wenn man einfach das eingestellte LLM verwendet. Inwiefern das mit der Anzahl der Seiten eines Dokuments skaliert, kann ich leider nicht sagen. Ich könnte sowas aber in einem anderen zukünftigen Video mal analysieren. Ich denke schon, dass man sich eine eigene LLM erstellen kann, aber ich würde etwas nehmen, was existiert und darauf basieren:
github.com/nomic-ai/gpt4all/tree/main/gpt4all-training
Am Ende läuft es auf trainieren heraus, was deutlich CPU/GPU-Intensiver ist als die Beantwortung einer Frage mit dem bereits gewählten Modell.
@aketo8082 4 місяці тому
@@steinzone Danke. Ja, ich hatte gehofft, es gibt so eine Art Grundgerüst, z.B. für deutsche Sprache als Basis. Ergänze dann durch eigene Dokumente. Es gibt auch zu verschiedenen Lernthemen auch schon Fragen und Antworten, die mit integriert werden könnten. Dann hintennach per Chat wird dann "gelernt". Über einen Dialog.
Ein halbwegs brauchbarer Rechner steht zur Verfügung. Klar, das das nie mit den anderen System konkurieren kann. Aber dafür habe ich eine spezialisierte Einheit.
Danke für den Link. Bin gespannt, ob dann alles aus den Dokumenten, ca. 1GB, dann auch in der LLM-Datei enthalten ist, oder wird das dann jedesmal neu eingelesen?
@dreilandhochrhein9620 15 днів тому ⁺¹
« Lernt » das System von den zwei hochgeladenen docs? Kann ich diese löschen und gpt gibt später die gleichen antworten?
@steinzone 15 днів тому
Ich würde es eher als "indizieren" bezeichnen. Der Ansatz von diesen Verfahren (RAG) ist, dass der generierte Index Deiner Dokumente einem Modell weitergegeben wird und Du am Ende eine Antwort erhältst. Das Modell hingeben bleibt unverändert. Das ist auch der Grund, weswegen bestimmte Modelle dafür besser funktionieren. Hier findest ein Beispiel, wo es mit Llama3:8B gescheitert ist aber OpenHermes wunderbar damit klar kommt:
ua-cam.com/video/1aN96dVutxo/v-deo.html
Zu dem RAG und wie es funktioniert kann ich Dir noch dieses Paper empfehlen:
arxiv.org/pdf/2005.11401
@ternocimadh5863 5 місяців тому ⁺¹
Gibts ne einfache Möglichkeit die GUI auf Deutsch zu stellen oder ist lediglich englisch verfügbar?
@steinzone 5 місяців тому
Hi, ich fürchte, dafür müsste man in a) Multisprach-Anwendung umcoden und b) Deutsche Übersetzugsdateien nachliefern, sorry.
@Gabuhmi 5 місяців тому ⁺²
Kannst dem doch auch in deutsch schreiben 😂

Наступне

Автоматичне відтворення