To zależy oczywiście od zastosowanych modeli. Do embeddingów (czyli dla cześci retrieval) jest kilka modeli dla języka Polskiego, m. in Silver Retriever ( huggingface.co/ipipan/silver-retriever-base-v1.1 ). Zawsze warto zerknąć na MTEB Leaderboard na Huggingface - jest tam zakładka dedykowana dla języka Polskiego. W kontekście generowania odpowiedzi, modele od Open AI potrafią generować odpowiedzi po Polsku z odpowiednim promptem, ostatnio pojawił się również model "Bielik" od Speakleash ( huggingface.co/speakleash/Bielik-7B-Instruct-v0.1 ). W skrócie - trzeba przetestować samemu, bo wszystko zależy od use-case'u 🙂
Dzięki za komentarz, miło nam ☺ Odpowiadając na Twoje pytanie - oczywiście że tak! Można taki scenariusz zrealizować również z LangChainem (zerknij na document_loaders/pdf w ich dokumentacji).
Fajnie wyjaśnione. Zadziała to dla dokumentów w języku polski? Będzie duży spadek jakości?
To zależy oczywiście od zastosowanych modeli. Do embeddingów (czyli dla cześci retrieval) jest kilka modeli dla języka Polskiego, m. in Silver Retriever ( huggingface.co/ipipan/silver-retriever-base-v1.1 ). Zawsze warto zerknąć na MTEB Leaderboard na Huggingface - jest tam zakładka dedykowana dla języka Polskiego. W kontekście generowania odpowiedzi, modele od Open AI potrafią generować odpowiedzi po Polsku z odpowiednim promptem, ostatnio pojawił się również model "Bielik" od Speakleash ( huggingface.co/speakleash/Bielik-7B-Instruct-v0.1 ). W skrócie - trzeba przetestować samemu, bo wszystko zależy od use-case'u 🙂
Komentarz taktyczny 😀
Super tutorial! Mam w pracy manuale do projektów zapisane w PDF-ach. Czy można przetworzyć informacje z takiego źródła i wczytać je do bazy wiedzy?
Dzięki za komentarz, miło nam ☺
Odpowiadając na Twoje pytanie - oczywiście że tak! Można taki scenariusz zrealizować również z LangChainem (zerknij na document_loaders/pdf w ich dokumentacji).
'Promo sm' 🎉