Антон Кленицкий: Кластеризация коротких текстов
Вставка
- Опубліковано 11 жов 2024
- Data Fest Online 2021
NLP in Industry track ods.ai/tracks/...
Как сделать кластеризацию коротких текстов, состоящих из одного или нескольких предложений? Конечно, совсем несложно запустить на данных какой-нибудь стандартный алгоритм кластеризации. Но результат может разочаровать. Чтобы получить однородные и осмысленные в кластера, в которых все фразы действительно похожи, придется немного постараться. Нужно решить, в каком виде лучше подготовить данные на вход и выбрать подходящий алгоритм кластеризации. А затем понять, как проанализировать полученные результаты.
Посмотреть эфир и список треков и организаторов: datafest.ru/2021/
Зарегистрироваться на фест и получить доступ к трекам: ods.ai/events/...
Вступить в сообщество: ods.ai/
Соцсети Data Fest:
t.me/datafest
datafest
Спасибо вам большое, за видео и поделились ссылками. Прошел по ссылкам, запустил программу, изучил подходы. Это очень помогло сделать дипломную работу. К сожалению в интернете так много мусора, не работающих и уже полностью устаревших подходов. Найти что-то действительно стоящее - очень и очень трудно. Я рад, что почти случайно, нашел это видео. Желаю вам успехов в дальнейшей работе. Надеюсь, это не последний материал от вас
Антон, а подскажите какой инструмент вы использовали для визуализации кластеров? на слайде "Как анализировать получившиеся кластера"
В Алгоритме Birch есть параметер threshold, который определяет радиус. Цитата из sklearn: "The radius of the subcluster obtained by merging a new sample and the closest subcluster should be lesser than the threshold. Otherwise a new subcluster is started". Почему изменение этого гиперпараметра не подходит для задачи?
В первом приближении можно использовать и Birch с этим параметром. Но почему-то у Birch этот порог работает не строго, какие-то кластера немного вылезают за его пределы и имеют большее расстояние между точками. Кроме того, получаются сильно неоптимальные по размеру кластера, много мелких кластеров. То есть при заданных ограничениях на расстояние между точками можно сделать лучше.
Sentence RuBERT из deeppavlov не пробовали? Интересно его сравнить с LaBSE по качеству.
Нет, Sentence RuBERT пока не пробовали. Сравнить можно быстро, если есть какие-нибудь размеченные данные. Тогда можно взять эмбеддинги, поверх них сделать простую модель (KNN или логистическую регрессию) и решать задачу классификации, смотреть какие эмбеддинги лучше результат дают.