Антон Кленицкий: Кластеризация коротких текстов

Поділитися
Вставка
  • Опубліковано 11 жов 2024
  • Data Fest Online 2021
    NLP in Industry track ods.ai/tracks/...
    Как сделать кластеризацию коротких текстов, состоящих из одного или нескольких предложений? Конечно, совсем несложно запустить на данных какой-нибудь стандартный алгоритм кластеризации. Но результат может разочаровать. Чтобы получить однородные и осмысленные в кластера, в которых все фразы действительно похожи, придется немного постараться. Нужно решить, в каком виде лучше подготовить данные на вход и выбрать подходящий алгоритм кластеризации. А затем понять, как проанализировать полученные результаты.
    Посмотреть эфир и список треков и организаторов: datafest.ru/2021/
    Зарегистрироваться на фест и получить доступ к трекам: ods.ai/events/...
    Вступить в сообщество: ods.ai/
    Соцсети Data Fest:
    t.me/datafest
    datafest

КОМЕНТАРІ • 6

  • @pavelk7078
    @pavelk7078 4 місяці тому

    Спасибо вам большое, за видео и поделились ссылками. Прошел по ссылкам, запустил программу, изучил подходы. Это очень помогло сделать дипломную работу. К сожалению в интернете так много мусора, не работающих и уже полностью устаревших подходов. Найти что-то действительно стоящее - очень и очень трудно. Я рад, что почти случайно, нашел это видео. Желаю вам успехов в дальнейшей работе. Надеюсь, это не последний материал от вас

  • @mustakhimovdair1857
    @mustakhimovdair1857 3 роки тому +2

    Антон, а подскажите какой инструмент вы использовали для визуализации кластеров? на слайде "Как анализировать получившиеся кластера"

  • @TheDeatgod
    @TheDeatgod 3 роки тому +2

    В Алгоритме Birch есть параметер threshold, который определяет радиус. Цитата из sklearn: "The radius of the subcluster obtained by merging a new sample and the closest subcluster should be lesser than the threshold. Otherwise a new subcluster is started". Почему изменение этого гиперпараметра не подходит для задачи?

    • @antklen1366
      @antklen1366 3 роки тому +2

      В первом приближении можно использовать и Birch с этим параметром. Но почему-то у Birch этот порог работает не строго, какие-то кластера немного вылезают за его пределы и имеют большее расстояние между точками. Кроме того, получаются сильно неоптимальные по размеру кластера, много мелких кластеров. То есть при заданных ограничениях на расстояние между точками можно сделать лучше.

  • @IlyaBoytsov-dt8lt
    @IlyaBoytsov-dt8lt 3 роки тому

    Sentence RuBERT из deeppavlov не пробовали? Интересно его сравнить с LaBSE по качеству.

    • @antklen1366
      @antklen1366 3 роки тому +3

      Нет, Sentence RuBERT пока не пробовали. Сравнить можно быстро, если есть какие-нибудь размеченные данные. Тогда можно взять эмбеддинги, поверх них сделать простую модель (KNN или логистическую регрессию) и решать задачу классификации, смотреть какие эмбеддинги лучше результат дают.