Данила Корнев: Управление стратегией диалога с помощью дискурс-менеджмента

NLP cookbook: анализируем тексты на Python с минимальными знаниями о машинном обучении

SpaCy-RU: быстрые нейросети для анализа текстов - Юрий Бабуров | Data Science

"Якщо ми приймаємо європейські закони, то хай мені дадуть і пенсію європейську" #shortsvideo #пенсія

This referee is too unauthentic, isn't it😂# Dad takes baby# Family has adorable baby# Human cub# H

Seja Gentil com os Pequenos Animais 😿

Антон Кленицкий: Кластеризация коротких текстов

ML Trainings

Переглядів 2 909

Додати в
- Мій плейлист
- Переглянути пізніше
Поділитися

Поділитися

Вставка

Розмір відео:

Показувати елементи керування програвачем

Автоматичне відтворення

Автоповтор

Опубліковано 11 жов 2024
Data Fest Online 2021
NLP in Industry track ods.ai/tracks/...
Как сделать кластеризацию коротких текстов, состоящих из одного или нескольких предложений? Конечно, совсем несложно запустить на данных какой-нибудь стандартный алгоритм кластеризации. Но результат может разочаровать. Чтобы получить однородные и осмысленные в кластера, в которых все фразы действительно похожи, придется немного постараться. Нужно решить, в каком виде лучше подготовить данные на вход и выбрать подходящий алгоритм кластеризации. А затем понять, как проанализировать полученные результаты.
Посмотреть эфир и список треков и организаторов: datafest.ru/2021/
Зарегистрироваться на фест и получить доступ к трекам: ods.ai/events/...
Вступить в сообщество: ods.ai/
Соцсети Data Fest:
t.me/datafest
datafest

КОМЕНТАРІ • 6

@pavelk7078 4 місяці тому
Спасибо вам большое, за видео и поделились ссылками. Прошел по ссылкам, запустил программу, изучил подходы. Это очень помогло сделать дипломную работу. К сожалению в интернете так много мусора, не работающих и уже полностью устаревших подходов. Найти что-то действительно стоящее - очень и очень трудно. Я рад, что почти случайно, нашел это видео. Желаю вам успехов в дальнейшей работе. Надеюсь, это не последний материал от вас
@mustakhimovdair1857 3 роки тому ⁺²
Антон, а подскажите какой инструмент вы использовали для визуализации кластеров? на слайде "Как анализировать получившиеся кластера"
@TheDeatgod 3 роки тому ⁺²
В Алгоритме Birch есть параметер threshold, который определяет радиус. Цитата из sklearn: "The radius of the subcluster obtained by merging a new sample and the closest subcluster should be lesser than the threshold. Otherwise a new subcluster is started". Почему изменение этого гиперпараметра не подходит для задачи?
@antklen1366 3 роки тому ⁺²
В первом приближении можно использовать и Birch с этим параметром. Но почему-то у Birch этот порог работает не строго, какие-то кластера немного вылезают за его пределы и имеют большее расстояние между точками. Кроме того, получаются сильно неоптимальные по размеру кластера, много мелких кластеров. То есть при заданных ограничениях на расстояние между точками можно сделать лучше.
@IlyaBoytsov-dt8lt 3 роки тому
Sentence RuBERT из deeppavlov не пробовали? Интересно его сравнить с LaBSE по качеству.
@antklen1366 3 роки тому ⁺³
Нет, Sentence RuBERT пока не пробовали. Сравнить можно быстро, если есть какие-нибудь размеченные данные. Тогда можно взять эмбеддинги, поверх них сделать простую модель (KNN или логистическую регрессию) и решать задачу классификации, смотреть какие эмбеддинги лучше результат дают.

Наступне

Автоматичне відтворення

Данила Корнев: Управление стратегией диалога с помощью дискурс-менеджмента

Данила Корнев: Управление стратегией диалога с помощью дискурс-менеджмента

NLP cookbook: анализируем тексты на Python с минимальными знаниями о машинном обучении

NLP cookbook: анализируем тексты на Python с минимальными знаниями о машинном обучении

SpaCy-RU: быстрые нейросети для анализа текстов - Юрий Бабуров | Data Science

SpaCy-RU: быстрые нейросети для анализа текстов - Юрий Бабуров | Data Science

"Якщо ми приймаємо європейські закони, то хай мені дадуть і пенсію європейську" #shortsvideo #пенсія

"Якщо ми приймаємо європейські закони, то хай мені дадуть і пенсію європейську" #shortsvideo #пенсія

This referee is too unauthentic, isn't it😂# Dad takes baby# Family has adorable baby# Human cub# H

This referee is too unauthentic, isn't it😂# Dad takes baby# Family has adorable baby# Human cub# H

Seja Gentil com os Pequenos Animais 😿

Seja Gentil com os Pequenos Animais 😿

小蚂蚁会选到什么呢！#火影忍者 #佐助 #家庭

小蚂蚁会选到什么呢！#火影忍者 #佐助 #家庭

Векторизация текстов для практических задач // Курс «Natural Language Processing (NLP)»

Векторизация текстов для практических задач // Курс «Natural Language Processing (NLP)»

Как жить полной жизнью? Лекция Стэнфордского университета. Грэм Уивер 2024 год

Как жить полной жизнью? Лекция Стэнфордского университета. Грэм Уивер 2024 год

Первые 20 часов. Как получить базовые навыки в любой теме. Джош Кауфман. TEDх

Первые 20 часов. Как получить базовые навыки в любой теме. Джош Кауфман. TEDх

Кластеризация в Python (KMeans и иерархическая)

Кластеризация в Python (KMeans и иерархическая)

Классификация текста: быстрые методы решения популярной задачи / Павел Калайдин

Классификация текста: быстрые методы решения популярной задачи / Павел Калайдин

🧪🧪🧪🧪Как увидеть гиперпространство (4-е измерение)

🧪🧪🧪🧪Как увидеть гиперпространство (4-е измерение)

Эдуард Янаков - Кластеризация данных | NLP in practice

Эдуард Янаков - Кластеризация данных | NLP in practice

Эффект наблюдателя - полное объяснение без мистики.

Эффект наблюдателя – полное объяснение без мистики.

NLP обработка текста, решение задачи классификации твитов - «Школа Больших Данных» Москва

NLP обработка текста, решение задачи классификации твитов - «Школа Больших Данных» Москва

Flipping Robot vs Heavier And Heavier Objects

Flipping Robot vs Heavier And Heavier Objects

Угадай Настоящего Экстрасенса! Взрослые Угадывают (Сатир, Хазяева, DK, Sqwoz Bab, Кокошка, Данон)

Угадай Настоящего Экстрасенса! Взрослые Угадывают (Сатир, Хазяева, DK, Sqwoz Bab, Кокошка, Данон)

Cool Parenting Gadget Against Mosquitos! 🦟👶 #parentinghacks #funny #DIY

Cool Parenting Gadget Against Mosquitos! 🦟👶 #parentinghacks #funny #DIY

Помоги Nuggets Gegagedigedagedago удрать от бабульки Granny !

Помоги Nuggets Gegagedigedagedago удрать от бабульки Granny !

🤣 Придумали, как зарабатывать, ничего не делая! И всё получилось! | Новостничок

🤣 Придумали, как зарабатывать, ничего не делая! И всё получилось! | Новостничок

«Був у вкрай важкому стані. Вирішив застрелитись»: розвідник провів 12 діб в окопі з пораненням

«Був у вкрай важкому стані. Вирішив застрелитись»: розвідник провів 12 діб в окопі з пораненням

НАШЛА ДЕНЬГИ🙀@VERONIKAborsch

НАШЛА ДЕНЬГИ🙀@VERONIKAborsch

Подкатила на кофемашине #машмилаш

Подкатила на кофемашине #машмилаш