Кластеризация в Python (KMeans и иерархическая)

Поділитися
Вставка
  • Опубліковано 26 січ 2025

КОМЕНТАРІ • 30

  • @ТётяСвета-б5х
    @ТётяСвета-б5х Рік тому

    Очень хорошее видео и прекрасный блокнот. Для меня как новичка были очень полезны ваши комментарии про нормировку. Было очень полезно посмотреть на графики падения расстояния и дендрограммы.

  • @greteost4706
    @greteost4706 4 роки тому +5

    Андрей, спасибо вам за ваш труд, вы прекрасны! Мне очень нравятся ваши подача материала и дикция :)

  • @igtijd1039
    @igtijd1039 2 роки тому

    Спасибо вам за такой подробный, качественный, полноценный кластерный анализ. Очень помогли в написании проекта.

  • @Dmitrykholodov
    @Dmitrykholodov 3 роки тому

    Спасибо Вам большое! Материал просто ну очень полезный. Вы нас очень выручаете

  • @Диана-м2ы8и
    @Диана-м2ы8и 2 роки тому

    Вы просто супер, спасибо большое!

  • @romanomacroni4903
    @romanomacroni4903 2 роки тому +1

    А почему сума cluster size больше чем елементов в датафрейме. Заранее спасибо за ответ.

    • @aikula999
      @aikula999  2 роки тому +1

      Посмотрел блокнот. Не нашел такого. Можете более детально описать в какой части кода встретили такое? Естественно, что сумма размеров кластеров не может быть больше количества элементов в выборке.

    • @romanomacroni4903
      @romanomacroni4903 2 роки тому

      @@aikula999 Спасибо уже разобрался

  • @АсельАртыкбаева-и1в
    @АсельАртыкбаева-и1в 6 місяців тому

    Как с вами можно связаться? Не могу найти вас в телеграмме

  • @ДмитрийЖ-п8ж
    @ДмитрийЖ-п8ж 4 роки тому +1

    автор немного оговорился, 50% процентиль (медиана) в описательной статистике которую выдает метод describe() показывает наиболее вероятное количество обзоров лишь в том случает, если это нормальное распределение, ну это так, по сути больше придирка, я сам вчера только узнал, вот и выпендрился для закрепления инфы =) А подача очень доступная, лайк!

    • @aikula999
      @aikula999  4 роки тому +1

      Не оговорился. :-) Медиана в любом распределении - это линия, выше и ниже которой (условно) по 50% значений. А вот среднее значение (mean) действительно не равно медиане в смещенных распределениях. Надо пересмотреть, конечно, возможно, я оговорился имя в виду моду (наиболее часто встречаемое значение) - тогда да, она будет также совпадать с медианной и средний только в нормальном (или треугольном) распределении.
      Спасибо за отзыв! Ценно!

  • @ДмитрийСиренченко
    @ДмитрийСиренченко 4 роки тому +1

    Андрей спасибо за видео! Посоветуйте пожалуйста методы визуализации данных средствами Python в многомерном пространстве.

  • @annchebb
    @annchebb Рік тому

    Добрый день, Андрей! Можно ли к Вам обратиться для выполнения кластеризации? Массив данных предоставлю

    • @aikula999
      @aikula999  Рік тому

      Добрый день, Анна! Да, можно. Напишите в телеграмме. Мой ник @aikula

  • @romanomacroni4903
    @romanomacroni4903 2 роки тому

    Скажите а если в датасэте есть числа с минусом. Их нормализация проходит по том же принципе.

    • @aikula999
      @aikula999  2 роки тому +1

      Да, абсолютно также.

  • @maestrox8
    @maestrox8 3 роки тому

    Здравствуйте, не подскажете как средствами python проверить кластеризацию функционалом качества например через формулу Сумма средних внутрикластерных расстояний стремится к минимуму?

    • @aikula999
      @aikula999  3 роки тому

      Здравствуйте, такой метод оценки называется методом "Силуэта". Например, описание и пример habr.com/ru/company/jetinfosystems/blog/467745/

    • @maestrox8
      @maestrox8 3 роки тому

      @@aikula999 огромное спасибо вам!

  • @kirillbelyi6459
    @kirillbelyi6459 3 роки тому

    Здравствуйте, подскажите пожалуйста как действовать, если необходимо произвести кластерный анализ и разделение на кластеры, при этом необходимо учитывать более 2-3 столбцов в качестве атрибутов объекта(большой размерности). Спасибо

    • @aikula999
      @aikula999  3 роки тому

      Если достаточно памяти и вычислительных ресурсов - то точно так же. Как вариант, можно использовать сжатие признаков методом главных компонент pca или все таки выделить только наиболее значимые признаки.

  • @Poluna510
    @Poluna510 4 роки тому

    Здравствуйте, Андрей! можете подсказать, импортирую csv файл в юпитер, но датафрейм не красивый) получается. Съезжают столбцы, между названиями столбцов появляются ; как это можно исправить. Спасибо

    • @aikula999
      @aikula999  4 роки тому

      Елена, скорее всего, это ошибки самого файла. Не везде, например, стоят разделители. Возможно, есть также пустые строки в заголовке. В этом случае, надо или удалить, или указать на их наличие при импорте.

  • @Анна-д9н2я
    @Анна-д9н2я 4 роки тому

    Добрый вечер. Подскажите пожалуйста, занимаетесь ли вы репетиторством по теме анализа данных. Или может быть есть курсы.

    • @aikula999
      @aikula999  4 роки тому

      Анна, к сожалению, не занимаюсь. Курсов большой выбор. Например, praktikum.yandex.ru или geekbrains.ru

    • @Анна-д9н2я
      @Анна-д9н2я 4 роки тому

      @@aikula999 спасибо