РЕГРЕССИОННЫЙ АНАЛИЗ этапы | АНАЛИЗ ДАННЫХ #17

Поділитися
Вставка
  • Опубліковано 26 вер 2024
  • Регрессионный анализ и его этапы. Каковы этапы регрессионного анализа? #регрессионный анализ
    Этап 1. Выбор факторов и отклика регрессионного анализа
    Осуществляется на основании представлений о природе исследуемой проблемы, интуиции специалиста или опыта аналогичных исследований.
    Этап 2. Поиск мультиколлинеарных факторов регрессионного анализа
    Факторы называются мультиколлинеарными, если между ними наблюдается достаточно сильная корреляционная связь. Эта проблема затрудняет ранжирование факторов по степени влияния на отклик.
    Рекомендуется удалить из модели мультиколлинеарные факторы, если это не принципиально для решения поставленной задачи.
    Этап 3. Изучение относительной важности мультиколлинеарных факторов регрессионного анализа
    Относительную силу влияния факторов на отклик показывают стандартизированные коэффициенты регрессии (Beta). Из двух мультиколлинеарных факторов из анализа исключается тот, у которого Beta меньше.
    Этап 4. Анализ остатков регрессионного анализа
    Остатки представляют собой разности фактических значений отклика и значений, предсказанных по уравнению регрессии для одних и тех же факторов.
    Этап 5. Анализ регрессионного уравнения и удаление факторов, не влияющих на отклик регрессионного анализа
    Факторы, у которых p больше 0,05, могут быть исключены из анализа, т.е. они несущественно влияют на отклик. После любого исключения весь предшествующий алгоритм анализа нужно повторить.
    Если факторов с уровнем значимости более 0,05 несколько, сначала удаляется тот, у которого уровень значимости больше других. Анализ повторяется сначала и только после этого рассматривается следующий фактор с p больше 0,05.
    Этап 6. Оценка приемлемости модели в целом регрессионного анализа
    По таблице дисперсионного анализа (ANOVA) p = 0,000…меньше 0,05, значит ошибка прогноза по построенной модели будет меньше, чем при «наивном» прогнозе, т.е. модель можно считать приемлемой.
    Этап 7. Анализ R2 регрессионного анализа
    R2 - коэффициент детерминации, показывает долю изменяемости отклика, происходящую под одновременным воздействием всех включенных в модель факторов. Чем больше R2, тем выше качество модели. Небольшое значение R2 может указывать на неадекватный подбор факторов и говорит о нецелесообразности построения прогнозов по такой модели.
    скорректированный R2.
    Этап 8. Построение прогноза регрессионного анализа
    Для построения прогноза необходимо ввести прогнозные значения факторов, влияние которых на отклик установлено.
    Необходимо помнить, что прогноз тем точнее, чем ближе прогнозные значения факторов будут к их средним.
    Термин регрессия в статистике впервые был использован Френсисом Гальтоном (1886) в связи с исследованием вопросов наследования физических характеристик человека. В качестве одной из характеристик был взят рост человека; при этом было обнаружено, что в целом сыновья высоких отцов, что не удивительно, оказались более высокими, чем сыновья отцов с низким ростом. Более интересным было то, что разброс в росте сыновей был меньшим, чем разброс в росте отцов. Так проявлялась тенденция возвращения роста сыновей к среднему (regression to mediocrity), то есть «регресс». Этот факт был продемонстрирован вычислением среднего роста сыновей отцов, рост которых равен 56 дюймам, вычислением среднего роста сыновей отцов, рост которых равен 58 дюймам, и т. д. После этого результаты были изображены на плоскости, по оси ординат которой откладывались значения среднего роста сыновей, а по оси абсцисс - значения среднего роста отцов. Точки (приближённо) легли на прямую с положительным углом наклона меньше 45°; важно, что регрессия была линейной.
    Цели регрессионного анализа
    Определение степени детерминированности вариации критериальной (зависимой) переменной предикторами (независимыми переменными)
    Предсказание значения зависимой переменной с помощью независимой(-ых)
    Определение вклада отдельных независимых переменных в вариацию зависимой
    Регрессионный анализ нельзя использовать для определения наличия связи между переменными, поскольку наличие такой связи и есть предпосылка для применения анализа.
    Регрессионный анализ - статистический метод, с помощью которого можно построить модель с одной зависимой переменной (откликом) и одной или несколькими независимыми переменными (факторами).
    Регрессионный анализ позволяет:
    1) Выявить, какие из факторов действуют на отклик, а какие - нет.
    2) Ранжировать факторы по степени влияния на отклик.
    3) Спрогнозировать значение отклика при определенных значениях факторов.
    Для обеспечения приемлемой точности модели минимальный объем выборки не должен быть меньше величины «число факторов, умножить на 10».
    Приведем примеры постановок задач для регрессионного анализа.
    Определить, какие факторы влияют на расход электроэнергии на предприятии, и построить прогноз расходов электроэнергии на ближайший квартал.
    Планируется строительство нового торгового центра.

КОМЕНТАРІ • 34

  • @gikis1
    @gikis1 5 років тому +15

    огромное спасибо за такой офигительный труд! Я - гуманитарий, но только благодаря вам осваиваю анализ данных, который мне необходим для работы. Планируете ли вы делать другие выпуски? Например, про корелляции / деревья решений?

    • @statistica8687
      @statistica8687  5 років тому +8

      Рад помочь. Про корреляции уже есть, на весну планируется кластерный анализ, анализ выживаемости, экспоненциальное сглаживание.

  • @СвітланаБордюженко
    @СвітланаБордюженко 7 років тому +1

    Дякую!Доступно і все зрозуміло. Ви найкращий викладач на ютубі по даній темі!

    • @statistica8687
      @statistica8687  7 років тому +1

      Спасибо за ваш отзыв!

  • @crazydoc2799
    @crazydoc2799 7 років тому +5

    Подача материала просто супер! Спасибо)))

  • @АртемВладимирович-у6ф

    Молодец, очень полезная информация

  • @МарианнаСапфир
    @МарианнаСапфир 2 роки тому +1

    Спасибо тебе добрый человек! Крутое видео, все очень понятно и наглядно.

  • @ludmilamoiseeva3598
    @ludmilamoiseeva3598 4 роки тому

    Молодец, простое объяснение совсем не простой темы. Спасибо.

  • @gregorlarikk4806
    @gregorlarikk4806 4 роки тому

    спасибо большое за доступное и практическое объяснение материала

  • @lewild6846
    @lewild6846 4 роки тому

    Спасибо, очень полезный материал!

  • @ЕленаАбдрахманова-ж9ф

    Спасибо за видео! Очень пригодилось! Еще игтересно было бы послушать про оценку критерия Фишера в вашем исполнении)

  • @кириллБ-ж4у
    @кириллБ-ж4у 7 років тому +1

    Все понятно)))

  • @Катеринка-р3п
    @Катеринка-р3п Місяць тому

    Здравствуйте, Вячеслав Николаевич. Огромное спасибо за печатный и видео материал. Только благодаря Вам получилось начать разбираться в статистике.Фантастика, вы делаете доступным понимание того, что раньше никак не укладывалось в голове. Подскажите где лучше посмотреть про кластерный и факторный анализ? Спасибо за ответ.

    • @statistica8687
      @statistica8687  Місяць тому

      Добрый день, рад, что материал полезен. По кластерному и факторному анализам на понятном языке есть пособие Халафяна. Можно брать и старое издание из интернета, например, по Statistica 6.0. Там есть краткие объяснения и примеры.

  • @МаксимСысоев-ф5ч
    @МаксимСысоев-ф5ч 3 роки тому

    Подскажите, пожалуйста, как использовать не линейную, а квадратичную

  • @elmirakabdylkanova6190
    @elmirakabdylkanova6190 Рік тому

    Подскажите пожалуйста, я сделала анализ данных по вашим видео для количественных и номинальных шкал. Теперь у меня остались порядковые шкалы ( пациенты отвечают на состояние здоровья от 1го до 5ти, где 1-нет проблем, 2-умеренно, 3-хорошо, 4-плохо и 5-очень плохо) какие виды анализа для них можно провести?

    • @statistica8687
      @statistica8687  Рік тому +1

      Вы про регрессию? В любом случае, если вашу шкалу перекодировать, чтобы состояние здоровья росло от очень плохого к очень хорошего, то учитывая 5 уровней, можно работать как с количественной.

  • @30MinutesAroundTheBrain
    @30MinutesAroundTheBrain 6 років тому

    (Ранее задал идиотский вопрос в котором разобрался)
    Скажите, если имеется большое количество мультилколлинеарных факторов, удалять все кроме одного? (работаю с биологическими системами, и все влияющие факторы в определенной мере связаны потому как вызваны общим процессом, выявить который пока абсолютно нереально ) или при такой значительной мультиколлинеарности данный метода анализа абсолютно не информативен

    • @statistica8687
      @statistica8687  6 років тому

      Рекомендуется удалять, иначе будет рост нестабильности оценок параметров регрессии.

  • @МаксимСысоев-ф5ч
    @МаксимСысоев-ф5ч 3 роки тому

    Программа statistika использует линейную регрессионную модель?

    • @statistica8687
      @statistica8687  3 роки тому

      Здесь рассматривается линейная

  • @oksanahazha9767
    @oksanahazha9767 3 роки тому

    Подскажите пожалуйста как открыть окно на 18:15 минуте?? Чтобы построить прогноз

    • @statistica8687
      @statistica8687  3 роки тому +1

      Вот здесь ua-cam.com/video/COzEsMocEsI/v-deo.html посмотрите. Примерно 13:50 по таймингу

  • @ОлКап
    @ОлКап Рік тому

    Здравствуйте, что означает "minimum tolerance specified value"

    • @statistica8687
      @statistica8687  Рік тому

      Здравствуйте, какая-то переменная содержит значения в которых данные "слишком одинаковые". Все единицы, например. Или альтернативные значения есть, но их мало.

    • @mr.mifares
      @mr.mifares 4 місяці тому

      Минимальнр толерантная специфичнпя переменная😂😂😂

  • @kuturgan
    @kuturgan 6 років тому

    Странные выводы у вашей модели. Выходит что чем больше площадь тем выше стоимость 1кв метра. Но ведь на практике все наоборот - цена 1 кв метра обратно пропорциональна площади жилья )))

    • @statistica8687
      @statistica8687  6 років тому +2

      Согласен с вами) такая база данных

  • @liliyashevyakova3435
    @liliyashevyakova3435 7 років тому

    а как третий этап в эксель провести?