РЕГРЕССИОННЫЙ АНАЛИЗ STATISTICA #12

Поділитися
Вставка
  • Опубліковано 12 вер 2024
  • РЕГРЕССИОННЫЙ АНАЛИЗ в STATISTICA. Как провести регрессионный анализе в программе STATISTICA.
    Регрессионный анализ - статистический метод, с помощью которого можно построить модель с одной зависимой переменной (откликом) и одной или несколькими независимыми переменными (факторами).
    Регрессионный анализ позволяет:
    1) Выявить, какие из факторов действуют на отклик, а какие - нет.
    2) Ранжировать факторы по степени влияния на отклик.
    3) Спрогнозировать значение отклика при определенных значениях факторов.
    Построенная с помощью регрессионного анализа модель представляет собой уравнение вида:
    Y=b_0+b_1 X_1+b_2 X_2+⋯+b_k X_k
    где X_1,X_2,…,X_k - факторы, Y - отклик, b_0,b_1,…,b_k - параметры (коэффициенты) регрессии.
    Математически, суть регрессионного анализа сводится к нахождению параметров регрессии, проверке их значимости и оценке приемлемости всей построенной линейной модели в целом.
    Начинаем построение регрессионной модели: Statistics - Multiple Regression.
    Ищем и устраняем мультиколлинеарность факторов
    Анализируем корреляционную таблицу, находим мультиколлинеарные факторы
    Интерпретируем коэффициенты Beta, выбираем менее значимый фактор
    Удаляем из модели менее значимый фактор и повторяем анализ сначала
    Анализируем остатки
    Оцениваем нормальность распределения остатков по частотной гистограмме
    Оцениваем нормальность распределения остатков по нормально-вероятностному графику
    Оцениваем зависимость остатков от предсказанных по уравнению регрессии значений отклика
    Делаем вывод о нормальности распределения остатков
    Оцениваем приемлемость модели в целом
    Находим факторы, не влияющие на отклик
    Удаляем их из модели и повторяем анализ сначала
    Записываем и интерпретируем регрессионное уравнение.
    Анализируем коэффициент детерминации.
    Проверяем модель. На известных данных.
    Сравниваем прогноз с фактическим результатом.
    Регрессионный анализ общая идея. Как проводить множественный регрессионный анализ? Цель - построение регрессионной модели. Общее назначение множественной регрессии (этот термин был впервые использован в работе Пирсона - Pearson, 1908) состоит в анализе связи между несколькими независимыми переменными (называемыми также регрессорами или предикторами) и зависимой переменной.
    Термин регрессия в статистике впервые был использован Френсисом Гальтоном (1886) в связи с исследованием вопросов наследования физических характеристик человека. В качестве одной из характеристик был взят рост человека; при этом было обнаружено, что в целом сыновья высоких отцов, что не удивительно, оказались более высокими, чем сыновья отцов с низким ростом. Более интересным было то, что разброс в росте сыновей был меньшим, чем разброс в росте отцов. Так проявлялась тенденция возвращения роста сыновей к среднему (regression to mediocrity), то есть «регресс». Этот факт был продемонстрирован вычислением среднего роста сыновей отцов, рост которых равен 56 дюймам, вычислением среднего роста сыновей отцов, рост которых равен 58 дюймам, и т. д. После этого результаты были изображены на плоскости, по оси ординат которой откладывались значения среднего роста сыновей, а по оси абсцисс - значения среднего роста отцов. Точки (приближённо) легли на прямую с положительным углом наклона меньше 45°; важно, что регрессия была линейной.
    Цели регрессионного анализа
    Определение степени детерминированности вариации критериальной (зависимой) переменной предикторами (независимыми переменными)
    Предсказание значения зависимой переменной с помощью независимой(-ых)
    Определение вклада отдельных независимых переменных в вариацию зависимой
    Регрессионный анализ нельзя использовать для определения наличия связи между переменными, поскольку наличие такой связи и есть предпосылка для применения анализа.
    Регрессионный анализ - статистический метод, с помощью которого можно построить модель с одной зависимой переменной (откликом) и одной или несколькими независимыми переменными (факторами).
    Регрессионный анализ позволяет:
    1) Выявить, какие из факторов действуют на отклик, а какие - нет.
    2) Ранжировать факторы по степени влияния на отклик.
    3) Спрогнозировать значение отклика при определенных значениях факторов.
    Для обеспечения приемлемой точности модели минимальный объем выборки не должен быть меньше величины «число факторов, умножить на 10».
    Приведем примеры постановок задач для регрессионного анализа.
    Определить, какие факторы влияют на расход электроэнергии на предприятии, и построить прогноз расходов электроэнергии на ближайший квартал.
    Планируется строительство нового торгового центра. Требуется спрогнозировать «проходимость» секций будущего торгового центра с целью обоснования ставки арендной платы и оптимальной площади помещений.

КОМЕНТАРІ • 50

  • @ЕлизаветаРубайло-ы1ш

    Спасибо огромное! Самое понятное видео про множественную регрессию из все, которые я смотрела!

  • @rodinaoutcast
    @rodinaoutcast 3 роки тому +3

    СПАСИБО ВАМ ОГРОМНОЕ за уроки по программе статистика, все понятно и доступно

  • @elena_min
    @elena_min 2 роки тому +1

    Спасибо огромное! Очень помогли разобраться с моделью множественной регрессии в статистике с нуля. Все пошагово и понятно

  • @Dziuginta4
    @Dziuginta4 3 роки тому

    Важно то, что все видно!

  • @user-om4yd5br8b
    @user-om4yd5br8b 2 роки тому

    Сколько факторов допустимо в линейной регрессии?
    При анализе 17 факторов появляется надпись minimum tolerance < specified value, matrix ill conditioned.

  • @JuliaLondonChannel
    @JuliaLondonChannel 5 років тому

    Как расчитываются коэффициенты бэта? Интересуют формулы, спасибо.

  • @Violetta124246
    @Violetta124246 5 років тому

    Здравствуйте! Как в пакете построить степенную регрессию? (нелинейную)

  • @user-dn3it3ts6x
    @user-dn3it3ts6x 7 років тому +1

    а как сделать так, чтобы сделать проноз отклика по зависимым факторам на несколько лет вперед?

    • @statistica8687
      @statistica8687  7 років тому

      Отклик - это и есть зависимый фактор. Если один из влияющих факторов временной, то модель будет прогнозировать будущее. Например, при увеличении фактора Время на 1 единицу, отклик увеличивается на 0,8.

  • @FilaNSK
    @FilaNSK 6 років тому

    это множественная регрессия? а просто модель регрессии как сделать?

  • @tovwolk
    @tovwolk Рік тому

    спасибо

  • @TheSkilletSkillet
    @TheSkilletSkillet 6 років тому

    Доброго времени суток. Интересно следующее: как определить оптимальные параметры конструкции изделия для того, чтобы при его помощи получался материал с наилучшими эксплуатационными характеристиками. Есть 3 фактора, для которых был составлен план факторного эксперимента 3^3. Произведены измерения эксплуатационных характеристик материала для комбинаций факторов по этому плану. Какое средство в ПО Statistica поможет мне определить оптимальные параметры?

    • @statistica8687
      @statistica8687  6 років тому +1

      Думаю, вам нужен модуль Experimental Design (Industrial DOE)

    • @TheSkilletSkillet
      @TheSkilletSkillet 6 років тому

      Не могли бы вы записать ролик и на эту тему (Industrial DOE)? Нравится ваш способ подачи и объяснения материала, поэтому был бы очень благодарен!

  • @user-ch8km7vd9p
    @user-ch8km7vd9p 4 роки тому

    Здравствуйте, подскажите пожалуйста из-за чего получается такой результат R = 1,00000000 F = --
    R квадрат= 1,00000000 df = 10,0 p = --

    • @statistica8687
      @statistica8687  4 роки тому +1

      Здравствуйте, возможно, что-то не так с исходными данными (типом, числом переменных и т.д).

  • @yanazorkina3203
    @yanazorkina3203 6 років тому

    Здравствуйте! Спасибо большое. Я занимаюсь биологическими исследованиями. Скажите, правильно ли я поняла. Например, у нас есть показания содержания веществ а,в,с в крови и мозге и какой-либо отклик - показания в тесте. При помощи приведенной Вами последовательности действий я могу понять, что на показания в тесте, влияет, допустим, содержание в мозге вещества а и в, а все остальное нет? Раньше мы все это объясняли биологическими механизмами, но подтверждение таких гипотез при помощи математического аппарата существенно усилило бы ценность таких исследований. Поэтому пытаюсь сейчас разобраться в этой теме. При описании данных результатов мне нужно будет привести значения р, как на видео на 6-55, и чем оно меньше, чем больше влияние фактора на отклик? (понятно, что при значении больше 0,05 влияния нет)

    • @statistica8687
      @statistica8687  6 років тому

      Здравствуйте, регрессионную модель не используют для нахождения связи. Если включаем факторы в модель, то связь подразумевается. Для проверки наличия связи используют методы анализа влияния факторов.

    • @yanazorkina3203
      @yanazorkina3203 6 років тому

      Большое спасибо за ответ. Наличие связи между фактором и откликом мы определяем при помощи коэффициентов корреляции, но иногда, на признак х действует только комбинация нескольких факторов, и определить это при помощи коэффициентов корреляции невозможно, как и невозможно определить вклад каждого из этих факторов. Не знаю понятно ли я пишу. Те регрессионный анализ применяют толтько после корреляционного для определения вклада каждого фактора и предсказания значений отклика.

    • @yanazorkina3203
      @yanazorkina3203 6 років тому

      На самом деле у меня задача такая: есть много измерений различных веществ в ткани мозга и крови и показатель в тесте. Допустим, с помощью корреляционного анализа мы определили, что есть взаимосвязь между изменением некоторых из этих факторов и показателем в тесте. Далее с помощью регрессионного анализа определили вклад каждого из этих признаков. НО, может быть, показатель в тесте меняется только при одновременном уменьшении вещества а в мозге и крови, а по отдельности, те только снижение вещества а в мозге или только в крови показатели в тесте не меняет. Как найти именно такую связь? Все шкалы количественные, распределение не нормальное. Из статистики для обработки данных я умею пользоваться корреляционным анализом, дисперсионным анализом или непараметрическими методами. Но ничего из этого не решит задачи поставленной выше, про одновременное влияние факторов при отсутствии их влияния по отдельности. Хотелось бы это подтвердить математическими методами анализа, помимо биологического объяснения.

    • @statistica8687
      @statistica8687  6 років тому +1

      Думаю, можно использовать множественную регрессию. Нужно будет больше деталей, чем в моём примере. Обратите внимание на коэф. Beta, частные коэффициенты корреляции, получастные коэффициенты корреляции. Могу рекомендовать простой и понятный источник: Халафян А. А. - Учебник STATISTICA 6 Статистический анализ данных. М. Бином. 2007. В интернете есть.

    • @yanazorkina3203
      @yanazorkina3203 6 років тому

      Спасибо за Ваш труд и рекомендацию книги, обязательно буду изучать.

  • @dangodango5749
    @dangodango5749 3 роки тому

    А где взять эти данные для таблицы? Цены, возраст и т.д.

    • @statistica8687
      @statistica8687  3 роки тому

      Собрать данные из открытых (или закрытых, если есть доступ) источников. Например, сайт крупной риелторской компании.

  • @user-hx8dm8ki6r
    @user-hx8dm8ki6r 7 років тому

    подскажите, насколько правильно не принимать во внимание, что у интерсепта p-level превышает 0,05 и оставлять такую модель для работы

    • @statistica8687
      @statistica8687  7 років тому

      Насколько? Чем больше превышает, тем выше вероятность ошибиться, утверждая, что влияние есть. Качество модели пойдет вниз.

  • @ex9377
    @ex9377 5 років тому

    Здравствуйте, огромное спасибо за видео! Делал вместе с вами, только использовал около 50 параметров. В итоге получилась модель из 8 факторов с p

    • @statistica8687
      @statistica8687  5 років тому

      Здравствуйте, уточните вот эту часть "Ведь я сравнивал с качественным параметром ( группы со значениями 1, 2 ,3 ), а получил 4,3". У вас качественный отклик?

    • @ex9377
      @ex9377 5 років тому

      Здравствуйте, я снимаю прошлый вопрос, пересмотрел еще 15 раз, разобрался в деталях, кое что почитал. Вопрос немного изменился) я имею право использовать такую регрессию если отклик качественный и принимает значения ( 0; 1)

    • @statistica8687
      @statistica8687  5 років тому

      Здравствуйте, в регрессии должен быть количественный отклик, поэтому ответ: нет

  • @One_files1
    @One_files1 Рік тому

    Добрый день! Можно вам написать на почту?

  • @user-oq8le1ub6v
    @user-oq8le1ub6v 3 роки тому

    Как получить уравнение регрессионной модели?

    • @statistica8687
      @statistica8687  3 роки тому

      Выписать из столбца 'b'

    • @НикитаКадыков-у7и
      @НикитаКадыков-у7и 3 роки тому

      @@statistica8687 Здравствуйте, а возможно в программе определить доверительные интервалы для этих параметров ?Если да, то как?

  • @user-kg8gt1ud4r
    @user-kg8gt1ud4r 5 років тому

    Здравстуйте! а график как нарисовать , я не могу найти или как называется. подскажите пожалуйста

  • @user-gs9xh4wd8d
    @user-gs9xh4wd8d 4 роки тому

    no of indep vars >=(n-1) cannot invert corr matrix подскажите пожалуйста как исправить эту ошибку

    • @statistica8687
      @statistica8687  4 роки тому +1

      Слишком много независимых переменных. Можно их сократить, либо использовать в настройках метод Forward stepwise. Метод пошаговой регрессии, на каждом шаге в модель включается, либо исключается какая-то независимая переменная. Выделяется множество наиболее "значимых" переменных. Это позволяет сократить число переменных, которые описывают зависимость.

    • @user-gs9xh4wd8d
      @user-gs9xh4wd8d 4 роки тому

      @@statistica8687 Здравствуйте, делаю всё по вашему примеру и методом Forward stepwise, удаляю фактор где значение бета меньше, и далее пропадает значения п-левела, и гистограмма остатков не строится, подскажите пожалуйста в чем может быть проблема.

    • @user-gs9xh4wd8d
      @user-gs9xh4wd8d 4 роки тому

      точнее строится гистограмма, но просто один большой квадрат)

    • @user-gs9xh4wd8d
      @user-gs9xh4wd8d 4 роки тому

      Подскажите пожалуйста как пользоваться этим методом , какие факторы удалять?

    • @statistica8687
      @statistica8687  4 роки тому +1

      К сожалению, возможных причин может быть слишком много, чтобы угадать

  • @unheardof74
    @unheardof74 5 років тому

    бета у "налог" больше, а не меньше где логика?

    • @statistica8687
      @statistica8687  5 років тому

      У налог 0,43, а у площадь 0,48. 0,48>0,43

  • @ActMedInfo
    @ActMedInfo 2 роки тому

    на скорости x1.5 можно слушать))

    • @statistica8687
      @statistica8687  2 роки тому +1

      Можно и х2

    • @ActMedInfo
      @ActMedInfo 2 роки тому

      @@statistica8687 не очень приятный голос тогда, а голос диктора немаловажен) пользуясь случаем, спрошу, какой критерий можно/оправдано использовать при сравнении двух сверхмалых выборок (n=3). Если речь идёт об очень сложнополучаемых данных (скажем, в моём случае это трансгенные животные, которые очень плохо размножаются) использование таких выборок допускается. Но вот с помощью какого критерия показать, что мой (исследуемый) фактор повлиял стат. значимо... Затрудняюсь сказать. Есть статьи, где авторы используют t-критерий стьюдента... Но эт явно некорректно

    • @statistica8687
      @statistica8687  2 роки тому

      @@ActMedInfo смотря какие шкалы данных, а также зависимые они или нет