РЕГРЕССИОННЫЙ АНАЛИЗ STATISTICA #12
Вставка
- Опубліковано 12 вер 2024
- РЕГРЕССИОННЫЙ АНАЛИЗ в STATISTICA. Как провести регрессионный анализе в программе STATISTICA.
Регрессионный анализ - статистический метод, с помощью которого можно построить модель с одной зависимой переменной (откликом) и одной или несколькими независимыми переменными (факторами).
Регрессионный анализ позволяет:
1) Выявить, какие из факторов действуют на отклик, а какие - нет.
2) Ранжировать факторы по степени влияния на отклик.
3) Спрогнозировать значение отклика при определенных значениях факторов.
Построенная с помощью регрессионного анализа модель представляет собой уравнение вида:
Y=b_0+b_1 X_1+b_2 X_2+⋯+b_k X_k
где X_1,X_2,…,X_k - факторы, Y - отклик, b_0,b_1,…,b_k - параметры (коэффициенты) регрессии.
Математически, суть регрессионного анализа сводится к нахождению параметров регрессии, проверке их значимости и оценке приемлемости всей построенной линейной модели в целом.
Начинаем построение регрессионной модели: Statistics - Multiple Regression.
Ищем и устраняем мультиколлинеарность факторов
Анализируем корреляционную таблицу, находим мультиколлинеарные факторы
Интерпретируем коэффициенты Beta, выбираем менее значимый фактор
Удаляем из модели менее значимый фактор и повторяем анализ сначала
Анализируем остатки
Оцениваем нормальность распределения остатков по частотной гистограмме
Оцениваем нормальность распределения остатков по нормально-вероятностному графику
Оцениваем зависимость остатков от предсказанных по уравнению регрессии значений отклика
Делаем вывод о нормальности распределения остатков
Оцениваем приемлемость модели в целом
Находим факторы, не влияющие на отклик
Удаляем их из модели и повторяем анализ сначала
Записываем и интерпретируем регрессионное уравнение.
Анализируем коэффициент детерминации.
Проверяем модель. На известных данных.
Сравниваем прогноз с фактическим результатом.
Регрессионный анализ общая идея. Как проводить множественный регрессионный анализ? Цель - построение регрессионной модели. Общее назначение множественной регрессии (этот термин был впервые использован в работе Пирсона - Pearson, 1908) состоит в анализе связи между несколькими независимыми переменными (называемыми также регрессорами или предикторами) и зависимой переменной.
Термин регрессия в статистике впервые был использован Френсисом Гальтоном (1886) в связи с исследованием вопросов наследования физических характеристик человека. В качестве одной из характеристик был взят рост человека; при этом было обнаружено, что в целом сыновья высоких отцов, что не удивительно, оказались более высокими, чем сыновья отцов с низким ростом. Более интересным было то, что разброс в росте сыновей был меньшим, чем разброс в росте отцов. Так проявлялась тенденция возвращения роста сыновей к среднему (regression to mediocrity), то есть «регресс». Этот факт был продемонстрирован вычислением среднего роста сыновей отцов, рост которых равен 56 дюймам, вычислением среднего роста сыновей отцов, рост которых равен 58 дюймам, и т. д. После этого результаты были изображены на плоскости, по оси ординат которой откладывались значения среднего роста сыновей, а по оси абсцисс - значения среднего роста отцов. Точки (приближённо) легли на прямую с положительным углом наклона меньше 45°; важно, что регрессия была линейной.
Цели регрессионного анализа
Определение степени детерминированности вариации критериальной (зависимой) переменной предикторами (независимыми переменными)
Предсказание значения зависимой переменной с помощью независимой(-ых)
Определение вклада отдельных независимых переменных в вариацию зависимой
Регрессионный анализ нельзя использовать для определения наличия связи между переменными, поскольку наличие такой связи и есть предпосылка для применения анализа.
Регрессионный анализ - статистический метод, с помощью которого можно построить модель с одной зависимой переменной (откликом) и одной или несколькими независимыми переменными (факторами).
Регрессионный анализ позволяет:
1) Выявить, какие из факторов действуют на отклик, а какие - нет.
2) Ранжировать факторы по степени влияния на отклик.
3) Спрогнозировать значение отклика при определенных значениях факторов.
Для обеспечения приемлемой точности модели минимальный объем выборки не должен быть меньше величины «число факторов, умножить на 10».
Приведем примеры постановок задач для регрессионного анализа.
Определить, какие факторы влияют на расход электроэнергии на предприятии, и построить прогноз расходов электроэнергии на ближайший квартал.
Планируется строительство нового торгового центра. Требуется спрогнозировать «проходимость» секций будущего торгового центра с целью обоснования ставки арендной платы и оптимальной площади помещений.
Спасибо огромное! Самое понятное видео про множественную регрессию из все, которые я смотрела!
СПАСИБО ВАМ ОГРОМНОЕ за уроки по программе статистика, все понятно и доступно
Спасибо за отзыв!
Спасибо огромное! Очень помогли разобраться с моделью множественной регрессии в статистике с нуля. Все пошагово и понятно
Спасибо за отзыв!
Важно то, что все видно!
Сколько факторов допустимо в линейной регрессии?
При анализе 17 факторов появляется надпись minimum tolerance < specified value, matrix ill conditioned.
Как расчитываются коэффициенты бэта? Интересуют формулы, спасибо.
Здравствуйте! Как в пакете построить степенную регрессию? (нелинейную)
а как сделать так, чтобы сделать проноз отклика по зависимым факторам на несколько лет вперед?
Отклик - это и есть зависимый фактор. Если один из влияющих факторов временной, то модель будет прогнозировать будущее. Например, при увеличении фактора Время на 1 единицу, отклик увеличивается на 0,8.
это множественная регрессия? а просто модель регрессии как сделать?
спасибо
Доброго времени суток. Интересно следующее: как определить оптимальные параметры конструкции изделия для того, чтобы при его помощи получался материал с наилучшими эксплуатационными характеристиками. Есть 3 фактора, для которых был составлен план факторного эксперимента 3^3. Произведены измерения эксплуатационных характеристик материала для комбинаций факторов по этому плану. Какое средство в ПО Statistica поможет мне определить оптимальные параметры?
Думаю, вам нужен модуль Experimental Design (Industrial DOE)
Не могли бы вы записать ролик и на эту тему (Industrial DOE)? Нравится ваш способ подачи и объяснения материала, поэтому был бы очень благодарен!
Здравствуйте, подскажите пожалуйста из-за чего получается такой результат R = 1,00000000 F = --
R квадрат= 1,00000000 df = 10,0 p = --
Здравствуйте, возможно, что-то не так с исходными данными (типом, числом переменных и т.д).
Здравствуйте! Спасибо большое. Я занимаюсь биологическими исследованиями. Скажите, правильно ли я поняла. Например, у нас есть показания содержания веществ а,в,с в крови и мозге и какой-либо отклик - показания в тесте. При помощи приведенной Вами последовательности действий я могу понять, что на показания в тесте, влияет, допустим, содержание в мозге вещества а и в, а все остальное нет? Раньше мы все это объясняли биологическими механизмами, но подтверждение таких гипотез при помощи математического аппарата существенно усилило бы ценность таких исследований. Поэтому пытаюсь сейчас разобраться в этой теме. При описании данных результатов мне нужно будет привести значения р, как на видео на 6-55, и чем оно меньше, чем больше влияние фактора на отклик? (понятно, что при значении больше 0,05 влияния нет)
Здравствуйте, регрессионную модель не используют для нахождения связи. Если включаем факторы в модель, то связь подразумевается. Для проверки наличия связи используют методы анализа влияния факторов.
Большое спасибо за ответ. Наличие связи между фактором и откликом мы определяем при помощи коэффициентов корреляции, но иногда, на признак х действует только комбинация нескольких факторов, и определить это при помощи коэффициентов корреляции невозможно, как и невозможно определить вклад каждого из этих факторов. Не знаю понятно ли я пишу. Те регрессионный анализ применяют толтько после корреляционного для определения вклада каждого фактора и предсказания значений отклика.
На самом деле у меня задача такая: есть много измерений различных веществ в ткани мозга и крови и показатель в тесте. Допустим, с помощью корреляционного анализа мы определили, что есть взаимосвязь между изменением некоторых из этих факторов и показателем в тесте. Далее с помощью регрессионного анализа определили вклад каждого из этих признаков. НО, может быть, показатель в тесте меняется только при одновременном уменьшении вещества а в мозге и крови, а по отдельности, те только снижение вещества а в мозге или только в крови показатели в тесте не меняет. Как найти именно такую связь? Все шкалы количественные, распределение не нормальное. Из статистики для обработки данных я умею пользоваться корреляционным анализом, дисперсионным анализом или непараметрическими методами. Но ничего из этого не решит задачи поставленной выше, про одновременное влияние факторов при отсутствии их влияния по отдельности. Хотелось бы это подтвердить математическими методами анализа, помимо биологического объяснения.
Думаю, можно использовать множественную регрессию. Нужно будет больше деталей, чем в моём примере. Обратите внимание на коэф. Beta, частные коэффициенты корреляции, получастные коэффициенты корреляции. Могу рекомендовать простой и понятный источник: Халафян А. А. - Учебник STATISTICA 6 Статистический анализ данных. М. Бином. 2007. В интернете есть.
Спасибо за Ваш труд и рекомендацию книги, обязательно буду изучать.
А где взять эти данные для таблицы? Цены, возраст и т.д.
Собрать данные из открытых (или закрытых, если есть доступ) источников. Например, сайт крупной риелторской компании.
подскажите, насколько правильно не принимать во внимание, что у интерсепта p-level превышает 0,05 и оставлять такую модель для работы
Насколько? Чем больше превышает, тем выше вероятность ошибиться, утверждая, что влияние есть. Качество модели пойдет вниз.
Здравствуйте, огромное спасибо за видео! Делал вместе с вами, только использовал около 50 параметров. В итоге получилась модель из 8 факторов с p
Здравствуйте, уточните вот эту часть "Ведь я сравнивал с качественным параметром ( группы со значениями 1, 2 ,3 ), а получил 4,3". У вас качественный отклик?
Здравствуйте, я снимаю прошлый вопрос, пересмотрел еще 15 раз, разобрался в деталях, кое что почитал. Вопрос немного изменился) я имею право использовать такую регрессию если отклик качественный и принимает значения ( 0; 1)
Здравствуйте, в регрессии должен быть количественный отклик, поэтому ответ: нет
Добрый день! Можно вам написать на почту?
Добрый день, да
Как получить уравнение регрессионной модели?
Выписать из столбца 'b'
@@statistica8687 Здравствуйте, а возможно в программе определить доверительные интервалы для этих параметров ?Если да, то как?
Здравстуйте! а график как нарисовать , я не могу найти или как называется. подскажите пожалуйста
no of indep vars >=(n-1) cannot invert corr matrix подскажите пожалуйста как исправить эту ошибку
Слишком много независимых переменных. Можно их сократить, либо использовать в настройках метод Forward stepwise. Метод пошаговой регрессии, на каждом шаге в модель включается, либо исключается какая-то независимая переменная. Выделяется множество наиболее "значимых" переменных. Это позволяет сократить число переменных, которые описывают зависимость.
@@statistica8687 Здравствуйте, делаю всё по вашему примеру и методом Forward stepwise, удаляю фактор где значение бета меньше, и далее пропадает значения п-левела, и гистограмма остатков не строится, подскажите пожалуйста в чем может быть проблема.
точнее строится гистограмма, но просто один большой квадрат)
Подскажите пожалуйста как пользоваться этим методом , какие факторы удалять?
К сожалению, возможных причин может быть слишком много, чтобы угадать
бета у "налог" больше, а не меньше где логика?
У налог 0,43, а у площадь 0,48. 0,48>0,43
на скорости x1.5 можно слушать))
Можно и х2
@@statistica8687 не очень приятный голос тогда, а голос диктора немаловажен) пользуясь случаем, спрошу, какой критерий можно/оправдано использовать при сравнении двух сверхмалых выборок (n=3). Если речь идёт об очень сложнополучаемых данных (скажем, в моём случае это трансгенные животные, которые очень плохо размножаются) использование таких выборок допускается. Но вот с помощью какого критерия показать, что мой (исследуемый) фактор повлиял стат. значимо... Затрудняюсь сказать. Есть статьи, где авторы используют t-критерий стьюдента... Но эт явно некорректно
@@ActMedInfo смотря какие шкалы данных, а также зависимые они или нет