Статистика - Линейная регрессия
После того, как степень взаимосвязи между переменными была установлена с помощью анализа взаимосвязи, естественно, углубиться в природу взаимосвязи. Регрессионный анализ помогает определить причинно-следственную связь между переменными. Можно предсказать значение других переменных (называемых зависимой переменной), если значения независимых переменных можно предсказать с помощью графического метода или алгебраического метода.
Графический метод
Он включает в себя построение диаграммы рассеяния с независимой переменной на оси X и зависимой переменной на оси Y. После этого линия рисуется таким образом, что она проходит через большую часть распределения, а оставшиеся точки распределены почти равномерно по обе стороны от линии.
Линия регрессии известна как линия наилучшего соответствия, которая суммирует общее движение данных. Он показывает лучшие средние значения одной переменной, соответствующие средним значениям другой. Линия регрессии основана на критериях того, что это прямая линия, которая минимизирует сумму квадратов отклонений между прогнозируемыми и наблюдаемыми значениями зависимой переменной.
Алгебраический метод
Алгебраический метод строит два уравнения регрессии X на Y и Y на X.
Уравнение регрессии Y на X
$ {Y = a + bX} $
Где -
$ {Y} $ = Зависимая переменная
$ {X} $ = Независимая переменная
$ {a} $ = Константа, показывающая Y-перехват
$ {b} $ = Константа, показывающая наклон линии
Значения a и b получают с помощью следующих нормальных уравнений:
$ {\ sum Y = Na + b \ sum X \\ [7pt] \ sum XY = a \ sum X + b \ sum X ^ 2} $
Где -
$ {N} $ = Количество наблюдений
Уравнение регрессии X на Y
$ {X = a + bY} $
Где -
$ {X} $ = Зависимая переменная
$ {Y} $ = Независимая переменная
$ {a} $ = Константа, показывающая Y-перехват
$ {b} $ = Константа, показывающая наклон линии
Значения a и b получают с помощью следующих нормальных уравнений:
$ {\ sum X = Na + b \ sum Y \\ [7pt] \ sum XY = a \ sum Y + b \ sum Y ^ 2} $
Где -
$ {N} $ = Количество наблюдений
пример
Постановка задачи:
Исследователь обнаружил, что существует взаимосвязь между весовыми тенденциями отца и сына. В настоящее время он заинтересован в разработке уравнения регрессии по двум переменным по приведенным данным:
Вес отца (в кг) | 69 | 63 | 66 | 64 | 67 | 64 | 70 | 66 | 68 | 67 | 65 | 71 |
---|---|---|---|---|---|---|---|---|---|---|---|---|
Вес сына (в кг) | 70 | 65 | 68 | 65 | 69 | 66 | 68 | 65 | 71 | 67 | 64 | 72 |
развивать
Уравнение регрессии Y на X.
Уравнение регрессии по Y.
Решение:
$ {X} $ | $ {X ^ 2} $ | $ {Y} $ | $ {Y ^ 2} $ | $ {XY} $ |
---|---|---|---|---|
69 | 4761 | 70 | 4900 | 4830 |
63 | 3969 | 65 | 4225 | 4095 |
66 | 4356 | 68 | 4624 | 4488 |
64 | 4096 | 65 | 4225 | 4160 |
67 | 4489 | 69 | 4761 | 4623 |
64 | 4096 | 66 | 4356 | 4224 |
70 | 4900 | 68 | 4624 | 4760 |
66 | 4356 | 65 | 4225 | 4290 |
68 | 4624 | 71 | 5041 | 4828 |
67 | 4489 | 67 | 4489 | 4489 |
65 | 4225 | 64 | 4096 | 4160 |
71 | 5041 | 72 | 5184 | 5112 |
$ {\ sum X = 800} $ | $ {\ sum X ^ 2 = 53,402} $ | $ {\ sum Y = 810} $ | $ {\ sum Y ^ 2 = 54 750} $ | $ {\ sum XY = 54,059} $ |
Уравнение регрессии Y на X
Y = a + bX
Где a и b получены нормальными уравнениями
$ {\ Rightarrow} $ 810 = 12a + 800b ... (i)
$ {\ Rightarrow} $ 54049 = 800a + 53402 b ... (ii)
Умножив уравнение (i) на 800 и уравнение (ii) на 12, получим:
96000 a + 640000 b = 648000 ... (iii)
96000 a + 640824 b = 648588 ... (iv)
Вычитая уравнение (iv) из (iii)
-824 b = -588
$ {\ Rightarrow} $ b = -.0713
Подставляя значение b в уравнение (я)
810 = 12a + 800 (-0,713)
810 = 12а + 570,4
12а = 239,6
$ {\ Rightarrow} $ a = 19,96
Следовательно, уравнение Y на X можно записать в виде
Уравнение регрессии Y на X
X = a + bY
Где a и b получены нормальными уравнениями
$ {\ Rightarrow} $ 800 = 12a + 810a + 810b ... (V)
$ {\ Rightarrow} $ 54 049 = 810a + 54 750 ... (vi)
Умножив eq (v) на 810 и eq (vi) на 12, получим
9720 a + 656100 b = 648000 ... (vii)
9720 + 65700 b = 648588 ... (viii)
Вычитание из формулы из уравнения
900b = -588
$ {\ Rightarrow} $ b = 0,653
Подставляя значение b в уравнение (v)
800 = 12а + 810 (0,653)
12а = 271,07
$ {\ Rightarrow} $ a = 22,58
Следовательно, уравнение регрессии X и Y