Blog

Основы линейной регрессии Хабр

Процесс обучения производится 100 раз (100 итераций), по каждому входному значению из набора данных. Вычисляем ответ модели для каждого входного значения и сохраняем его в переменную output. Здесь представлен стохастический градиентный спуск – изменение весов после вычисления производной каждого примера. Общая сумма квадратов (TSS, total square sum) – сумма ошибок точек данных относительно среднего значения целевой переменной. У всех точек данных относительно линии регрессии должна быть примерно одинаковая дисперсия (отклонение).

Мы хотим определить, существует ли связь между возрастом и ростом этих людей. Отбор наблюдений в выборку должен быть случайным, сами наблюдения никак не должны влиять друг на друга и быть независимыми. Наличие зависимости опять же делает значения параметров нестабильными и приводит к тому, что модель не может описать все данные в целом. Точечные оценки \(\beta_0\) и \(\beta_1\), обозначенные как и, называются оценками наименьших квадратов – это те значения, которые минимизируют \(f(b_0, b_1)\).

Что такое остатки в линейной регрессии?

Если мы построим MSE линейной регрессии для другого датасета, то получим аналогичную форму. Поскольку мы пытаемся минимизировать MSE, наша цель — выяснить, где находится самая низкая точка в чаше. После этапа обучения модель готова для использования – в полученную функцию (модель) нужно подставить интересующий набор x-ов и вычислить её значение, которое и будет являться прогнозом.

Кроме того, ЛинР используется в тестировании предположений, позволяя исследователям проверять ключевые предположения о данных. То есть множественная регрессия демонстрирует, как каждый параметр влияет на расположение прямой, и выбирает оптимальный вариант точно так же, как и линейная — с помощью функции потерь. Задача регрессии в машинном обучении — это предсказание одного параметра (Y) по известному параметру X, где X — набор параметров, характеризующий наблюдение. Глядя на два графика, мы видим, что наш MSE имеет форму удлиненной чаши, которая, по-видимому, сглаживается в овале, грубо центрированном по окрестности (m, p) ≈ (0.5, 1.0).

Без вариации мы не можем показать связь между изменениями двух переменных. Если линейная регрессия это одна или две из них не меняются, то модель не будет содержательно полезной, так как просто не сможет зафиксировать изменения. Но она может быть, и чтобы убедиться в этом, нужно построить линейную регрессию.

Для преобразования данных (представления данных) в формат, который может эффективно использоваться моделью, может потребоваться использование дополнительных методов или разработка дополнительных моделей МО. Недообучение возникает, когда модель слишком проста для отражения основных зависимостей в данных. Эта модель ограничена для обобщения сложных взаимосвязей между признаками.

  • В линейной регрессии предполагается, что Y можно рассчитать из некоторой комбинации входных переменных.
  • Как можно заметить, в данном случае ElasticNet имеет самую высокую точность среди всех видов регуляризации, что обусловлено лучшим увеличением обобщающей способности за счёт более сильных штрафов во время обучения.
  • Для расчета линии регрессии обычно используется метод наименьших квадратов, который минимизирует сумму квадратов разностей между наблюдаемыми значениями и значениями, предсказанными линией.
  • В машинном обучении компьютерные программы, называемые алгоритмами, анализируют большие наборы данных и работают в обратном направлении от этих данных для расчета уравнения линейной регрессии.

R-квадрат — это мера, показывающая, сколько вариаций может объяснить или уловить модель, это мера доли дисперсии зависимой переменной, которая объясняется независимыми переменными в модели. В общем, чем лучше модель соответствует данным, тем больше число R-квадрат. Линейная регрессия является фундаментальным методом машинного обучения. Модель ЛинР учится на размеченных наборах данных и сопоставляет точки данных с наиболее подходящими линейными функциями, которые можно использовать для прогнозирования новых данных.

Методы оценки

Однако при использовании стохастического или мини-пакетного градиентного спуска в данном случае могут возникнуть трудности в поиске минимальной ошибки из-за менее гладких кривых обучения. Лассо-регрессия (Lasso regression или Least Absolute Shrinkage & Selection Operator) обычно используется для отбора признаков через добавление L1-регуляризации к функции потерь во время обучения. Как и ожидалось, линейная регрессия показала хорошие результаты в связи с линейной зависимостью в используемых данных. На графике также видно как полученная плоскость хорошо описывает линейную взаимосвязь в данных.

Простой линейный регрессионный анализ — широко используемый инструмент для изучения влияния независимой переменной на одну зависимую переменную , при котором считается, что между ними существует линейная связь. Простое уравнение линейной регрессии позволяет оценить значения зависимой переменной на основе значений независимой переменной. После создания формулы линейной регрессии модель машинного обучения будет использовать разные значения весов, рисуя разные линии соответствия.

Как применить метод линейной регрессии?

  • Данные для линейной регрессии должны соответствовать нескольким условиям, чтобы модель давала точные и надежные результаты, иначе она не будет хорошо работать.
  • Сначала вычисляется значение частной производной для каждого изменяемого параметра относительно функции ошибки (функции потерь), затем это значение вычитается из текущего значения параметра.
  • В этом случае мы вынуждены использовать многошаговый численный метод, чтобы прийти к решению.

Они могут оказывать значительное влияние на переменные, которые учтены в модели, что опять же делает результаты нестабильным. 🔍 Коэффициент детерминации — доля дисперсии зависимой переменной, объясняемая рассматриваемой моделью. Однако у нас много комбинаций, поэтому нам нужно сравнить линии (шаг 3) и найти такую, которая бы одновременно минимизировала разницу в предсказанных и фактических значениях для всех комбинацией значений. Сделать это одновременно невозможно (у нас может быть тысяча точек на графике), и нам нужен компромисс.

После подгонки модели с использованием обучающих данных можно сделать прогнозы на проверочном наборе и рассчитать метрики оценки для оценки производительности модели. Statsmodels, с другой стороны, предлагает более подробный статистический вывод, включая коэффициенты, p-значения и доверительные интервалы, что позволяет глубже понять взаимосвязи между переменными. Зависимости между наблюдаемыми и целевой переменными могут быть любыми, в том числе сколь угодно сложными. Модель в машинном обучении – это математическая функция, которая (в контексте задачи регрессии) получает на вход значения наблюдаемых переменных, преобразует их, комбинирует и выдаёт значение целевой переменной. 🔍 Дисперсия остатков регрессии — сумма квадратов разниц между фактическими и предсказанными линейной регрессией значениями зависимой переменной.

Типы линий регрессии

Предположим, что у нас есть набор данных, охватывающий размеры жестких дисков и стоимость этих жестких дисков. Таким образом, линейная регрессия может использоваться во всех сферах, где проводятся исследования, связанные с проверкой гипотез и поиском взаимосвязей между различными факторами. Конкретные результаты могут сильно различаться в зависимости от выборок, что делает модель неспособной пройти проверку на другой выборке из той же генеральной совокупности. Проще говоря, оказывается, что модель, которая может казаться точной, на самом деле оказывается неверной. Переменные, которые добавлены в модель, не должны быть мультиколлинеарными. То есть независимые переменные не должны быть взаимосвязаны между собой.

Стоит также добавить, что в многомерном пространстве вместо линии или плоскости связь в данных будет описываться гиперплоскостью размерностью . Остаточная сумма квадратов (ESS, errors square sum) – сумма квадратов остатков (ошибок) для каждой точки данных из обучающего (тестового) набора. Сначала вычисляется значение частной производной для каждого изменяемого параметра относительно функции ошибки (функции потерь), затем это значение вычитается из текущего значения параметра. Линейная регрессия (Linear regression) — это это математическая модель, которая описывает связь нескольких переменных.

Линейная регрессия — это фундаментальный статистический метод, используемый для моделирования взаимосвязи между зависимой переменной и одной или несколькими независимыми переменными. Это тип метода прогнозного моделирования, который предполагает линейную связь между входными переменными (признаками) и единственной выходной переменной. Основная цель линейной регрессии — найти наиболее подходящую прямую линию через точки данных, которая минимизирует сумму квадратов различий между наблюдаемыми значениями и значениями, предсказанными моделью. Этот метод широко используется в различных областях, включая экономику, биологию, инженерию и социальные науки, благодаря своей простоте и интерпретируемости. Существует несколько типов линий регрессии, каждый из которых подходит для разных типов данных и отношений. Наиболее распространенным типом является простая линия линейной регрессии, которая моделирует взаимосвязь между одной независимой переменной и зависимой переменной.

Выбор наилучшей модели

Если это предположение не выполняется, возможно, придется изменить зависимую переменную. Поскольку дисперсия возникает естественным образом в больших наборах данных, имеет смысл изменить масштаб зависимой переменной. Где β 0 — значение зависимой переменной, когда независимая переменная равна нулю. Β 1 представляет собой изменение зависимой переменной на единицу изменения независимой переменной, а ε представляет собой невязку или ошибку. То есть изменчивость данных, которую нельзя объяснить линейной зависимостью формулы.

Коэффициенты модели линейной регрессии можно интерпретировать как изменение зависимой переменной при изменении независимой переменной на одну единицу, что дает представление о взаимосвязях между переменными. Например, в финансах линейная регрессия может использоваться для понимания взаимосвязи между ценой акций компании и ее доходами или для прогнозирования будущей стоимости валюты на основе ее прошлых показателей. Несмотря на широкое распространение, линейная регрессия имеет несколько ограничений, которые аналитикам следует учитывать.

Добавление измерений, на первый взгляд, ужасное усложнение проблемы, но оказывается, постановка задачи остается в точности одинаковой в 2, 3 или в любом количестве измерений. И, как и прежде, наша цель — найти самую нижнюю часть этой чаши, объективно наименьшее значение, которое функция потерь может иметь в отношении выбора параметров и набора данных. Линейная регрессия (Linear regression) — модель зависимости переменной x от одной или нескольких других переменных (факторов, регрессоров, независимых переменных) с линейной функцией зависимости. Это было краткое объяснение линейной регрессии, но давайте удостоверимся, что лучше понимаем линейную регрессию, взглянув на ее пример и изучив формулу, которую она использует.

POST A COMMENT