Градиентный_бустинг_случайный

Содержание

Battle of the Ensemble — Random Forest vs Gradient Boosting
Two of the most popular algorithms in the world of machine learning, who will win?
Введение в машинное обучение

Battle of the Ensemble — Random Forest vs Gradient Boosting

Two of the most popular algorithms in the world of machine learning, who will win?

If you have spent some time in the world of machine learning, you would have undoubtedly heard of a concept called the bias-variance tradeoff. It is one of the most important concepts any machine learning practitioner should learn and be aware of.

Essentially, the bias-variance tradeoff is a conundrum in machine learning which states that models with low bias will usually have high variance and vice versa.

Bias is the difference between the actual value and the expected value predicted by the model. A model with a high bias is said to be oversimplified as a result, underfitting the data.

Variance, on the other hand, represents a model’s sensitivity to small fluctuations in the training data. A model with high variance is sensitive to noise and as a result, overfitting the data. In other words, the model fits well on training data but fails to generalise on unseen (testing) data.

With that in mind, in this article, I would like to share one of several techniques to balance the tradeoff between bias and variance: ensemble methods.

First of all, what are ensemble methods?

Ensemble methods involve aggregating multiple machine learning models with the aim of decreasing both bias and variance. Ideally, the result from an ensemble method will be better than any of individual machine learning model.

There are 3 main types of ensemble methods:

For the purpose of this article, we will only focus on the first two: bagging and boosting. Specifically, we will examine and contrast two machine learning models: random forest and gradient boosting, which utilises the technique of bagging and boosting respectively.

Furthermore, we will proceed to apply these two algorithms in the second half of this article to solve the Titanic survival prediction competition in order to see how they work in practice.

Источник

Введение в машинное обучение

Один из общих подходов в машинном обучении заключается в использовании композиции «слабых» решающих правил. Итоговое правило строится путем взвешенного голосования ансамбля базовых правил. Для построения базовых правил и вычисления весов в последнее время часто используются две идеи:

Баггинг (bagging – bootstrap aggregation): обучение базовых правил происходит на различных случайных подвыборках данных или/и на различных случайных частях признакового описания; при этом базовые правила строятся независимо друг от друга.
Бустинг (boosting): каждое следующее базовое правило строится с использованием информации об ошибках предыдущих правил, а именно, веса объектов обучающей выборки подстраиваются таким образом, чтобы новое правило точнее работало на тех объектах, на которых предыдущие правила чаще ошибались.

Эксперименты показывают, что, как правило, бустинг работает на больших обучающих выборках, тогда как баггинг – на малых.

Одной из реализаций идеи баггинга является случайный лес [ 2 ].

Случайный лес, а точнее – случайные леса (random forests), является одним из наиболее универсальных и эффективных алгоритмов обучения с учителем, применимым как для задач классификации, так и для задач восстановления регрессии. Идея метода [ 2 ] заключается в использовании ансамбля из деревьев решений (например, M = 500 ), которые обучаются независимо друг от друга. Итоговое решающее правило заключается в голосовании всех деревьев, входящих в состав ансамбля.

Для построения каждого дерева решений используется следующая процедура:

Генерация случайной подвыборки из обучающей выборки путем процедуры изъятия с возвращением (так называемая бутстрэп-выборка). Размер данной подвыборки обычно составляет 50–70% от размера всей обучающей выборки.
Построение дерева решений по данной подвыборке, причем в каждом новом узле дерева переменная для разбиения выбирается не из всех признаков, а из случайно выбранного их подмножества небольшой мощности $\rho$ . Дерево строится до тех пор, пока не будет достигнут минимальный размер листа (количество объектов, попавших в него). Рекомендуемые значения: для задачи классификации $\rho = d/3, sz = 1$ , для задачи восстановления регрессии $\rho = \sqrt<d data-lazy-src=$ , sz=3″/>.

Одной из модификаций метода случайных деревьев является алгоритм крайне случайных деревьев (extremely random forests), в котором на каждом этапе для выбора признака, по которому будет проводиться разбиение, используется вновь сгенерированная случайная бутстрэп-выборка.

в точках x^<(1) data-lazy-src= ,x^. x^»/>:

L(f)

Тогда градиент функции равен

$grad L(f) = \left( \frac<\partial L \left( y^</p data-lazy-src=$

, f(x^)\right)><\partial f(x^)>,\frac<\partial L \left( y^, f(x^)\right)><\partial f(x^)>. \frac<\partial L \left( y^, f(x^)\right)><\partial f(x^)> \right).»/>

На предварительном этапе алгоритм строит оптимальную константную модель -й итерации конструируется дерево решений g_<m data-lazy-src= »/> (небольшой глубины), аппроксимирующее компоненты вектора антиградиента, вычисленного для текущей модели »/> перевычисляются, так, чтобы минимизировать суммарную величину штрафа $f \leftarrow f + v \cdot g_<m data-lazy-src=$ »/>, что и завершает — параметр регуляризации (shrinkage), призванный бороться с возможным переобучением. Он выбирается из интервала (0,1].

Для решения задачи восстановления регрессии часто используются следующие штрафные функции:

$L(y,f(x)) = \frac<1 data-lazy-src=$

(y-f(x))^2,»/>

$L(y,f(x))=\frac </p data-lazy-src=$

(y-f(x))^2=\begin \frac (y-f(x))^2, при\ |y-f(x)| \le \delta,\\ \delta (|y-f(x)|- \frac )^2,\ при |y-f(x)| > \delta.\\ \end»/>

классами метод остается прежним, только вместо одной функции конструируют сразу функций f_<k data-lazy-src= \;\;\; (k=1,2. K)»/>. В качестве штрафа можно использовать кросс-энтропию

$\rho_<y data-lazy-src=$

(x) = \frac(x)>>^K(x)>>> \;\;\; (y=1,2. K)»/>

f(x)=agr max_</p data-lazy-src=

\rho_(x).»/>

Более подробное описание алгоритма см. в [ 6 , 7 ].

Другим популярным методом, использующим идею бустинга, является алгоритм AdaBoost и его модификации [ 5 ].

1.2. Кластеризация

В задачах обучения без учителя (unsupervised learning) у объектов не известны выходы, и требуется найти некоторые закономерности в данных. К задачам обучения без учителя относят задачи кластеризации, понижения размерности, визуализации и др. Здесь рассматривается только кластеризация.

Задача кластеризации — это задача разбиения заданного набора объектов на кластеры, т. е. группы близких по своему признаковому описанию объектов. «Похожие» друг на друга объекты должны входить в один кластер, «не похожие» объекты должны попасть в разные кластеры.

Рассмотрим один из алгоритмов, решающих задачу кластеризации — метод центров тяжестей (-means). На вход алгоритма поступает набор данных

x^<(1) data-lazy-src=

,x^. x^, где x^ \in \mathbb = Q_ \times Q_ \times . \times Q_ \;\;\; (i=1,2. N)»/>

$\min_<C,m_</p data-lazy-src=$

> \sum_^N<\rho(x^<(i)>,m_>,»/>

где -му кластеру:

m_<k data-lazy-src=

= \frac>> <\mid \\mid> \;\;\; (k=1,2. K).»/>

При этом не гарантируется нахождение глобального минимума. На предварительном этапе строится некоторое разбиение входных данных на C(i) — номер группы, к которой принадлежит -й объект. В ходе работы алгоритма значения C(i) обновляются. В конце работы алгоритма значения C(i) будут соответствовать разбиению данных на кластеры. Каждая итерация представляет собой последовательность следующих шагов:

Вычисляем центр тяжести объектов в каждой группе.
Для каждого объекта »/> находим »/> до $\rho(x^<(i) data-lazy-src=$ ,m_)»/>, минимально. Обновляем функцию .

C(i)

Итерации завершаются, когда наступает стабилизация значений , либо по достижении максимального значения числа итераций.

1.2.2. Метод медиан

Метод центров тяжестей работает с явными описаниями объектов x^<(i) data-lazy-src= »/> Модификацией этого метода является метод медиан, или метод срединных точек, ( -medoids). На вход этого алгоритма подается число кластеров и матрица расстояний , где d_<ii . Заметим, что сама функция $\rho(x,x$ может быть не известна.