Случайный лес: метод ансамбля в Scikit-Learn
Доказано, что командная работа позволяет принимать лучшие решения, чем отдельные люди.
Прежде чем вы прочитаете этот пост, необходимо иметь более глубокое понимание того, как работают деревья решений и деревья регрессии.
В этом посте я буду делать следующее:
- Что такое ансамбль?
- Виды техники сборки.
- Обзор случайного леса (модель, в которой используется метод мешков).
- Параметры, которые важны для случайного леса.
Модели ансамбля для лучших результатов
Теперь, что в основном означает термин «ансамбль»? Ансамблирование — это метод, при котором окончательный прогноз делается с учетом прогнозов, сделанных несколькими моделями, а не только одной. Согласно идее синергии, решения, принимаемые коллективно, имеют тенденцию быть более эффективными, чем решения, принимаемые одним отдельным лицом. . Следовательно, они могут быть более креативными и привести к более эффективному решению. На самом деле группы могут иногда достигать результатов, превосходящих те, которые они могли бы достичь как индивидуальные. Используя эту идею, видно, что в большинстве случаев объединение нескольких моделей для прогнозирования работает хорошо. Отдельные модели в модели ансамбля называются «слабыми учениками».
Два типа техники сборки
Бэггинг получил свое название, потому что он сочетает в себе Bootstrapping и Aggregation для формирования одной ансамблевой модели. Учитывая выборку данных, набор данных с начальной загрузкой создается путем извлечения нескольких подвыборок из данного набора данных. Затем модель обучается на каждой из загруженных подвыборок и подмножестве признаков. После того, как каждая модель прошла обучение на подвыборках и подмножестве функций, алгоритм используется для агрегирования деревьев решений для формирования наиболее эффективного предиктора.
2. Повышение:
В случае Бэггинга все модели обучаются индивидуально, независимо от того, что делает другая модель. Повышение — это последовательный процесс, в котором каждая последующая модель пытается исправить ошибки предыдущей модели. Последующие модели зависят от предыдущей модели. Проще говоря, следующая модель будет обучена таким образом, чтобы предсказывать ошибки предыдущей модели. Последовательность продолжается до тех пор, пока не достигнет максимальной длины или прогнозируемые ошибки не будут очень малы.
Случайный лес
С деревьями решений в качестве слабого ученика случайные леса или случайные леса решений представляют собой ансамблевый метод обучения для классификации, регрессии и других задач, который работает путем построения ряда деревьев решений. во время обучения и вывод класса, который является режимом классов для проблемы классификации или средним значением всех прогнозов для проблемы регрессии. Чем они лучше дерева решений? Деревья решений имеют тенденцию к переоснащению обучающих данных, не способных обобщить выборки, с которыми модель может столкнуться в будущем, которые она никогда не видела в процессе обучения. Следовательно, вместо того, чтобы полагаться только на одно дерево решений, случайный лес будет иметь несколько деревьев решений разных форм, которые все учитываются для окончательного прогноза модели.
Параметры, которые важны для случайного леса
- критерий. Функция для измерения качества разделения. Поддерживаемые критерии: «джини» для примеси Джини и «энтропия» для прироста информации. Примечание: этот параметр зависит от дерева.
- n_estimators:количество деревьев в лесу. Значение по умолчанию — 100.
- max_depth: максимальная глубина дерева. Если None, то узлы расширяются до тех пор, пока все листья не станут чистыми или пока все листья не будут содержать выборок меньше, чем min_samples_split. Значение по умолчанию — Нет. Обычно настраивается при переоснащении модели.
- min_samples_split:минимальное количество выборок, необходимое для разделения внутреннего узла. Узел не будет разделен дальше, если в узле содержится меньшее количество сэмплов, чем min_samples_split. Значение по умолчанию — 2.
- min_samples_leaf:минимальное количество образцов, необходимое для конечного узла. Лист будет отброшен, если выборки меньше, чем min_samples_leaf. Значение по умолчанию — 1.
- max_features:количество функций, которые следует учитывать при поиске наилучшего разделения. Значение по умолчанию — квадратный корень из числа объектов в наборе данных.
- bootstrap:используются ли образцы начальной загрузки при построении деревьев. Если False, для построения каждого дерева используется весь набор данных. Значение по умолчанию верно.
- n_jobs: количество заданий для параллельного выполнения.
- random_state: контролирует как случайность начальной загрузки выборок, используемых при построении деревьев, так и выборку функций, которые следует учитывать при поиске наилучшего разделения в каждом узле.
Упомянутые параметры должны быть обязательно настроены для большей точности и не должны в конечном итоге привести к переоснащению модели.
Вот как строится случайный лес. Это из этого поста. Похлопайте , если вам понравилось. Также подключите меня в LinkedIn. Спасибо, что дочитали это до конца. Сообщите мне, нужно ли внести какие-либо исправления с моей стороны.
Источник
10. 1. Общие понятия о модельных деревьях
Модельными (моделями) называют деревья, срубаемые в качестве типичных образцов, характеризующих все остальные оставшиеся на корню деревья данного насаждения.
У срубленных модельных деревьев измеряют диаметры ствола по двухметровым отрезкам и по ним находят объемы по одной из сложных формул. Чаще всего пользуются сложной формулой срединных сечений. Найденные по этой формуле объемы умножают на соответствующее число деревьев, оказавшихся при перечете. Сумма произведений составит общий запас насаждения.
Во избежание ошибок при определении запасов модельные деревья должны быть по размерам и форме средними для характеризуемых групп деревьев. Суммарная ошибка в запасе, вызванная нетипичностью модельного дерева, зависит также от числа деревьев в данной ступени толщины или данной группе деревьев. Поэтому число срубаемых моделей должно быть пропорционально числу деревьев в отдельных группах или ступенях толщины. Ниже описаны наиболее распространенные способы таксации леса по модельным деревьям.
10.2. Способы таксации леса по моделям
Способ средней модели. В лесной таксации дерево, у которого диаметр на высоте груди, высота и видовое число равны среднему диаметру, средней высоте и среднему видовому числу данного насаждения, называется средней моделью насаждения. Средняя модель, перечисленные параметры которой вычислены теоретическим путем, называется расчетной. Если объем средней расчетной модели V умножить на число деревьев в насаждении N. получим общий запас насаждения М
Дерево, выбранное в качестве средней модели, срубают и находят его объем по сложной формуле серединных сечений. Отыскать в насаждении дерево, размеры и форма ствола которого точно совпадают со средними показателями для таксируемого насаждения, трудно. Поэтому в качестве моделей берут обычно деревья, размеры которых в той или иной степени отличаются от точно вычисленных размеров средней модели. Дерево, срубленное в качестве модели, но отличающееся по диаметру от вычисленных размеров, называется действительной моделью.
Площадь сечения расчетной модели определяется по формуле
g ср = ∑G/N (10.2)
Отсюда число деревьев N будет
N = ∑G/ g ср (10.3)
Если предположить, что площадь сечения срубленной действительной модели равна γ, то объем срубленной действительной модели окажется больше или меньше объема расчетной модели пропорционально величине γ. В соответствии с этим в формулу, определяющую запас насаждения, надо внести поправку: если у срубленной модели объем окажется большим, чем у расчетной, необходимо уменьшить величину N, т. е. число деревьев в насаждении, а если меньше — увеличить. Изменение числа деревьев достигается путем замены в формуле величины N выражением ∑G/γ, после чего формула, определяющая запас всего насаждения, примет следующий вид:
М = V∑G/γ, (10.4)
Способ средней модели может быть использован для таксации однородных насаждений, древесина которых имеет одинаковое потребление. При выходе разнообразных сортиментов этот способ непригоден, так как средняя модель не характеризует выхода сортиментов из тонких и наиболее толстых деревьев насаждения.
Способ средней модели по классам, имеющим одинаковое число деревьев. Способ можно использовать не только применительно ко всему насаждению, но и к отдельным его частям, включающим деревья нескольких смежных ступеней толщины (классам). Сначала делают перечет деревьев по ступеням толщины и измеряют высоту деревьев разных ступеней толщины. Общее число деревьев делят на определенное число классов, чаще всего на пять. Для каждого класса подсчитывают суммы площадей сечений входящих в него деревьев, затем вычисляют средний диаметр и среднюю высоту расчетной модели. Средний диаметр находят по площади сечения среднего дерева. Среднюю высоту, как средневзвешенную по площади сечений. Рассматривая каждый класс деревьев как отдельное насаждение, применительно к вычисленным размерам расчетных моделей, отыскивают в натуре фактические модели, срубают их и подвергают тщательной таксации. Объем всего ствола, как и полученных из него сортиментов, определяют по сложной формуле срединного сечения.
N1=N2=N3=…=Nn=N/n. (10.5)
Следовательно, запас древесины во всем насаждении может быть найден по следующей формуле:
М = (V1 + V2 + … + Vn) N/n (10.6)
Преимущество рассматриваемого метода заключается в том, что при его помощи можно найти общий запас насаждений и расчленить его на части, используемые на разные сортименты.
Способ пропорционально-ступенчатого представительства. Крайние классы довольно часто включают деревья с большими различиями в толщине. Вследствие этого средние модели, срубаемые для крайних классов, оказываются нехарактерными по выходу сортиментов для всех деревьев данного класса. В таких случаях отбирают модели пропорционально числу деревьев по отдельным ступеням толщины. Сначала намечают определенный процент моделей от общего числа деревьев в насаждении и соответственно этому находят число моделей в каждой ступени толщины. На крайние ступени, представленные в насаждении небольшим числом деревьев, при способе пропорционального представительства приходятся десятке, доли модели, поэтому их объединяют в один класс и берут для них общую среднюю модель. Центральные ступени, имеющие наибольшее число деревьев, будут представлены несколькими моделями. Каждую из центральных ступеней толщины можно рассматривать как отдельный класс.
Общий запас древесины по этому способу определяется по следующей формуле:
М = (V1 + nV2 + mV3 + … + Vn)∑G/Г=V(∑G/Г), (10.7)
где n и m – число моделей в классе;
Г — сумма площадей сечений всех срубленных моделей.
В практическом отношении этот способ наиболее удобен, когда берется значительный процент моделей. При этом условии срубают модели не только из средних, но и из крайних ступеней толщины. В таксационной практике способы средней модели по классам, имеющим одинаковое число деревьев, и пропорционально-ступенчатого представительства используются не только для нахождения общих запасов, но и выхода сортиментов.
Способ определения запаса по моделям, взятым по ступеням толщины. Чтобы избежать в лесу громоздких расчетов, связанных с определением размеров моделей по отдельным классам, в таксационной практике определяют запас по моделям, срубаемым от каждой ступени толщины. Для этого в таксируемом участке делают перечет и по каждой ступени толщины находят сумму площадей сечений деревьев. Для каждой ступени толщины выбирают по две-три наиболее типичные модели с таким расчетом, чтобы диаметры их были по возможности близки к середине соответствующих ступеней толщины. Выбранные модели срубают и находят их объем по сложной формуле серединных сечений. Объемы моделей, взятых для каждой ступени толщины (Vc), суммируют, а затем находят сумму площадей сечений этих моделей на высоте груди (γс).
Запас древесины по каждой ступени толщины определяют по формуле
M = Vc∑Gc/ γс (10.8)
и получают общий запас таксируемого насаждения.
M=M‘1+M‘2+M‘3+…+M‘n (10.9)
Этот способ, если срубается достаточное число моделей, наиболее полно характеризует сортиментный состав таксируемого насаждения.
Источник