Статьи

Что такое Random Forest?

При выборе модели машинного обучения нет доминирующего алгоритма. Некоторые лучше работают с большими наборами данных, а некоторые лучше работают с данными большого размера. Таким образом, важно оценить эффективность модели для вашего конкретного набора данных. В этом подразделе рассматривается алгоритм случайного леса, и его реальных преимуществах и недостатках.

Случайные леса — это модели дерева решений, которые разбиваются на подмножество функций в каждом разбиении. Независимо от того, есть ли у вас задача регрессии или классификации, случайный лес является подходящей моделью для ваших нужд. Он может обрабатывать двоичные, категориальные и числовые функции. Требуется очень небольшая предварительная обработка. Данные не нужно масштабировать или преобразовывать. Их можно распараллеливать, что означает, что можно разделить процесс на несколько машин для запуска. Это приводит к сокращению времени вычислений. Напротив, усиленные модели являются последовательными, и для их вычисления потребуется больше времени. Случайные леса отлично подходят для данных большой размерности, поскольку работа происходит с подмножествами данных. Обучение происходит быстрее, чем деревья решений, потому что идет работа только с подмножеством функций в этой модели, что позволяет легко работать с сотнями функций. Скорость прогнозирования значительно выше скорости обучения, потому что можно сохранить сгенерированные леса для использования в будущем. Случайный лес обрабатывает выбросы, по существу объединяя их в группы, также безразлично к нелинейным характеристикам. В нем есть методы для уравновешивания ошибки в несбалансированных наборах данных о популяции классов. Случайный лес пытается минимизировать общую частоту ошибок, поэтому, когда у есть набор данных о дисбалансе, больший класс получит низкую частоту ошибок, а меньший класс будет иметь большую частоту ошибок. Каждое дерево решений имеет высокую дисперсию, но низкую систематическую ошибку. Недостатки. Интерпретируемость модели: модели случайного леса не так уж и интерпретируемы; они похожи на черные ящики.  Для очень больших наборов данных размер деревьев может занимать много памяти. Нейронная сеть может иметь тенденцию к переобучению, поэтому следует настроить гиперпараметры,о чем будет сказано позже.