Основным пакетом для построения моделей машинного обучения является caret. Сперва установим данный пакет.

Снимок экрана 2018-11-07 в 17.28.22

В качестве исходных данных будем использовать встроенный массив данных по кредитам.

Снимок экрана 2018-11-07 в 17.28.26

Удалим объясняемую переменную:

Снимок экрана 2018-11-07 в 17.28.30

Удалим показатели, которые имеют нулевую вариацию

Снимок экрана 2018-11-07 в 17.28.36

Удалим показатели с высокой линейной зависимостью:

Снимок экрана 2018-11-07 в 17.28.41

Первичная обработка данных:

Снимок экрана 2018-11-07 в 17.28.56

Найдем линейные комбинации факторов:

Снимок экрана 2018-11-07 в 17.28.47

Доступные для построения модели:

Снимок экрана 2018-11-07 в 17.29.04

Зададим метод кросс-валидации модели

Снимок экрана 2018-11-07 в 17.44.05

Построим линейную модель:

Снимок экрана 2018-11-07 в 17.29.32

Построим логит модель:

Снимок экрана 2018-11-07 в 17.29.39

Построим множество моделей случайного леса с различными параметрами:

Снимок экрана 2018-11-07 в 17.30.52

Спрогнозируем на основе тестовой выборки

Снимок экрана 2018-11-07 в 17.29.54

Документация и список доступных моделей доступны по следующей ссылке: пакет caret.

Задание:

  1. Разделить выборку на train и test в пропорции 75 к 25
  2.  Объясняемой переменной будет показатель Class
  3. Построить модель бустинга
  4. Построить нейронную сеть
  5. Построить логистическую регрессию
  6. Сравнить на тестовой выборке получившиеся модели

 

Занятие 6. Машинное обучение с R

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *