R — язык программирования для статистической обработки данных. R славится своей графикой и производительностью в обработке данных. Кроме того, он является свободным ПО и по факту считается стандартом в научных исследованиях.

Существуют различные IDE для работы с R. Наиболее популярная из них RStudio.  При первом знакомстве с данным языком программирования мы будем использовать стандартную GUI, которая появляется при установке: RGui.

RGUI

R как калькулятор

Для начала предлагается посмотреть на результаты численных вычислений в среде R:

Calc1

После успешного выполнения численных вычислений, создадим вектор числе от 1 до 10

x <- 1:10

Произведем с этим вектором следующие действия:

Calc3

Теперь же попробуем с этим вектором произвести следующие действия:

Calc2

Заметили на сколько различаются результаты?

Работа с векторами

Создадим различными способами вектор от 1 до 10:

1:10

seq(1,10)

rep(1,10)

Но при таком методе вектор не был создан. Для присвоения используются команды <-  или ->

x <- 1:10

1:10 -> X

Заметим, что язык R чувствителен к регистру!

А теперь посмотрим, что можно сделать с 2 векторами:

vectors1

Работа с матрицами

Для языка R, матрица является двумерным вектором.

Как создавать матрицы:

matrix1

Создадим еще 2 матрицы:

y <- matrix(2:5,2,2)

z <- matrix(4:7,2,2)

 

Выполним следующие операции:

matrix2

Работа со справкой

Для удобства работы обычно используется справка в которой детально описаны все параметры функции. Для вызова справки используется команда ? перед названием функции.

?matrix

Лист, фреймы данных и массивы.

В отличие от векторов и матриц в которых все данные должны быть одного типа листы и фреймы данных позволяют хранить разнообразную информацию.

Создадим простейший лист:

list

Теперь создадим простейший фрейм данных:

data_frame

Для случаев, когда требуется структура в которой необходимо хранить более 2 измерений используются массивы:

array

Циклы

Как и в любом языке программирования, в R существуют стандартные циклы for и while.

For:

for

While:

while

Использование условного оператора выглядит следующим образом:

ifelse

Импорт данных

import

Экспорт данных

export

Графика в R

Рассмотрим простейшие примеры использования графики в R:

plot1

Рассмотрим следующие типы графиков:

plot2

Столбчатая диаграмма:

plot3

Круговая диаграмма

plot4

Распределения

Большинство известных распределений присутствую  в R, при этом точность значений распределений находится на очень высоком уровне.

Для действий с распределениями используются 3 буквы: d, q, r.

r — используется для генерации случайных значений из заданного распределения

d- для поиска плотности распределения

q — для нахождения квантиля распределения

distr

вместо вопросительного знака должна стоять необходимая вам буква (d,r,q).

x <- seq(-4,4,100)

dx <- dnorm(x)

plot(x,dx, type = ‘l’)

Теперь попробуем сгенерировать случайные числа из нормального распределения:

x <- rnorm(1000)

Для визуализации распределения можно использовать команды hist и density:

hist(x)

plot(density(x))

Попробуйте сгенерировать 4 различных распределения из таблицы с распределениями и визуализировать.

Оценка параметров распределения

Попробуем подключить библиотеку для оценки распределения. Библиотека — это расширение, которое позволяет использовать продвинутые статистические и графические методы в R. Если вы используете новую библиотеку, для начала ее необходимо будет скачать:

install.packages(‘MASS’)

После того, как библиотека была загружена ее можно использовать с помощью команды library.

MASS

Когда используется не известная для вас библиотека, необходимо разобраться со справкой по используемым функциям в этой библиотеке.

Построим на одном графике гистограмму нашего случайного распределения и ее оценку распределения:

MASS2

Использование пакетов lattice и ggplot2 для улучшения графиков

Рассмотрим использование дополнительных пакетов, которые улучшают графическое представление данных в R.

В случае, если отсутствуют необходимые пакеты, их необходимо загрузить пользуясь командой из предыдущего раздела. Рассмотрим пакет lattice:

lattice

Рассмотрим использование ggplot2

ggplot2

Практическое задание:

Загрузить с сайта kaggle.com данные из соревнования  House Prices: Advanced Regression Techniques

 

 

Занятие 1. Первое знакомство с R.
Метки:

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *