Řešeno: ggplot regresní přímka

R je výkonný jazyk a prostředí pro statistické výpočty a grafiku. Jednou z jeho silných vlastností je schopnost vytvářet vysoce kvalitní grafy pomocí pouhých několika řádků kódu. V tomto článku probereme, jak vykreslit regresní přímku pomocí „ggplot“, jednoho z nejpopulárnějších balíčků v rámci R ekosystému pro vizualizaci dat.

Vytvoření regresní čáry nebo čáry, která nejlépe odpovídá datům, je běžným úkolem při analýze dat. Tato čára, často spolu s přidruženou rovnicí, poskytuje kompaktní zobrazení vašich datových trendů a může být klíčovou součástí pro vytváření předpovědí nebo vyvozování vztahů mezi proměnnými.

Proces vytváření této regresní přímky lze rozdělit do několika jednoduchých kroků pomocí funkcí `ggplot` a `geom_smooth()`. Pojďme se podívat, jak to funguje.

Nejprve je nezbytné nainstalovat a načíst požadované balíčky. Můžete to provést pomocí následujícího kódu:

install.packages("ggplot2")
library(ggplot2)

S nainstalovaným a načteným balíčkem ggplot2 se můžeme posunout vpřed v naší základní tvorbě zápletky.

Analýza a vykreslení dat

Než vykreslíte regresní přímku, měli byste jasně rozumět svým datům. Prvním krokem k vytvoření regresní přímky je vynesení datových bodů do grafu.

Řekněme, že máme datový rámec s názvem `moje_data` se dvěma proměnnými `x` a `y`. Zde je návod, jak vytvořit základní bodový graf.

ggplot(my_data, aes(x=x, y=y)) +
  geom_point()

Přidání regresní přímky

Nyní, když máme bodový graf, dalším krokem je přidání regresní přímky.

To lze provést pomocí funkce `geom_smooth()`, která vytvoří hladkou křivku, která odpovídá datům. Ve výchozím nastavení tato funkce přidává vyhlazenou křivku LOESS a kolem ní interval spolehlivosti, ale my chceme jednoduchou lineární regresní přímku. K tomu můžeme přidat argument `method` do `geom_smooth()` a nastavit jej na `lm`, což znamená lineární model.

Zde je upravený kód:

ggplot(my_data, aes(x=x, y=y)) +
  geom_point() +
  geom_smooth(method = lm)

Čára v grafu nyní představuje nejlepší lineární aproximaci našich dat, tj. lineární regresi. Šedá oblast kolem čáry je standardní chyba odhadu.

Přizpůsobení vzhledu

`ggplot` také umožňuje upravit vzhled grafu. Můžete například změnit barvu bodů a čáry, přidat popisky a přidat nadpis.

Zde je příklad použití těchto přizpůsobení:

ggplot(my_data, aes(x=x, y=y)) +
  geom_point(color = 'red') +
  geom_smooth(method = lm, se = FALSE, color = 'blue') +
  labs(title = 'Scatter plot with regression line', x = 'Variable X', y = 'Variable Y')

Abychom to shrnuli, funkce `ggplot` v R poskytuje vynikající nástroj pro vizualizaci vztahu mezi proměnnými prostřednictvím generování regresních čar. Díky tomu je užitečným zdrojem pro široké spektrum potřeb analýzy dat.

Související příspěvky:

Zanechat komentář