Mål og forberedelser
Oppgavesettene i denne arbeidsboken dekker koder og funksjoner som er dekket i Arbeidsbok 5: Statistisk analyse 1 og Arbeidsbok 6: Statistisk analyse 2. Før du løser disse oppgavesettene anbefales det at du jobber deg igjennom disse to arbeidsbøkene.
I disse oppgavene skal du løse oppgaver knyttet til:
- Hvordan man behandler missing data.
- Å gjennomføre og visualisere univariate analyser.
- Å gjennomføre og visualisere bivariate analyser.
- Å lage en regresjonsmodell med en uavhengig variabel.
- Å tolke og fremstille regresjonsresultater.
Oppgavesett 1
I oppgavene her vil vi se på variablene Left-Right
og High_Trust
fra et subset av det nye datasettet NO8_High
, som vi lagde i Arbeidsbok 5: Statistisk analyse 1
. Det første vi må gjøre er å bli kjent med datasettet.
Kjør kodene du tenker er relevante i kode-chunken under for å kunne svare på quiz-spørsmålene.
sum(is.na(NO8_High))
summary(NO8_High)
class(NO8_High$High_Trust)
Lag et density-plot for Left_Right
variabelen. Bruk dette til å svare på quizen nedenfor.
ggplot(NO8_High, aes(Left_Right))
ggplot(NO8_High, aes(Left_Right)) +
ggplot(NO8_High, aes(Left_Right)) +
geom_density()
Lag en ny variabel High_Trust
om respondenten har høyere tilitt til politiet enn gjennomsnittet, og 0 om de har lavere. Gjør så at dette er en factor-variabel.
NO8_High <- NO8_High %>%
mutate()
NO8_High <- NO8_High %>%
mutate(High_Trust = )
NO8_High <- NO8_High %>%
mutate(High_Trust = ifelse(Trust_Police > mean(Trust_Police, na.rm = TRUE), 1, 0)) %>%
mutate(High_Trust = )
NO8_High <- NO8_High %>%
mutate(High_Trust = ifelse(Trust_Police > mean(Trust_Police, na.rm = TRUE), 1, 0)) %>%
mutate(High_Trust = as.factor(High_Trust))
Når vi har en variabel kan vi bruke denne for å legge til forskjellige farger i plottet vårt for å skille mellom grupper. Dette kan vi gjøre med colour
-argumentet i aes()
funksjonen.
Lag et tetthetsplott med Left_Right
på x-variabelen som skiller mellom grupper på den nye variabelen High_Trust
med colour
-argumentet.
ggplot(NO8_High, aes(Left_Right))
ggplot(NO8_High, aes(Left_Right, colour = ))
ggplot(NO8_High, aes(Left_Right, colour = High_Trust))
ggplot(NO8_High, aes(Left_Right, colour = High_Trust)) +
geom_density()
Når vi skal bruke t-tester trenger vi ikke lage nye datasett. Vi kan også skrive en formel for å å definere gruppene vi ønsker. For å gjøre det følger vi oppskriften variabel t.test(variabel~ gruppe-variabel, datasett)
.
Kjør funksjonen t.test
med Left_Right
som variabelen og High_Trust
som gruppe.
t.test(Left_Right)
t.test(Left_Right ~)
t.test(Left_Right ~ High_Trust)
t.test(Left_Right ~ High_Trust, NO8_High)
Oppgavesett 2
I dette oppgavesettet skal vi kjøre en regresjonanalyse som ser på sammenhengen mellom økonomisk inflasjon (inflation) på andel stemmer partiet til den sittende kandidaten får (inc_vote). Datasettet er hentet fra The Fundamentals of Political Science Research (Kellstedt og Whitten, 2018) og dette er det samme datasettet vi jobbet med i Arbeidsbok 6: Statistisk analyse 2. (Oppgavene som kommer er tilpasset fra opppgavene som står i del 1.4 og 9.4.)
Referanser
Kellstedt, P. M. og Whitten, G. D. (2018). The Fundamentals of Political Science Research (Third edition.). Cambridge University Press.
Deskriptiv statistikk
Se på Growth
variabelen. Denne viser prosentvis endring i GDP per cap for hvert år. Bruk kode for å finne svaret på quizen nedenfor.
table(EcoData$growth, EcoData$year)
Regresjonsmodell
Når vi skal jobbe med data er det alltid viktig at vi forstår hva dataene våre betyr, og hvordan de måles. Om vi ikke forstår dataene våre kan vi jo ikke få noe ut av dem! Nå som vi har fått med oss det kan vi begynne med den nye regresjonsmodellen. Her skal du altså gjøre en bivariat analyse mellom avhengig inc_vote
og uavhengig inflation
.
Lag en ny regresjonsmodell som har inc_vote
som avhengig, og inflation
som uavhengig variabel.
mod2 <- lm()
mod2 <- lm(inc_vote)
mod2 <- lm(inc_vote ~)
mod2 <- lm(inc_vote ~ inflation)
mod2 <- lm(inc_vote ~ inflation, data = )
mod2 <- lm(inc_vote ~ inflation, data = EcoData)
mod2 <- lm(inc_vote ~ inflation, data = EcoData, na.action = "na.exclude")
Bruk stargazer
for å se resultatene, og svar på quizen nedenfor om resultatene til regresjonsmodellen.
stargazer(mod2, type = "text")
Visualisering av regresjonslinjen
Plottet under viser regresjonslinjen og observasjonene fra datasettet vårt.
Residualer
Dette lottet viser residualene fra regresjonsmodellen. Bruk plottet for å svare på spørsmålene som følger under.