Regression med data fra statistikbanken i Excel

Regression i Excel

For elever som skal til skriftlig eksamen i 2020 og senere er det et krav at de kan lave regression i Excel. Her skal I både være i stand til at lave diagrammet, tendenslinjen, ligningen, r2 og give relevante aksetitler.

Vi skal derfor på denne side se hvordan man selv kan hente data fra Danmarks Statistiks statistikbank. Til eksamen vil I få udleveret en Excel-fil med dataet som I skal bruge til regressionen. Har du allerede data kan du derfor springe ned til afsnit “Lave xy-diagram og vælge data“, hvor vi laver selve diagrammet med regressionen.

Hvad har jeg tænkt mig at undersøge?

I dette eksempel har jeg en hypotese om, at der kunne være en sammenhæng mellem ledighed og kriminalitet. Hvor antallet af ledige påvirke antallet af straffelovsovertrædelser. En simpel model af hypotesen:
donna cerca uomo Marano di Napoli Ledighed (X) –> kriminalitet (Y)

Det er som sagt kun en hypotese. Så jeg er nødt til at teste den med empiri. Jeg ved helt tilfældigvis at Danmarks Statistik har både data for antallet af ledige og antallet af straffelovsovertrædelser. Så første del af øvelsen er at sammensætte et lille datasæt som vi kan lave regressionen på.

0 OBS i forhold til Excel-versioner

Der kan være enkelte menupunkter som hedder noget andet i jeres Excel-version. Her må I lige prøve jer lidt frem.

1 Hente data fra Statistikbanken

I kan finde Statistikbanken på http://statistikbanken.dk

Nedenstående gennemgang er inddelt i en række mindre animations-gifs som kører i loop. Klik på billederne for at starte vejledningen. Misser man noget så venter man bare til den starter forfra igen.

Vil du hente/se det hele som én videofil skal du klikke her. Det kan være en fordel hvis du fx ikke har adgang til denne side under eksamen eller lign.

2 Indsætte i Excel

3 Hente ledighedsdata ind i Excel

4 Fjerne mellemrum i Excel

5 Lave xy-diagram og vælge data

Vær obs på at jeg vælger bruttoledige som X og straffelovsovertrædelserne som Y. Det gør jeg fordi det var den årsagssammenhæng vi introducerede i starten af eksemplet.

6 Tilføje tendenslinje, ligning og r2

Her tilføjer vi essensen af selve regressionen. Tendenslinjen så vi kan tolke på punkternes placering. Ligningen så vi kan tolke på ledighedens effekt på antallet af straffelovsovertrædelser. R2 for at sige kunne sige noget om sammenhængskraften. Vil du læse mere om hvordan du tolker regressionen, så klik her.

7 Tilføje titel og aksetitler

Her tilføjer vi en titel til diagrammet og nogle aksetitler. Det gør vi for at fortælle hvilken sammenhæng vi undersøger og hvilke variabler vi benytter os af.

8 Mindre akser

Vi laver lidt mindre akser, så vi får et pænere diagram. Desuden er det heller ikke relevant at begge akser går helt ned til 0. Det er meget usandsynligt at både ledigheden og antallet af straffelovsovertrædelser er 0.

Endelige diagram og regression

I det endelig diagram har jeg tilføjet målene for variablerne henholdsvis antal og personer.