Lineær regression

1. Indledning

http://www.vias.org/science_cartoons/regression.html
Kilde: http://www.vias.org/science_cartoons/regression.html

Er livet og dermed os mennesker så lovmæssigt at man kan sige at en egenskab påvirker en anden?

Når I sidder her i gymnasiet og målrettet regner med at læse videre, så øger I hele tiden det antal år I er under uddannelse. Måske gør I det med det formål at øge jeres indkomst når I senere beslutter jer for at træde ud på arbejdsmarkedet.

Det kunne derfor være rart at vide, om der var en sammenhæng mellem antallet af år, man har brugt på uddannelse og ens indkomst … empiri … indtil videre er det kun en hypotese.

I dette tilfælde undersøger vi om sammenhængen følger en lineær model. Vi forsøger altså at sætte samfundet på en matematisk model.

2. Kausalitet

Det første vi skal gøre er at afklare årsagssammenhængen, hvilket betyder at vi skal undersøge om effekten går den ene eller den anden vej. Vi står derfor overfor en række muligheder:

Uddannelsesår –> Indkomst (Antallet af uddannelsesår påvirker ens senere indkomst)

Indkomst –> Uddannelsesår (Ens indkomst påvirker antallet af uddannelsesår)

Uddannelses <–> Indkomst (Begge variable påvirker hinanden)

Uddannelses — Indkomst (Variablerne påvirker ikke hinanden)

Når vi laver en lineær regression kan vi ikke sige noget om hvilken af ovenstående sammenhænge er sande. Det er vi nødt til at ræsonnere os frem til. Det vil vi gøre ved at se på, hvad der kommer først i tid.

Her det vil derfor være mærkeligt hvis ens indkomst kom før uddannelse. Det vil betyder at indkomsten skulle påvirke antallet af uddannelsesår. Et mere ekstremt eksempel ville være hvis indkomst skulle påvirke køn. Her er det nok mest sandsynligt at køn påvirker indkomsten. Det samme gør sig også gældende for indkomst. En lav indkomst vil nok ikke påvirke antallet af uddannelsesår.

Regressionen kan dog fortælle os, hvilken retning sammenhængen er, dvs. om en øgning i antal år brugt på uddannelse vil have en positiv eller negativ effekt på ens indkomst. Her vil vi nok forvente, at det vil have en positiv effekt, så vi får en højere indkomst jo flere år vi har brugt på uddannelse – ellers bør man da overveje at droppe ud!

3. Forskriften for modellen

Y = ax + b (andre kalder den y = a + bx)

Y = Afhængig variable – den vi forsøger at forudsige med de uafhængige variable, fx Y = Opbakningen til velfærdsstaten på en skala fra 1-10

b = konstanten – der hvor linjen møde nul på x-aksen

a = den uafhængige variable (Bemærk: I Surveybanken og andre statistikprogrammer skrives det ofte med et stort B). En regression kan godt have flere uafhængige variable, så kaldes modellen for en multipel lineær regression.

4. Forudsætninger for lineær regression

For at kunne lave en lineær regression, skal dataet/empirien og dermed sammenhængen i ”virkeligheden” være nogenlunde lineær. Der kan man tjekke ved at se hvordan prikkerne fordele sig omkring tendenslinjen.

Variablerne skal være intervalskaleret, dvs. være fx indkomst eller andre variable med ”mange” muligheder. Det er set før at der i eksamensopgaven til den skriftlige eksamen anvendes variable som ikke er intervalskaleret. Kommentér gerne på det fx ved at skrive at det er nødvendigt at tage forbehold for resultatet, da en eller begge af variablerne ikke er intervalskaleret.

5. Tolkning af R2

Måler hvor god modellen er til at forklare Y i forhold til en vandret linje (= gennemsnittet af Y). Forklaring følger…

Går fra 0 til 1 og angives også nogle gange i procent, (R2 = 0,25 eller R2 = 25 %)

Regressionsmodellen giver en forklaringskraft R2 på 0,32, hvilket betyder at den lineære model med den uafhængige variable xxx kan forklare 32 % procent af variationen i den afhængige variable yyy

I forhold til at bedømme om forklaringskraften er høj eller lav, så er det vigtigt at tage højde for hvilke variable, der er med i modellen. Er det fx andre ting der kan påvirke variablerne? Altså hvad mangler for at opnå en højere forklaringskraft?Kan vi forvente at sammenhængen mellem variablerne er lovmæssig? Er det fx økonomiske sammenhænge eller sociologiske?

Inden for fysik og matematik vil man gerne have en R2-værdi så tæt på 1,00 eller 100 %. Det kan vi dog ikke forvente inden for samfundsvidenskaberne.