Lineær regression

http://www.ilgustofascuola.it/coppia-cerca-donna-verona/ Klik her for at se hvordan man laver lineær regression i Excel til eksamen/de skriftlige opgaver

1. Indledning

http://www.vias.org/science_cartoons/regression.html
Kilde: http://www.vias.org/science_cartoons/regression.html

Er livet og dermed os mennesker så lovmæssigt at man kan sige at en egenskab påvirker en anden?

Når I sidder her i gymnasiet og målrettet regner med at læse videre, så øger I hele tiden det antal år I er under uddannelse. Måske gør I det med det formål at øge jeres indkomst når I senere beslutter jer for at træde ud på arbejdsmarkedet.

Det kunne derfor være rart at vide, om der var en sammenhæng mellem antallet af år, man har brugt på uddannelse og ens indkomst. Det kan man fx undersøge ved at se om der er en sammenhæng mellem antal års uddannelse og indkomst, som man har gjort i opgaven nedenfor.

I ovenstående er indkomst målt som andelen af personer som har en indkomst under 100.000 kr. pr. år. Er procentandelen lav, så tjener de fleste over 100.000 kr. Vi kan ud fra punkterne se en tendens til at procentandelene bliver lavere jo flere års uddannelse man har. Det ser altså ud til, at jeres anstrengelser i skolen senere kommer til at give bonus.

I ovenstående figur  undersøger man om sammenhængen følger en lineær model. Den er illustreret i den tendenslinje, som er tegnet gennem figuren. Vi forsøger altså at sætte samfundet på en matematisk model. Herefter tolker vi på forskriften (ligningen) for modellen og måler modellens kvalitet i form af forklaringskraften R2.

2. Årsagssammenhæng/kausalitet

Det første vi skal gøre er at afklare årsagssammenhængen, hvilket betyder at vi skal undersøge om effekten går den ene eller den anden vej. Vi står derfor overfor en række muligheder:

Uddannelsesår donna cerca uomo Cesena –> Indkomst (Antallet af uddannelsesår påvirker ens senere indkomst)

Indkomst click –> Uddannelsesår (Ens indkomst påvirker antallet af uddannelsesår)

Uddannelses donna cerca uomo Prato <–> Indkomst (Begge variabler påvirker hinanden)

Uddannelses donna cerca donna Catania Indkomst (Variablerne påvirker ikke hinanden)

Når vi laver en lineær regression kan vi ikke sige noget om hvilken af ovenstående sammenhænge er sande. Det er vi nødt til at ræsonnere os frem til. Det vil vi gøre ved at se på, hvad der kommer først i tid.

Her det vil derfor være mærkeligt hvis ens indkomst kom før uddannelse. Det vil betyder at indkomsten skulle påvirke antallet af uddannelsesår. Et mere ekstremt eksempel ville være hvis indkomst skulle påvirke køn. Her er det nok mest sandsynligt at køn påvirker indkomsten. Det samme gør sig også gældende for indkomst. En lav indkomst vil nok ikke påvirke antallet af uddannelsesår.

Regressionen kan dog fortælle os, hvilken retning sammenhængen er, dvs. om en øgning i antal år brugt på uddannelse vil have en positiv eller negativ effekt på ens indkomst. Her vil vi nok forvente, at det vil have en positiv effekt, så vi får en højere indkomst jo flere år vi har brugt på uddannelse – ellers bør man da overveje at droppe ud! Retningen i ovenstående figur ser dog positiv ud. Vi kan lære mere om hvor meget et års ekstra uddannelse mindsker risikoen for at tjene under 100.000 kr. om året, hvis vi ser på forskriften for den lineær model, som er angivet i figuren.

3. Forskriften for modellen

Y = ax + b

Y = Afhængig variabel – den vi forsøger at forudsige med de uafhængige variabel, fx Y = Andelen af personer med en indkomst under 100.000 kr. pr. år.

b = konstanten – der hvor linjen møde nul på x-aksen. Her 0,28 hvilket betyder at 28 % af folk som har 0 års uddannelse tjener under 100.000 kr. pr. år. Det er ingen i Danmark med 0 års uddannelse. Det mindste i dataet er 7 år, så det giver i dette eksempel ikke mening at tale om 0 års uddannelse.

a = den uafhængige variabel = Antal års uddannelse. Her står der -1,31 hvilket betyder at få hvert års uddannelse så falder andellen af personer som tjener under 100.000 kr. med 1,31 procentpoint.

En samlet tolkning af foreskriften i ovenstående figur kunne derfor lyde:
Forskriften y = -1,31x + 0,28 betyder at ét års uddannelse mindsker andelen som tjener under 100.000 kr. pr. år med 1,31 procentpoint. Dvs. jo flere år brugt på uddannelse jo lavere sandsynlighed for at tjene under 100.000 kr. pr. år.

4. Forudsætninger for lineær regression

4.1 Prikkernes placering omkring tendenslinjen

For at kunne lave en lineær regression, skal dataet/empirien og dermed sammenhængen i ”virkeligheden” være nogenlunde lineær. Der kan man tjekke ved at se hvordan prikkerne fordele sig omkring tendenslinjen. I ovenstående figur fordele prikkerne sig nogenlunde omkring tendenslinjen. Der er dog lidt større afstand i starten end i slutningen, samt at det ser ud til at prikkerne går lidt op, så ned, så op igen. Vi bør derfor være lidt forbeholden over for konklusionerne.

4.2 Variablernes egnethed

Variablerne skal være intervalskaleret, dvs. være fx indkomst eller andre variable med ”mange” muligheder. Det er set før at der i eksamensopgaven til den skriftlige eksamen anvendes variable som ikke er intervalskaleret. Kommentér gerne på det fx ved at skrive at det er nødvendigt at tage forbehold for resultatet, da en eller begge af variablerne ikke er intervalskaleret.

Ovenstående figur 2 fra studentereksamen 2013  bliver det mere eller mindre kringlet når y-aksen er angivet som andelen af folk med en indkomst under 100.000 kr.  Det ville være nemmere, hvis det var personlig indkomst, og i dette tilfælde omregnet til gennemsnitlig indkomst for de forskellige antal års uddannelse.

5. Tolkning af R2

Måler hvor god modellen er til at forklare Y (den afhængige variabel) i forhold til en vandret linje (= gennemsnittet af Y). Hvis den lineære model med en uafhængig variabel ikke bidrager til at forklare Y, så fås en lav R2-værdi, og vi kan derfor ligeså godt gætte på gennemsnittet af Y.

R2-værdi går fra 0 til 1 og angives også nogle gange i procent, (R2 = 0,25 eller R2 = 25 %). Vi bruger gerne følgende formulering til at kommentere på den lineær regression:
Regressionsmodellen giver en forklaringskraft R2 på 0,32, hvilket betyder at den lineære model med den uafhængige variabel xxx kan forklare 32 % procent af variationen i den afhængige variabel yyy.

Bruger man det på ovenstående figur kan vi skrive følgende:
Regressionsmodellen giver en forklaringskraft R2 på 0,51, hvilket betyder at den lineære model med den uafhængige variable “Antal års uddannelse” kan forklare 51 procent af variationen i den afhængige variable “Andel personer med en indkomst under 100.000 kr. pr. år.”

5.1 Forklaringskraften

I forhold til at bedømme om forklaringskraften er høj eller lav, så er det vigtigt at tage højde for hvilke variable, der er med i modellen, samt forventningen til styrken i sammenhængen. Det ser vi nærmere på nedenfor.

Variablerne
Er det fx andre ting der kan påvirke variablerne? Altså hvad mangler for at opnå en højere forklaringskraft?
I det tilfælde med Figur 2 kunne det fx være om man var i arbejde eller ej, som også havde (stor) indflydelse på ens indkomst. Arbejdsløse akademikere, studerende osv. tjener mindre end folk i arbejde. Der ses i Figur 2 kun på antal års uddannelse og altså ikke om man stadig er studerende, arbejdsløs eller i arbejde.

Forventninger til sammenhængene
Kan vi forvente at sammenhængen mellem variablerne er lovmæssig? Er det fx økonomiske sammenhænge eller sociologiske?
Inden for fysik og matematik vil man gerne have en R2-værdi så tæt på 1 eller 100 %. Så høje R2-værdier kan vi dog ikke forvente at få inden for samfundsvidenskaberne. Vi kan dog i nogle tilfælde forvente at sammenhængene er lidt mere forudsigelige, når det drejer sig om økonomi end om sociologi. Og det er alene ud fra den antagelse om at økonomisk adfærd er mere lovmæssig end sociologisk adfærd.

One thought on “Lineær regression”

Der er lukket for kommentarer.