Meningsmålinger – hvad kan vi sige med sikkerhed?

Jeg vil i dette indlæg præsentere en statistiske metode, der gør en i stand til at sige noget “med sikkerhed” om populationen omkring meningsmålinger og andre stikprøver.

Aviserne bruger af og til meningsmålinger, når de fx skal beskrive den politiske udvikling. Journalisten vil typisk se på hvilke partier, der er gået frem og hvilke der er gået tilbage, disse bevægelser forklares ofte med de begivenheder, der leder op til tidspunktet for meningsmålingen. Det kan fx være uro i partiet eller som vi skal se her: valget af en ny formand. Det hænder, at journalisten eller de politiske kommentatorer kan udlede mange forklaringer på, at et parti har bevæget sig 1 procent i mellem to meningsmålinger.

For eksempel kan man i Politiken d. 26/10-2012 læse at:

I en ny meningsmåling foretaget af Megafon for Politiken og TV 2 står Socialistisk Folkeparti til at høste 5,8 procent af stemmerne. Det er en lille tilbagegang på 0,7 procentpoint i forhold til partiets tilslutning i september – før valget af Vilhelmsen – og 3,4 procentpoint færre end vælgertilslutningen under Villy Søvndals ledelse ved folketingsvalget i fjor.

Den 23/10-2012, tre dage forinden, kunne man dog læse følgende fra Ritzau:

SF’s nye formand, Annette Vilhelmsen, kan glæde sig over fremgang i den første Voxmetermåling, der er foretaget for Ritzau, efter at hun afløste Villy Søvndal som formand. Efter i flere målinger at have været under 6 pct. af stemmerne går SF frem til 7,9 pct. Samtidig er Socialdemokraterne for første gang siden foråret over 20-pct.- grænsen og står til at få 20,4 pct. af stemmerne, mens De Radikale går frem til 9,8 pct. af stemmerne.

Efter at have læst de to artikler, kan vi have svært ved at bedømme “Vilhelmsen”-effekten, i stedet kan vi undrer os over at SF er gået tilbage i Megafons måling og frem i Voxmeters?

Hvordan kan det nu hænge sammen?

Når vi statistisk skal behandle en meningsmåling og vi gerne vil sige noget om bevægelser, så kan vi teste om forskellen mellem de to målinger er signifikante. Til at starte med vil vi dog først udregne konfidensintervallet for et par partier, indlægget vil senere blive opdateret med “test for forskelle mellem to andele”. Konfidensintervallet giver os et bud på andelen af vælgere, der vil stemme på et parti, inden for et interval. Intervallet vil have en “sikkerhed” på 95 procent. Dette gør os i stand til at sige med 95 procent sikkerhed, hvor stor andelen af SF-vælgere vil være (inden for et interval på typisk 3-6 pct.-point), hvis der var valg i dag. Det vil i praksis sige, at der skal en større forskydning til, før vi kan tale om en signifikant fremgang eller tilbagegang. Formuleret på en anden måde betyder et 95 procent konfidensinterval, at hvis stikprøven er repræsentativ, så vil den faktiske andel af SF-vælgere i 95 ud af 100 stikprøver ligge inden for konfidensintervallet. Det betyder også, at ønsker man et 99 procent konfidensinterval, så bliver intervallet også bredere end for et 95 procent konfidensinterval.

Nedenfor ses meningsmålingen fra Megafon og som Politiken henviser til. Her kan vi se at Megafon selv angiver usikkerheden til “Op til +/- 3. pct.-point”. Det betyder at Socialdemokraterne vil få mellem 17,4 og 23,4 procent af stemmerne, hvis der var valg. Spændet kalder vi et konfidensinterval. Vi vil dog beregne vores egen usikkerhed.

Udregning af konfidensinterval for andele

Den første vi kan regne ud er konfidensintervallet (kaldes også sikkerhedsintervallet). Med konfidensintervallet forsøger vi at sige noget om hvor stor andelen, fx et partis andel af stemmer i dette tilfælde, vil være i populationen – dvs. hvor mange stemmer partiet ville få hvis der var valg nu. Forskellen på en population og en stikprøve er at vi i stikprøven, som her er en meningsmåling, kun har spurgt 820 personer, men der findes jo mange flere vælgere, så derfor er der også en vis usikkerhed, for er de 820 personer udgør ikke en fuldstændig repræsentativ af alle vælgerne. Det er vi dog grundlæggende nødt til at antage når vi laver meningsmåling, nemlig at de personer der deltager er tilfældig udvalgt blandt populationen.

Her vises formelen for beregningen af konfidensintervallet for andele:

Hvor π-hat er andelen – i dette tilfælde andelen af stemmer.
z-værdien er afhængig af hvor “sikker” vi vil være. I en undersøgelsen med over 100 respondenter bruger vi z-værdierne 1,96 for et 95 procent konfidensinterval og 2,58 for et 99 procent konfidensinterval.
n er antallet af respondenter – i undersøgelsen fra Megafon kan vi se at det er 820 personer.

Det der står under rod-tegnet er udtryk for usikkerheden. Herfra kan man udlede at jo flere respondenter (n) vi spørger, des mindre bliver usikkerheden.
±-tegnet betyder, at vi beregner usikkerheden på begge sider.

Lad os nu prøve at beregne et 95 pct. konfidensintervallet for SF i den nyeste måling. Så diskuterer vi bagefter, hvad de intervallet betyder.

π-hat er lig med 0,058 eftersom andelen af respondenter, der vil stemme SF i meningsmålingen er 5,8 pct. For et 95 pct. konfidensintervallet bliver udregningen således:

Hvad betyder konfidensintervallet så?

Vi kan med de statistiske beregninger konkludere, at vi med 95 pct. sikkerhed kan sige, at SF vil få mellem 4,2 og 7,4 pct. af stemmerne, hvis der var valg d. 24. oktober. Tallene er dog kun valide, hvis respondenterne i meningsmålingen er tilfældigt udvalgt blandt alle stemmeberettigede dansker.

Men nu siger Politiken at SF er gået 0,7 pct. tilbage i forhold til september måned, hvor SF fik 6,6 pct. af stemmerne i meningsmålingen. Vores beregninger viser dog, at partiet ligeså godt kunne være gået frem, for de 0,7 pct. de er “gået tilbage” kan meget vel være usikkerheden der spiller ind. Det kan måske også forklare, at Ritzau har fået en måling hvor SF står til 7,9 pct. af stemmerne. SF’s andel af stemmer kunne også være 4,2 pct., hvis vi ser på vores konfidensinterval, hvilket må betegnes som en tilbagegang.

Det er altså på nuværende tidspunkt for usikkert at konkludere noget omkring SF fremgang eller tilbagegang når udsvingene i procentpoint er så små. For at få nogle mere retvisende resultater, kan man spørge flere respondenter, dvs. ringe rundt og interviewe flere vælgere. Det vil dog være en bekostlige affære for analyseinstituterne, hvor standard er ca. 1000 respondenter pr. meningsmåling.

Opgave

Prøv at beregne et 99 pct. konfidensinterval ved at skifte z-værdien (1,96) ud med 2,58. Hvordan har intervallet ændret sig og hvorfor? Hvad kan vi nu sige med intervallet?

Kenneth Madsen, d. 29. oktober 2012