Gebruiksvriendelijkheid van webenquetes

Expertise > Onderzoekspublicaties > Gebruiksvriendelijkheid van webenquetes

Chris Snijders en Uwe Matzat (Technische Universiteit Eindhoven) Bart Pluis (PanelClix) en Wiggert de Haan (Isiz)



1 - Inleiding



Gebruiksvriendelijkheid bij webenquêtes is erg belangrijk. Hoe gebruiksvriendelijker de webenquête, hoe hoger de kans is dat de respondent de enquête serieus invult en geheel afmaakt.

Een korte enquête maakt de kans groter dat de vragenlijst geheel wordt ingevuld. Dit zou ervoor pleiten de antwoorden compact neer te zetten (Dropdowns in plaats van Radiobuttons, dubbele rijen antwoorden, etc). Volgens o.a. Dillmann (zie het standaardwerk Dillman, 1999) gaat een hoge gebruiksvriendelijkheid samen met veel witruimte, wat op zijn beurt weer zorgt voor lange vragenlijsten. Gaat het compact maken van vragen ten koste van de kwaliteit van de response?

In dit document worden de resultaten gepresenteerd van een studie uitgevoerd door de Technische Universiteit Eindhoven. De mensen die zijn benaderd voor dit onderzoek komen uit het panel van PanelClix. De webenquête is geprogrammeerd door Isiz. Er is gekeken of de lay-out van vragen invloed heeft op de kwaliteit van resultaten. De volgende variaties zijn toegepast.

  • Enkelvoudige vragen: Dropdowns versus Radiobuttons;
  • Schaalvragen: Radiobuttons versus sliders;
  • Meerkeuzevragen: het gebruik van meerdere rijen antwoorden.

Bij onervaren respondenten maakt het wel degelijk verschil of de antwoorden in de vorm van Radiobuttons worden weergegeven of dat ze als Dropdown worden aangeboden. Daarnaast zijn er significante verschillen in de resultaten wanneer een schaalvraag als Radiobutton wordt aangeboden versus als slider control. Het maakt ook uit of een antwoord in de eerste kolom staat of in de tweede.


2 - Vragen met Dropdowns versus vragen met Radiobuttons



2.1 Inleiding

Zowel Radiobuttons als Dropdowns zijn veelgebruikte weergave opties van vragen in online onderzoek. Beide controls kunnen worden gebruikt voor enkelvoudige multiple-choice vragen. In dit deelonderzoek wordt gekeken naar het verschil in antwoordpatronen tussen Radiobuttons en Dropdowns, om erachter te komen of dit tot verschillende antwoordpatronen leidt.

Omdat Radiobuttons meer ruimte innemen dan Dropdowns wordt er in diverse webenquêtes regelmatig gekozen voor Dropdowns. Maar is dit verstandig? Komt dit ten goede aan de datakwaliteit?

Men zou kunnen veronderstellen dat Radiobuttons overzichtelijker zijn om in te vullen, maar omdat Dropdowns een bekend Windows besturingselement zijn zou men ook verwachten dat het niet veel uit maakt. De onderstaande figuur geeft een voorbeeld van antwoordcategorieën met behulp van Dropdowns versus met behulp van Radiobuttons. Belangrijk verschil – nu niet te zien in de figuur – is dat bij een Dropdown in eerste instantie geen enkel (of hooguit één) antwoordcategorie te zien is. De andere categorieën komen pas te voorschijn als de respondent op het pijltje heeft geklikt.


2.2 Het onderzoek

Eenvoudige lay-out

In dit onderzoek zijn 2 verschillende soorten vraagstellingen getoetst. Het gaat hierbij om een enkelvoudige meerkeuze vraag (eenvoudige lay-out) en een batterijvraag met meerdere enkelvoudig meerkeuze vragen (complexe lay-out).

Voor de eenvoudige lay-out zijn een viertal vragen over internet aankopen gesteld. Er werd gevraagd naar koop- en verkoopgedrag, betalingen via internet en of de respondent wel eens is opgelicht bij het doen van een betaling.

    Bij deze vragen zijn vier variaties vergeleken:
  • Dropdowns
  • Radiobuttons
  • Dropdowns omgekeerd (antwoorden in omgekeerde volgorde)
  • Radiobuttons omgekeerd (antwoorden in omgekeerde volgorde)

Eén van deze vragen was bijvoorbeeld:

Hoe vaak heeft u producten of diensten aangeschaft via online veilingen of marktplaatsen zoals eBay, Marktplaats, ViaVia, etc.

    Deze vraag had de volgende antwoord categorieën:
  • A. Nooit
  • B. Minder dan 5 keer
  • C. 5 tot 10 keer
  • D. 10 tot 20 keer
  • E. 20 tot 50 keer
  • F. 50 tot 100 keer
  • G. Meer dan 100 keer

Complexe lay-out (batterijvraag)

Voor de complexe lay-out (batterijvraag) is gekozen voor de “position generator”. Dit is een in de sociale wetenschappen gebruikelijke manier om het “sociale netwerk” van de respondent in kaart te brengen (Lin & Dumin, 1986; van der Gaag en Snijders, 2003). De vraag meet het aantal contacten/bekenden in verschillende soorten beroepsgroepen. Voor een lijst (batterij) van 30 beroepen wordt gevraagd of de respondent iemand met een soortgelijk beroep kent, en hoe de relatie met deze persoon is. Hierbij geldt: 0=nee, 1= ja een kennis, 2= ja een vriend, 3=ja een familielid. Een hogere gemiddelde score over alle beroepen duidt op iemand met een uitgebreider sociaal netwerk.

    Voor deze vraag zijn twee variaties getest
  • Dropdowns
  • Radiobuttons

2.3 De resultaten

Eenvoudige lay-out

Een frequentietabel laat duidelijke verschillen zien tussen de verschillende variaties die zijn voorgelegd aan de respondenten. We geven hier de resultaten voor één van onze vier vragen weer:

Een Chi2-toets (een statistische toets om te berekenen of 2 of meer populatie distributies van elkaar verschillen) laat zien dat we moeten verwerpen dat deze vier condities tot dezelfde antwoorden leiden (p=0,001). Niet alleen bij deze vraag is de p-waarde laag, maar ook voor de drie andere eenvoudige lay-out vragen is dit het geval (p=0,035/0,009/0,001).

Als we de richting van de verschillen bekijken, dan zien we dat de laagste score (gemiddeld 1.97) wordt verkregen bij een dropdown, dan bij een radio-button (2.07), daarna de omgekeerde drop-down (2.15) en de omgekeerde radio-button (2.25). Met andere woorden: bij zowel Radiobuttons als Dropdowns wordt meer gebruik gemaakt van de categorieën die bovenaan staan (dit heeft een grotere invloed dan het effect van al dan niet een Radiobutton gebruiken). Daar bovenop zal bij een Dropdown box nog meer gebruik gemaakt worden van de bovenste antwoord categorieën dan bij een Radiobutton.

Om een gevoel te krijgen voor de grootte van de verschillen: als er gekeken wordt naar de categorie “nooit”, dan zie je dat deze categorie 1,5 a 2 procentpunten vaker voorkomt bij de Dropdowns. Dat is overigens net te weinig om statistisch significant te zijn in een steekproef van deze grootte. Als deze antwoordcategorie “nooit” bovenaan staat wordt hij 4 a 5 procentpunten vaker aangeklikt (ten opzichte van geheel onderaan).

Binnen de groep van respondenten (N=756 tot N=838 per variatie) is een subgroep te definiëren die voornamelijk verantwoordelijk is voor deze afwijking: de respondenten die Pagina 5 van 21 weinig ervaren deelnemers aan PanelClix vragenlijsten zijn. De verwachting is dat dit ook een groep is die over het algemeen minder computer ervaring heeft, maar dit hebben we hier verder niet vergeleken. Bij degenen die vaker dan 4 keer in de afgelopen 12 maanden hebben meegedaan aan online onderzoek bij PanelClix (dit is minder dan de helft van de deelnemers), zijn de verschillen veel kleiner. Het verschil tussen de antwoorden bij de “nooit” categorie is dan zelfs volledig weg!

Complexe lay-out (batterijvraag)

Bij de analyse van de batterijvraag is in eerste instantie geen verschil tussen de condities te zien. De gemiddelde scores op de vragen zijn nagenoeg hetzelfde:

Dropdown per regel:Gemiddelde = 1,87 (N=362)
Radiobutton per regel:Gemiddelde = 1,86 (N=575)

Maar indien er betrouwbaarheidswaardes voor beide condities worden uitgerekend (Cronbach’s Alpha), zijn er wel verschillen:

Dropdown per regel:Betrouwbaarheid = 1,70 (N=362)
Radiobutton per regel:Betrouwbaarheid = 1,82 (N=575)

Hieruit kan worden geconcludeerd dat het meten met Radiobuttons in dit geval betrouwbaarder is. Ook als we alleen letten op de nee/ja antwoorden en verder geen verschil maken naar hoe goed iemand een persoon kent blijven deze bevindingen staan.

Dropdown per regel:Gemiddelde = 1,50 Betrouwbaarheid = 0,78
Radiobutton per regel:Gemiddelde = 1,50 Betrouwbaarheid = 0,87


2.4 Conclusie & aanbevelingen

Naar aanleiding van de analyses hierboven kan het volgende worden geconcludeerd:

Multiple choice vragen (eenvoudige lay-out)

Bij ratio, interval en ordinale schalen kan afwijking op “bovenste antwoorden” worden tegengegaan door de antwoorden per respondent oplopend en afwisselend te variëren. De software zou dan willekeurig kunnen bepalen of de respondent de oplopende of aflopende versie van de vraag krijgt. Dit zorgt er in ieder geval voor dat de afwijking over alle respondenten wordt “uitgemiddeld”.

Bij nominale schalen zouden de antwoorden geheel willekeurig getoond kunnen worden. Vaak wordt er voor een alfabetische volgorde gekozen, omdat de respondent dan de antwoorden sneller terug kunnen vinden. Bij een relatief klein aantal antwoordcategorieën speelt dit minder en is eerder randomisatie aan te raden.

Multiple choice vragen (eenvoudige lay-out)

Bij batterijvragen heeft het de voorkeur om de antwoorden door middel van Radiobuttons weer te geven in plaats van Dropdown boxes. De Cronbach’s Alpha waarde is duidelijk hoger (en dus de antwoorden betrouwbaarder).


2.5 Vragen met Sliders versus vragen met Radiobuttons

Inleiding

Bij schaalvragen (bijvoorbeeld zeer slecht t/m zeer goed) wordt bij online onderzoek vaak gebruik gemaakt van Radiobuttons. Sommige survey software ondersteunt ook het gebruik van zogenaamde “sliders”. Door middel van een slider kan een wijzer of aanwijspunt gesleept worden van de ene kant van de schaal naar de andere kant van de schaal (zeer slecht tot zeer goed in dit voorbeeld). Deze slider is technisch lastiger, en werkt niet altijd vlekkeloos bij alle soorten browsers. Radiobuttons zijn eenvoudiger te implementeren in webenquêtes, maar kan op basis van onderzoek een voorkeur voor een van beiden worden uitgesproken? En is er een verschil te vinden tussen in antwoorden bij schaalvragen met Radiobuttons en schaalvragen met sliders?

Een slider geeft een veel “nauwkeuriger” resultaat dan een Radiobutton. Bij een 5 punts schaal van Radiobuttons kan het antwoord 1 t/m 5 zijn. Een slider kan al snel een score tussen 0 en 100 aangeven. Strikt genomen zou men kunnen verwachten dat als de resultaten van een slider worden teruggecodeerd naar een 5-punts schaal er dezelfde antwoorden zouden moeten komen. Onderstaande figuur geeft een voorbeeld van zo’n slider.

In ons onderzoek is de implementatie van de slider als volgt uitgevoerd. De slider werd steeds standaard op de linkse positie gezet. Respondenten moeten in ieder geval klikken op de slider, anders telde hun antwoord als . Nadat op de slider was geklikt, kon de respondent deze verslepen naar rechts (en weer terug) en zo een positie op het continuüm bepalen.


2.6 Het onderzoek

In het onderzoek zijn 16 soortgelijke vragen gesteld om erachter te komen of het verschil maakt of een schaal door middel van een slider of een Radiobutton wordt gesteld. In deze whitepaper wordt – omwille van de leesbaarheid – één van de 16 vragen uitgelicht.

Aan 3006 respondenten is de volgende vraag gesteld:

Hoe beoordeelt u de Nederlandse samenleving wat betreft het gedrag van de Nederlandse regering in de situatie met Irak?

Deze en de andere 15 gestelde vragen gingen over te toestand in de wereld en komen uit onderzoek van het Sociaal Cultureel Planbureau. Deze 16 vragen zijn onderverdeeld in twee batterijvragen van 8 stellingen. Voor de respondenten waren dit vraag 9 en vraag 14 uit een langere survey.


2.7 De resultaten

Totaal 1507 respondenten hebben bovenstaande vraag door middel van Radiobuttons beantwoord (zeer slecht, slecht, neutraal, goed, zeer goed). Totaal 1499 respondenten hebben deze vraag beantwoord met een slider. Op de slider stonden ook de vijf antwoorden, maar de respondent had de mogelijkheid de slider ook tussen de antwoorden te plaatsen. De schaal liep van 0 tot 100.

Hieronder een frequentietabel van de antwoorden bij de Radiobutton:

Wanneer de antwoorden van de slider vraag worden teruggecodeerd naar een 5 punts schaal levert dat onderstaande tabel op:

In plaats van 13% en 1% in de extreme categorieën vinden we nu 29% en 4%. Dit is geen toeval. Als we de andere 15 vragen op dezelfde wijze vergelijken dan kunnen we in alle 16 gevallen op ieder redelijk significantieniveau verwerpen dat deze twee wijzen van vragen stellen dezelfde resultaten opleveren.

Deze batterijen van vragen zijn niet heel erg geschikt om een schaalwaarde op uit te rekenen omdat ze niet heel netjes hetzelfde onderliggende begrip meten. Als we dit toch Pagina 8 van 21 doen, dan zien we licht hogere schaalwaardes voor de slider variant. 0,65 voor de Radiobuttons versus 0,71 voor de sliders.


2.8 Conclusie & aanbevelingen

Sliders hebben voor de hand liggende nadelen: ze duren iets langer met invullen en in zekere zin leveren ze een “schijnnauwkeurigheid”. We mogen namelijk niet aannemen dat iemand die met de slider <34> invult een echt sterkere voorkeur heeft dan iemand die <35> invult. De sliders leveren echter ook een grotere spreiding, zelfs als de sliderantwoorden worden teruggecodeerd naar 5 categorieën. Wat de “juiste” antwoorden zijn, kunnen we op basis van ons onderzoek niet concluderen, maar onze voorkeur ligt voorlopig bij het aanbieden van sliders. De gevonden categorieën dienen in ieder geval te worden teruggecodeerd om schijnnauwkeurigheid te vermijden.

In dit onderzoek zijn sliders gebruikt die “traploos” zijn ingesteld. Het is met een slider ook mogelijk trapjes (of ticks) in te bouwen. Op dat moment kan de respondent niet elke willekeurige positie met een slider aangeven, maar de door de onderzoeker aangegeven posities. De slider is zo gebouwd dat de slider eerst bewogen moet worden voordat deze de waarde kan opslaan. Met andere woorden: Indien de slider niet bewogen is, zal deze aangeven dat het antwoord niet is ingevuld. Het is nog onbekend wat de verschillen zijn tussen sliders zonder trapjes en met trapjes.


3 Prestatie van meerkeuze antwoorden in 2 kolommen



3.1 Inleiding

Indien de respondent tijdens het invullen van een webenquête niet hoeft te scrollen is de kans dat deze voortijdig afbreekt veel kleiner. Dit is gebleken uit diverse abort/exit analyses door Isiz intern gehouden. De lay-out van vragen op het scherm is een lastig onderwerp. Hoewel we weten dat het van groot belang is, zijn algemene richtlijnen vaak moeilijk te geven (zie bijvoorbeeld het standaardwerk van Dillman, 1999). Zo is het van belang om helder en gestructureerd de vragen aan te bieden, met veel witruimte, maar als dat tot scrollen leidt, is het middel wellicht erger dan de kwaal.
Op een standaard webpagina (1024x768) passen volgens dit principe circa 15 regels met antwoorden, rekening houdend met navigatie controls, omringende lay-out, toolbars, etc. Indien een vraag meer dan 15 antwoorden heeft, wordt er dan ook doorgaans voor gekozen de antwoorden in te delen in 2 of meer verschillende kolommen naast elkaar. Maar wat voor invloed heeft dat op de gekozen antwoorden? Beïnvloedt het weergeven van antwoorden in meerdere kolommen de resultaten? Bij kleine aantallen antwoorden zou men verwachten dat het niet uitmaakt of een antwoord in de eerste of tweede rij staat. Dat blijkt echter toch een verschil te maken.


3.2 Het onderzoek

We hebben in dit onderzoek gekeken naar de zogenaamde meerdere antwoorden mogelijk vragen. Het ging om vragen van het volgende type:

Voor welke doeleinden heeft u het internet tijdens de afgelopen 3 maanden gebruikt? meer antwoorden mogelijk
 
Communicatie met vriendenmuziek downloaden
Zoeken van informatievideo’s downloaden
Spelletjes spelenonline shopping
Zakelijke communicatievoor iets anders, nl.:_________

Respondenten konden zo veel vakjes als nodig aanklikken. De antwoordcategorieën staan hier (en ook online) naast elkaar (2x4) en niet onder elkaar.

In het onderzoek zijn 8 verschillende vragen met een lay-out zoals hierboven aangegeven gebruikt. In het onderzoek is gevarieerd met de linker en de rechter kolom. De ene respondent kreeg bijvoorbeeld communicatie met vrienden t/m zakelijke communicatie in de linker rij aangeboden, terwijl de andere respondent deze in de rechterrij voorgeschoteld kreeg.


3.3 De resultaten

De resultaten analyseren we als volgt. Per vraag hebben we effectief 7 antwoordcategorieën die we vergelijken; de “voor iets anders” categorie sluiten we voor het gemak even uit. Er zijn 8 verschillende vragen dus 8x7=56 antwoord categorieën in totaal. Voor deze 56 kunnen we het aantal malen dat ze zijn aangeklikt vergelijken voor het geval ze in de linkerrij stonden versus het geval dat ze in de rechterrij stonden.

Het verschil tussen de linker- en rechterrij in procentpunten kan in de volgende tabel worden teruggevonden:



Het verschil varieert behoorlijk, maar is altijd groter dan nul, en het verschil is gemiddeld genomen 3,5 procentpunt. Het grootste deel van de verschillen zit tussen de 1,5 en 8,5 procentpunt. In alle onderzochte gevallen vinden we dat een antwoordmogelijkheid in de linker rij vaker wordt gekozen dan in de rechter rij.


3.4 Conclusie & aanbevelingen

Voor sommige toepassingen is een verschil van 1,5 tot 8,5 procentpunt mogelijk acceptabel; wetende dat deze afwijkingen plaatsvinden zal het wel een reden zijn om voorzichtigheid in acht te nemen. Bij 8 antwoorden kunnen de antwoorden lay-out technisch nog prima onder elkaar staan (deze mogelijkheid is in dit onderzoek niet onderzocht).

Eventueel kunnen de antwoorden ook worden gerandomiseerd. Bij grote lijsten van bijvoorbeeld merken geeft dit weer een negatieve invloed op de gebruiksvriendelijkheid van de vragenlijsten. Bij lijsten waar een respondent niet direct op een naam zal zoeken en alfabetisering minder nodig is, is raden we randomisatie daarom aan. Dat zorgt er in ieder geval voor dat de neiging van mensen om meer de linker rij te gebruiken, wordt uitgemiddeld.

In dit onderzoek is niet de mogelijkheid gebruikt om een limiet te stellen aan het aantal antwoorden dat gegeven kan worden. Het zou kunnen zijn dat indien de respondent gelimiteerd wordt in het aantal antwoorden dat deze mag geven er beter wordt nagedacht over de keuzes die gemaakt kunnen worden. Dit zou dan weer tot betere resultaten kunnen leiden. Hierbij zou de limiet ruim gekozen kunnen worden, het gaat namelijk immers om het idee dat de respondent beperkt is.


Referenties



Dillman, D.A. (1999) Mail and Internet surveys : The tailored design method. New York: Wiley.

Lin, N.; Dumin, M. (1986) Access to occupations through social ties. Social Networks 8: 365-385.

van der Gaag, M. en Snijders, T.A.B. (2003) A comparison of measures for individual social capital. http://www.xs4all.nl/~gaag/work/

De webenquete die gebruikt is tijdens het onderzoek is terug te vinden op http://www.isiz.nl/whitepapers.


Bijlagen:



Enkelvoudige vragen: Dropdowns versus Radiobuttons;

Eenvoudige Lay-out – Dropdowns

Eenvoudige Lay-out – Radiobuttons

Complexe lay-out – Batterijvraag – Dropdowns

Complexe lay-out – Batterijvraag – Radiobuttons

Schaalvragen: Radiobuttons versus sliders;

Radiobuttons

Sliders


Meerkeuzevragen: het gebruik van meerdere rijen antwoorden.

Variant A:

Variant B: