Het gebruik van voortgangsbalken in online vragenlijsten

Expertise > Onderzoekspublicaties > Het gebruik van voortgangsbalken in online vragenlijsten

Chris Snijders en Uwe Matzat (Technische Universiteit Eindhoven) Bart Pluis (PanelClix) en Wiggert de Haan (Isiz)



Bij markt en beleidsonderzoek wordt in toenemende mate gebruik gemaakt van online datacollectie. In deze studie onderzoeken we de factoren die samenhangen met het afhaken van personen tijdens het invullen van een vragenlijst. De nadruk ligt hierbij op de effecten die het gebruik van een voortgangsbalk heeft. We onderzochten de effecten van vijf verschillende manieren om de voortgang tijdens een vragenlijst aan deelnemers aan te geven: (1) geen voortgangsbalk, (2) een mededeling “nog "X" pagina’s” op iedere pagina, (3) een standaard voortgangsbalk, (4) een progressieve voortgangsbalk en (5) een degressieve voortgangsbalk. Het invullen van onze online vragenlijst duurde gemiddeld ruim 20 minuten, wat in overeenstemming was met de in de uitnodiging aangegeven tijd. Totaal 3266 personen gingen op onze uitnodiging in en klikten door naar de online vragenlijst. Hiervan haakte 496 personen vroegtijdig af. Als we kijken naar wanneer men eerder geneigd is om de vragenlijst af te maken dan vinden we onder andere dat dit eerder gebeurd bij ouderen, als een uitnodiging met uitgebreide toelichting werd geschreven, als men meer ervaren was in het invullen van vragenlijsten en als een hogere beloning werd beloofd. Onze belangrijkste conclusie over het weergeven van de voortgang van de vragenlijst is echter dat het over het algemeen weinig zinvol is om een voortgangsbalk aan te geven. Onze basisconditie, waarin we gedurende de hele vragenlijst geen enkele aanwijzing gaven over de voortgang, had een hoog – vaak het hoogste – responspercentage.


1 - Inleiding



Een hoge respons bij (online) onderzoek is om verschillende redenen van belang. Een hoge respons vergroot de nauwkeurigheid van de uitspraken die kunnen worden gedaan en verhoogt in het algemeen de representativiteit van de steekproef doordat het de selectiviteit van de steekproef verkleind. De eerste manier om tot een hoge respons te komen is een aantrekkelijke uitnodiging. Zodra men echter op deze uitnodiging heeft gereageerd, is het van belang om ervoor te zorgen dat degenen die aan de vragenlijst beginnen, deze ook daadwerkelijk afmaken. In het algemeen kan men zeggen dat een vragenlijst er ordelijk, verzorgd en overzichtelijk uit moet zien en zo veel mogelijk moet voorkomen dat de respondent in de weergave van de vragenlijst op zich een reden ziet om het afmaken ervan te stoppen (zie Dillman, 2000). Intuïtief zou men verwachten dat het toevoegen van een voortgangsbalk aan een online vragenlijst een verstandig idee is. Het geeft de respondent zicht op de plaats in de vragenlijst waar hij of zij zich bevindt, en behalve deze informatie brengt het over dat de vragenlijstmaker zich heeft ingespannen om het comfort van de respondent tijdens het invullen te verhogen. Niettemin hebben de weinige studies waarbinnen dit wordt onderzocht gemengde resultaten opgeleverd. Zowel Couper et al. (2001) en Crawford et al. (2001) vonden zelfs negatieve effecten van het toevoegen van een voortgangsbalk op de kans dat respondenten het eind van de vragenlijst halen. In Pagina 2 van 16 onderzoek van Boehme (2003) werd geen effect van de voortgangsbalk gevonden, hoewel er wel enige aanwijzingen werden gevonden voor effecten van niet lineaire voortgangsbalken (waarover later meer).

In dit document worden de resultaten gepresenteerd van een studie uitgevoerd door de Technische Universiteit Eindhoven. De mensen die zijn benaderd voor dit onderzoek komen uit het panel van PanelClix. De webenquête is geprogrammeerd door Isiz. Onderzocht is of het al dan niet afhaken tijdens een online vragenlijst afhankelijk is van met name het aanwezig zijn van een voortgangsbalk. Tegelijkertijd is echter gekeken naar andere mogelijke factoren die samengaan met voortijdig afhaken.
We vinden dat hogere doorlooppercentages worden gevonden in de volgende gevallen: bij ouderen, als een uitnodiging met uitgebreide toelichting werd geschreven, als men meer ervaren is in het invullen van vragenlijsten en als de deelnemer een hogere beloning voor het afmaken van de vragenlijst werd beloofd. Bovendien zien we dat degenen die 6 tot 7 minuten bezig zijn, een steeds hogere neiging krijgen de vragenlijst af te maken. Onze belangrijkste conclusie over het weergeven van de voortgang van de vragenlijst is echter dat het over het algemeen weinig zinvol is om een voortgangsbalk aan te geven. Onze basisconditie, waarin we gedurende de hele vragenlijst geen enkele aanwijzing gaven over de voortgang, had een hoog – vaak het hoogste – responspercentage.

In dit document presenteren we een parallel studie van Research International waarin de kwaliteit van online veldwerk is vergeleken met telefonisch en CAPI (Computer Aided Personal Interviewing) onderzoek. Daarin zijn diverse kwaliteitsaspecten bepaald zoals data representativiteit, integriteit en (non)response voor de drie verschillende dataverzameling methoden. Het onderzoek laat zien dat de response bij online veldwerk veel hoger is dan bij telefonisch en CAPI onderzoek. Tevens zijn de gegeven antwoorden bij online en CAPI onderzoek eerlijker en betrouwbaarder dan die bij telefonisch onderzoek. De data integriteit en betrouwbaarheid bij online en CAPI onderzoek is ook op andere punten beter dan bij telefonisch onderzoek. Met betrekking tot de data representativiteit kan geconcludeerd worden dat deze goed is voor al de drie dataverzameling methoden. De antwoorden wijzen allemaal in dezelfde richting, met uitzondering van specifieke vragen over internet gebruik. Nader onderzoek zal nog moeten uitwijzen welke dataverzameling methode op dit specifieke onderwerp de meest representatieve resultaten geeft.


2 - Het onderzoek



De online vragenlijst bestond uit een ruim veertig pagina’s met in totaal maximaal 56 vragen aan de respondenten. Hoeveel vragen respondenten precies kregen was deels afhankelijk van het toeval (zo kreeg bijvoorbeeld de helft van de respondenten een wat kortere vragenlijst, waarover later meer). Deels was het ook afhankelijk van eerdere antwoorden die de respondent gaf. Een respondent die antwoordde dat hij nooit eerder een aankoop via Internet had gedaan, kreeg bijvoorbeeld vanzelfsprekend niet de vervolgvraag of zij bij dergelijke transacties al eens zijn bedrogen. De onderwerpen in de vragenlijst waren zeer uiteenlopend. Dit varieerde van vragen over computerbezit en internetgebruik, tot vragen over de toestand van Nederland het regeringsbeleid, vragen over het sociale netwerk van de respondent, en vragen over de mate waarin men personen uit een ander land vertrouwt. In de uitnodiging werd aangegeven dat het invullen van de vragenlijst ongeveer 15-20 minuten zou duren. De deelnemers deden over de vragenlijst gemiddeld ruim 20 minuten. De inhoud van de vragenlijst is op te vragen bij PanelClix.

Deelnemers werden willekeurig toegewezen aan één van vijf verschillende condities wat betreft het aanwezig zijn van een voortgangsbalk:

  • geen voortgangsbalk
  • een aanduiding: nog "X" pagina’s
  • een voortgangsbalk die op de normale wijze aangeeft hoe groot het al voltooide deel is
  • een progressieve voortgangsbalk (een balk die in het begin een wat groter voltooid deel aangeeft dan in werkelijkheid al is voltooid)
  • een degressieve voortgangsbalk (een balk die in het begin een wat kleiner voltooid deel aangeeft dan in werkelijkheid al is voltooid)

Daar waar een voortgangsbalk of voortgangsaanduiding werd aangeboden, werd deze op iedere pagina van de vragenlijst getoond. In conditie 4 en 5 wordt de respondent eigenlijk bedrogen: de voortgangsbalk is in het begin verhoudingsgewijs te snel en later verhoudingsgewijs te langzaam (conditie 4), of juist andersom (conditie 5). We onderzoeken nu hoe groot het percentage deelnemers is dat afvalt tijdens de vragenlijst, en met name of dit percentage afvallers mede afhangt van of een voortgangsbalk wordt gebruikt.


3 - Resultaten



3.1 Basisresultaten

Ruim drieduizend leden (3266) van het PanelClix panel reageerden op de uitnodiging en klikten door naar de eerste pagina. Zo’n 15 procent van de respondenten (496 personen) maakten de vragenlijst echter niet af. We volgen nu waar en waardoor dit is gebeurd.

De willekeurige toekenning van de 3266 deelnemers aan de verschillende condities leidde tot de verdeling zoals te zien in Tabel 1.

Van de 496 personen die uiteindelijk geen compleet ingevulde vragenlijst opleveren, zijn 116 personen al direct op de eerste pagina afgehaakt. Op dat moment is nog geen voortgangsbalk te zien, en het percentage afhakers verschilt ook niet tussen de verschillende condities, zoals te zien is in Tabel 2.

Van de 496 – 116 = 380 personen die we dan nog overhebben, bekijken we eerst per conditie het percentage dat de eindstreep haalt:

Tabel 3 laat een opmerkelijk resultaat zien. Verreweg het hoogste percentage complete vragenlijsten wordt gegenereerd in de conditie waarin geen voortgangsbalk was opgenomen! Het laagste responspercentage wordt gevonden in de [nog X] conditie; een verschil ten opzichte van de basisconditie [GEEN] van bijna 8 procentpunten. Een statistisch significant verschil. De verschillende soorten voortgangsbalken ([VB], [VB_PRO] en [VB_DEG]) leveren onderling geen significante verschillen op, en leiden tot een percentage complete vragenlijsten van 88%. We zien dus een afmaakpercentage van 91.7% bij het ontbreken van een voortgangsbalk, 88% als een of andere voortgangsbalk er staat, en 84% als er een aanduiding van de soort “nog "X" pagina’s” staat. Deze verschillen zijn statistisch significant (p 0.01).


3.2 Nadere analyses

Het destructieve effect van de voortgangsbalken is op zich al een belangrijk resultaat. Wie een vragenlijst van soortgelijke omvang en opzet wil uitvoeren op een willekeurige steekproef uit het PanelClix bestand, kan het beste de voortgangsbalk in zijn geheel weglaten. Om meer inzicht te krijgen in hoe dit komt, waarmee we in staat zijn om resultaten te generaliseren naar andersoortige vragenlijsten, bekijken we de afmaakpercentages in meer detail.

Om te bekijken in welke mate het effect van voortgangsbalken afhangt van de lengte van de vragenlijst, gaven we de helft van de deelnemers een kortere vragenlijst.1
Als we de resultaten uitsplitsen naar de lengte van de vragenlijst ([KORT] vs [LANG]), dan zien we het volgende:

1 In de vragenlijst zat een tamelijk uitgebreide vraag naar het sociale netwerk van de deelnemer (een batterijvraag bestaande uit 30 aparte items). Degenen met een korte vragenlijst kregen deze batterij vragen niet. Hun voortgangsbalk was dan ook gebaseerd op in totaal minder vragen. In tijd is er evenwel weinig verschil tussen de “korte” en de “lange” vragenlijsten (slechts zo’n 3 minuten). Het zou dus eigenlijk beter zijn te spreken van een “lange” en een “iets kortere” vragenlijst.

We zien dat de grote winst van het ontbreken van een voortgangsbalk wordt gemaakt in de korte vragenlijst. In de lange vragenlijst is het zelfs zo dat het afmaakpercentage het hoogst is bij de progressieve voortgangsbalk (al is het niet statistisch significant hoger). Het verlies van de [nog X] methode om de voortgang aan te geven zit hem juist bij de lange vragenlijsten. Daarnaast zien we dat alleen de aangepaste voortgangsbalken (de progressieve en de degressieve) een beter percentage scoren in de lange dan in de korte lijst. In algemene zin laten deze resultaten zien dat de basisresultaten uit Tabel 3 geen universele waarheden zijn: het effect van het soort voortgangsbalk kan afhangen van eigenschappen van de vragenlijst.

Om dit verder te onderzoeken delen we de vragenlijst in 24 “checkpoints”: 24 plaatsen in de vragenlijst waarvan we weten dat iedere deelnemer die de vragenlijst heeft afgerond, ze heeft moeten passeren. Figuur 1 laat de aantallen afvallers zien, per checkpoint. Het 25e checkpoint is het eind van de vragenlijst.

Behalve de 116 afvallers direct in het begin, vallen vooral de 134 afvallers bij het vierde checkpoint op. Dit is bij de overgang van pagina 6 naar pagina 7. Op dat moment in de vragenlijst zijn een paar inleidende vragen over de deelnemer zelf al geweest, en wordt begonnen met een aantal vragen over de toestand van Nederland op dit moment (met bijvoorbeeld de vraag om welke redenen volgens de deelnemer de sociale zekerheid onder druk staat). Het is vanzelfsprekend mogelijk dat deelnemers op dat moment hebben gedacht dat als de toestand van Nederland het voornaamste onderwerp van de vragenlijst is, ze liever stoppen. Niettemin, als de onderwerpkeus de voornaamste reden zou zijn, dan zouden we op dat moment geen verschillen verwachten tussen de verschillende voortgangsbalken. Die zijn er echter wel.

Bij degenen in de conditie met een [nog X] voortgangsbalk zien we verreweg het grootste percentage afvallers, en verreweg het laagste percentage in de conditie waarbij geen voortgangsbalk wordt getoond. Dit geldt zowel voor de korte als de lange vragenlijst, al zijn de verschillen meer geprononceerd bij de lange vragenlijst. Dit suggereert dat één van de nadelen van een voortgangsbalk, vooral bij een lange vragenlijst, kan zijn dat op het moment dat deelnemers om een of andere reden een neiging hebben om af te haken, zij hiertoe verder worden overgehaald doordat ze zien dat het eind van de vragenlijst nog zo ver weg is. Vooral zien hoeveel vragen het nog zijn, werkt ontmoedigend. De deelnemer bij de lange vragenlijst met een progressieve voortgangsbalk heeft hier heeft hier begrijpelijkerwijs in het begin van de vragenlijst minder last van: de deelnemer denkt al verder te zijn dan in werkelijkheid het geval is. Men kan dit verschijnsel vergelijken met een autorit naar een verre bestemming. Als iedere 5 kilometer wordt gemeld hoeveel kilometer het nog is, hoe beleefd en voorkomend dit ook bedoeld moge zijn, dan duurt de trip als geheel voor het gevoel van de reiziger langer.


3.3 Integrale analyse van factoren die samenhangen met of de vragenlijst wordt afgemaakt

Wat bovenstaande analyses laten zien is dat het om inzicht in de problematiek te krijgen verstandig is om de resultaten uit te splitsen naar verschillende deelgroepen (we deden dit al naar lengte van de vragenlijst, plaats van afvallen in de vragenlijst en conditie). Dit heeft echter een voor de hand liggend nadeel. Bij iedere uitsplitsing wordt het aantal waarnemingen per cel kleiner, en al snel te klein om nog uitspraken te kunnen doen over of Pagina 7 van 16 verschillen tussen condities statistisch significant zijn. We brengen daarom de verschillende uitsplitsingen bij elkaar in één analyse. De te verklaren variabele is daarbij steeds of de respondent het volgende checkpoint haalt, gegeven dat het vorige checkpoint gehaald is.2

De variabelen die we in de analyse meenemen, zijn:

De soort voortgangsbalk: ons belangrijkste punt van aandacht in de analyse (zie hierboven voor de condities)

De lengte van de vragenlijst: lang of kort (zie hierboven)

Het soort uitnodiging: de manier waarop potentiële deelnemers worden uitgenodigd, heeft niet alleen effect op de kans dat deze reageert, maar ook op de kans dat deze de vragenlijst afmaakt, gegeven dat met de vragenlijst is begonnen. We vergelijken uitnodigingen met een uitgebreide toelichting en een expliciet zichtbaar logo van de TU/e, met een korte zakelijke uitnodiging.

Het soort uitnodiging: de manier waarop potentiële deelnemers worden uitgenodigd, heeft niet alleen effect op de kans dat deze reageert, maar ook op de kans dat deze de vragenlijst afmaakt, gegeven dat met de vragenlijst is begonnen. We vergelijken uitnodigingen met een uitgebreide toelichting en een expliciet zichtbaar logo van de TU/e, met een korte zakelijke uitnodiging.

Het beloofde aantal Clix: PanelClix “betaalt” zijn panelleden in “Clix” voor het afronden van een vragenlijst. We variëren het aantal Clix: 50, 100 of 150 stuks.

Leeftijd: zoals zal blijken, zijn er verschillen naar leeftijd wat betreft het afhaken bij een vragenlijst.

Verstreken tijd: het is aannemelijk dat de al door de deelnemer bestede tijd ook een effect heeft op of nog met de vragenlijst wordt doorgegaan. Na verloop van tijd hebben deelnemers simpelweg geen zin meer.3

De plaats van het checkpoint in de vragenlijst: het is mogelijk dat of een volgend checkpoint nog wordt gehaald, mede afhankelijk is van waar in de vragenlijst men precies is. Hoe dit effect precies loopt, is vooraf moeilijk te zeggen. Enerzijds kan het zo zijn dat op sommige momenten in de vragenlijst eerder wordt afgehaakt omdat er een voor respondenten heel vervelende vraag moet worden beantwoord (bijvoorbeeld een heel lange vraag, of een heel impertinente vraag). Anderzijds is het voorstelbaar dat op zich het aantal al beantwoorde vragen een positief effect heeft op het halen van het volgende checkpoint. Het argument hierbij is dat deelnemers niet graag voor het eind opgeven omdat dit betekent dat alles wat ze al hebben ingevuld dan als verloren kan worden beschouwd.4

2 We gebruiken hiervoor logistische regressie-analyse. Per deelnemer in de data maken we evenveel waarnemingen aan als het aantal chekcpoints dat hij of zij heeft gepasseerd. In de sociale wetenschappen wordt deze wijze van met de data omgaan wel gerubriceerd onder survival-analyse met behulp van person-period files. Omdat op deze manier in de data per persoon meer records ontstaan, moeten de standaardfouten in de logistische regressie-analyse worden aangepast. We doen dit met behulp van de gebruikelijke methode van Huber (Huber, 1967).
3 Tijd zelf is gemeten in seconden per pagina. De tijd tussen checkpoints is gemeten door extreme outliers in de paginatijden (bijvoorbeeld omdat iemand koffie is gaan zetten), te vervangen door een maximum van 2 minuten. We nemen tijd op als kwadratisch effect door zowel de tijd zelf als de tijd in het kwadraat in de regressie-analyse op te nemen.
4 In de analyse nemen we om deze reden 24 dummy-variabelen op, één voor ieder checkpoint, met het eerste checkpoint als referentiecategorie.

Bij de drie dataverzameling methoden is het patroon van antwoorden bij statementvragen nader geanalyseerd. In de volgende tabel wordt een overzicht van de resultaten gegeven, waarin zowel het aantal als het percentage respondenten is vermeld dat identieke antwoorden heeft gegeven op deze statementvragen. Er kan gesteld worden dat hoe groter het percentage respondenten dat identieke antwoorden geeft, hoe slechter de data kwaliteit.

De ervaring van de deelnemer: de kans dat een ervarener deelnemer de vragenlijst zal afmaken is waarschijnlijk groter, immers, de betreffende persoon heeft al eerder bewezen dit te doen en zal bovendien naar verwachting gemiddeld genomen handiger met computers zijn. We nemen in de analyses de natuurlijke logaritme van de aantal in het afgelopen jaar voor PanelClix compleet ingevulde vragenlijsten op.

Ten slotte nemen we ook van een aantal variabelen interacties op. Dit zorgt er voor dat we zaken mee kunnen meten zoals of het effect van de voortgangsbalken verschilt naar gelang we een korte of lange vragenlijst gebruiken.

Soort voortgangsbalk en lengte van vragenlijst: Meet of het effect van de voortgangsbalken verschilt naar gelang we een korte of lange vragenlijst gebruiken.

Soort voortgangsbalk en plaats van het checkpoint in de vragenlijst: Dit meet of het effect van de voortgangsbalken op de kans om verder te gaan in de vragenlijst verschilt naar plaats van het checkpoint in de vragenlijst.

Soort voortgangsbalk en verstreken tijd: Meet of het effect van de voortgangsbalken op de kans om verder te gaan in de vragenlijst verschillend is, afhankelijk van de verstreken tijd.

Soort voortgangsbalk en ervaring: Dit meet of het effect van de voortgangsbalken op de kans om verder te gaan in de vragenlijst verschilt afhankelijk van de mate van ervaring van de deelnemer.5

De tabel met de resultaten van de analyse vindt u in bijlage A. In de hoofdtekst nemen we de resultaten inhoudelijk door, waarbij we eerst de controlevariabelen langslopen. We kijken hierbij dus steeds naar of we factoren kunnen vinden die de kans dat een volgend checkpoint wordt gehaald beïnvloeden, gegeven dat het vorige checkpoint is gehaald. Ofwel: welke factoren bepalen of de deelnemer doorgaat met het beantwoorden van de vragenlijst. Hierbij zorgt de gebruikte methode ervoor dat we steeds de “netto” effecten meten, dat wil zeggen, de effecten van de verschillende factoren waarbij rekening wordt gehouden met de effecten van de overige gemeten factoren.

We vinden om te beginnen dat leeftijd een verschil maakt.

Figuur 2 laat het effect van leeftijd goed zien. De kans om een volgend checkpoint te halen neemt toe tot ongeveer 40 jaar en daarna weer licht af. Grofweg kunnen we zeggen dat deelnemers ouder dan 35 een hogere kans hebben de vragenlijst af te maken, terwijl het onder de 35 snel afneemt. In een rechte telling van het aantal opgeleverde vragenlijsten naar leeftijd zien we dit overigens terug. Deelnemers tot en met 20 jaar leiden in ons geval tot een complete vragenlijst in 84% van de gevallen, bij leeftijd 21-25 en 26-30 gebeurt dit in 87% van de gevallen, leeftijden van 30 tot en met 35 in 89% van de gevallen, 36-40 levert 92%, 41-50 levert 90%, 51-60 levert 92% en ouder dan 60 levert 87%.

Vervolgens vinden we dat het voor het doorlopen van de vragenlijst gunstig is als een uitgebreide uitnodiging, met TU/e logo, is gebruikt. Uit soortgelijk onderzoek weten we overigens dat een uitgebreide uitnodiging met logo juist er voor zorgt dat er minder mensen in eerste instantie bereid zijn om op de uitnodiging in te gaan (zie Snijders, Matzat, Pluis en de Haan, 2005). Het negatieve effect van de uitgebreide uitnodiging wordt dus enigszins gecompenseerd doordat degenen die een uitgebreide uitnodiging hebben gehad en meedoen, een grotere kans hebben om de vragenlijst volledig af te maken. Het effect is echter klein (in de orde van grootte van een half procentpunt winst per overgang naar het volgende checkpoint).

Dan zien we dat een hogere beloning er voor zorgt dat eenmaal begonnen deelnemers met een grotere kans de vragenlijst compleet afmaken. Ons eigen eerdere onderzoek liet zien dat voor een vragenlijst van deze omvang (zo’n 20 minuten invultijd), het verhogen van de beloofde Clix van 50 naar 100 nog effect had, maar het verder verhogen naar 150 niet meer. Hier zien we echter dat het verder verhogen naar 150 Clix wél effect heeft op of het einde van de vragenlijst wordt gehaald. Het verhogen van de beloning van 50 naar 100 verhoogt de kans het halen van een volgend checkpoint van de vragenlijst met 0,7 procentpunt, terwijl het verhogen van de beloning naar 150 dit nog verder doet oplopen naar een vol procentpunt. Nota bene: deze verschillen lijken wellicht klein. We moeten ons hier echter realiseren dat we hier de 15% van de deelnemers bekijken die zijn afgehaakt, en de grootte van de effecten hieraan relateren. De grootte van de effecten is het meest zinvol als we deze bekijken in verhouding tot de grootte van effecten van andere variabelen.

Dan nu het effect van de verlopen tijd. We zien hier grofweg dat – voor alle soorten voortgangsbalken – het effect van tijd nadat 6 tot 7 minuten tijd is verstreken, positief is. Dat wil zeggen: nadat 6 tot 7 minuten zijn verstreken, geldt dat hoe langer men bezig is, des te groter de kans is dat men de volgende checkpoint zal halen en dus ook des te groter de kans dat men de vragenlijst af zal maken. Het positieve effect van de al geïnvesteerde tijd (“ik heb er nu al zo veel tijd aan besteed, nu maak ik het ook af”) weegt kennelijk op tegen het argument dat men gaandeweg vindt dat er nu echt voldoende tijd is ingestopt. Of anders gezegd: degenen die het binnen een paar minuten af willen hebben, hebben al in het begin gemerkt dat dat niet ging lukken, en zijn toen al afgevallen.6

Ten slotte zien we dat het effect van de lengte van de vragenlijst, na controle voor de effecten van de overige factoren, een tamelijk groot effect heeft. De kans op het halen van een volgend checkpoint is bij de langere vragenlijst gemiddeld genomen lager (een effectgrootte van 1.2 procentpunt). Dit effect is echter op de rand van statistisch significant. We bekijken nu het verloop van de kans op het behalen van een volgend checkpoint in de vragenlijst voor de verschillende soorten voortgangsbalken, hierbij rekening houdend met alle eerder genoemde effecten.

Duidelijk zichtbaar in Figuur 2 en 3 is de dip in de respons bij checkpoint 5, zoals we al eerder zagen. Hierdoor wordt het in de figuren minder goed zichtbaar hoe de lijnen voor de verschillende soorten voortgangsbalken ten opzichte van elkaar lopen. We herhalen daarom bovenstaande figuren, waarbij we checkpoint 5 overslaan om de lijnen beter te kunnen onderscheiden.

6 We zien overigens wel verschillen naar het effect van tijd tussen de voortgangsbalken. De balken [nog X] en [VB] laten een strikte stijging van de kans op voortgang zien over de tijd. De andere drie laten een curvilineair verband zien. De kans op voortgang daalt in het begin, en neemt pas na 6 tot 7 minuten toe.

We doorlopen eerst Figuur 4. We zien hier dat de voortgangsbalk [nog X] het maar matig doet in het begin – tot aan checkpoint 10 heeft het de op één na laagste voortgangskans. Daarna wordt het langzamerhand wat beter (allemaal in vergelijking met de andere soorten voortgangsbalken). Na checkpoint 14 neemt [nog X] de derde plaats in en wat later zelfs de tweede. Het lijkt er dus op dat [nog X] beter gaat werken naar mate de doorgegeven informatie meer aangeeft dat de vragenlijst bijna is afgelopen. Opvallend blijft dat bij de korte vragenlijst over nagenoeg de gehele linie het best wordt gescoord indien een voortgangsbalk ontbreekt ([GEEN]). In Figuur 4 zien we ook enig bewijs voor het feit dat mensen eerder afhaken, naar mate ze vinden dat de voortgangsbalk minder hard opschiet. Dit zien we terug aan de resultaten van [VB_PROG]. Deze voortgangsbalk gaat (te) snel in het begin en op dat moment verliest deze nauwelijks terrein op de vragenlijst zonder voortgangsbalk. Na checkpoint 13 gaat de progressieve voortgangsbalk juist een tijdje langzamer (hij moet immers uiteindelijk ook op 100% uitkomen), en juist daar zien we dat deze veel terrein verliest op de vragenlijst zonder voortgangsbalk. Een vreemde eend in de bijt is de degressieve voortgangsbalk. Deze doet het over bijna de hele linie het slechtst, zelfs in het latere deel van de vragenlijst, terwijl hij daar juist relatief snel gaat (ook hier geldt dat de voortgangsbalk uiteindelijk op 100% uit moet komen en daarom de opgelopen achterstand na checkpoint 13 weer wordt ingehaald).

De resultaten van Figuur 5 laten iets soortgelijks zien. Opnieuw is het belangrijk te constateren dat het ontbreken van een voortgangsbalk het prima doet, en het alleen in het begin iets minder goed doet dan de progressieve voortgangsbalk. De progressieve voortgangsbalk verliest echter weer terrein na checkpoint 13, zodra deze juist weer langzamer oploopt. Veruit de minst geslaagde optie bij de lange vragenlijst is de vragenlijst met [nog X] voortgangsbalk. Deze verliest al direct veel terrein, en maakt dit onderweg op geen enkel moment meer goed.


4 - Conclusies en discussie



We bekeken de effecten van verschillende soorten voortgangsbalken: geen voortgangsbalk, “nog "X" pagina’s”, een gewone voortgangsbalk (gebaseerd op het aantal te beantwoorden vragen), een progressieve voortgangsbalk en een degressieve voortgangsbalk. In de uitnodiging gaven we aan potentiële deelnemers aan dat de vragenlijst 15 to 20 minuten zou duren. We trekken op basis van de voorafgaande analyses de volgende conclusies.

  • In tegenstelling tot wat de gangbare intuïtie is, behaalden we de beste responsresultaten in de conditie waarbij geen voortgangsbalk werd getoond. De vaak gehoorde gedachte is dat uit een soort beleefdheid van de vragenlijstmaker ten opzichte van de deelnemer een voortgangsbalk dient te worden opgenomen (“zodat de deelnemer weet waar hij is” ), dat deze beleefdheid door de deelnemer wordt gewaardeerd, en dat deze waardering vervolgens zal leiden tot een hogere respons. Dit vinden we echter niet of nauwelijks terug.
  • Er zijn lichte verschillen in de effecten van een voortgangsbalk te zien, afhankelijk van de lengte van de vragenlijst. Het blijft echter zowel voor de korte als de langere vragenlijst zo, dat het ontbreken van een voortgangsbalk prima werkt.
  • In korte vragenlijsten doet met name de degressieve voortgangsbalk (die in het begin langzamer loopt dan eigenlijk zou moeten) het slecht. In lange vragenlijsten is het de voortgangsmeter van de soort “nog "X" pagina’s” die het slecht doet.
  • Mede gezien de resultaten die we vinden bij de progressieve voortgangsbalk lijkt het er op dat zeker in het begin een voortgangsbalk vooral benadrukt hoe lang het nog duurt tot men klaar is.
  • Het langzaam lopen van een voortgangsbalk (zoals de degressieve balk dit doet in het begin, en de progressieve voortgangsbalk dat doet in het tweede deel van de vragenlijst) leidt tot een verhoogde kans op afhaken. Van het (te) snel lopen van een voortgangsbalk, zoals de progressieve voortgangsbalk aan het begin van een vragenlijst, vinden we licht positieve effecten in het begin van lange vragenlijsten.
  • We vonden de volgende verschillen wat betreft of de vragenlijst wordt voortgezet:
    ouderen (>30) houden het langer vol, degenen die een uitgebreide uitnodiging hebben gehad houden het langer vol, degene die een hogere beloning in het vooruitzicht gesteld hebben gekregen houden het langer vol, en degenen met meer ervaring in het beantwoorden van vragenlijsten houden het langer vol. Bovendien houden de deelnemers die 6 tot 7 minuten zijn gebleven het langer vol naar mate de tijd verstrijkt (met andere woorden, de deelnemers die niet afhaken voor er 6 tot 7 minuten zijn verstreken, krijgen daarna een steeds sterkere neiging om de vragenlijst af te maken).

De gevonden resultaten geven weinig reden om voortgangsbalken in vragenlijsten op te nemen, althans niet voor vragenlijsten die enigszins lijken op het soort vragenlijst dat wij hier afnamen. Het is wellicht mogelijk om met nieuwe manieren te proberen om het percentage deelnemers dat de vragenlijst afmaakt zo hoog mogelijk te houden. Voor korte vragenlijsten is daar weinig reden toe, maar voor langere vragenlijsten zou gekeken kunnen Pagina 13 van 16 worden naar een combinatie van bijvoorbeeld in het begin een progressieve voortgangsbalk, dan een periode geen voortgangsbalk of wellicht nog één of twee keer een tekstuele aanmoediging (“U bent er bijna!”), en ten slotte nog een gewone voortgangsbalk aan het eind. Het is echter nog zeer de vraag hoe deelnemers hier op zullen reageren. Het is mogelijk dat juist deze vreemde combinatie van voortgangsindicaties tot achterdocht bij de deelnemers leidt en daarmee tot afhaken. Een tweede optie die men zou kunnen overwegen is een bepaald type voortgangsbalk niet op iedere pagina zichtbaar te maken, maar slechts op een paar plaatsen in de vragenlijst, en dan juist niet te vaak aan het begin. Dat zou in lange vragenlijsten ertoe kunnen leiden dat in het begin niet te sterk de nadruk ligt op dat “het eind nog zo ver weg is”, terwijl zodra men op en over de helft is de positieve indruk kan ontstaan dat men al bijna klaar is. Tot duidelijkheid komt over het relatieve succes van dergelijk initiatieven is het verstandig om bij vragenlijsten die qua omvang, type uitnodiging en doelgroep lijken op de onze, geen voortgangsbalk te gebruiken. Wie er op staat toch een voortgangsbalk te gebruiken, raden we aan dan in ieder geval een “gewone” voortgangsbalk te kiezen en niet bij vragenlijsten van enige lengte te kiezen voor “nog "X" pagina’s”.

Een belangrijk gezichtspunt is nog we ons hier alleen bezig hebben gehouden met de kwantitatieve effecten op de respons. Het is denkbaar – hoewel het ons niet erg waarschijnlijk lijkt – dat er kwalitatieve verschillen zitten tussen de groep deelnemers die uiteindelijk een complete vragenlijst oplevert. In dat geval zou het zelfs verstandig kunnen zijn om een lage respons te kiezen, als zou blijken dat deze respons dan wel van een kwalitatief hoger niveau (betrouwbaarder en meer valide) zou zijn. Hiervoor hebben we echter vooralsnog geen aanwijzingen.

Tot slot moeten we benadrukken dat de resultaten en conclusies gepresenteerd in dit document niet zonder meer kunnen worden toegepast op elk willekeurig online veldwerk. Zo kunnen er verschillen optreden afhankelijk van de populatie in de steekproef en het onderwerp van de vragenlijst. Bij het ontwerp van een nieuwe vragenlijst lijkt het niettemin verstandig onze aanbevelingen wat betreft de voortgangsbalken te verkiezen boven het afgaan op de eigen intuïtie.


5 - Referenties



Boehme, R. (2003) Fragebogeneffekte bei Online-Befragungen. Master's Thesis in Communication Science. University of Dresden.

Couper, M. P., Traugott, M. W. & Lamias, M. J. (2001). Web survey design and administration. Public Opinion Quarterly, 65 (2), 230-253.

Crawford, S. D., Couper, M. P. & Lamias, M. J. (2001). Web surveys: Perceptions of burden. Social Science Computer Review, 19 (2), 146-162.

Dillman, D. A. (2000). Mail and internet surveys: The tailored design method (2nd edition). New York: Wiley.

Huber, P. J. (1967) The behavior of maximum likelihood estimates under non-standard conditions. Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability 1: 221–233.

Snijders, C. Matzat, Pluis en de Haan (2005) Clou, december 2005, jaargang 4, nr. 20. Dit is een samenvatting van de white-paper “Respons bij online veldwerk”, PanelClix/TUE.


Bijlagen



Bijlage A: Logistische regressie-analyse op de kans dat checkpoint n+1 wordt gehaald, gegeven dat n is gehaald (p-waardes aangepast voor clustering op deelnemersniveau, N=70.215, * significant op 5% niveau; ** significant op 1% niveau)