Ko jūs iegūstat no lielāka parauga lietojamības testiem? – MērīšanaU

0
Ko jūs iegūstat no lielāka parauga lietojamības testiem?  – MērīšanaU

Mēs parasti iesakām mazus paraugus (5–10), lai veiktu iteratīvo lietojamības testēšanu, kas paredzēta problēmu atrašanai un novēršanai (formatīvie novērtējumi).

Salīdzinošajiem vai salīdzinošajiem pētījumiem, kuros galvenā uzmanība tiek pievērsta atšķirību noteikšanai vai populācijas parametru novērtēšanai (summējošie novērtējumi), mēs iesakām izmantot lielākus paraugus (20–100+).

Lietojamības testēšanu var izmantot, lai atklātu problēmas un novērtētu pieredzi. Daudzi lietojamības testi vienlaikus pildīs abas lomas, veidojošo un summējošu, tāpēc izlases lielums ir līdzsvars, lai apmierinātu abu vajadzības.

Mēs nesen veicām lietojamības testu klientam. Tā bija patērētājiem paredzēta produkta prototipa testēšanas otrā kārta. Mērķi bija līdzīgi daudziem daudzpakāpju lietojamības testiem, kas līdzsvaro gan veidojošos, gan summējošos mērķus:

  • Vai izmaiņas, kas veiktas, lai novērstu pirmajā kārtā konstatētās problēmas, uzlaboja pieredzi?
  • Vai labojumi radīja jaunas problēmas?
  • Vai produkts ir pietiekami labs nākamajam attīstības posmam?

Šis bija vadītāju sponsorēts projekts, un rezultātiem būs liela ietekme uz izlaišanas grafiku. Mēs ieteicām diezgan lielu izlases lielumu — 18, lai palielinātu mūsu pārliecību par konstatējumiem. Kā tas ir raksturīgs mūsu pētījumiem, mēs iekļāvām galvenos rādītājus, lai palīdzētu pieņemt lēmumus ar datiem mūsu moderētajā pētījumā.

Mūsu pētnieku grupa aprakstīja un uzskaitīja atklāto lietojamības problēmu biežumu un nopietnību, un mēs apkopojām uzdevumu izpildes rādītājus un pārvaldījām vienu vienkāršības jautājumu (SEQ), lai novērtētu uzdevuma vieglumu.

Pēc pētījuma mēs ziņojām par rezultātiem, kas ietvēra problēmu sarakstu ar ekrānuzņēmumiem, citātiem un uzdevumu un pētījuma līmeņa metrikas kopsavilkumu.

Kopsavilkums liecina, ka lietas uzlabojās ar prototipu, jo mēs atklājām, ka dalībniekiem kopumā bija laba pieredze ar mazāk atklātu problēmu un augstāku uzdevumu rādītāju, lai gan joprojām bija jomas, kuras jāuzlabo. Kāds vadītājs vēlējās uzzināt, cik ļoti viņam vajadzētu uzticēties rezultātiem, ja izlases lielums ir 18. Atklāto problēmu skaits un metrikas precizitāte mums norādīja uz pētījuma efektivitāti.

Pārliecība par atrastām un neatklātām problēmām

Šajā kārtā mēs atklājām dažas jaunas problēmas, un tās nebija nopietnas. Un pirmajā kārtā konstatētās problēmas lielākoties tika atrisinātas pēc tam, kad produktu komanda veica dažus labojumus. Cik daudz citu problēmu, kuras mēs neesam atklājuši? Kā būtu, ja mēs pārbaudītu ar vēl 10 vai 20 vai 50 dalībniekiem? UX pētnieki ir saskārušies ar šiem jautājumiem gadu desmitiem, un, protams, atbildes ir saistītas ar dažām pretrunām. Mēs domājam, ka tas galvenokārt ir tāpēc, ka cilvēki pārprot dažus galvenos punktus. Tas, kas nav strīdīgs, ir galvenā ideja, ka jūs atklāsiet lielāko daļu izplatīto problēmu dažu pirmo dalībnieku laikā. Retāk sastopamām problēmām ir mazāka iespēja tikt pamanītai lietojamības testā ar dažiem dalībniekiem.

Tas, kā mēs definējam “kopīgo”, ir atkarīgs no konteksta (mēs nevēlamies, lai lidmašīnas kabīnē būtu daudz problēmu!). Taču mēs joprojām varam piešķirt numurus vārdiem “parasts” un “retāk izplatīts”, lai nodrošinātu vispārēju lietotāja pieredzi, ko var mainīt atkarībā no konteksta.

Bieži sastopamas problēmas ir tās, kas skar samērā lielu lietotāju procentuālo daļu. Protams, tās būtu problēmas, kas skar pusi (50%) dalībnieku, taču mēs apgalvojam, ka problēmas, kas skar tikai vienu trešdaļu (33%) dalībnieku, ir jāuzskata par kopīgām. Ja viens no katriem diviem vai trim lietotājiem saskaras ar vienu un to pašu problēmu, tas ir bieži novērojams.

1. attēlā ir parādīta kumulatīvā binomiālā varbūtība, ka vismaz vienu reizi lietojamības pārbaudē tiks parādīta problēma, ja ir dažādi sastopamības sliekšņi izlases lielumam 18 un, lai salīdzinātu, izlases lielumam 5.

Ja problēma pastāv un skar 33% vai 50% lietotāju, kāda ir iespēja, ka mēs to pamanām šajā lietojamības testā? Ja izlases lielums ir 18, atbilde ir lielāka par 99% abām “parasti” definīcijām.

Ja izlases lielums ir 5, atbilde joprojām ir iespaidīgi 97% un 87%, tāpēc atšķirības nav lielas. Abi piedāvā augstu pārliecību par atrašanu kopīgs problēmas.

1. attēls. Varbūtība, ka problēma tiks parādīta vismaz vienu reizi 5 un 18 lietotājiem, pamatojoties uz to, cik izplatīta iespējamā problēma būtu klientu bāzē.

Retāk sastopamām problēmām mēs varam piešķirt skaitļus 10% (1 no katriem 10 lietotājiem) un 5% (1 no katriem 20 lietotājiem). Aplūkojot 1. attēlu, mēs redzam, ka 18 paraugam ir attiecīgi 85% un 61% iespēja vismaz vienu reizi atklāt šo frekvenču problēmas (atrodiet zaļos punktus virs 5% un 10% uz horizontālās ass).

Turpretim mazākam paraugam — 5 — attiecīgās iespējas būtu tikai 41 % un 23 %, lai atklātu šīs problēmas (atrodiet punktus zilajā līnijā virs 5 % un 10 % punktiem uz horizontālās ass). Atšķirība parāda priekšrocības, ko sniedz lielāks izlases lielums — 18 — jums ir lielāka pārliecība, ka esat redzējis gan izplatītas, gan neparastas (bet, iespējams, joprojām kritiskas) problēmas.

Uzdevuma izpilde bija virs vidējā līmeņa

Pievēršoties uzdevumu izpildes līmeņa rādītājiem, 2. attēlā redzams, ka piecu uzdevumu izpildes rādītāji svārstījās no 78% līdz 95%. Joslu diagramma ietver 90% ticamības intervālus; mēs varam izmantot intervāla līnijas apakšējo galu, lai iegūtu priekšstatu par pabeigšanas līmeņa apakšējo robežu, ja mēs pārbaudām vēl desmitiem vai simtiem dalībnieku. Kāds ir pieņemamais uzdevuma izpildes rādītājs? Atkal, tas ir atkarīgs no konteksta, un daži no apsvērumiem šajā kontekstā ir tādi, ka produkts noteikti nav saistīts ar dzīvību un nāvi un joprojām ir agrīnā izstrādes stadijā.

Bet jebkurā kontekstā augstāk, protams, ir labāk. Izmērot vairāk nekā tūkstoš uzdevumu, esam atklājuši, ka 78% izpildes līmenis (visu šo uzdevumu vidējais rādītājs) ir pieņemams lielākajā daļā kontekstu. Mēs izmantojām šos datus, lai izveidotu aptuvenu izliektu vērtēšanas skalu uzdevumu izpildei, kas parādīta 1. tabulā. Tā kā 15% uzdevumu mūsu atsauces grupā bija 100%, nav iespējams izšķirt plusus vai mīnusus. Līmenis. Pēc konstrukcijas vidējais 78% ir C kategorijas diapazona centrā. Zemākais pabeigšanas rādītājs, lai iegūtu C punktu, ir 67,3.

Novērtējums Percentiles diapazons Panākumi (%)
A+ 96-100 100
A 90-95 100
A- 85-89 100
B+ 80-84 96,9-99,9
B 70-79 90,3-96,8
B- 65-69 86,7-90,2
C+ 60-64 83,1-86,6
C 41-59 67,3-83,0
C- 35-40 61,4-67,2
D 15-34 33,6-61,3
F 0-33,5 0-33,5

1. tabula. Izliekta vērtēšanas skala uzdevumu izpildes rādītājiem.

2. attēlā parādīts, ka 90% ticamības intervāla apakšējā robeža nav zemāka par C visiem uzdevumiem, izņemot 2. uzdevumu, kas ietilpst D diapazonā. Tādējādi pastāv diezgan liela pārliecība, ka lielākā daļa lietotāju var paveikt lielāko daļu uzdevumu. Tomēr efektivitāte ir tikai viens no lietotāja pieredzes aspektiem; tas ir nepieciešams, bet nepietiek.

2. attēls. Uzdevumu izpildes rādītājs pieciem novērtētajiem uzdevumiem.

Uzdevuma vieglums bija labākais vidējais rādītājs

Pievēršoties pieredzes uztverei, 3. attēlā parādīti vidējie SEQ rādītāji katram uzdevumam un līnija ar vidējo vēsturisko vieglumu aptuveni 5,5. No 3. attēla redzams, ka 90% ticamības intervālu apakšējā robeža trīs uzdevumiem pārsniedza vidējo vēsturisko vieglumu, bet diviem tā nebija. Īpaši interesanti ir tas, ka, lai gan 1. uzdevumam bija augsts izpildes līmenis (89%), tam bija viszemākais viegluma novērtējums, kas nozīmē, ka lietotāji varēja izpildīt uzdevumu, taču viņi nedomāja, ka tas bija tik vienkārši. Pārējos uzdevumus veiksmīga izpilde un vieglums bija nemainīgi. (Bez 1. uzdevuma korelācija starp pabeigšanu un vieglumu bija 0,98; ar 1. uzdevumu tā samazinājās līdz 0,62.)

3. attēls. Uzdevuma viegluma (SEQ) vērtējumi pieciem novērtētajiem uzdevumiem.

Kopsavilkums

Lielākajā daļā lietojamības testu tiek sajaukti veidojošie un summējošie mērķi, gan atrodot problēmas, gan novērtējot veiktspēju, tāpēc bieži vien ir nepieciešams līdzsvarot izlases lieluma prasības katram mērķim. Lai novērtētu pārliecību par problēmu atrašanu, izmantojiet kumulatīvās binomiālās varbūtības formulu, lai novērtētu, cik bieži sastopamu un retāk sastopamu problēmu esat redzējis (un cik joprojām neatklātas). Ir viegli pamanīt izplatītākās problēmas ar nelielu izlases lielumu, taču jums būs nepieciešams lielāks izlases lielums, lai atklātu neparastas problēmas.

Lai novērtētu veiktspēju, izmantojiet uzdevumu metriku, piemēram, izpildes līmeni un uztveramo vieglumu. Abi šie pasākumi labi darbojas gan prototipiem, gan pilnībā funkcionējošiem produktiem, un tos var salīdzināt ar vēsturiskiem etaloniem vai konvencijām.

Šajā gadījuma izpētē, kuras izlases lielums bija 18, mums bija liela pārliecība, ka redzējām lielāko daļu izplatīto problēmu un daudzas no retāk sastopamajām problēmām. Uzdevumu metrika parādīja, ka lielākā daļa lietotāju varēja izpildīt lielāko daļu uzdevumu, un, izņemot vienu izņēmumu, viegluma vērtējumi atbilda veiksmīgas uzdevumu izpildes rādītājiem. Salīdzinoši zemie SEQ vērtējumi 1. un 2. uzdevumam, kā arī zemais 2. uzdevuma izpildes rādītājs liecināja, ka, lai gan lietotāju pieredze ir uzlabojusies no pirmās līdz otrajai testēšanas kārtai, joprojām ir iespējami uzlabojumi.