Webdesign

Jak testovat použitelnost, aby to k něčemu bylo?

10. března 2010

•

Význam spojení „použitelnost webu“ je jasný – říká, jak je web srozumitelný a zjišťuje, jak intuitivně jej uživatelé používají. Jak ale něco takového testovat?

V roce 1998 dal expert na použitelnost Rolf Molich (vynalezl spolu s Jakobem Nielsenem heuristickou vyhodnocovací metodu) devíti týmům tři týdny na to, aby vyhodnotili aplikaci www.hotmail.com webové pošty. Tento experiment byl součástí jeho série srovnávacích vyhodnocování použitelnosti (CUE, Comparative Usability Evaluations), jejichž prostřednictvím začal identifikovat sadu standardů a nejlepších praktik pro testy použitelnosti. V každém segmentu této série požádal Molich několik týmů testujících použitelnost, aby vyhodnotili jeden design, a to takovou metodou, jakou uznají za vhodné.

Ze zdokumentovaných výsledků druhého testu, označeného jako CUE-2, se vynořil překvapující trend. Navzdory prohlášením, že profesionálové testující použitelnost pracují vědecky, když je jejich úkolem identifikovat problémy v nějakém rozhraní, vyhodnocení získaná testy použitelnosti jsou přinejlepším méně než vědecká. V interview s Christinou Perfetti publikovaném v User Interface Engineering, řekl Molich toto:

Týmy CUE-2 informovaly o 310 různých problémech s použitelností. Nejčastěji ohlašovaný problém ale oznámilo jen sedm z devíti týmů. Jen šest problémů bylo ohlášeno víc než polovinou týmů, zatímco 232 problémů (75 procent) bylo ohlášeno pouze jednou. Mnohé z problémů, které byly klasifikované jako „závažné“ ohlásil jen jediný tým. Ale i ty úlohy, které použila většina týmů nebo všechny týmy, produkovaly velmi odlišné výsledky – okolo 70 procent zjištění plynoucích z těchto společných úloh bylo jedinečných.

V testech CUE-4, které proběhly v roce 2003, vyhodnocovalo 17 týmů web hotelu Penn, který byl vybaven rezervačním systémem založeným na Flashi a vyvinutým pomocí iHotelier. Devět ze 17 týmů podniklo testy použitelnosti, zbývajících osm zkoumalo pomocí expertních posudků.

Dohromady tyto týmy informovaly o 340 problémech s použitelností. Ovšem pouze devět z těchto problémů ohlásila nadpoloviční většina týmů. A celkem 205 problémů – 60% ze všech ohlášených zjištění – bylo identifikováno pouze jednou. Z 340 identifikovaných problémů s použitelností bylo 61 problémů klasifikováno jako „závažné“ nebo „kritické“ problémy.

Zamysleme se chvilku nad uvedenými čísly.

Pokud by tým Hotmail chtěl identifikovat všechny problémy s použitelností, které byly v průběhu hodnotícího postupu klasifikované jako „závažné“, musel by si najmout všech devět týmů hodnotitelských týmů. V CUE-4, aby tým hotelu Penn rozpoznal všech 61 závažných problémů, musel by najmout všech 17 týmů hodnotících použitelnost. Sedmnáct!

Na dotaz, jak si mohou být vývojové týmy jisté, že na zkoumaných webech uchopili a pojmenovali ty správné problémy, se Molich vyjádřil, že „je to velmi prosté: nemohou si být jisti!“

Proč je vyhodnocení použitelnosti nespolehlivé

Vyhodnocování použitelnosti jsou prospěšné pro mnohé věci, ale ne pro určování priorit týmu. Naštěstí existuje vysvětlení závěrů, které jsou v rozporu s očekáváním, takže s jeho pomocí budeme moci zvolit adekvátnější vyhodnocovací postup.

Správné otázky, nesprávní lidé a naopak

Různé týmy docházejí k různým výsledkům především proto, že testy a výzkum mají často nevalnou úroveň: týmy buď pokládají správné otázky nesprávným lidem, nebo naopak, kladou správným lidem nesprávné otázky.

V jedné nedávné studii bylo cílem projektu vylepšit použitelnost pro nové uživatele webu. Sezení typu card-sorting, neboli „třídění kartiček“ – naprosto příhodná objevitelská metoda pro plánování změn informační architektury – odhalilo, že by se měla zachovat existující terminologie používaná na daném webu, i když zdaleka není ideální. K tomuto závěru dospěl tým proto, že aplikoval sezení s metodou třídění kartiček na existující uživatele webu, ne na nové uživatele, které měl web přilákat.

V jiné studii bylo zase úkolem týmu vylepšit použitelnost jisté webové aplikace, o níž bylo jasné, že se musí přepracovat. Nechali proto proběhnout testy použitelnosti, aby identifikovali hlavní problémy. Nakonec došli k závěru, že dosavadní, poměrně mizerně navržený existující tok úloh, nejen že se má zachovat, ale dokonce propagovat. Také tento tým nechal své testy proběhnout s existujícími uživateli, kteří – jak se dá snadno uhádnout – byli velmi zdatní v navigaci po stávajícím, i když nevhodném interakčním modelu.

Týmy hodnotící použitelnost se také pronikavě liší co do úrovně zkušeností, sad dovedností, vloh i vědomostí, a přestože byly některé výzkumné a testovací metody homogenizované do té míry, že by je měl zdatně zvládnout prakticky kdokoli, může získané výsledky ovlivnit i důvtip týmu (nebo to, že ho tým postrádá). To, že heuristické ohodnocení zvládne téměř každý, neznamená, že závěry budou vždy užitečné nebo dokonce přesné. Heuristiky nejsou pevný seznam definitivních faktů, jedná se o jistá vodítka, která může hodnotitel použitelnosti použít jako startovní čáru, od které začne aplikovat svou expertízu. Reprezentují počátek, nikoli konec vyhodnocení.

Testování a vyhodnocování je bez kontextu bezcenné

Dále, i když testování použitelnosti patrně není spolehlivější metoda určování priorit než když se určí expertně, kvalitativním ohodnocením, které provede jediný recenzent nebo malá skupina recenzentů, je testování jen jednou z mnoha vyhodnocujících nebo objevitelských metod: proto se musí zasadit do patřičného kontextu, což se ovšem často neděje. Některé metriky, jako například kolikrát byly navštíveny jednotlivé stránky nebo doby trávené na stránkách, se často mylně považují za standardní míry efektivnosti webu, přestože jsou bezcenné, nejsou-li zasazeny do patřičného kontextu cílů, proč byly tyto stránky navštěvovány.

Uživatel, který navštívil nějakou sérii stránek, tak konal proto, že je velmi efektivní tok úloh, nebo proto, že nemůže najít, co hledá? Tráví uživatelé spoustu času na nějaké stránce proto, že je zaujal její obsah, nebo že se dostali do slepé uličky a nevědí kudy kam? Web NYTimes.com určitě doufá, že čtenáři zůstanou na některé z jejich stránek hodně dlouho, tak dlouho, aby přečetli celý článek nebo alespoň prošli všechny její titulky. Cílem webu Google je, aby uživatelé našli to, co hledají, a aby co možná nejrychleji stránku výsledků hledání opustili. Dlouhá doba trávená na stránce NYTimes.com je metrikou, která by mohla indikovat její vysokou kvalitu nebo vysokou hodnotu článku. V kontextu toku prací při vyhledávání na Google by takováto metrika mohla indikovat totální selhání týmu.

Mám podezření, že týmy, které najal Rolf Molich, prostě vyhodnotili to, oč byly požádány. Patrně ale předem ani neabsolvovali proces odhalení cílů organizace a cílů uživatelů, ani neurčili metriky vyjadřující úspěch. Možná právě tento nedostatek informací má na svědomí, že výsledky byly zkreslené. Nicméně, právě tyto indikace nespolehlivosti vyhodnocujících metod umožňují identifikovat příhodnější výzkumná a testovací řešení.

Čemu testování skutečně prospívá

Kniha Blink, bestseller Malcolma Gladwella, začíná historkou o domněle starověké mramorové soše. Když ji vyhodnocovalo několik expertů na řecké sochařství, všichni prohlásili, že je tento artefakt padělek. Experti neměli po ruce sebemenší vědecký důkaz, jen si prostě sochu důkladně prohlédli a usoudili, že asi nemohla být vytvořena v tom časovém období, o kterém to tvrdili její nálezci. Tito experti neuměli svou víru ve většině případů nijak objektivně vysvětlit. Prostě to věděli.

Experti byli schopni činit takovéto závěry proto, že už předtím strávili tisíce hodin vybrušováním svých instinktů, při výzkumu i v praxi. Vypěstovali svůj um natolik, že byli schopni téměř okamžitě odhalit podvod, přestože přitom často nedokázali srozumitelně artikulovat, jak dospěli k závěru, že je zkoumaný objekt padělek.

Testování použitelnosti inspiruje návrháře a návrh

Dobrý profesionál hodnotící použitelnost musí být schopen identifikovat problémy, které mají vysokou prioritu, a také dodat patřičná doporučení – a ti nejlepší hodnotitelé to dokážou rychle a spolehlivě – především však musí návrhář umět dobře navrhovat. To je jedna z oblastí, kde je testování použitelnosti skutečně podnětné. Může vybrousit instinkty návrhářů až do té míry, že si budou uvědomovat potenciální problémy s použitelností, budou sami zdokonalovat návrhy, nebude nutné formálně testovat každý projekt a sníží se náklady.

Zajímavé také je, že většina nejpřesvědčivějších vhledů testů použitelnosti pochází nikoli z prvků, které se vyhodnocovaly, ale spíše z prvků, které se nevyhodnocovaly. Vznikají z téměř nepostřehnutelných okamžiků, kdy nějaký uživatel vraští čelo nad popiskem nějakého tlačítka, nebo se holedbá, že tok předložené úlohy zvládne levou zadní, a pak se ukáže, že mu to až tak snadno nejde, nebo prohlašuje, že mu je nějaký pojem zcela jasný, ale současně jeho chování ukazuje, že daný pojem pochopil špatně nebo nepochopil vůbec. Tyto nezamýšlené důsledky – periferní vhledy – jsou často tím, co nejvíc obohacuje instinkty návrháře. Za nějakou dobu mohou testovací sezení natolik posílit podvědomé instinkty návrháře, že bude schopen na první pohled rozpoznat detaily, které by mohly později způsobovat nějaké potíže. Zkrátka, testy použitelnosti mohou poskytnout enormní vhled do vzorů a nuancí lidského chování.

Tento názor či dojem však sám o sobě může sotva ospravedlnit výdaje na testování použitelnosti u organizací, které se potýkají se ziskovostí. Testování obvykle bývá ve firmě rutinní záležitostí až poté, co se firma stane úspěšnou, takže návrháři a profesionálové musejí výdaje ospravedlnit něčím jiným. Několik možností naštěstí je.

Ospravedlnitelné testování použitelnosti

Zaprvé, testování použitelnosti způsobuje často velký šok. Když týmy vyhodnocují svá počáteční sezení, neustále se dozvídají, což je velmi překvapuje, že neodhalily žádné jasně zřetelné návrhářské problémy. Už samotné toto šokující zjištění často postačuje, aby tým navedlo na strategičtější přístup, kdy se vrátí k tomu, co měli udělat už v té nejranější fázi celého postupu: jasně stanovit cíle projektu a zformovat vyčerpávající strategii směřující k dosažení těchto cílů. Řečeno stručně, přesvědčit týmy, že je něco špatně a motivovat je, aby podnikly nějakou adekvátní akci. A jak říká jedno mravní naučení, ve vědění je síla.

Zadruhé, testování pomáhá nastolit důvěru mezi všemi aktéry. U interního projektu pomáhá testování ukonejšit obavy managementu a zainteresovaných stran, zda jsou závěry a doporučení návrhářského týmu opodstatněné. Jinak řečeno, nestačí zjednat zkušené odborníky s praktickými zkušenostmi s testováním – tito odborníci pak musejí sami opakovaně prokázat své schopnosti, teprve pak začnou týmy důvěřovat jejich expertízám. Testování nabízí základnu pro vybudování takové důvěry.

Konečně, i když testování samo o sobě dobře neindikuje, na co by se měly zaměřit priority týmu, zcela určitě tvoří část triangulačního procesu. Když testování zasadíme do kontextu ostatních dat, jako jsou cíle projektu, cíle uživatelů, zpětné vazby od uživatelů a metriky měřící použitelnost, pomáhá při vytváření celkového obrazu o předmětu našeho zkoumání. Bez tohoto kontextu však může být testování přinejmenším zavádějící nebo mylně interpretované, v nejhorším případě může přímo škodit. Totéž platí i pro jiné vyhodnocovací metody, které nespadají pod testování, jako jsou heuristické expertní posudky.

Adaptace na realitu

Všechny předchozí argumenty ale mají jeden háček: točí se okolo představy, že se testování má především používat k identifikaci problémů s existujícími návrhy. A právě tam se týmy dostávají do nesnází – předpokládají totiž, že testování je cennější, než tomu doopravdy je, hledají řešení problémů čistě na základě testovacích dat, a revidují strategie čistě jen na základě komentářů participantů testu. Nic z toho ani spolehlivě nevede k pozitivním závěrům, ani nezajistí, že bude tým po absolvování celého procesu moudřejší než byl včera.

Už jsme viděli, že výsledky testu a výzkum mohou týmy nasměrovat k řešením, která jsou nejen nedobře uvážená, ale v přímém konfliktu s jejich cíli. Je jen přirozené, že existující uživatelé vykonávají zadané úlohy zdatně a bez zjevné námahy, přestože je návrh úloh evidentně chabý. Konec konců, nejpoužitelnější je taková aplikace, kterou dobře známe. To však neznamená, že by se špatné návrhy neměly předělávat. Naopak, když si osvojíme testování použitelnosti a zapřáhneme jeho sílu do svých služeb, můžeme přizvat aktuální uživatele k testování nových nápadů – nápadů, které vypluly na hladinu z expertního vyhodnocení a ze spolupráce s návrháři, a vytvářet nová řešení.

Co měli udělat

Ten tým, který v jednom z našich předchozích příkladů podnikl test s tříděním kartiček, měl nejprve vymyslet novou sadu termínů a pomocí testování provést jejich validaci, ne jako to dělal, že požádal uživatele, aby určili, na které stávající termíny je žádoucí se zaměřit nejdřív.

Tým, který došel k závěru, že se má propagovat chabě navržený tok úloh, protože ho zdatně zvládá existující publikum, měl vytvořit prototyp nových toků úloh a nechat proběhnout testovací sezení, která by ověřila jeho použitelnost u existujících i u nových uživatelů.

Tyto týmy, včetně těch vašich, mohou volit různé přístupy, aby identifikovaly problémy, na které je třeba se soustředit. Pouvažujte nad revidovaným plánem prací, který začíná heuristickým vyhodnocením založeným na expertních posudcích použitým v součinnosti s neformálními testovacími metodami, za ním následuje neformální a formální testování. Konkrétněji, zvažte, zda byste neměli použít nějaké online nástroje a placené služby, abyste prošetřili svá tušení, a pak pomocí formálnějších metod zahrnujících už i vstup od návrháře ověřte revidovaná řešení.

Tady máte seznam několika nástrojů, které se dají využít pro heuristické vyhodnocení, jímž se snažíte identifikovat problémová místa:

Pětisekundové testy. Ukažte uživateli na pět sekund nějakou obrazovku návrhu a požádejte ho, aby zapsal vše, co si zapamatoval. Na obrazovkách zaměřených na úlohy požádejte uživatele, aby vyřešil nějakou základní úlohu, pak mu ukažte obrazovku a požádejte ho, ať vám řekne, jak to udělá. Pětisekundové testy můžete nechat proběhnout zdarma online pomocí služby www.fivesecondtest.com.
Statistiky o klikání. Pomocí Crazy Egg můžete evidovat, kde lidé klikají, a to na konkrétních stránkách na živých webech. Tyto metriky mohou osvětlit, zda je účinná ta či ona reklama, zda je jasný tok úlohy, nebo zda opravdu pomáhá při zadávání vstupních hodnot ten či onen napovídající text.
Služby testující použitelnost. Web User Testing vyhledá participanty podle demografických požadavků, které kladete, nechá je provést úlohy, které identifikujete, a zašle vám výsledky, spolu s video záznamy všech testovacích sezení. Cena je 29 dolarů na participanta.
Statistiky o klikání na snímcích obrazovek. Web Chalkmark nabízí v podstatě totéž co Crazy Egg, používá ale snímky obrazovek, ne živé stránky. Proto můžete analyzovat použitelnost dané obrazovky ještě dřív, než se návrh dostane do provozu, což je samozřejmě nejlepší doba, kdy by se to mělo dělat.

Když týmy zpracovávají projekty týkající se použitelnosti takto, dokáží identifikovat priority, dospějí k lepším závěrům, a přesto budou moci těžit ze všech výhod plynoucích z toho, že se na testech použitelnosti aktivně podílejí.

U všech těchto metod se však musí dávat velký pozor na jednu věc. Uživatelé, kteří jsou zainteresovaní na dokončení zadané úlohy, konají velmi odlišně než ti uživatelé, kteří zainteresovaní nejsou. Participant testu, který si opravdu chce koupit digitální fotoaparát, se bude na komerčním webu nabízejícím fotoaparáty chovat jinak než uživatel, jehož jedinou motivací je dostat zaplaceno za účast na testu. Ti zainteresovaní při řešení úlohy vytrvají, budou ochotni překonávat mnohem víc problémů než uživatelé, kteří zainteresovaní nejsou. Budete-li používat kteroukoli z těchto metod, je důležité najít takové participanty, kteří skutečně chtějí dokončit právě ty úlohy, na jejichž vyhodnocení vám záleží nejvíc.

Závěry

Je zřejmé, že každý tým či organizace si nemůže dovolit výdaje spojené s testováním použitelnosti. Konec konců můžete dělat jen to, co je proveditelné ve vaší konkrétní situaci. Máte-li však možnost testovat – ať už je to jen jednorázový experiment, nebo rutinní součást vaší práce – zajistěte, abyste pro každý druh prací použili správný nástroj, a abyste k celému procesu přistupovali s jasně formulovanými očekáváními.

Profesionálové z oblasti použitelnosti by možná preferovali, kdyby se o Molichových zjištěních nemluvilo. Ne proto, že by činily celou profesi nepřijatelnou, ale protože mohou být nesprávně pochopené, pokud se o nich mluví mimo patřičný kontext. Přestože testování použitelnosti kompletně selhává tam, kde si mnozí lidé myslí, že je jeho účel nejadekvátnější a nejrelevantnější – totiž identifikovat problémy a navést tým správným směrem – i tak poskytuje přímou cestu, jak pozorovat lidské chování, dokáže v průběhu času brilantně formovat instinkty návrháře, buduje důvěru mezi zainteresovanými stranami, a je to velmi účinný nástroj pro ověřování platnosti návrhářských nápadů.

Budete-li testovat z opodstatněných důvodů, budete mít dobrou šanci dosáhnout pozitivních závěrů. Budete-li testovat z nesprávných pohnutek, může se stát nejen to, že vyprodukujete zavádějící výsledky, ale že ohrozíte celou vaši formu.

Informace o překladu

Původní článek: The Myth of Usability Testing (A List Apart).
Překlad: RNDr. Jan Pokorný.
Odborná a jazyková spolupráce: Miroslav Kučera.

Přeloženo se svolením autora / magazínu A List Apart. Zde naleznete další překlady.

About translation

Original article: The Myth of Usability Testing (A List Apart).
Translation: RNDr. Jan Pokorný.
Language and expert collaboration: Miroslav Kučera.

Language of translation: Czech (for readers from Czech and Slovak republics). Translated with the permission of A List Apart and the author. Other translations.

Předchozí článek Náhled do teorie barev pro webový design

Další článek Průvodce typografií na webu