28.3. 交互技术的评估方法#
28.3.1. 常用评估方法#
对交互系统的可用性进行评判是在设计与开发交互系统时的重要指标。但是,交互系统可用性包含易学性、效率、满意度、可发现性等多个用户主观评价因素,因此难以使用简单的数学计算方式计算可用性。 设计者往往会采用如下的几类方法,来评估该交互系统的可用性质:
用户模型 (User Model): 用户模型指的是对交互系统的目标用户群体的信息的建模。用户模型能够帮助交互系统的设计者了解用户群体的角色特征,需求,使用环境,目标等基本信息的分布,从而更好的设计出更加符合期望用户群体的交互系统。同时通过调查实际使用交互系统的用户分布,设计者可以分析期望用户模型与其的差异。利用该差异设计者可以分析交互系统设计的优秀和不足之处,并在之后进行针对性的改进。准确的用户模型能够极大的提升交互系统设计的可用性,而不准确的用户模型可能会对交互系统的设计目标产生误判,导致用户交互体验极大的降低。
启发式评估 (Heuristic Evaluation): 启发式评估指的是请专家会对用户界面进行评判,确保其设计符合行业中普遍认可的可用性原则。专家会根据一组基于长期的用户研究和实际经验的可用性原则,独立对交互系统进行系统。在评估时,由 Jakob Nielsen 提出的十大可用性原则是最常用的。该原则包括:保证系统状态的可见性;交互操作的一致性;为用户提供交互帮助与文档;符合用户思考习惯等内容。该方法能够在早期判断交互系统的可用性,但是判断的准确性很大程度长依赖于专家的知识储备。同时,专家观察的角度与用户也存在一定的差异,因此部分可用性问题可能无法发现。
认知性遍历 (Cognitive Walkthrough): 认知性遍历指的是让设计者执行表达任务。这个表达任务需要表达用户在使用交互系统每个步骤需要知道什么信息,之后进行什么操作来完成角色目标。这能够帮助设计者从用户的角度思考交互系统的设计。但是由于其有作为设计者对于该交互系统的先验知识,在执行表达任务的时候会附带固有的对交互系统的更为全面的了解。因此认知性遍历仍然会带有一定的设计者的认知偏差,其效果不如放声思考法。
用户测试 (User Testing): 用户测试指的是通过让实际用户在现实环境中使用交互系统,并评估其可用性。通过用户测试的方式,设计者能够获取用户在使用者的不同视角下对该交互系统的评价与建议,将上述信息整理收集后可以进行针对性的改进。用户测试更多会作为交互系统上线前的可用性测试方式,评估内容会更多关注交互系统的整体大框架。
用户问卷调查 (Questionnaire): 用户问卷调查指的是让实际用户在实际使用交互系统后填写满意度的问卷。设计者可以使用标准的、经过验证的问卷与用户进行交互,将上述信息整理收集后可以进行针对性的改进。用户问卷调查更多会作为交互系统上线后的可用性测试方式,其评估方式更多会关注交互系统的细节交互方式调整。
放声思考法 (Think-Aloud Method): 放声思考法指的是让用户说出他们在每个时刻所看到、想到、做的事情和感受。通过观察与记录用户在实际交互的时候做的事情以及感受,设计者能够以确定他们的期望,并确定交互系统的哪些方面令用户困惑,哪些方面另用户感到满意。由于用户能够实时的反应其在交互式后的真实方法,且在交互过程中不存在认知性遍历中设计者拥有的对交互系统的全面了解。因此放声思考法是上述方法中效果最好,最准确的可用性评估方法。
接下来,我们来具体的介绍几种较为常见的交互系统可用性评估方法。
28.3.2. 系统可用性量表 (System Usability Scale, SUS)#
如图 28.23所示,系统可用性量表 (SUS) 是一种简单的包含十个问题的李克特量表 (Likert Scale),可以较为全面地反映系统可用性的主观评估。系统可用性量表由英国人 John Brooke 于 1986 年开发,并最初作为作为电子办公系统可用性工程的工具。
系统可用性量表包含十个与系统使用体验相关的陈述性语句。对于每一个语句,用户可以从五个选项中选择一个,来表示该语句与用户在实际使用系统体验之中的相符程度。通过对每个语句相符程度的线性加权求和,设计者能够较为简单的获取一个对系统可用性的评价。例如,针对图 28.23 的系统可用性量表,我们可以根据陈述性语句与系统可用性的关系,将问题分为积极的 \(1,3,5,7,9\) 和消极的 \(2,4,6,8,10\) 两组。假定 \(Q_i\) 表示第 \(i\) 的问题用户的评价,则我们可以根据问题的积极性与消极性分布求和,并通过线性组合最终得到如式 (28.1) 的可用性计算方法。
由于其设计简单,用户评价时间短,且能够提供一个显式的数字评分作为可用性的估计,系统可用性量表广泛应用于用户问卷调查,用户测试等可用性评估问题上。
28.3.3. A/B 评测 (Formal A/B Studies)#
A/B 评测是简单随机对照实验其中一种。在 A/B 评测系统中,设计者需要设置对于新旧交互系统,或者是相同交互系统的不同设计方式的对照。进行测试的时候,测试者可以选择同时向童虎展示两者,也可以向用户随机的展示两种交互系统的其中一种。通过上述测试,设计者能够更好的了解用户对于两种不同交互系统的满意度,参与度,使用倾向等主观信息。同时,设计者能够统计用户在进行对比试验时候的使用交互系统交互次数,交互时间,潜在错误数量等客观信息。将上述主观信息和客观信息进行统计后,设计者便能够通过数据的对比对两种交互方式的可用性优劣程度,并针对性地给出修改意见。我们选择也可以将 A/B 评测进一步的拓展为多个交互系统的对比实验,来比对多种设计之间的差距。
A/B 评测常常用于学术论文等需要较严谨的数据比较的场合。由于 A/B 评测的数据来源于对受试者的随机采样,因此在进行数据展示的时候通常需要添加置信区间,如图 28.24 所示。
28.3.4. 专家反馈 (Expert Evaluations)#
专家反馈是指让专家检查交互系统的可用性。最常用的专家反馈评估就是启发式评估法,也就是根据符合行业中普遍认可的可用性原则评测交互系统。由 Jakob Nielsen 提出的十大可用性原则是最常用的。该原则包括:保证系统状态的可见性;交互操作的一致性;为用户提供交互帮助与文档;符合用户思考习惯等内容。评测时候专家会详细检查整个交互系统的交互页面,将观察到的问题分类归纳到可用性原则中,并分别给出对应的修改意见。再给出修改意见后,设计者进行整理并进行针对性的修改。
针对基于不同平台的设计系统,专家往往也会给出其对应的可用性原则。例如苹果针对 IOS/MAC OS 平台提出了该平台上的可用性原则,其中包括了限制屏幕上的控件数量,无缝使用在横屏竖屏等不同场景下的展示风格,在获得许可的情况下使用免密支付等原则。同时,苹果也向设计者展示了交互系统运行的平台信息。通过上述原则,苹果能够帮助设计者在设计基于 IOS/MAC OS 平台上的交互系统的时候,能够更好的服务于用户的交互需求。