如何对系统可用性进行量化?
如何对系统可用性进行量化?
在软件工程和用户体验设计领域,如何准确量化系统的可用性是一个核心问题。本文将介绍ISO/IEC 9126-4标准中推荐的可用性指标体系,从有效性、效率和满意度三个维度,详细阐述了具体的量化方法和实践建议。
衡量可用性的原因有很多。
- 最常见的原因是:需要与正在评估的系统的相关方进行有效沟通。
- 可以使用指标来比较两个或多个产品的可用性,并量化可用性问题的严重性。
- 进行可用性测试时,需要使用指标。
总的来说,可用性指标的主要目的是开发一个既不设计不足也不过度设计的系统或产品。
ISO 9241-11 标准将可用性定义为“特定用户在特定使用环境中使用产品以实现特定目标的程度,其有效性、效率和满意度”。
ISO/IEC 9126-4 指标建议可用性指标应包括:
•有效性:用户实现特定目标的准确性和完整性
•效率:与用户实现目标的准确性和完整性相关的资源。
•满意度:使用的舒适性和可接受性。
一、有效性
1、完成率
有效性可以通过测量完成率来计算。完成率被称为基本可用性指标,如果测试参与者设法完成任务,则分配二进制值“1”,如果他/她没有完成任务,则分配“0”。
由于其简单性,完成率是一个非常容易理解的指标,因此它非常受欢迎。另外,完成率可以在任何开发阶段收集。因此,有效性可以通过使用这个简单的等式来表示为百分比:
有效性 = 成功完成的任务数 / 已完成的任务总数 * 100%
尽管我们始终以100%的完成率为目标,但根据一项研究表明,产品的平均任务完成率为 78%(基于对 1,100 个任务的分析)。
在同一项研究中,还观察到完成率在很大程度上取决于所评估任务的背景。
例:有效性的计算
5 个用户使用同一个系统执行一项任务。测试会话结束时,3 个用户设法实现了任务目标,而另外 2 个则没有。使用上述公式,系统的整体用户效率计算如下:
ü成功完成的任务数 = 3
ü已完成的任务总数 = 5
将上述值代入有效性方程中:
有效性 = 3 / 4 * 100% = 60%
用图形方式表示完成率也非常容易,例如如下图所示的堆叠条形图(请注意,此图不适用于上述示例)
2、错误数
另一个测量是计算参与者在尝试完成任务时犯的错误数量。
错误可以是用户在尝试任务时犯的意外操作、失误、错误或遗漏。理想情况下,应分配简短描述、严重性等级,并将每个错误分类到相应的类别下。
尽管这可能很耗时,但计算错误数能够提供出色的诊断信息。
据研究表明(根据对使用消费者和商业软件执行的 719 项任务的分析结论)
每个任务的平均错误数为 0.7,每 3 个用户中就有 2 个出错。只有10% 被观察到的任务,在没有任何错误的情况下被执行。
由此我们可以看出:用户在执行任务时犯错误是完全正常的。
二、效率
效率是根据任务时间来衡量的。也就是说,参与者成功完成任务所需的时间(以秒和/或分钟为单位)。
效率计算方法是用结束时间减去开始时间,即可获得完成任务所需的时间,如下式所示:
任务时间 = 结束时间 – 开始时间
另外,可以通过以下两种方式之一计算效率:
1、基于时间的效率
üN = 任务总数(目标)
üR = 用户数
ünij = 用户 j 完成任务 i 的结果(如果用户成功完成任务,则 Nij=1,如果未完成,Nij=0)
ütij = 用户j 完成任务i所花费的时间(如果任务未成功完成,测量时间为直到用户退出任务的那一刻)
示例:基于时间的效率计算
假设有 4 个用户使用同一产品尝试执行相同的任务(1 个任务)。3 个用户成功完成它,分别需要 1、2 和 3 秒。第4个用户需要 6 秒钟,然后在没有完成任务的情况下放弃。
那么:
üN = 任务总数 = 1
üR = 用户数 = 4
ü用户 1:Nij = 1 和 T ij = 1
ü用户 2:Nij = 1 和 T ij = 2
ü用户 3:Nij = 1 和 T ij = 3
ü用户 4:Nij = 0 和 T ij = 6
将上述值放入等式中:
2、整体相对效率
整体相对效率使用成功完成任务的用户所花费的时间与所有用户所花费的总时间之比。计算公式如下:
这个公式看起来就让人不明觉历,想要放弃,但如果在例子(还是上面的案例)中理解,应变得容易多了。
示例:总体相对效率计算
假设有 4 个用户使用同一产品尝试执行相同的任务(1 个任务)。3 个用户成功完成它分别需要 1、2 和 3 秒。第4个用户需要 6 秒钟,然后在没有完成任务的情况下放弃。
因此:
üN = 任务总数 = 1
üR = 用户数 = 4
ü用户 1:Nij = 1 和 T ij = 1
ü用户 2:Nij = 1 和 T ij = 2
ü用户 3:Nij = 1 和 T ij = 3
ü用户 4:Nij = 0 和 T ij = 6
将上述值放入等式中可得到以下结果:
效率可以图形化地表示为条形图。
下面的例子显示了对执行 5 个任务的 11 个用户使用基于时间的效率方程的结果。堆积条形图用于区分初次使用用户记录的效率与专家用户记录的效率:
三、满意度
用户满意度是通过标准化的满意度问卷来衡量的 ,问卷可以在每项任务和/或可用性测试会议之后完成。
1、任务级别满意度
在用户尝试一项任务后(无论他们是否设法实现其目标),都应该立即向他们提供一份调查问卷,以衡量任务的难度。
这些任务后问卷通常由 5 个问题组成,采用科特量表的形式(评级表),目标是从参与者的角度深入了解任务难度。
最受欢迎的任务后问卷是:
üASQ:情景问卷后(3 个问题)
üNASA-TLX:NASA的任务负荷指数是衡量脑力劳动的指标(5个问题)
üSMEQ:主观心理努力问卷(1 个问题)
üUME:可用性量级估计(1 问题)
üSEQ:单易用题 (1 题)
上面的量表,建议使用SEQ(如下图),因为它简短且易于响应、管理和评分。
总的来说,这项任务是?
2、测试水平满意度
测试水平满意度是在测试结束时,向每个测试参与者提供正式的问卷来衡量的,这有助于衡量他们对被测系统整体易用性的印象。
可以使用以下问卷(按问题数量升序排列):
üSUS:系统可用性量表(10 个问题)
üSUPR-Q:标准化用户体验百分位排名问卷(13 个问题)
üCSUQ:计算机系统可用性问卷(19 个问题)
üQUIS:用户交互满意度问卷(24 个问题)
üSUMI:软件可用性测量清单(50 个问题)
选择采用哪个问卷,取决于:
• 为衡量用户满意度分配的预算
• 用户感知满意度对整个项目的重要性
如果分配了足够的预算,并且用户的满意度非常重要,应该使用SUMI。
如果衡量用户满意度很重要,但分配的预算不大,那么应该使用 SUS。
另边多说一句:SUS还可以来衡量用户对软件、硬件和移动设备的满意度,而 SUPR-Q 用于衡量网站的测试水平满意度。
SUS在实践中受到欢迎,因为有测试结果表明,它可以提供非常准确的结果。此外,它由一个非常简单的量表组成,易于对参与者进行管理,因此非常适合用于小样本量。
ISO可用性指标,可以观察和量化任何系统的可用性,无论它是软件、硬件、基于 Web 还是移动应用程序。这是基于各种学者和专家的广泛研究和测试的结果,经受住了时间的考验。