文献推荐|医学教育研究中的定量和定性研究方法(下)

发布者:临床医学院发布时间:2019-04-11浏览次数:704


【摘要】医学教育改革与发展的推进需要高水平的医学教育研究作为支撑。本文介绍了2014年在Medical Teacher上发表,并作为欧洲医学教育委员会提供给医学教育工作者作为实践指南的2篇医学教育研究方法的论文,其目的在于为我国医学教育领域的研究者、管理者和教师提供参考,以便使之理解医学教育研究方法的特点,明白医学教育研究中定量研究和定性研究方法在提供医学教育证据上的不同贡献,便于根据所研究的问题选择合适的医学教育研究方法,更加科学和规范地开展医学教育研究。本文的主体部分包括研究范式、研究过程、定量研究设计、定性研究设计、研究对象与样本选择、数据收集与分析等6个部分,期望能够对开展医学教育研究有所参考和借鉴。

【关键词】医学教育;研究方法;定量研究;定性研究

基金项目:国家自然科学基金青年项目(71804005);北京大学医学部学科建设项目(BMU2017YB005)

文献来源:中华医学教育杂志,2019,(39)2:81-91.

作者:吴红斌  王维民

单位:100191北京大学医学教育研究所(吴红斌); 北京大学医学部(王维民)

通信作者:王维民,Email:wwm@bjmu.edu.cn

引用本文:吴红斌,王维民.医学教育研究中的定量和定性研究方法[J].中华医学教育杂志,2019, (39)2:81-91.DOI: 10. 3760/cam. j. issn. 1673-677X. 2019. 02. 001.


5 研究对象与样本选择

5.1 研究对象总体

研究对象总体(population)指的是研究设计中所有的被研究者,研究者进行研究方案设计时,需要对研究对象总体进行确定,以保证研究结果具有普遍意义。研究对象中成员的共同特征,也就是总体的单位/元素是要被测量的。总体分为有限和无限2种。如果由固定数量的元素组成,研究者能够确定其整体,则称为有限总体。例如,有限的总体可能是某个医学院学生群体或者教师群体。如果研究者理论上不能观察到所有的元素,则称为无限总体。

研究者无法接触到研究对象总体时,通常用可接近群体替代。可接近群体也分为有限和无限2种,它是目标人群的一部分。例如,目标群体可以是一个国家所有的医学生,但是研究者只能接触到一两所特定院校的医学生。研究者采用了群体的一个样本来代表目标群体。

5.2 抽样方法

样本是从研究对象总体中选来进行研究的一部分,是研究对象总体的代表。样本要具备代表目标群体所需要研究的所有元素。例如,在对医学生进行研究时,需要考虑到不同性别、种族和年级等,这是为了增强样本的代表性。

研究者通常使用抽样方法获取样本,以使样本能够较好地代表总体。抽样方法包括随机抽样和非随机抽样2种。两者最大的区别是,随机抽样中,总体中的每个元素被选做样本的几率是一样的;而非随机抽样中,每个元素被选中的几率是不同的。显然,通过非随机抽样选出的研究对象不能像随机抽样那样有效地代表总体。此外,非随机抽样可能包括研究者没有意识到的偏差,这被称为抽样偏差。大多数医学教育研究的研究对象是基于非随机抽样的,这是因为随机抽样耗时且昂贵,在某些情况下并不可行。因此,无论是定量还是定性研究,非随机抽样更多地被使用。

5.3 非随机抽样

方便性抽样、目的抽样和配额抽样是常见的3种非随机抽样方法。

5.3.1 方便性抽样

如果在可接近总体中选择样本是建立在方便和时宜之上的,就是方便性抽样。尽管方便性抽样可能效果不佳,但在许多学科领域如医学教育领域的定量和定性研究中均被广泛应用。例如,医学教师在教室中向学生分发关于计算机使用的自我报告问卷,以探究医学生计算机使用的现状和影响因素就属于方便性抽样。

5.3.2 目的抽样

目的抽样的样本选择是基于某种标准或某个目的。目的抽样为研究选择“信息丰富的数据来源”,它在定性研究中被广泛应用,但在定量研究中也可以用这种方法来收集数据。研究者在感兴趣的人群中选择有特定经历或能够提供研究现象丰富细节的个体时,经常采用目的抽样。在研究者构建特定的研究工具(如心理量表/问卷调查)时,也可以采用目的抽样。

5.3.3 配额抽样

配额抽样需要在总体群体中先鉴定出亚群,样本数量的选择基于亚群来分配。比如,探究学生对沟通技巧的态度,需要从500名学生中选出150名学生作为样本,而学生群体中60%的学生是女生,那么配额抽样就要保证在样本中也有60%的女生,相对方便性抽样,配额抽样的样本代表性更高。

5.4 随机抽样

非随机抽样在定量和定性研究中均被广泛使用,而随机抽样更多地应用在定量研究中。在随机抽样中,研究对象必须随机选择。换言之,每个研究对象都有同等机会被选中。通过随机抽样,研究者能够得到研究对象总体的一个有代表性的样本。

随机抽样可以计算抽样误差。随机抽样在理论上得到了高度支持,虽然研究者在实际情况下很难使用它们。随机抽样的总体和样本之间的任何差异都不受制于研究者的偏差。非随机抽样的数据结果相对而言信服力不够,因为可能存在样本偏差。

5.5 样本量

无论是定量还是定性研究,在样本选择时都需要确定样本量。样本大小的确定在定量和定性研究方法中并不一样,以下分别进行说明。

5.5.1 定量研究中的样本量

当设计一项研究时,总会面临一个问题:需要多少个研究对象进行研究?如果样本量太大,可能浪费资源;如果样本量太小,又难以得到准确的研究结果。没有一个公式来估计一项调查研究中需要多少研究对象。通常大样本量比小样本量好,因为抽样误差会减小,尤其是当一项研究中使用非随机抽样时。在对照研究中,如能预计组间存在较大的差异,此时就不需要更大的样本量;反之,如能预计组间差异很小,就需要更大的样本量。在纵向研究中,可能存在失访,就需要相对更大的样本量。研究的变量数目和所使用的统计程序的类型也会影响样本量。一般说来,每个变量应当考虑30个研究对象。应该注意到,抽样偏差(sampling bias)和抽样误差(sampling error)是定量研究者必须关心的问题。

如果选择样本不仔细,就可能产生抽样偏差。比如,在一项研究中,如果有30%的男生对问卷进行了答复,而可接近总体中有50%是男生,研究结果就可能存在偏差,因为样本并不能代表可接近的总体。研究者需要报告答复率。同时,答复者和非答复者的差异(有时被称为非应答偏倚)也要报告。抽样误差指的是从随机抽样中得到的数据和从目标人群总体中得到的数据之间的差异。样本均值和总体均值的差异称为均值的抽样误差。抽样误差总是存在的,这与抽样方法有关,相比随机抽样,非随机抽样误差较大。

5.5.2 定性研究中的样本量

定性研究中的样本量受研究范围、研究主题性质、数据质量、研究设计等因素的影响。定性研究中的样本量相对较小且非任意,其目的是对感兴趣的现象获得一个详尽的描述。比如,一个现象学的研究,选用的样本可能是1个~10个研究对象;一项扎根理论研究可能采用10个~60个研究对象。定性研究中确定评估样本量的关键因素是数据饱和原则。如前所述,定性研究者在数据收集过程中构建理论,在此基础上,当来自新的研究对象不能再提供新的信息时,就认为样本量已经足够,达到了数据饱和。

6 数据收集与分析

6.1 数据收集

定性和定量研究中的数据收集并不一样。数据收集需要与规范的研究设计和研究目的相匹配。有几种常用的收集定性和定量数据的方法,在医学教育中常用的收集方法是自填问卷(self-administered questionnaires)、 焦点小组(focus groups)和访谈(interviews)。自填问卷在定量研究方法中得到广泛应用,焦点小组和访谈在定性研究方法中得到广泛应用。

6.1.1 自填问卷

问卷调查是在医学教育研究中使用最多的方法。问卷可以是纸质的,也可以是电子的。自填问卷包含了研究对象需要回答的问题。应当保证问卷中的问题对确定的研究对象有意义,一个好的问题就是根据研究设计将其中的变量以可以测量的形式予以呈现。好的问题之间应当反映变量之间的数据关系。

问卷问题分为2种类型,即封闭式和开放式问题。调查者预先定义封闭式问题,不过这容易限制问题的范围和深度。开放式问题可以让研究对象有机会自由地更有深度地予以回答。相比开放式问题,封闭式问题的分析更加容易。使用这2种方法,研究者可以测量研究对象对研究现象的知识、看法、态度、信仰和观点等。问卷不宜太长,否则,研究对象可能会感到枯燥与无聊,甚至可能放弃问卷或者不回答完所有的问题,导致缺失值和低回答率。一般来说,短问卷比长问卷得到答复的可能性更大。在问卷调查中,要注意到特殊群体,如老人和小孩,他们可能并不适合采用自填问卷。

基于网络的调查能够简化传播和收集问卷的过程,并且可以减少数据录入错误,而被广泛应用于教育研究中。不过相比于纸质问卷调查,在线问卷的回答率要更低,需要更多的激励措施。匿名问卷更可能收到真实的答复。

6.1.2 焦点小组

焦点小组是定性研究方法中经常使用的数据收集方法。焦点小组是一个半结构化的讨论小组,由一个小组领导主持,在非正式的环境中进行,其目的是收集一个特定主题的信息。在焦点小组中,当研究对象互相交流时,对于感兴趣的问题,小组成员会陈述各自的观点。由焦点小组产生的数据是研究对象组成的小组共同构建的综合数据,不代表每个研究对象的观点。一个焦点小组通常由7名~10名可以提供良好定性数据的研究对象组成。大多数研究只有很少的焦点小组,但是他们能够与其他收集数据方法,如个人访谈或问卷结合起来。这种混合方法在教育等社会科学研究中很受欢迎。

6.1.3 访谈

大多数定性研究是基于访谈的。定性研究的访谈目的是探索和描述确定的受访者的经历与所研究现象的关系。定性访谈研究可以分为2种类型:半结构化访谈(semi-structured interviews)和深度访谈(in-depth interviewa),深度访谈通常为非结构式访谈(unstructured views)。

在半结构化访谈中,访谈者预先选定问题,形成访谈提纲,然后根据访谈提纲提问。不过,大多数定性研究使用的是深度访谈。当研究者对所研究主题知之甚少时,这种方法非常有用。深度访谈的重点是“调查者与那些对研究主题有了解或有经历的人的交流”。通过这种访谈,研究者探索到调查对象的经历、 动机和见解,学会用他人的角度看世界,而不是自己的观点。在深度访谈中,调查者首先询问一些开放式的问题,然后引向深入。比如,“你所经历的PBL是什么样的?你能对我阐释一下你的经历吗?”后续的问题则基于受访者的答复。这些问题为PBL讨论提供了深入的机会。访谈内容需要逐字记录并加以分析。

6.2 数据质量

对收集的数据进行分析前,需要对数据质量进行检测。信度(reliability)和效度(validity)是定量研究中对数据质量进行检测的2个关键指标,信度与效度直接关系到数据质量。

信度是指结果的一致性、 稳定性和可靠性,信度反映结果的可复制性。如果重复多次测量,结果差异很小,这说明数据的信度较高。效度指测量工具或手段能够准确测出所需要测量事物的程度,测量结果与所要考察的内容越吻合,效度越高。如研究者在进行研究时可以问自 己,这个测量工具(如调查问卷或调查问卷中的题项设计)真正测量的是什么,与研究主题是否相关,以及测试的分数是否能够准确反映所需要测量的内容。

需要注意的是,信度与效度不完全同向,效度高并不一定信度就高,信度高也并不一定效度就高,定量研究中的数据测量,已经有许多相应的测量理论与方法,如经典测试理论、 概化理论和项目反应理论,它们均可以揭示测量工具的信度和效度。这些方法已经在社会科学的多个领域得到广泛应用。

定性研究和定量研究均重视数据的质量。由于定性研究的认识论和本体论假设与定量研究不同,定性研究者用“可信性”(credibility)、“可靠性”(dependability)、“一致性”(conformability)、“可迁移性”(transferability)来衡量数据质量。可信性是指对数据的真值和对其解释的信任。可靠性是用于评估研究结果可信性的另一个标准,研究者应该考虑当再次访谈同一位参与者或调查类似的情况下,研究结果是否会被复制。一致性与基于研究对象观点的研究结果的准确性有关。因此,研究结果应该清楚地以研究对象的视角为基础,而不是研究者的想象。研究结果不应当受研究者的动机、 兴趣、偏见或观点所影响。研究者应该了解自己的偏见,以确定研究结果的一致性。可迁移性(有时称为适用性)是确定研究结果如何迁移或适用到其他环境中。

此外,研究者有时使用三角互证(triangulation)和成员检查(member check)来验证研究结果。三角互证是指使用不同的方法(如定性或定量方法)以检查研究结果的有效性,并尽量减少研究中的错误来源。三角互证也将有助于研究者更好地理解事实。在成员检查中,研究者要求研究对象回顾研究者提供的研究结果和解释。这对研究者来说是一个很好的机会来证实其研究的意义和对研究的解读。

6.3 数据分析

研究者需要分析数据以便为解释研究现象提供证据。定量数据分析与定性数据分析的不同之处在于前者更多地基于数字而不是文本。定性研究者一般不关心数值或统计中解释的结果。

6.3.1 定量数据分析  

定量研究者使用数值和统计程序来组织和解释数据。定量数据测量可以分为4种类型,分别为名义、定序、间隔和比率,前两者对应为分类变量,后两者对应为连续变量。名义测量包括命名观察(数据)而没有任何顺序或结构,如性别、种族或血型等。定序测量中数据可以按照一定标准或属性进行排序,如社会阶层可以根据收入划分为低、中、高,数值编码中分为1、2、3。虽然不能准确推断低收入人群和中等收入人群的差异,但可以推断1小于2、2小于3或3大于1和2。在此,需要注意的是数值之间的差异没有实际意义。在间隔测量中,研究者可以对数据进行排序并推断出数值之间的差异。间隔测量中零点是任意的,其值并不意味着不存在,如0摄氏度并不表示没有热量。比率测量与区间测量相同,但其零点是绝对的。例如,血压为0的人是不存在的,只有间隔和比率数值可以进行数学运算(如相加或相除)。所有可用于比率数据的统计程序都可以用于间隔数据。在研究中了解数据的测量水平有助于统计分析。统计分析可以划分为描述统计和推断统计两大类。描述统计的目标是描述或概括一组特定数据特征,它涉及频率分布、 数据分布特征等。在推断统计中,研究者试图去挖掘数据之外的信息,它可以分为估计和假设检验。估计是研究者根据样本数据来估计总体的特征,分为点估计和区间估计。而假设检验则是根据样本数据对总体的假设进行检验,经常用到的假设检验有独立样本t检验、单因素方差分析、卡方检验和回归分析等。SPSS统计软件包是在社会科学研究中经常用到的统计软件,此外SAS、Stata、Eviews等也得到 广泛使用。对于定量研究中研究结果的解读,应该在研究者比较以前和现有的研究数据并进行讨论后产生。如果研究结果不支持以前的研究,对其可能的原因应当予以讨论和解释。研究对象的性质在任何时候都必须记住,要避免研究对象被不恰当地泛化。最后,需要明确研究结果对于医学教育及其未来研究主题的意义。根据研究结果的解释,推荐进一步研究的可能方向。

6.3.2 定性数据分析  

与定量数据分析不同,定性数据的分析没有特定的公式或规则。在定性数据分析中,研究者专注于意义而不是可测量的现象。同时,研究者对感兴趣的现象提供详细的描述,而不是测量特定的变量。内容分析法(content analysis approach)是分析定性数据常用的方法。数据收集开始后,可以随时分析数据。研究者的任务是通过仔细阅读所有的文字记录来理解数据。例如,40分钟的访谈可能会产生20页~25页的文本。对此,应当进行分析,以便掌握参与者对感兴趣现象的看法。定性研究者应该发展其归纳推理能力,以便分析定性数据。研究者的总体任务是将意义上相似的数据聚合在一起,以便生成主要类别。在分类过程中,研究者将访谈记录分解成有意义的小单元,并使用编码系统来识别有意义的单元。在编码过程中,每个单元根据其表示的内容被赋予一个标签。为了识别主要类别,代码根据其共性进行类聚,然后将这样的数据组标记为类别。每项研究通常有10个~15个类别。最后,类别形成相关主题。数据饱和度在每个主要类别已经满时达到,也就是说,新的信息不会添加到该类别中。一些替代方法可以用于分析定性数据,所选择的方法取决于研究问题和研究者的范式。现象学、 人种志和扎根理论研究需要进行具体的数据分析。定性分析软件包可以帮助管理和加速定性数据分析过程,如ATLAS、NVivo软件。但需要注意的是,这些应用软件并不能在研究者没有付出“创造力、思考、严谨分析和大量的辛勤工作” 前生成代码和类别。研究者的任务是编码、 归属类别或主题,应用软件只是帮助实现。在定性研究中,对编码、 类别和主题的解释依赖于研究者的主观解释。因此,定性结果的可信度和研究者的研究水平非常相关。定性研究中结果的解释可以有多种形式。对于定性研究结果的可迁移性需要加以注意。与定量研究相同,定性研究结果对于医学教育实践、政策和未来研究的影响要在研究中体现。

7 结语

采用科学的研究方法对于医学教育研究至关重要,本文对医学教育研究中的研究方法进行了较为全面的阐述。需要补充的是,在实际研究过程中还需要注意研究中的伦理问题,在伦理中要遵循尊重研究对象、有益原则、不伤害原则和公正原则等。总的来说,在医学教育研究中需要明白:①定量研究和定性研究并不矛盾,而是相辅相成,其目的都是为了解决问题。②定量研究遵循实证主义范式,其研究的领域被视为客观现实;定性研究遵循自然主义或建构主义范式,其研究领域被视为社会建构的主观现实。③定性研究归纳性地构建和解释模型和理论,而定量研究演绎性地检验理论。④当对所感兴趣的现象缺乏了解时,建议用定性的方法来探究和理解这种现象。⑤在定量研究中,研究结果的准确性取决于测量工具的有效性和可靠性;而在定性研究中,研究结果的可信度很大程度上依赖于研究者的水平。⑥定量研究者依赖于从统计过程中获得的描述统计或推断统计结果,而定性研究者则依赖于参与者真实话语的分析来描述和支持所确定的主题。⑦所有的研究都必须考虑基本的伦理原则,以确保参与者无论是在收集数据的过程中,还是在展示结果的过程中都不会受到伤害。

尽管定量研究与定性研究有所不同,但这2种方法都可以为医学教育提供新的证据,提高医学教育理论和实践的科学性和可信度,从而为医学教育改革提供支撑。对于医学教育研究者而言,选择正确的研究方法,回答所需要或所感兴趣的研究现象或问题是其面临的挑战。研究方法选择的关键在于对其能够有正确的理解和整体性的掌握。本文的目的就在于帮助医学教育研究者在选择正确的研究方法时尽可能减少困难。对于研究方法的一些具体细节,由于篇幅所限,文中表述可能并不到位,但结合参考文献或文中的相关关键术语,本文希望能够为同道提供进一步学习和探究的途径。

利益冲突  所有作者均声明不存在利益冲突

作者贡献声明 吴红斌:文章撰写;王维民:提出研究思路

参考文献略