《临床研究报告》内容解读和分析

编辑：岁福医疗器械咨询　时间：2021-08-10　阅读量：

　　导言：医学生在大学阶段学习的东西10年内一半可能会被证明是错的，因此从医学研究中学习是一个优秀的医生能不断更新知识、跟上医学进步的必备修炼；临床研究首先需要提出研究问题，因此掌握医学发展前沿也是一个好的研究者做好研究的必备修炼。本文讲的正是如何从临床研究报告中学习的技巧。

　　一、医学文献评估概述
　　二、确定临床实践问题
　　1）临床实践问题的特征
　　2）临床实践问题的构成
　　三、检索有关研究
　　四、文献评估的内容
　　五、评估研究的结果
　　六、评估结果的真实性
　　七、评估结果的外推性
　　八、依据证据进行决策
　　九、本章概要

　　一、医学文献评估概述

　　循证医学是遵循证据进行医学实践的学问，其目的是将证据用于实践，改善实践。对证据及其作用的理解是了解循证医学的关键。医学实践需要的一切信息皆可称为证据，循证医学的证据特指需科学研究方可获得的信息；一切科学研究的结果皆可称为证据，但医学实践需要的证据特指那些探索或回答医学实践问题的科学研究的结果。

　　那么当医生碰到新的或不能回答的实践问题时，他们将如何寻找有关的信息和证据？医生传统的信息来源主要包括其他医生、学术讲座、学术会议、参考书、医学杂志。医学杂志发表的科学研究是其他信息的源头，但最方便最常用的信息来源是参考书。传统的参考书有明显的缺陷：①信息的可信度不明，读者不知道其信息来源，因此不知其是否可信，以及可信的程度；②信息的时效性不明，即读者不知道信息是否已经过时，是否有新的研究已经改变了有关结论；③信息不完整，即缺失一种或多种与实践和决策相关的必要信息，如治疗可改变的结局指标、效果大小的定量信息，以及不同研究结果的异质性；④对信息的描述不准确或太复杂，致使其临床含义不明确或不易理解，使读者无法正确地利用有关信息指导实践，如对复杂治疗的描述不够详尽，用比值比描述效果的大小，用P值描述结果的精确性，等等。正是由于传统的教科书传播医学信息的低效性，很多充分证明无效的措施还在实践中常规使用，很多充分证明有效的措施却迟迟不能用于实践。

　　循证医学的早期倡导者提出循证医学，认为最好的证据来源是医学杂志发表的科学研究，每一个医学工作者必须学习收集、总结、分析和利用原始科学研究证据的知识和能力。任何信息和证据都有两个基本特征，即相关性和真实性。对于一个具体的决策来说，世界上绝大多数的科学研究与医学实践无关，很多相关的信息和证据又是不可靠的。

　　例如，收集科学研究最全面的文献库是美国国家医学图书馆编纂的MEDLINE。目前MEDLINE收集的科学研究论文多达一千多万，与某一个具体实践问题相关的原始研究文献少则几篇，多者不过几十篇，从上千万篇文献中找出几篇或几十篇有关的文献，犹如大海捞针，一定要有有效的文献检索策略和方法。

　　文献检索必须从临床问题开始。一个好的临床研究都是回答了一个明确的具体的临床实践问题。比如，在常规治疗基础上，针灸治疗是否可以提高恢复期脑卒中病人的生存质量？又如，在中度高血压病人中使用钙拮抗剂是否可以降低未来5年心脑血管事件的危险？有了明确的临床问题，检索相关的研究，就是检索那些回答了你所面临的临床问题的研究，就是利用你的临床问题的特征去检索那些具有同样或类似特征的研究。

　　因此，利用证据的第一步是根据实践的需要，形成问题，识别需解决的问题的性质、特征和构成，并依此制定出文献检索方案。第二步是针对具体问题，选择合适的文献库，检索和收集现有最好的相关的证据；第三步是评价收集到的研究的方法学质量，判断结果的可信性，综合和解释研究显示的结果，并分析结果的临床价值和外推性；最后一步是依据现有证据的提示，兼顾现有资源的多寡和病人的价值取向，制定出合理的处理方案。

　　提出问题、检索文献、评价文献、做出决策，是早期循证医学内容的核心，即评价医学文献技术（critical appraisal skills）（见图1）。本系列文章将对医学文献评价进行一般性的介绍。

图1 实施循证实践的步骤

　　二、确定临床实践问题

　　1）临床实践问题的特征

　　医生在医学实践中可能问及的问题大致可分为三类：基础医学问题（basic biomedical questions）、临床基础问题（clinical background questions）、临床实践问题（clinical foreground questions）。以利尿剂治疗高血压为例，在临床上可能会提出以下三个问题：①为什么利尿剂可以降低血压？②什么是高血压？③利尿剂是否可以降低血压？它们分别是与高血压相关的基础医学问题、临床基础问题和临床实践问题。

　　基础医学问题与医学实践（如病人诊治）无直接关系，医学生在学习临床基础以前接触的问题绝大多数都属于基础医学问题，它们是关于生理、生化、病理、病理生理、解剖、病理解剖、免疫、细胞、遗传等方面的问题。比如，心脏的解剖结构特征是什么？碳水化合物是如何在体内转换成能量的？青蒿素治疗疟疾的原理是什么？细胞免疫在HIV感染中的作用有哪些？这些问题不是关于病人的问题，而是关于分子、细胞、组织、器官的问题，是关于疾病物质基础和相关机制的问题。

　　临床基础问题是关于病人的问题，与临床实践有关，有关知识多是在临床观察和科学研究基础上形成的人为的规定、规范、标准，主要特征是随时间的推移变化很少或很慢。比如，什么是出血性脑血管卒中？出血性脑卒中的诊断标准是什么？出血性脑卒中和缺血性脑卒中的临床表现有什么区别？出血性脑卒中的现有治疗方法有哪些？它们是诊治照护病人的临床基础，是医学生在临床初期阶段学习的内容。

　　临床实践性问题是与病人诊治直接相关的问题，是临床决策不可缺失的信息，往往需要科学研究才能准确地回答，其答案随时间变化可能会发生明显的变化。临床实践问题主要包括：鉴别诊断、诊断方法的准确性、治疗的效果、治疗的副作用，以及疾病治疗和无治疗情况下的转归、病因、治疗的成本效益等。与公共卫生实践相关的实践性问题还包括关于疾病负担（如发病率和患病率）等问题。

　　以急性心肌梗死病人为例，有关的临床实践问题包括：急性心肌梗死病人出现室性心律不齐的可能诱因是什么（病因）？负荷心电图ST段降低的病人患有冠心病的机会有多大（诊断）？在急性心肌梗死病人中预防性使用利多卡因是否可以提高病人的生存（治疗的益处）？利多卡因预防性治疗的副作用有哪些（治疗的害处）？如果没有利多卡因治疗，病人死亡的风险有多大（无治疗时的预后）？

　　2）临床实践问题的构成

　　以治疗效果为例，一个典型的临床实践问题具有以下几个基本组成成分：人群（或病人）、治疗、参照的治疗、治疗拟向有利方向改变的结局指标，以及诊治的环境和服务条件，即英文的Population （or Patient）, Intervention, Comparator, Outcome and Setting，简称PICOS。

　　比如，在常规治疗基础上，三甲医院急性心肌梗死的住院病人使用预防性使用利多卡因是否可以降低高危病人死亡的机会（治疗的益处）？该问题包括：P：急性心肌梗死病人；I：利多卡因；C：无利多卡因治疗；O：死亡；S：中国服务水平最高的一类医院。这个特殊的PICOS组成就是文献检索时用来“瞄准”相关文献的工具。

　　另外，关于副作用的问题，需用副作用的结局替代有益结局指标。关于病因的问题，需用暴露替代治疗，用参照的暴露替代参照的治疗，用病因所致的疾病替代治疗的结局。关于诊断和转归的问题比较简单，请参见评价该类文献的既往推文。

　　三、检索有关研究

　　目前最重要的医学研究的文献库包括MEDLINE和EMBASE，它们涵盖了以上所有三类问题研究的文献。重要的中文文献库包括中国生物医学期刊文献数据库（CMDisc）和中文生物医学期刊引文数据库（CMCI）等。由于中文文献库只收集国内的文献，有很大的局限性。比如，关于抗高血压药物的高质量的大型随机对照试验主要来自英文文献，即使中国有一些研究，它们往往比较小，很多是国际多中心试验的一个部分，已经在国际上发表，很多研究随访时间很短，使用的多是中间替代指标，因此对抗高血压药物效果的整体结论影响不大，因此尚未构成循证实践文献检索的重点。但是，关于诸如发病率、患病率，以及药物在中国人群的特殊反应，只有中国人群的研究才是相关的，中文文献库则是检索的重点。

　　1）研究类型与文献检索

　　与临床实践相关的研究是那些在人群中进行的关于疾病和健康一般规律的应用型科学研究，主要就是（临床）流行病学研究，而不是在实验室进行的关于分子、细胞和动物的基础医学研究。因此循证医学的文献检索首先应局限于在人群中进行的应用型流行病学研究（表1与表2）。

表1 医学应用型研究的特征

表2 流行病学研究方法及其可应用的主要应用领域

　　即使是来自人群的研究，相关的证据也是多层次的，往往多种不同来源的证据同时存在，不同质量的证据同时存在。就疗效来说，可能有医生个人经验的总结，也可能还有高质量的随机对照试验。循证医学强调医学实践必须基于现有最好的证据，这意味着文献检索必须从可能的最高质量的研究开始。目前，唯一可行的方法就是按照提供证据的研究设计的类型，将证据质量进行分级，文献检索应按照质量的高低由上而下依次进行，直到发现有关证据为止。

　　流行病学研究设计主要包括临床试验、队列研究、病例对照研究、横断面研究和系统综述（systematic reviews）。虽然所有这些研究设计都可以用于研究同一临床问题（表2），但是出于科学性的要求，并受资源和伦理的限制，关于一类临床问题的最好研究证据往往来自于某种特定的研究设计（表3）。比如，虽然关于某药物治疗效果的最好证据来自科学性很高的随机对照试验，但是关于同一药物的罕见的慢性严重不良反应，则往往只能使用科学性较低的但切实可行的病例对照研究。

表3 医学实践问题与最优可行的研究设计

　　我们把这一研究设计叫做适合研究某临床问题的最好的、可行的研究，或简称最优的研究设计。其他低质量可行的研究设计也可以用于研究该类问题，但来自最好的研究设计的证据的真实性高于其他可行的研究设计。有些研究设计可能提供更高质量的证据，但是由于伦理和可行性的限制，它们不能用于研究某类临床问题。比如，队列研究是研究病因最好的研究设计，来自队列研究的证据高于病例对照研究、横切面研究和病例系列分析等。随机对照试验可以提供比队列研究更好的证据，但是由于伦理的限制，随机对照试验不能用于病因的研究。

　　由于偏倚控制措施的不同，各种研究设计的方法学质量不同，来自各种研究设计的证据的真实性也因此不同。可用于评价治疗效果的各类研究的方法学质量的由高到低依次为：随机对照试验，（非随机分组的）对照试验，队列研究，病例对照研究，（无对照组的）病例系列分析，临床经验回顾（图2）。

图2 关于干预效果研究的证据分级

　　这种研究类型方法学质量的排序叫证据分级（hierarchy ofevidence或level of evidence）。证据分级的方法有很多，繁简程度不一，但背后的原理和依据是一样的。证据分级是循证医学的重要内容之一，分级的用途有三：①作为文献检索的指引，文献检索应依证据质量高低，由最好的研究开始，自上而下地进行，直到检索到有关证据为止；②质量的高低与研究结果的真实性或可信性成正比，与结果的不确定性成反比，可用来快速判断研究结果可信性的高低；③当不同质量的证据同时具备时，决策必须基于最好来源的证据。

　　证据检索必须从最好的研究设计类型开始。所谓检索某类研究，就是在文献检索时只限制地检索这类研究。以治疗效果证据为例，应首先检索随机对照试验。如果随机对照试验不存在，再以依次向下检索其他类型的研究，直到检索到相关证据为止，无需继续检索其下低质量的证据。只有在以上任何证据都不存在时，基础研究的证据方可用作参考。

　　系统综述是收集、总结和整合有关同一临床问题的所有同类研究（如随机对照试验）的研究方法。系统综述可以提高效果大小估计的精确度，可以显示和分析不同研究的异质性，因此比单一的原始研究提供了更好更全面的证据。比如，随机对照试验的系统综述提供了比其中任何单一原始研究更全面的证据。因此，检索任何单一原始研究之前必须首先检索该类研究的系统综述，如果系统综述存在，将无需进行有关原始研究的检索。

　　图2提供的检索顺序只适用于治疗效果证据的检索，不适用于其他临床问题，因为随机对照试验不是提供所有临床实践问题证据的最好研究设计，关于不同临床问题的最好原始研究设计，请参考表3。

　　2）临床问题与文献检索

　　在限定研究设计类型的基础上，检索须依据临床问题进一步限定文献检索的范围。以随机对照试验为例，这类研究有很多，且方法学设计大同小异，多会使用随机分组、分组隐匿（allocation concealment）、盲法、提高随访率、维持原随机分组分析（intentionto treat analysis），以及适当的样本量等预防偏倚和减少随机误差的措施。然而，这些千千万万的看似相同的随机对照试验又千差万别，差别在于它们回答了不同的临床问题，临床问题的特征由PICOS决定，不同的临床问题就有不同的PICOS组成，因而不同的临床试验就具有不同的PICOS特征。PICOS决定了一项研究的目的，同时也决定了该项研究的临床实践意义，改变PICOS的任何一个方面，就改变了研究所回答的临床问题。文献检索就是要检出那些回答了特定PICOS的临床问题的研究。

　　比如，一项临床试验的研究目的是：在初级保健机构（S）发现的成人原发性高血压病人（P）中，使用利尿剂治疗（I），与无治疗作用的安慰剂比较（C），是否可以降低主要心脑血管事件（O）的风险？而另一项研究是在同样的病人中进行的，使用同样的试验治疗和结局指标，但对照组的治疗不是安慰剂而是钙拮抗剂。两项研究只在对照组治疗的不同，其结果的临床实践意义明显有别，文献检索时可通过对对照治疗的限制，将二类研究区分开来。

　　文献检索的诀窍就在于如何对PICOS和研究设计进行限制。以MEDLINE为例，检索治疗效果证据时，首先应限制随机对照试验，其次对PICOS逐一限制，然后限制人类的研究和研究的年份，最后用“and”将它们合并，得出最终的检索结果。由于随机对照试验和PICOS的每个方面都有很多同义词，用“or”将PICOS的某一个方面的同义词连接起来进行检索，会增加检出相关研究的机会。一般来讲，“and”用得越少且“or”用得越多，检出有关研究的机会就越高，但混杂的无关研究也越多。相反，“and”用得越多且“or”用得越少，混杂的无关研究就越少，但检出有关研究的机会也越低。

　　图3是一个“抗高血压药物预防心脑血管事件效果的随机对照试验”的检索策略实例。第1～19步是对随机对照试验的检索，第20步用“or”将随机对照试验的同义词合并检索；第21～30步是对病人和治疗的联合检索，第31步用“or”将病人和治疗的同义词联合检索；第32步是对临床结局同义词的联合检索，第33部将前三步检索的结果用“and”进行限制，第34～35步对检索的结果进步限制于在人类的研究，第36步将年份限制与1966—2006年，共检出50886项研究。在这5万多项研究中，真正有关的研究只有几十个，检索者还必须进一步从5万文摘中找出有关的研究。显然，该检索策略检出的绝大多数文献是无关的研究。

图3 用MEDLINE检索降压药预防心血管病效果的临床试验的检索策略及检索结果

　　3）检索的灵敏度和特异度

　　文献检索是根据检索目的检出有关的文章，因此可把文献库里的文章分为有关和无关两类。无关的研究是大量的，有关的研究是少数的。相关研究检出的百分数为灵敏度，无关研究不被检出的百分数为特异度；1-灵敏度为漏检的百分数，1-特异度为无关研究检出的百分数。

　　灵敏度越高，检出有关研究的机会就越大；特异度越高，检出无关研究的比例就越小。特异度低的后果是，检出无关研究太多，增加进一步筛检有关研究的工作量。比如，图3中的检索策略就是一个为了制作系统综述制定的灵敏度高特、异度低的检索策略。值得注意的是，改变检索策略总是同时改变检索的灵敏度和特异度，且灵敏度和特异度成反比，即提高灵敏度的同时必然降低特异度，反之亦然。

　　为了制作系统综述而进行的文献检索应尽可能提高灵敏度，但是其他一般性检索可以适当提高特异度，以减少无关的研究。读者可以根据需要，通过限制PICOS的部分或全部内容，并利用“or”对同义词进行加减，以改变检索的灵敏度和特异度，从而制定出符合自己需要的检索策略。比如，PICOS中P和I以及“在人类的研究”是最基本的内容，必须进行限制。由于文献库对C、O和S的记录和索引往往不是必须和统一的，很难对针对C、O和S进行限制，限制的结果是大大降低检索的灵敏度，因此为了保持检索的灵敏度，往往无需对C、O和S进行限制。反之，则可对C、O和S进行适当的限制，以提高特异度，减少无关的研究。

　　四、文献评估的内容

　　找到文献后的任务是评价文献。为循证实践而评价文献，就是找出原始科学研究报告中与临床决策有关的信息，评价信息的可信度，评价信息的临床实践意义，进而利用这些信息进行临床决策。

　　一篇科学论文报告，少则几千字，多则几万字，不是里面所有的信息都与临床决策有关，读者必须学会从中找出与临床实践有关的信息。一篇科学论文中与实践有关的信息大致分为三类：
　　1、研究的结果
　　2、有关结果真实性的信息
　　3、有关结果外推性的信息

　　研究的结果是核心，但只有可信的结果才有可利用的价值，可信性由研究的方法学质量决定。可信的有意义的结果未必会在所有不同的病人中得到到重复，因此决策者还必须对研究结果在具体病人中的外推性进行判断。

　　五、评估研究的结果

　　1）概括研究结果

　　科学论文报告中的结果有些是实践必需的，有些与实践无关。所谓必需，就是当这些内容缺乏时，决策者将无法作出明智的决定和选择。评价结果以前，必须把结果中与实践决策有关的部分萃取出来。

　　就治疗来讲，所有决定或影响一个病人是否能够从一项治疗中受益以及受益大小的因素都是进行治疗决策必需的因素。这些因素大致可分为四个方面：疗效的大小、治疗的意义、结果的可信性，以及结果的外推性。简单地说，假设需要治疗的疾病和涉及的治疗已经明确，疗效的估计值及其可信区间显示疗效的大小，研究的质量决定这个结论的可信性，测量疗效的结局指标决定这项治疗对病人的价值，研究间结果的异质性决定效疗的大小可能因条件的改变而变化的可能性和程度，异质性也是研究结果外推性的决定因素之一。这些内容是评价研究结果的重点。

　　2）测定疗效的结局指标

　　测量疗效使用的结局指标是衡量治疗的价值和疗效的意义的基础。与一个疾病有关的临床标可能有很多，但一项治疗可能只在改变某些结局上有效。如抗HIV感染的治疗可能只影响CD4计数，却不会影响病人艾滋病发病和生存的机会。一项治疗所能改变的结局决定了它对病人的重要性，是决策者和病人判断治疗的意义和重要性的基础，是决策必须考虑的重要因素。因此，当证据显示治疗有效时，同时必须指明在什么结局上有效，否则病人和决策者将很难进行判断和取舍。

　　比如，对高血压的治疗，可改变的临床结局包括死亡、脑卒中、冠心病、头痛头晕、血压等（图4）。能降低性血管病和死亡的药物的价值将远远高于仅仅可以降低血压的药物。

图4 治疗高血压可改变的结局的重要性的比较

　　由于价值取向的不同，人们对同一结局的重要性的看法可能不同。这一点对群体决策者十分重要，比如比较治疗不同疾病（如失聪和冠心病）的价值时，哪一个更重要应得到优先治疗，完全是一个价值的判断，没有错对之分，因此很难作出适合各种人群和各种情况的指南和建议。

　　另外，所有的结局指标都包含时间的概念，比如治疗5年内发生的心血管病事件。时间也是决策应考虑的因素。比如，抗高血压药物可以在5年内在每100名70岁受治的病人中预防5例心血管事件，如果这个时间是50年，其意义将大大减小。

　　3）疗效的大小

　　以临床试验的结果为例说明。治疗是否有效？这是一个定性的问题。典型的定性信息就是显著性检验的P值，以及与此相关的有效和无效的结论。

　　然而，把治疗措施笼统地分为有效和无效对决策帮助很小。效果到底有多大，是否可取？有效措施中哪些更有效更可取？这些是定量的问题。回答这些问题需要对疗效进行定量的描述。与定性信息相比，定量信息可以帮助医生和病人作出更准确的决定，而且比较不同的治疗效果的大小也需要准确的定量信息。忽视定量信息，就拒绝了更好的决策。比如，笼统地说“抗高血压治疗有效”，或者准确地说“抗高血压治疗5年可以在100名受治病人中预防4例脑卒中或心肌梗死事件”，对很多人来说治疗与否的决定可能完全不一样。

　　表达治疗效果大小的指标大致有两类：相对指标和绝对指标。前者如相对危险度（rate ratio, risk ratio或RR）、比值比（odds ratio, OR）和相对危险减少百分数（relative risk reduction或RRR），后者如绝对危险减少百分数（absolute risk reduction或ARR，又叫率差，英文为rate difference, risk difference or RD）和需治人数（number needed to treat或NNT）。目前文献多用相对指标表达效果的大小。与绝对指标相比，相对指标的最大优点是在不同病人群组或在不同治疗环境下更趋于一致或相同，信息容易总结和传播。但是，相对效果指标具有明显的“装潢”作用，即夸大治疗实际效果的作用，会造成错误的决定。

　　比如，某治疗骨质疏松的药物可以在老年人中将骨折的机会降低60%，其效果看起来十分可观。但是，其绝对效果是4年治疗可以把骨折率从2.0%降低到0.8%, 即每治疗80多位病人4年内可以预防一例骨折，当年在西方国家这相当于花费300万美元预防1例骨折，对很多中国人来说这可能是不合算的。

　　因此，决策必须考虑治疗措施的绝对效果，绝对危险减少百分数和需治人数是最常用的指标，二者互为倒数关系。绝对危险减少的含义是：在每治疗100个受治的病人中，有多少病人会从治疗中受益。需治人数的含意是，要使1例病人在治疗中获得益处需要治疗的总人数。比如，抗高血压药物预防心血管病的NNT=40，就是说，要避免1例主要心血管事件，需治疗40名病人。

　　此外，相对效果的一致性会造成一种误导，即同一治疗在不同病人和不同环境下的效果是等同的，因此没有轻重缓急之分。然而，一致的相对效果意味着绝对效果在不同基线危险的病人中一定不同。需治人数可以帮助确定哪些病人更可能从同一治疗中得益。

　　比如，抗高血压药物预防心血管病的相对效果RRR是25%，而且该相对效果在不同病人和不同治疗环境中基本是一致的。对于40岁无其他危险因素的高血压女性病人来说，不治疗时未来5年发生心血管事件的危险可能低于4%，如果进行降压治疗，可以将该危险降低25%，即降低到3%，那么每治疗100个这样的病人最多可以预防1例心血管事件，需治人数为100。而对于65岁左右吸烟有糖尿病和高血脂的男性高血压病人来说，不治疗时未来5年发生心血管事件的危险可能大于20%，如果进行降压治疗，可以将该危险降低25%，即降低到15%，那么每治疗100个这样的病人最少可以预防5例心血管事件，需治人数为20。按照相对效果决策，两类病人中效果相同，治疗的需要和优先权是相同的；但是，按照绝对效果决策，男性病人的收益是女性病人的5倍，应优先给予治疗。

　　将相对效果转换成绝对效果时，需要知道不治疗时病人发生“相关结局”的概率，这个概率叫做基线危险，或叫初始危险。特别需要注意的是，“相关结局”指有关临床试验中估计干预效果使用的同样的结局；基线危险必须是决策者自己病人的基线危险，而不是研究中病人显示的基线危险。就预防心血管病而言，读者可以参考“新西兰心血管病危险估计图”来估计病人未来5年心血管病的发病危险。例如，60岁男性非糖尿病吸烟患者，当血压为160/95mmHg、TC/HDL为6时，根据此图，不治疗时的5年危险在25%～30%。对于中国的病人，应尽可能使用适合中国人群的危险预测模型，以保证估计的准确性。

　　关于其他疾病的基线危险，最好参考当地队列研究中类似病人有关事件的发生率。其次，可以参考证据资源中有关临床试验中无治疗或安慰剂对照组相关事件的发生概率，或证据资源中提供的关于疾病预后的信息。

　　有了基线危险（baseline risk, BR）和相对危险降低百分数（RRR），就可以估计绝对危险降低百分数（ARR）与需治人数（NNT）：ARR=（BR×RRR）NNT=1/ARR=1/（AR×RRR）

　　当结局指标为不良结局时（如死亡），RRR=（1-RR）≈（1-OR）。这里，RR和OR的计算必须以对照组为分母，且基线危险和相对危险降低百分数均需用小数表示。读者也可以尝试使用有关的Monogram估计需治人数。有意者可浏览JAMA Evidence网站提供的工具：http://www.jamaevidence.com/calculators/9000028。

　　另外，效果的大小与结果真实性也存在关系。从定性的意义上讲，效果大的结果（如RR=5）更可能是真实的，这是因为每个研究或多或少都存在偏倚，在偏倚近似的情况下，完全由于偏倚出现很大效果的可能性很小。同理，如果效果很大，即使研究存在明显的偏倚，如病例对照研究中RR>10，极可能存在真实的作用。

　　4）疗效估计的可信区间

　　决策还应参考效果大小的可信区间。可信区间是真实效果可能存在的区间，反应效果估计的精确性。点估计显示平均可能的效果，可信区间下限提示最小可能的效果，可信区间上限提示最大可能的效果，它们在决策中都具有特殊的用途。例如，随机对照试验显示5年内的相对危险度的点估计为0.69，95%可信区间为0.57～0.83。真实效果的RR不是0.69，而是有95%的概率是0.57～0.83中间任何可能的数值，但RR最小不会小于0.83，最大不会大于0.57。

　　可信区间越窄，说明真实值的估计越精确，更有利于进行决策，如图5中的治疗A和F。就RRR而言，如果说RRR是0～100%（即可能的最宽的可信区间），等于对效果没有任何的界定，因此对决策也没有任何用处。如果说RRR在49%～51%（即十分精确的信息），无论真实值是49%、50%或是51%，决定将会是一样的。

图5 治疗效果的95％可信区间的临床意义

　　当可信区间的上下限都在无效线的一侧时，说明很可能有效（如图4-3中的治疗A和B），或很可能有害（如治疗F）。但是，当可信区间横跨无效值时，即治疗效果没有统计学显著性时（P>0.05），不应简单地认为治疗无效。这时其可信区间将会跨越“治疗有益、治疗有害和治疗没有任何作用（即无效线）”三个区域。正确的解释是，由于研究的样本量不够大，因此没有足够的把握度确定是哪种情况。

　　例如，当可信区间包含无效时（如治疗C、D和E），认为治疗C、D和E都是同等无效的，是一个错误或不准确的结论，正确的结论是三种可能俱在：有益、有害、无任何效应。这三种可能性中那种最可能是正确的，取决于可信区间相对无效线的位置。如果主要在有效一侧（如治疗C），则更可能有效；如果主要在有害一侧（如治疗D），则更可能有害；如围绕无效线对称分布（如治疗G），则两种可能性均等；如围绕无效线对称分布（如治疗E），且很窄，则无任何效应的可能性最大。治疗E的例子还说明一个重要问题。从统计学上讲，证明效果或害处不存在的难度远远大于证明它们存在难度。尤其是涉及现行常用治疗时，这给淘汰无效的治疗带来了困难，因为我们几乎无法证明一项治疗是无效的，因此拿不出可靠的证据来否定它们的继续使用。常用解决方法是，预先设定一个临床上最小可接受的效果，当可信区间显示的最大效果低于这个最小效果时，就可以认为一项治疗临床上无实际意义。但是，最小可接受的效果是一个主观的设定。

　　5）对照组的治疗

　　以上所说的有效和无效有一个前提，即假设随机对照试验的对照组是无治疗或安慰治疗。当对照组的治疗不是无治疗或安慰治疗而是另一种治疗时，比较的是试验组治疗（A）与对照组治疗（B）比较的差别，同样是RRR或ARR，其临床意义完全不同，反映的是两种治疗效果的相对差别，而不是某个治疗与无治疗比较时的绝对效果。

　　与安慰治疗比较的目的在于验证治疗有效与否，但是临床实践多不是在治与不治之间的选择，而是在不同治疗之间的选择。比较不同治疗的研究在于揭示治疗之间效果大小的相对差别，在于比较不同治疗的优劣，更有助于病人进行选择，其结果也更符合临床的实际需要。因此，了解对照组的治疗是什么，是诠释效果的必备条件。

　　6）不治疗的后果

　　不治疗的后果特指不治疗时“相关结局”发生的机会，可用基线危险了表达。“相关结局”指估计效果使用的同样的临床结局。基线危险是估计绝对效果的必要信息，本身也是决策需要考虑的重要因素。比如，如果不给予治疗，高血压病人在5～10年内发生心血管事件的机会有多大？

　　人们往往会忽略很小的危险。比如，乘飞机有出事的危险，但是这个危险很小，人们不会为此而不乘飞机出行。对于疾病来说，不治疗的危险越高，治疗的必要性就越大。但是，不治疗的危险很高不等于一定要治疗，还取决于治疗效果的大小和费用，如果疗效甚微且费用很高，不采用该治疗是合理的选择之一。队列研究是回答此类问题最好的研究。

　　7）异质性

　　异质性（heterogeneity）是对不同研究之间结果差异的大小的测量，反映同一治疗在不同病人或不同环境下效果可能存在的差异，是决策需考虑的重要信息之一。

　　单项研究一般不能提供很多异质性的信息，只有把多项研究放在一起进行比较才能更好地揭示异质性的存在，因此包含多项研究的系统综述是异质性信息的重要来源。异质性检验（heterogeneity test）是定量地评估异质性大小的方法。当异质性检验的P≤0.10时, 提示异质性存在，且P值越小，存在异质性的可能性越大。

　　异质性的存在说明，同一治疗在不同病人中或不同医疗条件下的效果存在差异。此时，在实际医疗条件下，在具体病人里，能否获益以及获益的多少，将很难准确地判断。相反，在各种不同病人和各种不同医疗条件下的研究显示一致的结果时，说明无论病人或治疗环境如何，治疗效果都是一样的，这时决策者将有足够的理由相信自己的病人会获得同样大小的益处。

　　当异质性存在时，系统综述往往会进行分层分析或亚组分析，有时分层分析会显示治疗的效果在一种病人（或在一种情况下）优于另一种病人（或另一种情况），这种现象称交互作用，或效应修饰作用。交互作用可以看成是一种被揭示了的由研究的临床特征引起的异质性。交互作用具有重要的实践意义。

　　比如，临床试验亚组分析（即分层分析）发现某药物在男性病人中十分有效，而在女性中没有明显的作用，显示药物和性别有交互作用，该证据对该药的使用十分重要：女性应避免使用此药。又如，某暴露在儿童可引起严重疾病，而在成年人中没有明显的害处，说明该暴露和年龄间存在交互作用，儿童应是主要保护对象，该尽可能避免暴露于该因素。

　　但对研究发现的交互作用的解释和结论一定要慎重，因为很多观察到的交互作用可能只是一种假象。交互作用是否真实存在，首先取决于交互作用的分析是否研究预先计划的分析，预先计划的亚组分析的结果比无计划的事后分析更可能是真实的。另外，如果其他研究已经报告了类似的交互作用，而且两个因素发生交互作用存在可解释的生物学机制，则目前研究发现的交互作用则更可能是真实的。

　　六、评估结果的真实性

　　1）真实性和研究的质量

　　只有真实可信的结果才能作为决策依据的基础。这里的真实性指内部真实性（internal validity）或可信性（trustworthiness）, 是对一项研究的结果或结论反映真实情况的程度的衡量或判断。研究的目的在于求得真实，真实和观察到的结果之间的差别叫做偏倚或系统误差。一项研究的偏倚与其结果的内部真实性成反比。

　　决定研究结果内部真实性的因素是研究的质量，即一项研究的设计类型和方法学质量。研究质量是对研究偏倚控制程度的总体衡量。因此，研究的质量决定研究结果的可信度，质量越高，偏倚就越小，结果的可信度就越高，结论正确的可能性就越高。决策不能基于不可信的信息，基于可信度较低的信息进行决策时应格外谨慎。如下图所示。

证据真实性的高低（犹如绳索的粗细）与决策需要的谨慎程度

　　2）决定研究质量的因素

　　研究的质量由研究的偏倚控制措施决定。研究设计是一项研究控制偏倚最基本的方法，一项研究的质量首先取决于研究设计的种类。比如，评价疗效时，从设计上讲，随机对照试验的质量一般应高于非随机的对照试验，后者又高于病例对照研究。

　　其次，研究的质量进而由该类研究特有的偏倚控制措施决定，比如临床试验可使用随机分组、分组隐匿、盲法、提高依从、维持原随机分组分析等偏倚控制措施。但一项研究不一定采取所有这些措施，使用的越多，偏倚控制就越好，质量就越高。

　　最后，研究的质量还取决于流行病学研究的一般偏倚控制措施，如收集资料的准确性、样本的代表性、减少失访、足够的观察时间等。

　　另外，样本量决定结果估计的精确性，决定可信区间的宽窄，虽然影响的也是结果的不确定性，但一般认为与研究质量无关。

　　3）评价研究质量的方法

　　评价一项研究的质量就是对该研究设计和偏倚控制措施进行分析和评价。一个简单、快速、粗略的评价方法是根据研究设计的类型将证据进行分级。下图是对疗效证据的分级，不同研究提供的证据的质量自上而下逐渐递减，是循证实践者重要的参考工具。

关于干预效果研究的证据分级

　　在研究设计的基础上，更详细的评价方法允许对同一类研究，根据其偏倚控制措施的多少和严谨程度，进行进一步的质量划分。比如，关于临床试验的分级，可根据研究是否使用了随机分组、分组隐匿、盲法、维持原随机分组等措施，以及这些措施的实施的适当程度，可将临床试验的质量进一步分为0～5级或0～10级，0级最低，5级或10级最高。

　　对证据分级的方式有很多，国际GRADE工作组综合了各种分级方法的优点，制定了一个统一的分级方式。有关GRADE的工作及其发表物，请参见GRADE工作组的网站：

http://www.gradeworkinggroup.org

　　目前研究证据分级的工作主要集中在疗效研究的证据。关于诊断和其他临床问题研究的质量分级尚在初级探索阶段，可留意GRADE工作组新的发表物。

　　将证据更加详细地分级理论上是可行的，但详细划分证据的使用价值有待研究。因为医学决策的最后结果只有两种可能：做，还是不做。将证据分得很细是否会帮助医生和病人作出更好的行动选择仍是一个未知数，如何将可划分为十几级或几十级的证据和临床决策联系起来，尚没有明确可行的方法。

　　因此，近些年来，似乎有更加简化证据分级的趋势，比如，GRADE工作组建议综合所有的信息，将有关疗效的证据分为四级：

　　1、高质量：未来的研究不大可能会改变目前我们对疗效估计的信心。
　　2、中等质量：未来研究有可能会改变目前我们对疗效估计的信心，并可能改变疗效的估计。
　　3、低质量：未来研究很有可能会改变目前我们对疗效估计的信心，并很可能改变疗效的估计。
　　4、很低质量：目前疗效的估计很不可靠。

　　另外，医生经常需对同一疾病不同治疗的效果进行比较和选择。比如，随机对照实验的系统综述显示，与安慰治疗比较，甲药可以降低某临床事件的效果RRR为0.5，乙药可以降低同一事件的效果为0.7，显示甲药的效果大于乙药。

　　虽然关于两种药物的证据都来自多个高质量的随机安慰对照实验，但是因为使用甲药的病人和使用乙药的病人来自不同的研究，他们的比较不是随机形成的，而且不同研究的环境和条件也不同，因此证据的质量低于随机对照试验，最多只等同于没有控制混杂的对照研究的证据。更好的证据应来自直接比较两种药物的随机对照试验。

　　4）评价真实性的困难

　　对方法学质量的判断的本质是对结果真实性的判断。上述讨论的内容多局限于对单一研究质量的评价，当针对同一问题同时存在多个研究时，对这些研究的总体真实性的评价更加复杂。

　　20世纪60年代，希尔（Austin Bradford Hill）爵士提出了疾病与病因因果关系推论的九个准则，是循证医学以前人们用来进行医学因果关系推论的主要依据。系统综述和Meta分析提供了新的思路，尤其是在原始研究结果真实性、精确性和一致性方面的评估提出了一套统一的操作方法。

　　其实，一项原始研究或系统综述的设计和分析要素里都包含了希尔的主要准则，如时间顺序、关联强度、剂量效应关系、实验证据、一致性等。然而，在什么情况下，即当证据质量达到什么水平，当证据累积到什么时候，我们就可以肯定地说结果是真实的？系统综述也没有明确的答案，也许我们永远也不会得到确切的答案。

　　因此，希尔自己也说，我提出的九个准则没有一项可以对因果关系的存在与否提出确定无疑的证据。因果关系最多不过是一个尝试性的主观上的推论。任何科学工作都不是完美无缺的，所有科学证据都可能被颠覆或修正，科学推论永远都带着不确定性，我们永远无法确切地知道一项研究的结果的真实性，但是，证据的不确定性并不赋予我们可以无视现有证据的权利，不能作为延迟必要行动的理由和借口。

　　七、评估结果的外推性

　　所有疗效的估计都是在特定条件下的结果，换一个条件或用于不同病人，治疗是否还会有效？疗效的大小是否会一样？这是有关研究结果外推性的问题。从医学实践意义上讲，外推性（generalizibility）指研究结果是否可以在不同人群和环境中得到重复和再现的可能性。外推性又叫外部真实性（external validity），与适用性（applicability）的含义十分接近。

　　外推性有两个层面的含意，一是定性外推，一是定量外推。以治疗为例，定性外推只关心在实际病人或医疗环境下治疗是否有效，并不关心效果的大小；定量外推关心的是研究显示的效果的大小是否可以在实际病人和医疗环境中得以重复。定量外推包含了定性外推，但定性外推性并不能保证研究显示的结果的大小可以在现实中如实地得以实现。

　　外推性首先由结果的内部真实性决定，不真实的信息一定不能外推到其他情况，但真实的结果未必一定可以外推到其他情况。决定真实结果外推性的因素有两个，一是研究中的条件是否可以在实际医疗环境里得到复制，二是治疗的效果是否存在效应修正因素或交互作用，即效果在不同人群存在真实的差异。因此，评估外推性的重点在于比较实际病人的特征和医疗条件与研究中相似的程度。

　　1）病人特征

　　病人的特征包括病人的性别、年龄、教育程度、治疗史、病情、并发症等可能影响治疗效果的因素，还包括依从性。严格来讲，研究显示的效果可能仅适用于类似的病人，不能外推到其他不同的病人。实际病人与研究人群特征的相似程度，是用来判断证据可否外推到实际病人的条件之一，二者越接近，结果的外推性就越高。

　　然而，病人的特征是多方面的，实际病人与研究的病人总会存在不同的地方，而且我们往往难以回答哪些因素与疗效相关，哪些是无关的，因此依据病人特征判断证据的外推性是一件十分困难的事情，在没有亚组分析的结果时，经常只能依靠临床经验进行判断。比如，种族是病人的一个特征，是否西方人群的研究结果都不能用于中国病人呢？显然不是的。比如，年龄是病人的一个特征，是否所有在成年人的研究结果都不能用于儿童呢？显然也不是。

　　当异质性存在时，决策者应利用研究的亚组分析或Meta回归的结果，更准确地判断自己的病人可能从治疗中获益的可能性。具体来讲，就是首先比较自己的病人与哪个亚组的病人更接近，那个亚组的结果就更适用于你的病人。

　　2）医疗条件

　　医疗条件包括很多因素，如接诊速度、诊断仪器、诊断标准、治疗的及时性、医护理人员的素质等。这些都是治疗效果的直接决定因素，因此，比较实际和研究中的医疗条件，是判断研究结果是否可以在当地病人中得到实现的重要内容。

　　例如，阿司匹林可以用于治疗缺血性脑卒中，但是在诊断条件不足以区别出血性和缺血性脑卒中的情况下，可能会错误地给出血性卒中病人使用阿司匹林，治疗的总体效果必然会降低，副作用必然会升高。再如，在国内外一流医院具有丰富实践经验的医生中证明益处大于害处的治疗，在我国边远落后地区的医院里可能无效甚至害处大于益处，外科手术和其他程序复杂的治疗尤其如此。

　　另外，急性病的给药时间也十分重要，比如在我国现实条件下是否可以在急性心肌梗死发病后很短时间内给予有关治疗？如果不能，我们的病人将很难得到研究显示的效果。

　　值得注意的是，实际病人和医疗条件与研究中的可比性是高外推性的指征，但是二者之间的差异不是不可外推的必要条件。

　　八、依据证据进行决策

　　评价证据的最终目的在于做好决策。然而，证据只是决策的依据之一，就像砖瓦水泥不等于高楼大厦一样，证据本身也不是决策。在证据的基础上，决策还必须考虑现有资源的多寡，资源越多我们能够采取的干预措施就越多。但是，资源是有限的，即使富裕的西方国家，也没有支付所有现有医学干预措施的能力。

　　选择性地使用医学措施是现实的必然，决定人们选择取向的是人们的价值取向，人们总是把有限的资源用在那些他们认为最重要最有价值的事物上。事物价值的大小由人们的价值观决定。循证决策必须收集、评价和依据现有最好的证据，兼顾现有资源的多寡，尊重人们的价值取向。

　　证据包含有三个方面的内容，结果是什么，结果的可信性，结果的外推性。通过对治疗可改变的结局的意义的评估，通过对研究质量（即结果内部真实性）的评估，通过对结果外推性的分析，循证医学使证据变得明晰、具体和量化。同时，由于结局价值的相对性，由于结果真实性的不确定性，由于价值取向的相对性，循证医学同时也使我们明确地看到了医学决策的不确定性。

　　与过去医学实践模式不同的是，循证医学明确地承认证据的不确定性，因而承认决策的不确定性，而不是在对不确定性无知的情况下盲目地自信和果断。歌德说，不确定性是我们的命运，医学何尝不也是如此。承认和正确地对待医学实践的不确定性，减少工作中的盲目和武断，也许是病人真正的福音。

　　九、本章概要

　　进行循证实践，决策者必须首先能够形成决策问题，分析和确定问题的性质，并根据问题的特征，检索和评价相关的文献，最后依据有关的证据和现有资源的多寡，参酌病人的意见和取向，做出合乎病人需要的决定。

　　不同的临床问题由不同的PICOS组成，如何根据PICOS和研究设计对文献检索进行限制，是文献检索技术的核心。

　　文献评价包括评价结果的大小和意义、评价结果的可信性、评价结果的外推性三个方面。就治疗效果来说，结果的意义取决于治疗可向着有利方向改变的结局，以及改变这个结局的多少；结果的可信性取决于研究的质量，由研究设计和各种偏倚控制措施决定；研究显示的结果能否在实际病人中得到重现，首先取决于结果的可信性（即内部真实性），其次取决于实际病人和医疗条件与研究中的可比性，可比性越好，外推性就越高，但二者的差异不是否定外推性的必然条件。

　　对结果的意义、可信性和外推性的评价和判断，是主观的、带着不确定性。证据的主观性和不确定性进而决定了医学决策的主观性和不确定性，正确地认识和对待不确定性，将减少医学实践的盲目和武断，给病人带来福祉。

　　（全文完）
　　作者：唐金陵

上一篇：【吐槽一下】监察员奇葩又无奈的工作交接

下一篇：推荐一些临床试验常用的网站

站点声明：

本网站所提供的信息仅供参考之用,并不代表本网赞同其观点，也不代表本网对其真实性负责。图片版权归原作者所有，如有侵权请联系我们，我们立刻删除。如有关于作品内容、版权或其它问题请于作品发表后的30日内与本站联系,本网将迅速给您回应并做相关处理。
河南岁福医疗科技有限公司专注于医疗器械、诊断试剂产品政策与法规规事务服务，提供产品注册申报代理、临床合同（CRO）研究、GMP质量辅导等方面的技术外包和生产许可证、经营许可证及临床机构备案办理服务。

服务咨询

留言框

产品：
项目介绍：
企业名称：
您的姓名：
联系电话：

推荐产品

《临床研究报告》内容解读和分析

一、医学文献评估概述

二、确定临床实践问题

1）临床实践问题的特征

2）临床实践问题的构成

三、检索有关研究

1）研究类型与文献检索

2）临床问题与文献检索

3）检索的灵敏度和特异度

四、文献评估的内容

五、评估研究的结果

1）概括研究结果

2）测定疗效的结局指标

3）疗效的大小

4）疗效估计的可信区间

5）对照组的治疗

6）不治疗的后果

7）异质性

六、评估结果的真实性

1）真实性和研究的质量

2）决定研究质量的因素

3）评价研究质量的方法

4）评价真实性的困难

七、评估结果的外推性

1）病人特征

2）医疗条件

八、依据证据进行决策

九、 本章概要

留言框

产品：

项目介绍：

企业名称：

您的姓名：

联系电话：

　　一、医学文献评估概述

　　二、确定临床实践问题

　　1）临床实践问题的特征

　　2）临床实践问题的构成

　　三、检索有关研究

　　1）研究类型与文献检索

　　2）临床问题与文献检索

　　3）检索的灵敏度和特异度

　　四、文献评估的内容

　　五、评估研究的结果

　　1）概括研究结果

　　2）测定疗效的结局指标

　　3）疗效的大小

　　4）疗效估计的可信区间

　　5）对照组的治疗

　　6）不治疗的后果

　　7）异质性

　　六、评估结果的真实性

　　1）真实性和研究的质量

　　2）决定研究质量的因素

　　3）评价研究质量的方法

　　4）评价真实性的困难

　　七、评估结果的外推性

　　1）病人特征

　　2）医疗条件

　　八、依据证据进行决策

　　九、本章概要