隨機對照試驗(RCT)通常被認為是評價藥物有效性的金標準,但其自身有局限性。一些人將此方法奉為金科玉律,對其過度依賴,卻忽視了醫(yī)療的復雜性。
撰文 | Trisha Greenhalgh(牛津大學基本衛(wèi)生保健科學教授)
編譯 | 皮卡龍妙蛙
我們?nèi)绾瘟私庑卵邪l(fā)的藥物和治療方法是否有效?為了解決這一問題,“循證醫(yī)學”(Evidence-base medicine,EBM),也就是基于臨床實踐數(shù)據(jù)的醫(yī)學,衍生出了一些重要工具,比如隨機對照試驗(Randomized clinical trials,RCT)。雖然類似的工具大大推動了醫(yī)學科學的進步,但我們在評估新療法時,還是應該對單純依靠臨床試驗結論的做法保持謹慎的態(tài)度。試驗固然有其價值,很多情況下甚至被視為驗證新治療方法是否有效的“金標準”,但如果試驗本身的設計不夠科學,結果可能適得其反——產(chǎn)生具有誤導性的結論。事實上,隨機對照試驗并不肯定比其他類型的臨床證據(jù)更好。循證醫(yī)學,應當把隨機對照試驗的數(shù)據(jù)和實際的觀察結果結合,來獲得更為全面和準確的答案,達到最終造?;颊叩哪康摹?/p>
圖1:隨機對照試驗的示意圖,在理想狀態(tài)下,研究者希望看到實驗組患者獲得疾病緩解(綠色小人)的百分比比對照組更高,才能證明試驗藥物有效 | 來源:sohu.com
假設一種情景:你手中有一種可能可以挽救得了某種致命疾病的病人生命的藥物,但是藥物的數(shù)量僅僅夠治療一半患者,你會如何決定把藥給誰?拋硬幣?按特定順序分配(排序后序號單數(shù)的患者給藥,雙數(shù)的患者不給)?還是讓大家隨機抽簽?
換一種情景:你知道某種藥物可能可以挽救生病,但療效還沒得到驗證,你會使用上述分配方法之一來進行藥物的分配,同時給一部分患者吃安慰劑(跟藥物外觀一樣,但是吃了沒有任何作用)來測試藥物的實際療效嗎?
以上場景,就是英國統(tǒng)計學家奧斯汀·布拉德福德·希爾(Austin Bradford Hill,后來被封為爵士)在1947年所面臨的抉擇。他是一位對方法學(Methodology)非常嚴格的學者,在他所在的時代,驗證新藥療效有兩種對比方法:一個是采用“歷史對照”,對照組采用的是過去的標準療法,實驗組是在現(xiàn)今的標準療法上加上需要被測試的全新的療法。因為現(xiàn)今的標準療法大概率已經(jīng)比過去的標準療法效果好,用這種對照方法來測試全新的療法并不科學,因為兩組病人的基礎治療方案已經(jīng)有了差別。
另一種是“順序分配”,可以理解為根據(jù)就醫(yī)順序,按照單雙數(shù)給患者分配藥物和安慰劑,這是上面說的方法的改進版本。但這意味著醫(yī)生對每一位患者的用藥情況是完全知情且可操縱的,可能會不自覺地改變分配過程,比如出于同情把病情較重但本來應該給予安慰劑的患者,換成治療藥物,從而產(chǎn)生臨床試驗中所謂的“偏倚”(Bias),也就是系統(tǒng)性的“誤差”。如果治療藥物組的患者比安慰劑組的患者病情更重,那么藥物的效果就可能看起來比實際情況差。
圖2 英國統(tǒng)計學家奧斯汀·布拉德福德·希爾 | 來源:www.bradfordhill.org
對于以上兩種研究新藥效果的方法,希爾表達了自己的顧慮。1937,他在《柳葉刀》(The Lancet)上發(fā)表了一系列文章,主張取代上述兩種方法,而采用一種完全隨機分配的方法(在他那個年代就是把名字放在密封的信封里面,然后隨機抽簽分配;現(xiàn)代社會,隨機分配可以采用更先進的計算機隨機數(shù))來進行研究。盡管當時他的觀點十分合理,但他的方法在臨床中的真正應用卻舉步維艱。
第二次世界大戰(zhàn)時期,肺結核肆虐,每20個英國人就有1人死于結核。當時,一種叫“鏈霉素”的新型抗生素被認為是有效的治療藥物,但是它只能在美國大規(guī)模生產(chǎn),且出口管控極為嚴格。英國政府想方設法從美國購買了一些鏈霉素,移交給英國醫(yī)學研究委員會(MRC),但是藥物總量只夠治療一部分的肺結核患者。委員會決定,由希爾領導一項臨床試驗,采用他倡導的匿名抽簽分配(使用密封信封)的方法。這種方法不僅是分配稀缺藥物最公平的方式,同時還能可靠地檢驗藥物是否真的有效。在這項后來看可以稱之為具有里程碑意義的臨床試驗中,沒有用藥的55名對照組患者中,15人在試驗開始后的六個月內(nèi)死亡,而使用了鏈霉素組的55個患者中,僅有4人死亡。
英國醫(yī)學研究委員會的這項臨床試驗成為了改變醫(yī)學臨床研究范式的轉折點,原因有二。首先,它證明了鏈霉素是肺結核的有效初始治療(盡管后來發(fā)現(xiàn),鏈霉素單獨使用時長期治療效果不佳)。其次,它首次確立了隨機對照試驗的地位,讓其成為檢驗藥物相對于安慰劑(或另一藥物)的療效的金標準。而這個里程碑事件也被一些醫(yī)學史學家認為是“循證醫(yī)學”時代的序章。
在之后的幾十年中,針對各種藥物和預防性治療的隨機對照試驗可謂遍地開花。在試驗的實驗組和對照組的設置中,只有給不給藥的區(qū)別,把其他所有可能影響結果的干擾因素(包括病情嚴重程度、性別、年齡、研究人員的偏好等等)都控制到無限趨近于等同,這樣可以把實驗藥物本身的治療效果和副作用都凸顯出來?,F(xiàn)在已經(jīng)被普羅大眾熟知的一些藥物,比如他汀類藥物能降低心血管病風險,化療藥物可以治療癌癥,疫苗可以預防傳染病,這些結論無一不是通過嚴謹?shù)碾S機對照試驗所得出的。而如果有多項隨機對照試驗具有同一個研究目的,還可以使用統(tǒng)計方法中的薈萃分析(meta-analysis)來進行結果整合,讓結論更加有信服力。
隨機對照試驗變成了一門科學,而且在不斷發(fā)展,愈發(fā)復雜,人們逐漸識別了可能影響試驗結果的其他類型偏倚,并想到了辦法加以解決,包括表現(xiàn)偏倚(Performance bias,指的是實驗藥物治療組接受了比安慰劑對照組更頻繁和更細致地觀測)、測量偏倚(Measurement bias,指的是當醫(yī)生知道某個患者服用的是實驗藥物而不是安慰劑,會更加關注和記錄產(chǎn)生的副作用)、失訪偏倚(Attrition bias,指的是兩組中退出試驗的患者數(shù)量不同),以及發(fā)表偏倚(Publication bias,指的是臨床試驗的藥物產(chǎn)生了“有效”的結論比“無效”結論更容易發(fā)表在雜志期刊上)。循證醫(yī)學的支持者們發(fā)展出了各種“偏倚風險工具”,用于系統(tǒng)全面性地審視這些可能的試驗偏倚。
其實,分配上的隨機還不能最大程度的避免偏倚。如果分配的結果被參加試驗的患者知道了,或者被研究人員知道了,仍然可能會導致一些潛意識的主觀偏倚。這里就又要提到兩個名詞:安慰劑效應(placebo effect)或者觀察者偏倚(observer bias)。安慰劑效應是指當患者接受一種實際上不含有任何活性成分的治療(安慰劑,如假藥、假治療)后,由于心理或生理因素而產(chǎn)生積極的治療效果,從而干擾實驗藥物真實效果的判定。而觀察者偏倚指的是研究人員在收集、記錄或分析研究數(shù)據(jù)時,因其主觀期望、假設或先入為主的觀點而導致的系統(tǒng)性偏倚,可能會無意中影響研究結果的準確性和客觀性。也就是說,研究者和被研究者雙方的知情都會潛在影響實驗結果。為了進一步避免這個問題,“盲法”應運而生?!皢蚊しā敝秆芯恐幸环讲恢婪纸M情況,通常是受試者,而“雙盲”是研究中的受試者和研究人員均不知道分組情況,“三盲”是在雙盲的基礎上,后續(xù)的數(shù)據(jù)分析人員自己也不知道分組信息,所有分組信息在試驗結束后才揭曉。
實際上,雖然隨機對照試驗的產(chǎn)生和后續(xù)各種改進的初衷是避免所有偏倚,但在實踐中并非完美無缺。同時也不是說只要提到了“隨機”和“盲法”,結論就一定比非隨機的臨床研究更靠譜。盡管如此,循證醫(yī)學變革有些幼稚的支持者,高舉隨機對照試驗的“錘子”,對他們來說每個問題都是釘子。當他們快樂地把錘子砸向家具、貓,甚至是早餐的雞蛋時,他們封閉了自己的思想,不會考慮他們最愛的工具在這一系列環(huán)境中的局限性。
當隨機對照試驗用來研究更加復雜的干預方式時,結論可能具有較強的誤導性,比如研究某種教育方式、某種建議、新型的服務工作結構,數(shù)字技術的使用,都需要人的主觀參與、學習和操作。除非干預方式本身已經(jīng)極致優(yōu)化,保證參與者可以完全按照理想狀況來行事,不然最后的結論就是干預方式幾乎或者完全沒效果。
圖3:蘇格蘭母乳喂養(yǎng)臨床試驗:與事實相反的“科學”結論 | 來源:www.gcph.co.uk
在蘇格蘭進行的一項多試驗測試中心隨機對照試驗顯示,給愿意嘗試母乳喂養(yǎng)的母親社區(qū)支持和服務非但沒有提高當?shù)氐哪溉槲桂B(yǎng)率,甚至在某些地方“母乳喂養(yǎng)支持”組的喂養(yǎng)率低于對照組。實地調(diào)查分析表明,在這些地方,所謂的母乳喂養(yǎng)支持并非是人們想象中那樣由經(jīng)驗豐富的工作人員無條件隨時待命地來幫助新手媽媽調(diào)整嬰兒姿勢來哺乳,提供個體化的、溫柔的、不帶偏見的鼓勵;事實上是在寒冷、吵鬧、不友好的工作環(huán)境中,由一名超負荷的工作人員根據(jù)工作手冊照本宣科,提供建議,嚴格按照規(guī)定執(zhí)行操作。那里的“母乳喂養(yǎng)支持”組織沒有什么組織力、領導力可言,所謂的母乳喂養(yǎng)“支持”團隊也沒什么工作激情,對幫助新手母親建立母乳喂養(yǎng)缺乏興趣和動力。這也就解釋了,為什么做了母乳喂養(yǎng)支持工作還不如不做,不如讓媽媽們自己去找找姐妹或鄰居們幫忙更行之有效。然而,一些人對這種顯而易見的事實視而不見,還堅持認為,已經(jīng)有“科學證明”,母乳喂養(yǎng)支持是沒用的。
在數(shù)字技術開發(fā)領域,醫(yī)學領域以外的標準研究方法是迭代設計,也就是早期開發(fā)的原型會逐步在實驗室和實際應用場景中進行測試,逐步改進,秉承的理念是“早失敗、常失敗”,失敗來得越早、越頻繁,開發(fā)和改進的代價就越低。聰明的設計師會采用廣泛的方法來提高研發(fā)效率,比如民族志(Ethnography,仔細觀察人們使用產(chǎn)品的過程)和出聲思維技巧(Think-Aloud Technique,鼓勵用戶在使用產(chǎn)品時直接表達體驗和不滿)。
遺憾的是,雖然類似的方法在一定程度上也被應用于醫(yī)學技術的開發(fā),但這些產(chǎn)品往往隨后會進行隨機對照試驗,與安慰劑對照組進行對比,又燒錢,又浪費時間,更重要的是沒什么意義,因為技術版本迭代很快,試驗過程中所用的版本,在試驗結束前就已經(jīng)變成“老古董”淘汰了。你會在手機系統(tǒng)更新之前要求做一個隨機對照試驗,來測試新版本與舊版本的差異嗎?明顯不會。當然這并不是說軟件不需要經(jīng)過實驗性的測試,只是說隨機對照試驗這種只在藥物研究中有重要地位,注重“證據(jù)級別”高低的研究模式,套用到快速發(fā)展的數(shù)字技術領域,既不合邏輯,也不切實可行。
人們對隨機對照試驗還有一個常見的錯覺,那就是認為用其可以獨立指導政策和指南的制定,天真地認為,任何決策應該尊重和崇尚科學, 不受政治因素影響。如果真是這樣,那就好了!無論來源于隨機對照試驗還是其他類型研究的科學發(fā)現(xiàn),常常都是模糊、不完整、有爭議的甚至相互矛盾的。一種藥物或療法可能在醫(yī)學上行之有效,但患者或公共醫(yī)療提供者負擔不起。在公共醫(yī)療的背景下,機會成本可能顯得尤為重要。一位患者使用了價格很貴但是能醫(yī)保報銷的心臟病藥物,可能意味著另一個患者無法通過醫(yī)保報銷髖關節(jié)置換的手術,畢竟公共醫(yī)療的預算支出總額是有限的。還有在一些情況下,治療可行但人力不足,例如當時需要一名具有豐富經(jīng)驗的技術專家來實施治療,但當?shù)貨]有這樣的資源。此外有些干預措施,比如口罩、阿片類藥物替代品、體外受精(試管嬰兒)等在醫(yī)學上可行,但是社會輿論或道德不支持。實際上,政策辯論中的各方往往都會引用所謂的“科學證據(jù)”。比如,對于一些特定的惡性腫瘤到底是需要藥物治療,還是放射治療,還是手術切除,不同科室的專科大夫都傾向于援引支持自己專業(yè)方向的研究結果,來證明某種治療方法具有優(yōu)勢,換而言之,“公說公有理,婆說婆有理”
有些循證醫(yī)學的極端擁護者常常把布拉德福德·希爾的名字當成擋箭牌,企圖將隨機對照試驗的模式強加于所有醫(yī)學、社會研究領域,甚至政策制定。布拉德福德·希爾要是知道自己的名字被當成這些人的“免死金牌”,可能棺材板都壓不住了。盡管他對隨機對照試驗的價值有著深刻的認識和研究,但他同樣堅信,這種簡單粗暴的實驗方法(將錯綜復雜的真實世界簡化為A與B兩者間的單純對比)并非金科玉律,而只能為現(xiàn)實世界的決策提供一部分的證據(jù)支持。對此,他還提出過“干預性研究九問”,又名布拉德福德·希爾標準( Bradford Hill criteria),要求人們在解讀研究結果之前,必須先一一回答這些問題。這九個問題中一部分需要用隨機對照試驗產(chǎn)生的證據(jù)來回答,其他問題的答案則來源于對現(xiàn)實世界的觀察。
圖4:臨床試驗的布拉德福德·希爾標準 | 來源:joshualoong.com
如果布拉德福德·希爾活到今天,他肯定會瞠目結舌,因為自己一百年前提出的、用于嚴謹測試藥物效果的隨機對照研究方法,現(xiàn)在已被循證醫(yī)學的極端擁護者當作一把被濫用的武器,他們試圖把臨床研究的證據(jù)固化成一個“金字塔”結構,而隨機對照試驗就在塔尖,完全不承認臨床研究其實是一個多元化的證據(jù)體系?,F(xiàn)實世界日新月異,循證醫(yī)學領域需要重新審視自己,聽取布拉德福德·希爾曾經(jīng)的諄諄教誨,采取一種更謙遜、更加多元的科學證據(jù)方法,才能更好地為人類健康服務。
致謝:
感謝渤健公司科學總監(jiān)史雋對本文的審核和修訂。
作者簡介
Trisha Greenhalgh教授是英國著名的初級衛(wèi)生保健專家,現(xiàn)任牛津大學初級衛(wèi)生保健科學教授,英國醫(yī)學科學院院士。她在劍橋大學獲得社會與政治科學學士學位,隨后在牛津大學完成醫(yī)學學位。在學術界,Greenhalgh教授以其在循證醫(yī)學和醫(yī)療創(chuàng)新領域的研究而聞名。她著作等身,其中《如何閱讀論文:循證醫(yī)學基礎》(How to Read a Paper: The Basics of Evidence-Based Medicine)自1997年首次出版以來,已成為評估醫(yī)學研究的重要參考書。研究興趣方面,她涉獵初級衛(wèi)生保健、醫(yī)療創(chuàng)新和全球健康等領域。此外,她還積極參與醫(yī)療政策的討論和制定,曾與其他科學家和政策制定者聯(lián)名致信英國首相,呼吁對國家衛(wèi)生服務(NHS)周末服務質量的聲明進行調(diào)查。Greenhalgh教授多年來的研究成果在全球范圍內(nèi)被廣泛引用和應用,對初級衛(wèi)生保健和循證醫(yī)學的發(fā)展產(chǎn)生了深遠影響。
本文主要譯自Trisha Greenhalgh, Medical trials are not the whole truth
特 別 提 示
1. 進入『返樸』微信公眾號底部菜單“精品專欄“,可查閱不同主題系列科普文章。
2. 『返樸』提供按月檢索文章功能。關注公眾號,回復四位數(shù)組成的年份+月份,如“1903”,可獲取2019年3月的文章索引,以此類推。
版權說明:歡迎個人轉發(fā),任何形式的媒體或機構未經(jīng)授權,不得轉載和摘編。轉載授權請在「返樸」微信公眾號內(nèi)聯(lián)系后臺。