Progetto ASCO [Riferimento] LEGENDA EBM (Evidence Based Medicine)

Progetto ASCO > Formazione > Pillole formative > [Riferimento] LEGENDA EBM (Evidence Based Medicine)

A cura del Dott. Alessandro Battaggia (11 Aprile 2008)

Indice delle voci:

Analisi Intention To Treat (ITT)
Analisi per protocol
AR
Curve di sopravvivenza
Hazard rate
Hazard Ratio
Intervalli di confidenza di una misura di efficacia
Modello di Cox
Mean Difference
NNT
Odds
Odds Ratio
OR= vedi Odds Ratio
Outcome (end-point, esiti)
P e significatività statistica
Potenza statistica
Qualità esterna
Qualità interna
Randomizzazione
RCT = studio randomizzato e controllato (studio “sperimentale” propriamente detto)
Rischio assoluto
Risk: vedi Rischio Assoluto
Risk Difference
RR=Rischio relativo
RRR= riduzione relativa di rischio
Sensitivity Analysis
Subgroups analysis
Tasso

Analisi Intention To Treat (ITT)
È una modalità di analisi del follow-up utilizzata per gestire in modo corretto il problema dei pazienti che violano il protocollo. Nella analisi ITT il numero di eventi osservati in ciascun braccio viene rapportato al numero di pazienti inizialmente assegnato al braccio dalla randomizzazione. Questa modalità di calcolo del Rischio di un evento rappresenta il miglior compromesso per mantenere i benefici della randomizzazione in quanto i due bracci a confronto rimangono bilanciati fino alla fine dello studio per tutti i fattori prognostici e/o di confondimento che possono influenzare l’outcome in modo indipendente dall’intervento studiato. Ogni analisi dei dati ricavati da una sperimentazione dove viene studiato un “evento” parte dal confronto della frequenza dell’evento riscontrata nel braccio di intervento con la frequenza dell’evento riscontrata nel braccio di controllo. Su questo confronto si costruiscono le principali “misure di efficacia”. In un modello di analisi “Intention To Treat” i due gruppi di pazienti da mettere a confronto sono effettivamente costituiti dai soggetti assegnati dalla randomizzazione al braccio di intervento e rispettivamente al braccio di controllo. L’analisi Intention To treat prende così in considerazione i due gruppi creati all’inizio della sperimentazione, quando vengono costruiti i due bracci dello studio (vedi: RCT). In condizioni ideali un paziente assegnato dalla randomizzazione ad un determinato trattamento dovrebbe seguirlo fino alla fine dello studio o per lo meno fino al momento in cui subisce l’outcome. In realtà durante il follow-up in un trial caratterizzato da un grande numero di soggetti seguiti per periodi di tempo molto lunghi insorge una lunga serie di problemi. Alcuni individui vengono per esempio persi al follow-up ossia fuoriescono dalla sperimentazione e non si conosce più il loro destino. Queste perdite al follow-up (drop-outers) possono rappresentare un problema molto grave: se queste perdite sono superiori al 10% dei soggetti randomizzati la validità della sperimentazione è irrimediabilmente compromessa. Per perdite minori è possibile eseguire un tipo particolare di Sensitivity Analysis (vedi). Altri soggetti dopo la randomizzazione non vengono persi al follow-up ma non rispettano più il protocollo o perchè non assumono più il trattamento assegnato (non compliants) o perchè addirittura assumono il trattamento assegnato al braccio opposto (cross-overs o drop-ins). Queste violazioni del protocollo (di cui però si conosce l’outcome) rappresentano un problema meno grave per la validità della ricerca in quanto possono essere affrontate entro un modello di Analisi Intention To Treat (ITT). è da sottolineare come sia ininfluente ai fini della analisi ITT il fatto che dopo essere stato assegnato ad uno dei due bracci il paziente abbia rispettato o no il protocollo. Tale modalità di ragionamento può apparire al clinico molto ostica e poco intuitiva in quanto verrebbe spontaneo considerare in una analisi di efficacia solo gli outcome subiti dai pazienti che effettivamente hanno seguito il protocollo (compliants vedi: analisi Per Protocol). L’Analisi Intention To Treat rappresenta invece l’ unico mezzo per mantenere intatti durante il follow-up tutti vantaggi conferiti all’inizio dalla randomizzazione, ossia la presenza di due gruppi a confronto perfettamente identici nelle loro caratteristiche di base. Una buona randomizzazione (vedi: Allocation Concealment) rappresenta infatti l’elemento più importante di qualità metodologica di una ricerca. è opportuno ripetere e sottolineare che per eseguire una analisi Intention To Treat è indispensabile conoscere se il paziente - indipendentemente da eventuali violazioni del protocollo- abbia o no subito l’ outcome: nessuna analisi Intention To Treat potrebbe essere applicata a pazienti persi al follow-up. Per le modalità di gestione delle perdite al follow-up (vedi: Sensitivity Analysis).

Analisi per protocol
è una modalità di analisi del follow-up in cui il numero di eventi osservati in ciascun braccio viene rapportato al numero di pazienti che hanno rispettato il protocollo (in pratica chi ha violato il protocollo viene escluso dall’analisi finale). Questa modalità di calcolo del Rischio di un evento può introdurre bias in quanto può creare uno sbilanciamento tra i due bracci per tutti i fattori prognostici e/o di confondimento che possono influenzare l’outcome in modo indipendente dall’intervento studiato. Ogni analisi dei dati ricavati da una sperimentazione dove viene studiato un “evento” parte dal confronto della frequenza dell’evento nel braccio di intervento con la frequenza dell’evento nel braccio di controllo. Nel modello di analisi “Per protocol” vengono esclusi in ciascun braccio dal calcolo della frequenza dell’evento i pazienti che per qualche motivo hanno violato il protocollo (non compliant e cross-overs, vedi: analisi Intention To Treat). L’analisi “Per protocol”si basa pertanto sulla rilevazione dell’outcome nei soli pazienti che hanno seguito correttamente il trattamento assegnato. Questo tipo di analisi, anche se appare più ovvia al clinico rispetto al modello Intention To Treat, può portare in realtà a grave distorsione (bias) dei risultati del trial. Una volta eliminati dal calcolo i pazienti che hanno violato il protocollo i due bracci a confronto possono infatti essere fortemente sbilanciati nella distribuzione di fattori prognostici in grado di influenzare l’outcome. Per fare un esempio: se alcuni pazienti nel braccio di intervento hanno violato il protocollo a causa di effetti collaterali del farmaco (interrompendone l’assunzione), una analisi per protocol, che rileva la frequenza dell’outcome solo nei pazienti che hanno assunto il farmaco può portare ad una grave sottostima degli effetti indesiderati del farmaco in quanto è una analisi eseguita sui pazienti più “resistenti” alle azioni negative del farmaco.

AR: vedi Rischio Assoluto

Curve di sopravvivenza
Le curve di sopravvivenza (curve di Kaplan Meier) raffigurano graficamente in un gruppo di soggetti l’andamento temporale della sopravvivenza. Ciascun punto della curva corrisponde alla registrazione di un evento in un determinato istante. La sopravvivenza istantanea registrata in questi punti contribuisce al calcolo della sopravvivenza cumulativa (vedi oltre) e contribuisce quindi alla morfologia della curva di Kaplan Mejer; nella fattispecie la sopravvivenza istantanea esprime per quell’istante la probabilità di un paziente di non subire l’outcome. La sopravvivenza cumulativa esprime in ogni istante il prodotto di tutte le sopravvivenze istantanee registrate nei punti precedenti. In uno studio di mortalità la mortalità istantanea è espressa dal reciproco della sopravvivenza istantanea. Il confronto tra due curve a diversa pendenza è di importanza fondamentale. Per esempio in un trial dove si studi l’effetto di un farmaco sulla mortalità , nel braccio in cui la mortalità è maggiore la pendenza della curva di sopravvivenza sarà più ripida. Per questo motivo è importante dimostrare con test formali se la pendenza di due curve di Kaplan Meier è “significativamente” diversa. Il confronto tra le due pendenze può essere fatto attraverso un semplice test statistico (Log Rank Test) o attraverso modelli matematici più sofisticati (vedi: Modello di Cox). Il Log Rank test, come qualsiasi altro test di significatività statistica, produce un valore di P (vedi: P) che esprime la probabilità con cui le differenze tra le due curve possono essere spiegate dal caso. Se P<0.05 , come al solito, il risultato si definisce “significativo” in quanto la probabilità che sia legato al caso è molto bassa e quindi trascurabile (0.05 = 1/20). però il log-rank test, nel confronto fra due curve, permette solo di rifiutare o confermare l’ipotesi nulla, cioè dice solo se la differenza è o meno significativa, ma non fornisce informazioni circa l’entità di tale differenza e nemmeno l’intervallo di confidenza intorno a questa stima. Il confronto di due curve con il Log rank test permette inoltre solo analisi univariate, ossia non tiene conto della potenziale influenza esercitata da altri fattori in grado di influenzare la sopravvivenza in modo indipendente dalla variabile che caratterizza i soggetti esaminati attraverso il confronto. Se per esempio l’età dei soggetti la cui sopravvivenza è espressa da una delle due curve è molto maggiore dell’età dei soggetti che contribuiscono al calcolo della sopravvivenza nella seconda curva, la diversa sopravvivenza rilevata può essere spiegata non solo dall’avere o meno eseguito lo screening ma, semplicemente, da queste differenze di età. Per confrontare due curve per una variabile a parità di tutte le altre variabili potenzialmente in grado di influenzare la sopravvivenza si usa una tecnica sofisticata di analisi applicata alla sopravvivenza che si chiama modello di COX.

Hazard rate
Nel modello di COX la pendenza di una curva di sopravvivenza viene espressa dall’Hazard Rate che concettualmente rappresenta per ogni tempo “t” il Tasso Istantaneo dell’Evento (nel nostro esempio corrisponde al tasso Istantaneo di Morte) (vedi: tasso).

Hazard Ratio
Il modello di COX (vedi) confonta due curve di sopravvivenza calcolando il rapporto tra i tassi istantanei dell’evento (vedi: Hazard Rate). L’Hazard Rate misurato in un punto esprime la pendenza della curva in quel punto. Il modello di COX presuppone che il rapporto tra gli Hazard Rate sia costante nel tempo, ossia che gli Hazard Rate delle due curve a confronto, quando variano, varino nella stessa misura. è per questo che il COX viene definito “modello a rischi proporzionali”. Con questo presupposto, il confronto tra le due curve potrà essere espresso da un rapporto (Hazard Ratio), che rimarrà costante per ogni punto della curva. L’Hazard Ratio (HR) è di solito impropriamente assimilato ad un Rischio Relativo ; il concetto che esprime è in effetti simile ma mentre il Rischio relativo è il rapporto tra i due Rischi Assoluti dell’evento in due gruppi a confronto l’Hazard Ratio è il rapporto tra le pendenze di due curve di sopravvivenza a confronto (espresse dai rispettivi Hazard Rate). Anche per l’HR può essere calcolato un intervallo di confidenza, che viene prodotto dal modello di Cox. I vantaggi associati all’utilizzo del modello di Cox al posto del confronto tra due curve di sopravvivenza effettuato attaverso il log-rank test sono enormi. In primo luogo il calcolo dell’HR permette di stabilire non solo se la pendenza tra le due curve è significativamente diversa ma permette anche di stimare l’entità di questa differenza e l’ampiezza dell’intervallo di confidenza intorno a questa stima, che esprime la precisione dei risultato del confronto. In secondo luogo (e soprattutto) questo sofisticato modello permette di valutare il contributo alla sopravvivenza fornito da una variabile a parità dell’influenza esercitata da tutte le altre inserite nell’analisi (vedi: COX).

Intervalli di confidenza di una misura di efficacia
In una ricerca gli intervalli di confidenza al 95% esprimono il grado di imprecisione con cui viene calcolata nel campione la misura di efficacia che esprime il confronto tra i due bracci. Il valore “vero” di questa misura (di cui quanto calcoliamo dal campione rappresenta solo una stima più o meno “precisa”) coincide con il valore della misura che sarebbe ricavato dalla popolazione che ha generato il campione qualora venisse globalmente coinvolta nella sperimentazione in oggetto. Un intervallo di confidenza è rappresentato da un range di valori. Questo intervallo numerico esprime entro quali limiti cadrebbero tutte le stime della misura della variabile se la sperimentazione fosse ripetuta per innumerevoli volte in innumerevoli campioni ma in identiche condizioni sperimentali. Se vengono calcolati come di norma si fa gli intervalli di confidenza al 95% significa che ripetendo innumerevoli volte la sperimentazione con lo stesso protocollo in 95 casi su 100 le stime della misura di efficacia ricavate dai campioni saranno destinate a cadere entro quel range. In base ad un teorema statistico la cui illustrazione esula dagli scopi di questa breve rassegna, il valore “vero” della misura di efficacia sarà compreso, con la “confidenza” tollerata nello studio (in questo caso: 95 volte su 100) entro il range definito dall’intervallo di confidenza. Traducendo questi concetti in modo operativo e prendendo come esempio uno studio controllato sulla efficacia di un farmaco nel ridurre la frequenza di eventi mortali se il Rischio Relativo di morte corrisponde a RR = 0.91 (IC95% 0.8-1.03) il valore di RR stimato dal campione esaminato dalla ricerca è 0.91 ma con una attendibilità del 95% il valore reale di questa stima (cioè quello della popolazione da cui il campione è stato estratto) sarà compreso tra il limite inferiore di 0.8 e il limite superiore di 1.03. In altri termini se ripetessimo innumerevoli volte questa ricerca nelle stesse condizioni sperimentali ad ogni calcolo del Rischio Relativo RR sarebbe leggermente diverso da 0.91 a causa delle differenze casuali esistenti tra i diversi campioni estratti ma in 95 casi su 100 cadrebbe tra 0.8 e 1.03: entro questo intervallo è compreso il valore reale della popolazione. Se la misura di efficacia che esprime il confronto tra i due bracci è espressa da un rapporto come nel caso del Rischio Relativo (vedi sopra) , dell’Odds Ratio (vedi) o dell’Hazard Ratio (vedi) e l’intervallo di confidenza contiene il valore di 1 la differenza riscontrata tra i due bracci non può essere considerata significativa. Infatti in queste condizioni l’intensità del fenomeno registrato nel braccio di intervento è identica a quella registrata nel braccio di controllo, fatto questo che soddisfa l’ipotesi nulla , cioè che l’intervento non sia nè efficace nè dannoso ma assolutamente neutro (vedi: P). Se invece la misura di efficacia che esprime il confronto tra i due bracci è espressa da una differenza come nel caso di: ARR (vedi), Mean Difference (vedi), RRR (vedi) il cut off che esprime il soddisfacimento dell’ipotesi nulla è uguale a zero. In base a queste note si intuisce come gli intervalli di confidenza oltre a esprimere il grado di imprecisione di una stima possano essere utilizzati per valutare la significatività statistica delle differenze tra i due bracci e in modo molto più intuitivo dei valori di P.

Modello di Cox
Questo particolare modello di analisi multivariata rappresenta una sofisticata procedura di confronto della pendenza di due curve di sopravvivenza. Ad esempio in un trial dove un farmaco si dimostrasse efficace nel prevenire eventi fatali la curva di sopravvivenza registrata nel braccio di intervento risulterebbe meno ripida della curva registrata nel braccio di controllo. Per un semplice confronto tra le due curve potrebbe essere sufficiente il Log Rank test, che produrrebbe nell’esempio un valore di P <0.05. La mortalità registrata nei due bracci potrebbe però essere condizionata , oltre che dall’efficacia del farmaco studiato, anche da variabili diverse, ossia da fattori prognostici o da fattori di confondimento che -se non considerati nell’analisi- potrebbero comportare distorsioni interpretative. Per esempio se esistesse nel braccio di controllo una maggior percentuale di soggetti anziani, la minor mortalità registrata nel braccio di intervento potrebbe essere condizionata da questo fattore prognostico, creando un bias interpretativo in seguito allo sbilanciamento tra braccio di intervento e braccio di controllo nella distribuzione di una variabile in grado di influenzare l’outcome in modo indipendente dall’intervento studiato. Nel nostro esempio l’effetto del trattamento sperimentale sulla mortalità verrebbe analizzata dal modello di COX costruendo per ciascun braccio una curva di sopravvivenza con pendenza condizionata dalla presenza o rispettivamente dall’assenza del trattamento sperimentale (variabile indipendente) a parità di tutto il resto. In altri termini durante il confronto tra le due curve verrebbe azzerata dal modello l’influenza potenzialmente esercitata sulla sopravvivenza dalla presenza o assenza di altri variabili in grado di condizionare l’outcome (e quindi la pendenza) in modo indipendente dal trattamento sperimentale. Nel nostro esempio il modello analizzerebbe in ciascun braccio l’effetto esercitato sulla sopravvivenza (variabile dipendente) della somministrazione o meno del farmaco (variabile indipendente) attraverso una analisi in cui verrebbe azzerato l’effetto concomitantemente esercitato su questo outcome da fattori come sesso, età, co-trattamenti, co-patologie e altre variabili indipendenti ( o “covariate”) inserite dagli autori nel modello perchè ritenute potenzialmente in grado di influenzare la sopravvivenza in modo autonomo. Nel modello di COX la pendenza di ciascuna curva è espressa dall’Hazard Rate e il confronto tra le due curve è espresso dall’Hazard Ratio (vedi).

Mean Difference
Sinonimi : Differenza tra medie, MD Mean Difference esprime la differenza fra la media rilevata nel braccio di controllo e la media rilevata nel braccio di intervento. Questa misura di efficacia esprime il confronto tra i due bracci in condizioni in cui l’outcome, anzichè essere un evento, viene espresso in scala intervallare (come nel caso di peso, pressione, etc.) In uno studio in cui si studi la differenza tra due medie l’ipotesi nulla identifica una situazione in cui la misura dell’outcome rilevata nel braccio di intervento è identica a quella rilevata nel braccio di controllo. Questa situazione è caratterizzata per Mean Difference dal valore di zero. Se Mean Difference ha un valore positivo (maggiore di zero) significa che la media nel braccio di intervento è inferiore alla media nel braccio di controllo. Se Risk Difference ha un valore negativo (minore di zero) significa che la media rilevata nel braccio di intervento è maggiore della media rilevata nel braccio di controllo. In base a queste considerazioni se l’intervallo di confidenza (vedi) di Mean Difference contiene il valore zero non è possibile ricusare l’ipotesi nulla e il risultato del confronto tra i due bracci va considerato “non signifcativo”.

NNT
Sinonimo: Number Needed To Treat NNT rappresenta il numero di soggetti da trattare per ottenere il risultato sperato in un paziente. Per esempio in uno studio in cui un farmaco si è dimostrato efficace nel ridurre la mortalità un NNT pari a 15 significa che occorre trattare 15 persone a rischio dell’evento per prevenire la morte di una persona. Ne deriva che (NNT-1) esprima il numero di persone da trattare inutilmente per ottenere il risultato in un paziente. Il valore ottimale di NNT è, ovviamente, uno. Il Number Needed To Treat è molto utile per interpretare la reale importanza clinica di un trattamento. NNT si calcola da ARR (Differenza in rischio assoluto, vedi) con la formula: NNT=1/ARR Per esempio: se in un trial sulla terapia ormonale sostitutiva in menopausa (TOS) dove l’outcome è rappresentato dalla vampate di calore il rischio basale dell’evento,espresso dal rischio delle pazienti assegnate a placebo, è pari a ARc= 0.20, ciò significa che il 20% delle pazienti non trattate -entro il periodo di follow-up considerato dalla ricerca- subirà l’evento. Se le pazienti sottoposte a TOS correranno un rischio di subire l’evento pari a ARi=0.56, ciò significa che il 56% delle pazienti trattate -entro il periodo di follow-up - subirà l’evento. Ora, sottraendo dal rischio subito dai controlli il rischio subito dalle pazienti sottoposte a TOS avremo la Differenza Assoluta in Rischio (ARR), che esprime il guadagno netto -in termine di variazione di rischio- associato all’intervento. In questo caso: ARR = ARc-ARi = 0.80-0.56 =0.24. Conoscendo ARR il calcolo del NNT, ossia del numero di pazienti che dovranno essere trattate con TOS per rilevare l’effetto della terapia in una paziente è dato da NNT = 1/ARR = 1/0.24= 4. Significa che dovremo trattare 4 pazienti per osservare in una paziente il beneficio associato alla TOS. Come per ogni altra misura di efficacia anche per NNT si possono calcolare gli intervalli di confidenza. Se NNT viene calcolato per un evento avverso (esempio: effetto collaterale di un farmaco) prende il nome di NNH (Number Needed To Harm)

Odds
è una delle due unità di misura degli outcome espressi in scala dicotomica: l’altra è il Rischio Assoluto (vedi). In un gruppo di soggetti in cui si osserva un determinato evento l’odds di quell’evento è espresso dal rapporto (numero di soggetti che hanno subito l’evento)/(numero di soggetti che non hanno subito l’evento). Questa unità di misura è intraducibile in italiano. L’Odds non è una probabilità, mentre il Rischio Assoluto si (vedi). Matematicamente l’odds di un evento può andare da zero a infinito mentre il Rischio Assoluto può andare solo da zero a uno (vedi). Se si interpreta l’Odds alla stessa stregua di un Rischio Assoluto si rischia di sovrastimare la frequenza dell’evento. Per esempio in un gruppo di 100 soggetti in cui si verificano 10 decessi il Rischio Assoluto di morte (vedi) è 10/100=0.10 mentre l’Odds di morte è 10/90=0.11

Odds Ratio
Sinonimi: OR

L’Odds Ratio rappresenta uno dei due modi con cui i risultati rilevati nei due bracci di uno studio (quando la variabile studiata è dicotomica) vengono confrontati costruendo un rapporto (l’altra modalità è costituita dal Rischio Relativo- vedi). In uno studio di eventi (es: efficacia di un farmaco sulla mortalità) l’Odds Ratio rappresenta matematicamente il rapporto tra l’Odds dell’evento (vedi) registrato nel braccio di intervento e l’Odds dell’evento registrato nel braccio di controllo. In questi studi l’Odds Ratio può essere interpretato alla stessa stregua di un Rischio Relativo ma tenendo ben presente che con questa approssimazione si rischia seriamente di sopravvalutare la diversità di effetto rilevata tra i due bracci. Per esempio in uno studio in cui la mortalità nel braccio di intervento è 10/100 e la mortalità nel braccio di controllo è 20/100, il confronto tra i due bracci espresso da un Odds Ratio genera un valore pari a (10/90)/(20/80) = 0.44 mentre il il confronto delle mortalità espresso da un Rischio Relativo genera un valore pari a (10/100)/(20/100) =0.5. In questo esempio interpretare l’Odds Ratio alla stessa stregua di un Rischio Relativo equivarrebbe a dichiarare che nel braccio di intervento la mortalità è pari al 44% di quella del braccio di controllo. La mortalità corrisponde invece al 50% e coincide con il valore del Rischio Relativo (vedi). Un Odds Ratio pari a 0.44 indica piuttosto che l’Odds di morte registrato nel braccio di intervento è pari al 44% dell’Odds di morte registrato nel braccio di controllo. Una eccezione a questa regola generale sulla differenza tra OR e RR è rappresentata dalle ricerche in cui la frequenza dell’evento studiato è molto bassa (es: studi sulle vaccinazioni), in cui OR e RR presentano valori molto simili. L’Odds Ratio è una unità di misura con interessanti proprietà matematiche, che la rendono particolarmente adatta ai calcoli metanalitici. Inoltre l’Odds Ratio rappresenta l’unità di misura più adatta a quantificare l’associazione tra due variabili, fenomeno studiato in modo particolare negli studi Caso-Controllo (vedi oltre) dove è l’unica misura di efficacia utilizzata. In uno studio caso-controllo OR non esprime il rapporto tra i due Odds dell’Evento ma, piuttosto, il rapporto tra i due Odds di esposizione registrati rispettivamente nel braccio dei Casi e nel braccio dei Controlli.

Interpretazione clinica di OR in uno studio di intervento (esempio utilizzato: efficacia di un farmaco nei riguardi della mortalità)
OR=1 esprime una situazione in cui l’odds di morte nel braccio di intervento è uguale all’odds di morte nel braccio di controllo. Se lo studio è caratterizzato da identica numerosità dei due bracci il numero di morti registrati nel braccio di intervento è in tal caso identico al numero di morti registrato nel braccio di controllo. OR<1 esprime una situazione in cui l’odds di morte nel braccio di intervento è inferiore all’odds di morte nel braccio di controllo. Se lo studio è caratterizzato da identica numerosità dei due bracci il numero di morti registrati nel braccio di intervento è in tal caso inferiore al numero di morti registrato nel braccio di controllo. OR>1 esprime una situazione in cui l’odds di morte nel braccio di intervento è superiore all’odds di morte nel braccio di controllo. Se lo studio è caratterizzato da identica numerosità dei due bracci il numero di morti registrati nel braccio di intervento è in tal caso più grande del numero di morti registrato nel braccio di controllo.

Interpretazione clinica di OR in uno studio caso-controllo (es: studio dell’associazione tra cancro ed esposizione al fumo)
OR=1 esprime una situazione in cui l’odds di esposizione al fumo nel braccio dei Casi è uguale all’odds dell’esposizione al fumo nel braccio dei Controlli. Se lo studio è caratterizzato da identica numerosità dei Casi (soggetti con cancro) e dei Controlli (Soggetti senza il cancro) il numero di fumatori registrati nel braccio dei Casi è qui identico al numero di fumatori registrato nel braccio dei Controlli. OR<1 esprime una situazione in cui l’odds di esposizione al fumo nel braccio dei Casi è minore dell’odds dell’esposizione al fumo nel braccio dei Controlli. Se lo studio è caratterizzato da identica numerosità dei Casi (soggetti con cancro) e dei Controlli (Soggetti senza il cancro) il numero di fumatori registrati nel braccio dei Casi è qui più piccolo rispetto al numero di fumatori registrato nel braccio dei Controlli. OR>1 esprime una situazione in cui l’odds di esposizione al fumo nel braccio dei Casi è più grande rispetto all’odds dell’esposizione al fumo nel braccio dei Controlli. Se lo studio è caratterizzato da identica numerosità dei Casi (soggetti con cancro) e dei Controlli (Soggetti senza il cancro) il numero di fumatori registrati nel braccio dei Casi è maggiore del numero di fumatori registrato nel braccio dei Controlli.

Interpretazione degli intervalli di confidenza (vedi) di OR
L’ipotesi nulla (= nessuna differenza tra i due bracci nella misura della variabile considerata) è espressa da valori di OR pari a uno. Se gli intervalli di confidenza di OR comprendono il valore di 1 la differenza registrata tra i due bracci è da considerare “non significativa” in quanto con una attendibilità pari al 95% il valore vero di OR, ossia quello che caratterizzerebbe la popolazione che ha generato il campione qualora fosse globalmente coinvolta nella ricerca, è compreso in tal caso entro un range che comprende anche il valore di OR che soddisfa l’ipotesi nulla, che pertanto non può essere ricusata (vedi: P)

OR= vedi Odds Ratio

Outcome (end-point, esiti)
In uno studio gli outcome possono essere costituiti da “eventi” (es: mortalità) oppure da variabili espresse da una media (es: peso, pressione). Una prima classificazione degli outcome è quella che distingue “outcome maggiori” e “outcome surrogati”. Un outcome maggiore è un end-point fortemente correlato allo stato di salute del paziente (es: mortalità). Un outcome “surrogato” si correla solo indirettamente con lo stato di salute ma è ben correlato con un outcome “maggiore”. Esempio: l’outcome surrogato “valori di pressione arteriosa” è ben correlato con l’outcome maggiore “stroke” ma in se non è in grado di influenzare direttamente la mortalità, che viene invece condizionata da uno stroke. Una seconda classificazione degli outcome distingue outcome “hard” e outcome “soft”. Un outcome “hard” può essere misurato in modo facile e inequivocabile (es: mortalità); un outcome “soft” può essere misurato solo con difficoltà e introducendo valutazioni soggettive (esempio: QoL). Una terza classificazione degli outcome distingue outcome “primari” e ‘outcome “secondari”. L’outcome “primario” è quello su cui gli autori della ricerca hanno tarato la potenza statistica dello studio (vedi) e quindi la numerosità del campione. Un outcome “secondario” non ha queste caratteristiche e le analisi ad esso correlate dovrebbero essere correttamente considerate solo come valore aggiunto e dovrebbero essere all’estremo utilizzate solo per generare ipotesi da affrontare in studi di numerosità campionaria adeguata. Una quarta classificazione degli outcome distingue outcome “compositi” e “singoli”. Un outcome “composito” è costituito dall’associazione di più outcome singoli. Un esempio di outcome composito è l’outcome primario considerato dalla ricerca di Ridker (mortalità cardiovascolare + infarto non fatale + stroke non fatale). Gli autori dei trial utilizzano spesso come outcome “primario” un outcome “composito”: ciò per non essere costretti ad arruolare il numero più elevato di soggetti che richiederebbe lo studio di un outcome singolo. Una analisi di un outcome singolo (a parità di potenza statistica) richiede di arruolare un numero più elevato di soggetti perchè la frequenza con cui un outcome singolo compare nella popolazione è giocoforza molto inferiore a quella con cui compare un outcome composito che comprende anche quell’outcome singolo. La differenza tra le frequenze di un outcome singolo rilevate nei due bracci può quindi essere molto piccola, con necessità di arruolare un numero molto elevato di soggetti per dimostrarla (vedi potenza statistica)

P e significatività statistica
Il valore di P esprime la probabilità che il risultato ottenuto dal confronto tra braccio di intervento e braccio di controllo sia solamente un effetto del caso. è solo per convenzione statistica che si attribuisce un significato particolare ai valori di P a seconda che siano inferiori o superiori al famoso “cut off”: 0.05. Se la probabilità che il risultato ottenuto dal confronto tra i due bracci sia solo un effetto del caso è inferiore a 1/20, (vale a dire: P<0.05) per convenzione statistica affermiamo che il risultato non è casuale (in quanto consideriamo questa probabilità 1/20 molto bassa). Se invece la probabilità che il risultato ottenuto dal confronto tra i due bracci sia solo casuale è superiore a 1/20 (vale a dire: P>0.05) per convenzione statistica affermiamo che il risultato è, appunto, solamente dovuto al caso. Ogni test di significatività statistica consente il calcolo dei valori di P. Applicando un test statistico occorre procedere con una logica particolare: il confronto deve sempre partire dal presupposto chiamato “ipotesi nulla”: ossia che non esista alcuna differenza non casuale tra i due bracci e che le differenze inevitabilmente registrate (è virtualmente impossibile che i due bracci siano assolutamente identici!) rappresentino appunto solo l’effetto della casualità con cui sono stati scelti i campioni. In uno studio di’eventi “l’ipotesi nulla” identifica quindi una situazione estrema in cui la frequenza dell’evento nel braccio di intervento è identica alla frequenza dell’evento nel braccio di controllo. Un valore di P < 0.05 ci autorizza per convenzione statistica a ricusare l’ipotesi nulla : con P <0.05 siamo cioè autorizzati ad affermare che il risultato ottenuto dal confronto tra i due bracci non è casuale e che esiste è ciò è “significatività” di questo risultato. Un valore di p > 0.05 ci costringe -all’opposto- ad abbracciare l’ipotesi nulla e ad affermare che la differenza riscontrata tra i due bracci è un fenomeno attribuibile solo alla casualità con cui abbiamo scelto i campioni.

Potenza statistica
La Potenza statistica di uno studio rappresenta la capacità di dimostrare differenze tra i due bracci quando queste effettivamente esistono. La potenza statistica di uno studio è direttamente proporzionale alla numerosità del campione arruolato (sample size). più piccola è la differenza tra i due bracci che lo studio si propone di dimostrare, maggiore deve essere la numerosità dei soggetti da reclutare al fine di garantire una adeguata potenza statistica. Per programmare ex ante una adeguato sample size, il ricercatore deve quindi avere un’idea preliminare “di massima” della differenza tra un braccio e l’altro che crede di poter arrivare a dimostrare attraverso la propria ricerca. Il complementare a 100 della potenza statistica si chiama “errore beta”. L’errore beta è la probabilità di definire erroneamente “non significativa” una differenza tra i due bracci che invece effettivamente esiste. Si considerano di norma accettabili livelli di errore beta compresi tra il 10% e il 20%.

Qualità esterna
La “qualità esterna” di una ricerca coincide con il concetto di trasferibilità dei risultati della ricerca a popolazioni diverse da quella studiata. Uno studio - anche se metodologicamente impeccabile - è utile solo se i suoi risultati possono essere trasferiti a pazienti reali. I principali elementi in grado di condizionare la trasferibilità sono :

la somiglianza dei pazienti arruolati dallo studio con quelli normalmente visibili in condizioni reali (es: se i criteri di arruolamento adottati dal trial sono troppo rigidi la popolazione arruolata non è rappresentativa della realtà) ; a questo proposito un dato molto utile per valutare la somiglianza dei pazienti del trial con quelli reali è rappresentato dal Rischio Assoluto dell’outcome nel braccio di controllo (vedi: RR), buon indicatore delle condizioni “basali” della popolazione arruolata, può essere confrontato con il Rischio Assoluto dell’outcome riscontrabile nei pazienti “reali”
la somiglianza dell’intervento studiato con quelli normalmente somministrati ai pazienti reali (in termini di: natura, dosaggio, modalità di somministrazione)
il tipo e la durata del follow-up (la compliance al trattamento dei pazienti reclutati nei trial è molto più alta di quella dei pazienti reali)
il tipo di setting in cui si svolge la ricerca (malattie affrontate in ospedale possono essere molto diverse da quelle affrontate sul territorio in termini di gravità clinica)
il tipo di outcome (un intervento su un outcome surrogato come -ad esempio la pressione arteriosa - non necessariamente è seguito da effetti favorevoli sulla morbilità e la mortalità dei pazienti reali).

Qualità interna
La “qualità interna” coincide con il concetto di validità metodologica. Uno studio di buona qualità è uno studio senza bias ossia i cui risultati non sono stati distorti da errori nella conduzione della ricerca. Gli elementi metodologici più importanti e critici di uno studio controllato sono:

una adeguata numerosità del campione (sample size)
una buona “allocation concealment” ossia l’assegnazione dei pazienti ai due bracci deve essere eseguita utilizzando una procedura di randomizzazione validata e sicuramente in cieco (vedi)
un follow-up di lunghezza adeguata a rilevare l’outcome e caratterizzato da poche o pochissime perdite al follow-up
la cecità nella somministrazione del’intervento e nella rilevazione dei dati
la scelta di outcome importanti e ben misurabili ossia “maggiori” e “hard” (vedi: outcome).

Randomizzazione
In un RCT ( vedi) l’assegnazione casuale dei pazienti ai due bracci prende il nome di “allocation concealment”. Gli elementi qualificanti di una buona “allocation” sono

la generazione dei numeri random attraverso metodi validati (tabelle, programmi informatici)
l’implementazione della randomizzazione (ossia: il metodo materiale con cui il singolo paziente viene allocato ad un braccio o ad un altro)
il mascheramento della randomizzazione, che in condizioni ideali deve essere in “doppio cieco”. La cecità identifica la “non conoscenza del braccio a cui il paziente è stato allocato”. La randomizzazione è l’unico metodo in grado di distribuire equamente tra i due bracci tutti i fattori di rischio noti e non noti, rendendoli perfettamente confrontabili nelle condizioni di partenza. Se i due gruppi di pazienti a confronto sono uguali, una diversità nella frequenza dell’outcome riscontrata tra i due bracci potrà essere ragionevolmente attribuita ad un effetto dell’intervento studiato.

RCT = studio randomizzato e controllato (studio “sperimentale” propriamente detto)
Rappresenta il golden standard quando l’obiettivo della ricerca è verificare l’efficacia di un intervento sanitario. Nel modello più semplice esistono due gruppi di pazienti a confronto (braccio di intervento, braccio di controllo), composti da individui pressochè identici nelle caratteristiche di base. I pazienti del braccio di intervento ricevono l’intervento medico o chirurgico studiato dalla ricerca (es: un farmaco); i pazienti del braccio di controllo ricevono placebo o un intervento alternativo. In queste condizioni se dopo la somministrazione dell’intervento si apprezzano differenze tra i due bracci per l’outcome considerato dalla ricerca appare ragionevole attribuire queste differenze ad un effetto dell’intervento. La conditio sine qua non è che i pazienti dei due bracci siano quasi identici nelle condizioni di base: questa identicità è garantita dalla randomizzazione, che rappresenta l’unico metodo per distribuire in modo assolutamente uniforme tra i due bracci tutti i fattori prognostici noti e ignoti (vedi).

Rischio assoluto

Sinonimi: AR (Absolute Risk); Risk è una delle due unità di misura degli outcome espressi in scala dicotomica: l’altra è l’odds (vedi). Gli “eventi” osservati nei soggetti studiati da una ricerca sono outcome espressi in scala dicotomica (presenti/assenti). Sotto il profilo statistico il Rischio Assoluto rappresenta la probabilità dell’evento in un gruppo di individui “a rischio” per quell’evento. Il concetto di “rischio” è statistico, non clinico. Per esempio il Rischio Assoluto di Morte rappresenta la probabilità con cui in un gruppo di soggetti può verificarsi un evento indesiderato, mentre il Rischio Assoluto di Guarigione rappresenta la probabilità con cui in un gruppo di soggetti può verificarsi un evento desiderato. Il Rischio Assoluto coincide quindi con la frequenza dell’evento osservata nel gruppo di soggetti studiati. Matematicamente AR è espresso da un numero compreso tra zero e 1 (o, se si vuole moltiplicarlo per cento, da una percentuale compresa tra zero% e 100%). Il Rischio Assoluto dei Controlli (Rischio Basale) esprime quello che sarebbe capitato in assenza dell’intervento oggetto dello studio. Tale parametro è molto utile per confrontare i partecipanti arruolati da trial organizzati in setting diversi e aventi per oggetto identici interventi (Rischi basali molto diversi nei confronti dello stesso outcome suggeriscono grandi diversità tra i pazienti arruolati in due studi diversi).

Risk: vedi Rischio Assoluto

Risk Difference
Sinonimi : Absolute Risk Reduction (ARR), RD, Riduzione di Rischio Assoluto.
Risk Difference esprime la differenza fra la frequenza dell’ evento misurata nel braccio di controllo e la frequenza dell’evento misurata nel braccio di intervento. In uno studio di “eventi” “l’ipotesi nulla” identifica una situazione estrema in cui la frequenza dell’evento nel braccio di intervento è identica alla frequenza dell’evento nel braccio di controllo. Questa situazione è caratterizzata per Risk Difference dal valore di zero. Se Risk Difference ha un valore positivo (maggiore di zero) significa invece che la frequenza dell’evento nel braccio di intervento è inferiore alla frequenza dell’evento nel braccio di controllo. Se Risk Difference ha un valore negativo (minore di zero) significa che la frequenza dell’evento nel braccio di intervento è maggiore della frequenza dell’evento nel braccio di controllo. In base a queste considerazioni se l’intervallo di confidenza (vedi) di Risk Difference contiene il valore zero non è possibile ricusare l’ipotesi nulla (vedi: valori di P) e il risultato del confronto tra i due bracci va considerato “non significativo”.

RR=Rischio relativo
Il Rischio Relativo esprime la frazione di rischio basale osservata dopo l’intervento. Ogni analisi dei dati ricavati da una sperimentazione dove viene studiato un “evento” parte dal confronto della frequenza dell’evento nel braccio di intervento con la frequenza dell’evento nel braccio di controllo. La frequenza di un evento in un braccio, espressa dal rapporto (numero di eventi osservati)/(totale dei pazienti appartenenti a quel braccio) si definisce “Rischio assoluto” dell’evento per quel braccio (AR). Pertanto il confronto tra i due bracci di uno studio è espresso dal confronto tra i due Rischi assoluti dell’outcome nei due bracci. Una modalità per esprimere matematicamente tale confronto è il calcolo del rapporto tra i due Rischi assoluti, che si chiama Rischio Relativo (RR). Quindi: RR = (ARintervento)/(ARcontrollo). Il Rischio Relativo esprime come detto la frazione di rischio basale osservata dopo l’intervento. Qual’è allora il Rischio basale? Il Rischio basale, ossia quello che si osserverebbe se non venisse applicato l’intervento, coincide con il Rischio assoluto del braccio di controllo (ARcontrolli). Per fare un esempio: supponiamo che in uno studio controllato in cui viene valutata l’efficacia di un farmaco sulla mortalità si siano osservati nel braccio di intervento 477 eventi in 19934 pazienti e nel braccio di controllo 522 eventi in 19942 pazienti. il Rischio Relativo che esprime il confronto tra i due bracci corrisponde a RR = 0.91 : significa che nei pazienti trattati è stato osservato un rischio pari al 91% del rischio che si sarebbe osservato senza il trattamento. Quest’ultimo (= Rischio basale) coincide con il Rischio dei controlli, a cui appunto non è stato somministrato il farmaco. I due Rischi Assoluti di morte nei due bracci dello studio si calcolano così: per il braccio di intervento: 477 eventi in 19934 pazienti = 477/19934 = 0.02393; per il braccio di controllo: 522 eventi in 19942 pazienti = 522/19942 = 0.02618. Il rischio relativo RR è allora espresso da 0.02393/0.02618 = 0.91416. Significa che applicando l’intervento osserviamo un rischio di morte (arrotondando: 2.3% in 10 anni) pari al 91% del rischio che avremmo osservato non applicando l’intervento (arrotondando: 2.6% in 10 anni).

RRR= riduzione relativa di rischio
Clinicamente esprime la frazione di rischio basale abbattuta dall’intervento. Matematicamente rappresenta il valore complementare a 1 del Rischio Relativo (o, se si preferisce ragionare in percentuali anzichè in decimali, il complementare a 100 del Rischio Relativo). Nell’esempio riportato per RR (vedi): se RR = 0.91 RRR =(1-0.91) = 0.09. Significa che nei soggetti trattati il farmaco abbassa del 9% la mortalità che si sarebbe riscontrata in assenza del suo utilizzo. ciò equivale a dire che tra i soggetti sottoposti al trattamento si osserva una mortalità pari all’91% di quella che si sarebbe riscontrata nei soggetti non trattati (RR=0.91). In uno studio di “eventi” “l’ipotesi nulla” identifica una situazione in cui la frequenza dell’evento nel braccio di intervento è identica alla frequenza dell’evento nel braccio di controllo. Questa situazione è caratterizzata per RRR dal valore di zero. Se RRR ha un valore positivo (maggiore di zero) significa invece che la frequenza dell’evento nel braccio di intervento è inferiore alla frequenza dell’evento nel braccio di controllo. Se RRR ha un valore negativo (minore di zero) significa che la frequenza dell’evento nel braccio di intervento è maggiore della frequenza dell’evento nel braccio di controllo. In base a queste considerazioni se l’intervallo di confidenza (vedi) di RRR contiene il valore zero non è possibile ricusare l’ipotesi nulla (vedi: valori di P) e il risultato del confronto tra i due bracci va considerato “non significativo”.

Sensitivity Analysis
Ogni analisi dei dati ricavati da una ricerca dove viene studiato un “evento” parte dal confronto delle frequenze dell’evento calcolate in due gruppi di pazienti. Una “Sensitivity analysis” rappresenta un modello generale di analisi dove questi calcoli vengono rifatti dopo aver escluso o incluso gruppi pazienti con ben determinate caratteristiche: tutto ciò allo scopo di saggiare la robustezza delle precedenti conclusioni attraverso il confronto di scenari (immaginari) estremi. Un modello di analisi del genere viene spesso sfruttato in presenza di perdite al follow-up, ossia di pazienti di cui non si conosce l’esito. In questo caso vengono rifatti i calcoli per quattro volte immaginando quattro scenari estremi

primo scenario: tutti i pazienti persi non hanno avuto l’evento (sia nel braccio di intervento che nel braccio di controllo)
secondo scenario: tutti i pazienti persi hanno avuto l’evento (sia nel braccio di intervento che nel braccio di controllo)
terzo scenario: i pazienti persi nel braccio di intervento hanno avuto l’evento e i pazienti persi nel braccio di controllo non hanno avuto l’evento
quarto scenario: i pazienti persi nel braccio di controllo hanno avuto l’evento e i pazienti persi nel braccio di intervento non hanno avuto l’evento. Se dopo una ‘sensitivity analysis’ il risultato dello studio originale non viene stravolto le conclusioni degli autori vengono definite “robuste” e possono venire considerate credibili nonostante le perdite al follow-up subite. Nessun tipo di analisi potrà rimediare in ogni caso a perdite al follow-up troppo elevate.

Subgroups analysis
Una analisi per sottogruppi prevede confronti tra braccio di intervento e braccio di controllo eseguiti non sull’intera casistica ma su singole sottopopolazioni di pazienti con caratteristiche particolari. Le insidie di una analisi per sottogruppi sono:

maggiore è il numero di sottogruppi studiati, maggiore è il rischio che i risultati di questi confronti siano solo un effetto del caso
un sottogruppo di solito presenta dimensioni campionarie insufficienti ad una adeguata potenza statistica e questo espone l’analisi ad un grande rischio di errore beta (vedi: Potenza statistica). La affidabilità di questo tipo di analisi aumenta se:
1. esiste grande plausibilità biologica dei suoi risultati
2. La differenza tra braccio di intervento e braccio di controllo è grande
3. i risultati sono statisticamente significativi
4. gli autori non l’hanno eseguita ex post (cioè dopo aver preso visione dei principali risultati dello studio) ma l’hanno prevista ex ante e ciò risulta specificato nel protocollo della ricerca pubblicato prima dell’inizio dello studio
5. i sottogruppi e gli outcome considerati sono pochi. Una analisi per sottogruppi dovrebbe essere utilizzata, a rigore, solo per generare ipotesi di lavoro.

Tasso
Il Tasso esprime il numero di eventi registrato in un gruppo di soggetti seguiti per un certo tempo. In questa unità di misura vengono quindi aggregate tre variabili: numero di eventi, numero di persone a rischio dell’evento, tempo totale di osservazione di queste persone. Un tasso non è una proporzione, quindi non è una probabilità, quindi non è un Rischio Assoluto. In una proporzione (in una probabilità, in un Rischio Assoluto) i valori possono andare solo da zero a 1 (o, se si preferisce, da 0% a 100%). Al denominatore di un Tasso non è espresso - come nel Rischio Assoluto - il numero di soggetti a rischio per l’outcome, ma piuttosto la somma dei periodi di follow-up che caratterizzano ciascun soggetto. Per esempio se abbiamo cinque soggetti seguiti rispettivamente per uno, tre, due, quattro, due anni la somma di tutti i periodi individuali di follow-up è 12 anni (= 12 anni-uomo). Se due di questi soggetti alla fine del periodo di osservazione muoiono possiamo esprimere la mortalità sia come Rischio Assoluto che come Tasso ma la differenza è enorme. Infatti la mortalità espressa come Rischio Assoluto è 2/5 uomini = 40% (esprime la probabilità di morte in quel gruppo), mentre la mortalità espressa come Tasso è 2/12anni uomo = 16 su cento anni uomo.