Critical Appraisal OARSI recommendations for the management of hip and knee osteoarthritis, Part II: OARSI evidence-based, expert consensus guidelines: VALUTAZIONE CRITICA DI ALCUNI ASPETTI METODOLOGICI | ![]() |
Conclusioni inerenti gli aspetti metodologici considerati (a cura del Dott. Alessandro Battaggiae del Dott. Saffi Giustini) Gli autori hanno utilizzato un metodo originale per identificare in modo formale gli item da analizzare in un secondo tempo attraverso una ricerca sistematica delle evidenze. Al fine di identificare in modo obiettivo gli aspetti più importanti del management dell’ osteoartrosi essi hanno analizzato in modo sistematico le raccomandazioni prodotte da tutte le linee guida pubblicate sull’ argomento fino al 2005. La revisione sistematica della letteratura rivolta a ricercare i lavori originali pertinenti le raccomandazioni così evidenziate è stata condotta esplorando molti database e utilizzando query descritte in modo parziale ma impostate ,apparentemente, in modo corretto. Alcuni aspetti della revisione non forniscono sufficienti garanzie di sistematicità (mancanza di handsearching, mancanza di ricerca di dati non pubblicati, mancanza di ricerca di tecniche rivolte ad indagare l’ esistenza di publication bias, utilizzo della qualità come criterio di inclusione). Le evidence table non sono sufficientemente analitiche e le statistiche metanalitiche sono descritte in modo insufficiente. Il consenso entro il pool è stato ricercato attraverso procedure formali e rigorose. Gli autori hanno dimostrato in più di una occasione un utilizzo improprio di alcune procedure statistiche. In base a queste considerazioni e limitatamente agli aspetti di qualità analizzati chi scrive raccomanda l’ adozione di questa linea guida con riserve. |
Una nuova Linea Guida deve essere basata su una revisione sistematica della letteratura, che gli autori hanno cercato di eseguire in due step. Hanno infatti eseguito una prima ricerca sistematica di Linee Guida
-
esplorando sette database elettronici di dati biomedici (MEDLINE, EMBASE, CINHAL, AMED, SCI, Cochrane)
-
utilizzando Google c) esplorando sette database specifici di Linee Guida (National Guideline Clearinghouse , Primary Care Clinical Practice Guidelines, the Scottish Intercollegiate Guidelines Network, the Canadian Medical Association Infobase for Clinical Practice Guidelines , the Guidelines International Network Evidence Based Medicine Guidelines , the National Institute for Clinical Excellence )
L’ obiettivo di questa prima revisione bibliografica era trovare tutte le linee guida sull’ osteoartrosi pubblicate dal 1945 al 2005. Obbedivano ai criteri di inclusione Linee Guida pertinenti il management dell’ osteoartrosi dell’ anca e/o del ginocchio. La strategia di ricerca viene descritta dagli autori nei dettagli in appendice 1.
Il recupero di tutte le linee guida sull’ argomento aveva lo scopo di selezionare tutte le raccomandazioni cliniche prodotte fino al 2005 dall’ ambiente medico per il managment di queste condizioni. Il vantaggio dichiarato di questo metodo ? non aver trascurato alcuna delle posizioni precedentemente espresse da altri gruppi di lavoro. Qualora la ricerca delle evidenze pubblicate in lavori originali o in loro revisioni (eseguita in un secondo tempo, vedi oltre) fosse stata preceduta solo dalla identificazione degli item ritenuti clinicamente pi? importanti dal Gruppo di Progetto (passo necessario per orientare a obiettivi precisi la ricerca sistematica di studi originali e/o di loro revisioni) si sarebbe corso il rischio di selezionare un gruppo di item alla luce di valutazioni soggettive -cio? alla luce della sola esperienza clinica del gruppo di progetto- senza tener conto di posizioni redatte altrove ma potenzialmente importanti.
Il metodo di lavoro utilizzato è stato così definito dagli autori ‘evidence-driven and clinically supported’. Tale definizione non ? per? del tutto corretta in quanto la identificazione di item potenzialmente importanti da approfondire con una seconda revisione della letteratura ? stata realizzata identificando racccomandazioni selezionate da altre linee guida. Non è detto infatti che tutte queste raccomandazioni siano ‘evidence based': come notano giustamente gli stessi autori tra le 23 linee guida recuperate alcune erano solo ‘opinion based'; altre ‘evidence based'; altre ancora ‘miste’ (non viene specificato comunque in che modo sia stata eseguita questa stratificazione). La metodologia -indipendentemente da queste considerazioni formali- ha indubbiamente un razionale in quanto rappresenta una metodica rivolta a identificare in modo obiettivo e formale gli aspetti pi? importanti del management dell’ osteoartrosi, da approfindire con ulteriore revisione della letteratura.
Le 23 linee guida cos? recuperate dagli autori sono state sottoposte ad una valutazione di qualità attraverso la check-list Agree. Questa analisi ? stata affidata a 4 gruppi diversi costituiti ciascuno da quattro revisori. Agree analizza ogni linea guida attraverso la valutazione di 23 item di qualit? raggruppati in sei argomenti (aree) . A ciascun item il metodo Agree prevede l’ attribuzione di uno score di qualità crescente da 1 a 4 , che consente per ciascuna delle sei aree in cui sono distribuiti gli item il calcolo di un ‘punteggio standardizzato’ che esprime la percentuale del massimo punteggio attribuibile all’ area attraverso la somma dei punteggi di qualit? attribuiti a ciascun item caratteristico dell’ area. Agree consente alla fine anche un giudizio ( solo qualitativo) della validit? complessiva del documento sottoposto a revisione. Gli autori OARSI hanno arbitrariamente trasformato questo giudizo qualitativo in un ‘overall quality score’ , di cui ? stata fatta poi la media per ciascun strato (linee guida ‘opinion based'; linee ‘evidence based'; linee guida’miste’ ) sottoposto a valutazione Agree (vedi figura 1 e ultima riga della tabella III della linea guida OARSI I). Questo modo di procedere è errato in quanto l’ elaborazione di un ‘overall quality score’ non è previsto in alcun modo dal metodo originale Agree.
La valutazione della qualità delle singole linee guida è stata utilizzata dagli autori OARSI a scopo puramente comparativo. Hanno cioè stratificato le 23 linee guida reperite in tre gruppi ‘opinion based'; ‘evidence based'; ‘miste’ (vedi sopra) per confrontare poi la media dei punteggi calcolati per ciascun strato a livello di singola area Agree (tabella III). Per il confronto di questi punteggi hanno utilizzato una tecnica formale (l’ analisi della varianza, ANOVA). L’ utilizzo di questa statistica a parere di chi scrive non ha senso alcuno, come non ha senso esprimere come hanno fatto gli autori la varianza intorno alle medie come errore standard anzich? deviazione standard (figura 1, tabella III). I motivi di questa critica sono due: in primis gli autori hanno applicato elementi di statistica inferenziale in statistiche descrittive; in seconda istanza assumendo che la revisione della letteratura finalizzata a trovare tutte le linee guida pubblicate sull’ osteoartrosi sia stata esaustiva (come nell’ intento degli autori) la comparazione degli score calcolati per ciascun’ area Agreee a livello dei tre strati di Linee Guida riguarda l’ intera popolazione delle unit? di analisi (= tutte le linea guida esistenti) , non un campione di linee guida: per cui non ha senso utilizzare ANOVA per calcolare la probabilit? che le differenze riscontrate tra i diversi score siano legate alla casualit? di un campionamento.
Gli autori OARSI attraverso questa valutazione comparativa hanno comunque identificato 51 raccomandazioni , di cui 20 costituenti il ‘core’ di tutte le linee guida reperite (tabella IV) perch? citate dal 100% di questi documenti. Le raccomandazioni sono state quindi poste al vaglio del gruppo di lavoro OARSI per essere valutate sia alla luce della esperienza clinica dei singoli componenti sia alla luce delle evidenze scientifiche prodotte dalla seconda revisione della letteratura (vedi oltre).
Le evidenze scientifiche a supporto di ciascuna raccomandazione sono state infatti ricercate attraverso un secondo lavoro di revisione sistematica esplorante l’ arco di pubblicazione 2002-2006 (per le evidenze pubblicate prima del 2002 gli autori hanno utilizzato -considerandola esaustiva- la ricerca gi? effettuata da European League Aganist Rheumatism ‘EULAR’) .I database esplorati erano MEDLINE, EMBASE, CINHAL, AMED, SCI HTA e i database della Cochrane Library. Gli autori esplicitano un esempio di query di ricerca in Appendice 2. La filosofia che ha improntato questa ricerca era procedere in ordine gerarchico in base all’ item ‘publication type’ della query, vale a dire cercando in primis evidenze da revisioni sistematiche della letteratura , poi da studi originali con solidit? di disegno progressivamente decrescente. La query nell’ esempio pubblicato ? descritta in modo analitico e la ricerca appare orientata ad un livello accettabile di sensibilit? (largo uso di free-text, di simbli di troncamento, dell’ operatore boleano OR, eccetera). Essendo nell’ intenzione degli autori elaborare un documento importante , la linea guida OARSI avrebbe dovuto dedicare una sezione a parte (o per lo meno fornire un link) per descrivere nei dettagli tutte le singole query utilizzate per esplorare i singoli item clinici affrontati, per consentire al lettore la formulazione di un giudizio di ‘sistematicit?’ della revisione quanto pi? analitico possibile.
Alcuni aspetti della ‘sistematicità’ di questa ricerca sono , tra l’ altro, deboli.
In primis gli autori non specificano di avere utilizzato tecniche di handsearching (cinque volte più efficace della ricerca eseguita attraverso motori elettronici); in secondo luogo non risultano esplorate fonti di letteratura grigia (documenti che sfuggono ai normali canali editoriali) n? i registri di ‘ongoing research'; in terzo luogo non sono stati contattati i singoli autori alla ricerca di dati non pubblicati (a garanzia di evitare ‘publication bias’). Gli autori OARSI non dichiarano infine di aver adottato tecniche statistiche rivolte ad esplorare formalmente l’ esistenza di ‘publication bias’ (funnel plot o analoghe) n? dichiarano di aver eseguito la ricerca in doppio al fine di evitare bias di selezione.
La qualit? delle revisioni sistematiche reperite ? stata analizzata dagli autori attraverso lo score di Oxman 1991 e la qualit? degli RCT attraverso lo score di Jadad, mentre nessuna valutazione qualitativa riguardava i disegni di ricerca meno solidi degli RCT. Gli score di qualit? (QoS) sono stati espressi come percentuale del massimo punteggio ottenibile e sono stati utilizzati per attribuire alle singole evidenze un grading (LoE) (tabella V). Non viene dichiarato se questa valutazione sia stata o meno eseguita in doppio.
Mancano ‘evidence table’ dettagliate in cui sia ricostruibile la modalit? operativa con cui tali punteggi sono stati attribuiti alle singole evidenze, per cui non ? possibile al lettore esprimere un giudizio qualitativo sulla congruit? stessa del processo. La tabella 5 indica infatti i QoS non per le singole evidenze ma piuttosto per i singoli interventi (es: ‘self management’, ‘thelephone’, ‘education’.. ecc) e in nessuna parte gli autori illustrano la modalit? con cui sono stati aggregati a livello dei singoli interventi i QoS che si riferiscono alle singole evidenze a sostegno. Per esempio se ? vero che per la gran parte degli interventi elencati nella tabella V esiste un solo riferimento bibliografico, ? altrettanto vero che per alcuni esistono pi? riferimenti: ad esempio per l’ intervento ‘weight reduction’ la tabella V illustra un risultato di efficacia (ES) estratto dalle voci bibliogafiche 52 e 95, con un quality Score 40% e non viene dato modo al lettore di capire se il punteggio 40% sia stato attribuito a ciascuna delle evidenze 52 e 95 o se piuttosto sia stato calcolato eseguendo una media tra la qualit? della evidenza 52 e la qualit? della evidenza 95.
Gli autori dichiarano esplicitamente di aver utilizzato per assemblare le raccomandazioni finali (vedi oltre) le evidenze caratterizzate da miglior qualit?. Infatti i livelli LoE indicati nella tabella V sono per la massima parte di grado Ia o Ib (34 su 38 valutazioni) , e sono pertanto supportati prevalentemente dal contributo di revisioni sistematiche di RCT o da RCT.
Gli autori non specificano quali evidenze ‘di minor qualit?’ siano state escluse dalla revisione, n? i criteri utilizzati per scegliere le poche incluse (4 su 38 item nella tabella V sono supportati da evidenze IIb o III). I problemi legati a questa scelta sono due: in primis utilizzare in una revisione sistematica la qualit? come criterio di inclusione espone al rischio di abbassare la sistematicit? della ricerca. E’ infatti pi? corretto sotto il profilo metodologico utilizzare l’ analisi della qualit? come elemento di studio della eterogeneit? dei risultati entro il pool (attraverso tecniche di sensitivity analysis, di metaregressione e/o attraverso analisi per sottogruppi) e non -come implicitamente hanno fatto gli autori OARSI- come criterio di inclusione delle evidenze entro il pool. Gli autori dichiarano di aver eseguito ‘statistical pooling’ per aggregare i dati disponibili per ciascun intervento da pi? fonti bibliografiche utilizzando la tecnica ‘random effect based’ (che di solito si utilizzata in presenza di livelli significativi di eterogeneit?) ma non si soffermano sulle complesse problematiche inerenti, a livello di singola metanalisi, la gestione di livelli importanti di eterogeneit? n? dichiarano di aver utilizzato procedure formali per misurare la eterogeneit?.
L’ efficacia clinica dei singoli interventi (versus placebo o versus trattamenti attivi) ? stata espressa nei confronti di 4 outcome: riduzione del dolore (differenza tra medie di score calcolati con diverse scale) , miglioramento della funzionalit? (differenza tra medie di score calcolati con diverse scale), riduzione della rigidit? (differenza tra medie di score calcolati con diverse scale); differenza percentuale di pazienti con significativo miglioramento del dolore . Per i primi tre, espressi da variabili definite ‘continue’ (ndt: in realt? si tratta di variabili ordinali in quanto la quantit? di effetto tra i diversi punti di una stessa scala non ? costante) gli autori hanno utilizzato come misura di efficacia la ‘standard mean difference ES’ (in realt? si scrive: ‘standardized mean difference’). Tale unit? di misura ? ben nota a chi si occupa di calcoli metanalitici , in quanto consente di confrontare risultati di efficacia espressi originariamente attraverso scale diverse. Per esempio se il dolore venisse misurato nel trial A con una scala di likert a 5 punti e nel trial B con una scala di likert a 14 punti non sarebbe possibile confrontare i risultati tra i due trial .Pi? in dettaglio: il risultato nel trial A sarebbe espresso dalla differenza tra le medie degli score rilevati nei due bracci calcolati con la scala di likert a 5 punti ; nel trial B dalla dalla differenza tra medie degli score riscontrate nei due bracci calcolati con la scala di likert a 14 punti. Il problema si pu? risolvere misurando in ciascun trial il risultato non attraverso la scala originale, ma attraverso la ‘differenza tra medie standardizzata’. In altri termini la differenza tra le medie riscontrate nei due bracci di un trial viene misurata in ‘unit? di deviazione standard’ (Standardized Mean Difference ) che si calcola dividendo Mean Difference per la Deviazione standard di Mean Difference rilevata nel trial, parametro definito ‘ES’ dagli autori OARSI. Tale metodica ? utile per paragonare risultati misurati originariamente con scale diverse ma ? ovviamente poco interpretabile sotto il profilo clinico. Gli autori OARSI propongono in tal senso di definire ‘small’ valori di efficacia misurati con un ES 0.2; ‘moderate’ valori di efficacia misurati con un ES 0.5 e ‘large’ valori di efficacia misurati con un ES >0.8, citando a questo proposito la voce bibliografica 27. Tuttavia ci? risulta assolutamente arbitrario : in primis il citato riferimento bibliografico riguarda aspetti di metodologia statistica applicata alle scienze comportamentali e non alla medicina; in seconda istanza la dimensione di efficacia espressa a livello di ciascun trial da ES viene strettamente condizionata non solo dalla dimensione reale dell’ effetto (al denominatore) ma anche dalla varianza rilevata nel campione (al denominatore). Per il quarto outcome (buon risultato sul dolore: SI/NO) gli autori hanno utilizzato Risk Difference per il calcolo di NNT. Altre misure di efficacia utilizzate erano RR, OR, QALY.
La revisione sistematica delle letteratura ? stata utilizzata a supporto della tecnica Delphi usata per ottenere il consenso entro il pool di esperti . Sono stati costituiti a questo proposito tre sottogruppi di esperti: esperti di area farmacologica, esperti di area non farmacologica, esperti di area chirurgica.
A ciascun esperto ? stato fornito il risultato della prima e della seconda revisione della letteratura con l’elenco delle 20 raccomandazioni condivise al 100% dalle linee guida recuperate attraverso la prima revisione. A ciascun esperto veniva richiesto di formulare una serie di raccomandazioni inerenti la propria area di competenza; sono state cos? individuate 110 raccomandazioni. Attraverso una serie di consultazioni successive operate entro il pool di esperti attraverso il metodo Delphi sono state alla fine votate 34 raccomandazioni, che hanno rappresentato l’ ossatura principale del documento in draft. Da queste sono state successivamente selezionate attraverso una sessione plenaria svoltasi a Praga nel dicembre 2006 -preceduta dalla pubblicazione dell’ elenco delle raccomandazioni su un sito web per eventuali commenti o integrazioni- 25 raccomandazioni che costituiscono l’ ossatura del documento finale.
A ciascuna delle 25 raccomandazioni ? stato quindi attribuito da ciascun componente del panel un punteggio che doveva esprimere la forza della raccomandazone stessa (Strengt of Raccomandation) In questa operazione sono stati coinvolti 13 esperti tra i 16 componenti il panel. Per l’ attribuzione del punteggio ? stata utilizzata una scala VAS. Gli elementi che dovevano contribuire all’ attribuzione del punteggio erano: efficacia dell’ intervento, costo-efficacia dell’ intervento, sicurezza dell’ intervento, opinione personale dell’ esperto inerente considerazioni sulla effettiva applicabilit?, sul rispetto dei valori e delle preferenze del paziente e altre considerazioni soggettive. Per ciascuna raccomandazione ? stato cos? calcolato un punteggio di forza (SOR) espresso dalla media dei singoli punteggi attribuiti dagli esperti ed ? stato inoltre calcolato l’ errore standard intorno alla media. Ciascuna raccomandazione ? stata cos? identificata nella versione finale della linea guida da una stima puntuale accompagnata da un intervallo di confidenza al 95%. L’ uso degli intervalli di confidenza e dell’ errore standard (da cui si calcolano gli IC) per quantificare la varianza del punteggio SOR elaborato da un pool di tredici persone ? un ulteriore esempio di utilizzo inappropriato delle tecniche statistiche. Se il problema era quantificare l’ (inevitabile) soggettivit? nella attribuzione dei punteggi a livello delle singole raccomandazioni sarebbe bastato -almeno sotto il profilo tecnico- usare la deviazione standard intorno alla media. Il calcolo degli intervalli di confidenza ? invece un problema di statistica inferenziale. Calcolare gli intervalli di confidenza intorno al punteggio SOR a livello di ogni singola raccomandazione implica considerare il punteggio medio attribuito alla raccomandazione dal ‘campione’ di 13 esperti come una stima del punteggio che alla stessa raccomandazione sarebbe stato complessivamente attribuito da tutti gli esperti che compongono l’ intera popolazione di esperti esistente. E’ chiaro l’ applicazione incongrua della statistica inferenziale in statistiche descrittive pu? portare, come nel caso in questione, al limite del ridicolo. Sarebbe stato pi? logico arrivare alla definizione per ogni raccomandazione di un punteggio condiviso attraverso discussione formale, cosa evitata dal gruppo di progetto ‘a garanzia di forzature condizionate da eventuali conflitti di interesse individuali’
Dato che il metodo Delphi ? stato concluso nel 2006, gli autori hanno utilizzato una Sensitivity Analysis per verificare se l’ integrazione dei risultati precedentemente sottoposti a pooling con i risultati della letteratura pubblicata dopo il 2006 fosse in grado di modificare le conclusioni della revisione .
Gli autori dichiarano di voler aggiornare il documento ogni 3-5 anni.