Statistical design in phase II clinical trials and their application in breast cancer: update of a survey about modalities of toxicity assessment and reporting in the same clinical setting.
Artículo completo "Estudio de modalidades de valoración y comunicación de toxicidad en estudios prospectivos no comparativos de quimioterapia en cáncer de mama". Resumen Entre los 122 estudios seleccionados y revisados encontramos que la escala de la OMS fue la utilizada más frecuentemente (45.9%) para evaluar toxicidad, seguida por las escalas CTC (35.2%). Las modalidades de valoración de toxicidad se comunicaron en forma inadecuada o no se comunicaron en más del 20% de los estudios. La toxicidad fue una variable primaria de evaluación en el 45.9% de los estudios y se resumió predominantemente por paciente (69.7%). Se identificaron tres patrones de frecuencia de solicitud de recuento de blancos: semanal (la modalidad más común); una vez al finalizar cada ciclo (la menos habitual) y más de una vez por semana. En el 21.3% de los trabajos no hubo información en relación con este parámetro. En la mayoría de los artículos, la toxicidad y su gravedad fueron comunicadas en forma completa (82.8% y 68.9%, respectivamente). En forma llamativa notamos que un factor de alto impacto se asoció significativamente con un uso más frecuente de las escalas CTC (p= 0.001) y con mayor frecuencia de hemogramas (p= 0.002). En los trabajos que refirieron los resultados de investigaciones multicéntricas más frecuentemente se adoptaron mediciones por paciente para comunicar la toxicidad (p= 0.006). La indicación explícita de la fase de estudio se correlacionó con el uso más frecuente de tablas para comunicar la toxicidad (p= 0.0006). Asimismo, la presencia de un patrocinador se correlacionó con un incremento relevante del uso de escalas CTC (p= 0.0006). El diseño estadístico identificable también se asoció en forma significativa con el uso de escalas CTC (p= 0.006) y con la aplicación de tablas para referir la toxicidad (p = 0.05). En forma similar, los estudios de inicio más reciente (1993-1997 versus 1986 a 1992) se asociaron con mayor uso de escalas CTC (p = 0.03) y de tablas para mostrar la toxicidad (p = 0.05). No hubo correlación significativa de las modalidades de valoración de la toxicidad y de su registro según el año de publicación y las variables principales de análisis del estudio. Dada la amplia diversidad de modalidades de registro y comunicación de la toxicidad observada, en nuestra opinión los estándares actuales deberían ser revisados y compaginados para mejorar la confiabilidad de cada dato. Aspectos metodológicos ocultos en estudios publicados de fase II de tratamiento de cáncer de mama Aplicación de los diseños de fase II a la investigación clínica en cáncer de mama: actualización del "Estudio de modalidades de valoración y comunicación de toxicidad en estudios prospectivos no comparativos de quimioterapia en cáncer de mama" También se tuvieron en cuenta otras variables relacionadas con la planificación de la fase de los estudios, pertinentes para esta actualización: presencia de un estudio en fase I, tipo de tratamiento experimental, cantidad de drogas (agentes en forma aislada o en combinación), número de pacientes enrolados. La aleatorización no se consideró per se un diseño estadístico identificable. Se consideró que los trabajos no estuvieron diseñados cuando no se reconoció un método en la planificación del tamaño de la muestra. Los artículos rotulados como de fase II pero planificados con métodos que son típicos en los trabajos en fase III se consideraron con diseño, a pesar de lo inapropiado que pudiese ser el plan estadístico. Se registraron otras variables relacionadas con el éxito del estudio como la duración y los resultados. Estos últimos se definieron como negativos cuando estuvieron explícitamente comunicados en esta forma o cuando fueron ambiguos pero estuvieron seguidos por la convicción categórica de que la droga en cuestión no era apta para estudios futuros. Aquellos artículos en los cuales se concluyó que el tratamiento debería ser posteriormente evaluado en estudios en fase III se consideraron positivos. La duración de la investigación se definió como el tiempo transcurrido desde el inicio del trabajo hasta su publicación, utilizando al año como medición de ambas; usualmente no se dispuso de información más precisa. Las correlaciones entre la presencia o no de un diseño estadístico identificable y de otras variables se establecieron con la prueba de chi cuadrado. Los valores de P ≤ 0.05 se consideraron significativos. Las variables de contexto clínicamente significativas en el análisis univariado se incorporaron posteriormente en el modelo de regresión logística de multivariado. Las asociaciones se comunicaron como odds ratios (OR) con intervalo de confianza de 95% (IC 95%). Se aplicó la prueba de orden de suma (rank-sum) de Mann-Whitney para comparar la duración de los estudios con diseño estadístico o sin él. Las características generales y metodológicas de los estudios se muestran en la tabla 2 y 3. En 50 (34.5%) no se dispuso de información sobre la fecha de inicio del trabajo. En los restantes 95, la duración promedio (tiempo entre el inicio y la publicación del estudio) fue de 4.5 años (DE 2.2). La mitad tuvo una organización multicéntrica. No se informó patrocinador en el 53.1% de los casos. Más de la mitad de las investigaciones (57.2%) evaluó una combinación de drogas y no un único agente. En el 37.9% de los artículos no hubo referencia de un estudio previo en fase I. Como era de esperar, la respuesta tumoral fue el punto primario de análisis en el 89% de los trabajos, en forma aislada o en simultáneo con el registro de toxicidad; este última fue el único parámetro de evolución en el 6.9% de las investigaciones. En número promedio de pacientes enrolados fue de 39 (rango intercuartilo: 26 a 51). En 24 (19.3%) de los ensayos no hubo indicación explícita de la fase del estudio; no se identificó un diseño estadístico en 94 (64.8%) trabajos. Entre estos estaban los 24 estudios en los cuales no había indicación explícita de la fase de investigación. La referencia de un estudio previo en fase I, el inicio del trabajo en años más recientes, el tratamiento experimental con un único fármaco, la organización multicéntrica y el apoyo de un patrocinador se asociaron significativamente con la presencia de un diseño estadístico específico en el análisis de variables únicas (tabla 4). El tratamiento con un único agente (OR 2.35; IC 95%: 1.01-5.51) y la organización multicéntrica (OR 3.24; IC 95%: 1.47-7.15) fueron factores predictivos independientes de la presencia de un plan estadístico en el modelo de regresión logística de múltiples variables (tabla 4). Tal como se muestra en la tabla 5, los trabajos con planificación estadística más frecuentemente se publicaron en revistas de alto impacto y tuvieron, en forma global, menor duración: transcurrió alrededor de un año menos entre el momento de inicio y de publicación en comparación con aquellos sin planificación estadística (3.9 versus 4.9 años). No se encontró asociación entre el diseño estadístico del estudio y los resultados finales en general. Discusión, críticas y debates sobre los datos actualizados El hallazgo de que el diseño estadístico fuese más frecuente en estudios con un único fármaco en comparación con investigaciones de dos drogas en forma simultánea debe considerarse con mucha atención. De hecho, el objetivo de los estudios en fase II de combinación de drogas no es simplemente el de mostrar eficacia sino también revelar que la actividad alcanza un nivel suficiente de interés que justifica la realización de estudios más amplios en fase III. La falta de modelo estadístico complica la interpretación de los resultados aún más que en los primeros estudios en fase II cuyo objetivo es mostrar, al menos, algo de actividad incluso cuando sea muy baja. Sin embargo, el índice de artículos con comunicación de un diseño estadístico es mayor que el recientemente encontrado por Mariani y Marubini3 quienes mostraron que en sólo el 19.7% de los 308 estudios en fase II de cáncer publicados durante 1997 se identificaba un modelo estadístico. No obstante, estos investigadores prestaron atención a todos las revistas disponibles a través de Medline mientras que nuestra búsqueda se limitó a unas pocas revistas de muy buena calidad (por ejemplo, aquellas con un factor de impacto constantemente superior a 2 publicadas durante 1994-1999); es por ello que nuestros datos también deben considerarse negativos. El índice bajo de estudios con planificación estadística puede tener varias explicaciones. En primer lugar, las asociaciones entre un plan estadístico y la organización multicéntrica y un inicio más reciente indican que la difusión de la cultura de la metodología es cada vez mayor, particularmente en aquellas situaciones en las que ciertos aspectos metodológicos y estadísticos específicos se tienen en cuenta durante la planificación de la investigación. Sin embargo, en una enfermedad frecuente como lo es el cáncer de mama, es posible alcanzar el tamaño de la muestra requerida para la mayoría de los estudios en fase II en muchas unidades clínicas y esto favorece el inicio de ensayos en fase II sin planificación. Además, la forma usual de resumir los datos provenientes de estudios en fase II sobre una determinada droga es una forma elemental de comunicar el índice de respuesta o de toxicidad, en el mejor de los casos con intervalos de confianza; desafortunadamente, los datos rara vez son interpretados y presentados acorde con el plan estadístico del estudio. Aún así, este tipo de interpretación requeriría una homogeneidad sustancial en los métodos para la planificación estadística que no podemos analizar en esta revisión por el escaso número de artículos con diseño encontrados. Otro problema es la interpretación errónea del papel de los trabajos en fase II en investigación clínica. En forma ideal, deberían realizarse uno o unos pocos estudios en fase II para cada nueva droga o combinación de fármacos, inmediatamente después de la investigación en fase I y, en caso de resultados positivos, antes de trabajos en fase III. La mayoría de los planes estadísticos incluyen aspectos éticos y operativos coherentes con este contexto. Lamentablemente, muchos de los artículos que revisamos no reúnen este paradigma fundamental. En aproximadamente el 40% de los estudios no se menciona un análisis previo en fase I. Algunos trabajos que abordan drogas no nuevas podrían leerse en forma optimista como estudios confirmatorios en fase II, pero más bien parecen tener la apariencia de un diseño hecho a medida acorde con la práctica clínica común. Por último, muchos artículos tienden a dar mensajes definitivos acerca de la utilidad clínica de la droga, a pesar de que deberían ser dados por estudios en fase III. Las futuras investigaciones de seguimiento podrían evaluar cuántos de estos estudios en fase II con hallazgos positivos culminan realmente en estudios en fase III. Los ensayos en fase II aleatorizados4 son particularmente proclives a este tipo de error, especialmente cuando se incluye un estándar o un brazo control como base de comparación. El pasaje desde el abordaje de selección (que es en sí preliminar) al abordaje de la evaluación de la hipótesis podría asociarse con un riesgo inaceptablemente alto de resultados falsos positivos. 5 Tal como se estableció en forma reciente, a menos que el estudio de seguimiento en fase III esté garantizado por algún mecanismo externo -regulaciones gubernamentales para la aprobación de un nuevo fármaco; el diseño de selección puede ser más dañino que beneficioso por la propensión a ser usado en forma incorrecta. 6 No encontramos diferencia en el número de pacientes enrolados en trabajos según la presencia o no de un plan estadístico. Por supuesto, en los trabajos que carecen de plan no pudimos verificar a posteriori si el número de pacientes tratados era el adecuado. La selección de revistas de alto impacto podría nuevamente ser una posible explicación. Es factible que tales revistas acepten estudios bien planificados o sólo aquellos no planificados con un tamaño razonable de muestra (ni demasiado alto ni demasiado bajo). Sin embargo, esto no significa que se produzca información de la misma cantidad y calidad, independientemente del diseño estadístico ya que la interpretación de la mayoría de los estudios sin planificación sólo se deja al criterio de sus Autores, frecuentemente no relacionado con los objetivos propuestos y la literatura de contexto. Si bien en el grupo de artículos que revisamos no hubo diferencia entre el índice de resultados negativos entre los ensayos con y sin planificación, los Autores usualmente tendieron a hacer hincapié en los hallazgos positivos y a minimizar los negativos. Sin el control adecuado de los hallazgos falsos positivos y falsos negativos, muchos trabajos con un bajo índice de respuesta son presentados como "bien tolerados". Es preocupante por ejemplo que la distribución de los índices de respuesta oscilara entre el 32% y el 94% en 16 trabajos limitados a la quimioterapia de primera línea en enfermedad en estadio IV que concluyen con un mensaje "positivo". Los resultados de la revisión llaman la atención
|