cómo estimar el tamaño de la muestra en investigacione cos ... · pdf...

8
92 Educación Médica Cómo estimar el tamaño de la muestra en investigaciones con humanos R. Dennis Los trabajos de investigación que involucran seres humanos deben ir precedidos, en su etapa de planeación, de un estimativo del tamaño de la muestra necesario para obtener conclusio- nes valederas. Los conceptos de: error alfa, error beta, poder, variabilidad de los resulta- dos y mínima diferencia, importantes de detectar clínicamente justifican este cálculo. Se discuten estos conceptos y la manera de utilizarlos en fórmulas de uso fácil para calcu- lar el tamaño apropiado de la muestra. INTRODUCCION La curiosidad científica, entendida como el deseo de aumentar nuestros conocimientos, es una característica propia de los profesionales de la medicina. Estos conocimientos pueden aumentar- se mediante la memorización de lecturas y confe- rencias, sistema tradicional en nuestras escuelas de Medicina; o a través de una actitud científica validando experimentalmente hipótesis propias derivadas de estas lecturas o de nuestro trabajo clínico diario. Estas hipótesis por lo general abarcan temas como utilidad de un examen diagnóstico, factores de riesgo para el desarrollo de una enfermedad, utilidad de una estrategia de tratamiento o el curso natural de una enfermedad. Con frecuencia, sin embargo, nuestras inquietudes investigativas tro- piezan con escollos que nos pueden parecer insalvables y limitan, por falta de información Rodolfo J Dennis MD., MSc.: Departamento de Medicina Interna y Unidad de Epidemiología Clínica, Pontificia Universidad Javeriana. Solicitud de separatas al Dr. Dennis. apropiada, el desarrollo de nuestro potencial investigativo. ¿Cuántas observaciones (o pacien- tes) necesitamos para que nuestras conclusiones sean válidas? ¿Cuál es la diferencia entre tener 15 pacientes? ¿o 30? ¿o 100? ¿Cómo hacemos para tener una idea, al diseñar un estudio (aunque sea aproximada), del número de pacientes necesario y del tiempo que podemos tardar en llevarlo a cabo? Estas y muchas otras preguntas similares nos pue- den detener en los umbrales de una investigación promisoria por cuanto, en términos generales, nuestros estudios de pregrado y postgrado nos han proporcionado los elementos necesarios para re- solverlas. Día a día llegan a la unidad de epidemiología Clínica de nuestra Universidad, diferentes investigadores en salud con excelentes hipótesis de trabajo, buscando información sobre cuántos individuos son necesarios en el estudio que pien- san desarrollar. La mayoría de estos investigado- res no desean una explicación detallada de cómo fueron derivadas estas fórmulas, ni de los finísi- mos detalles de áreas debajo de curvas de distribu- ción. Sólo desean tener una idea de cómo calcular el número aproximado de pacientes para su estu- dio particular. Hasta hace algunos años no se había estableci- do la necesidad de calcular el tamaño de la mues- tra en un estudio clínico y no teníamos una idea clara de su vital importancia. Freiman, más que nadie, ha contribuido a demostrar el rol crítico que tiene el tamaño de la muestra en las conclusiones que se deriven de un estudio. El estudio de Frei- man (1) demostró que aun en las revistas médicas de más alto prestigio por la exigencia de sus edito- Acta Médica Colombiana Vol 14 N°2 - Marzo-Abril - 1989

Upload: hoangtuyen

Post on 19-Feb-2018

220 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Cómo estimar el tamaño de la muestra en investigacione cos ... · PDF filedetectar clínicamente justifican este cálculo. ... tiene el tamaño de la muestra en las conclusiones

92

Educación Médica

Cómo estimar el tamaño de la muestra en investigaciones con humanos

R. Dennis

Los trabajos de investigación que involucran seres humanos deben ir precedidos, en su etapa de planeación, de un estimativo del tamaño de la muestra necesario para obtener conclusio-nes valederas. Los conceptos de: error alfa, error beta, poder, variabilidad de los resulta-dos y mínima diferencia, importantes de detectar clínicamente justifican este cálculo.

Se discuten estos conceptos y la manera de utilizarlos en fórmulas de uso fácil para calcu-lar el tamaño apropiado de la muestra.

INTRODUCCION La curiosidad científica, entendida como el

deseo de aumentar nuestros conocimientos, es una característica propia de los profesionales de la medicina. Estos conocimientos pueden aumentar-se mediante la memorización de lecturas y confe-rencias, sistema tradicional en nuestras escuelas de Medicina; o a través de una actitud científica validando experimentalmente hipótesis propias derivadas de estas lecturas o de nuestro trabajo clínico diario.

Estas hipótesis por lo general abarcan temas como utilidad de un examen diagnóstico, factores de riesgo para el desarrollo de una enfermedad, utilidad de una estrategia de tratamiento o el curso natural de una enfermedad. Con frecuencia, sin embargo, nuestras inquietudes investigativas tro-piezan con escollos que nos pueden parecer insalvables y limitan, por falta de información

Rodolfo J Dennis MD., MSc.: Departamento de Medicina Interna y Unidad de Epidemiología Clínica, Pontificia Universidad Javeriana.

Solicitud de separatas al Dr. Dennis.

apropiada, el desarrollo de nuestro potencial investigativo. ¿Cuántas observaciones (o pacien-tes) necesitamos para que nuestras conclusiones sean válidas? ¿Cuál es la diferencia entre tener 15 pacientes? ¿o 30? ¿o 100? ¿Cómo hacemos para tener una idea, al diseñar un estudio (aunque sea aproximada), del número de pacientes necesario y del tiempo que podemos tardar en llevarlo a cabo? Estas y muchas otras preguntas similares nos pue-den detener en los umbrales de una investigación promisoria por cuanto, en términos generales, nuestros estudios de pregrado y postgrado nos han proporcionado los elementos necesarios para re-solverlas.

Día a día llegan a la unidad de epidemiología Clínica de nuestra Univers idad, diferentes investigadores en salud con excelentes hipótesis de trabajo, buscando información sobre cuántos individuos son necesarios en el estudio que pien-san desarrollar. La mayoría de estos investigado-res no desean una explicación detallada de cómo fueron derivadas estas fórmulas, ni de los finísi-mos detalles de áreas debajo de curvas de distribu-ción. Sólo desean tener una idea de cómo calcular el número aproximado de pacientes para su estu-dio particular.

Hasta hace algunos años no se había estableci-do la necesidad de calcular el tamaño de la mues-tra en un estudio clínico y no teníamos una idea clara de su vital importancia. Freiman, más que nadie, ha contribuido a demostrar el rol crítico que tiene el tamaño de la muestra en las conclusiones que se deriven de un estudio. El estudio de Frei-man (1) demostró que aun en las revistas médicas de más alto prestigio por la exigencia de sus edito-

Acta Médica Colombiana Vol 14 N°2 - Marzo-Abr i l - 1989

Administrador
Line
Administrador
Line
Page 2: Cómo estimar el tamaño de la muestra en investigacione cos ... · PDF filedetectar clínicamente justifican este cálculo. ... tiene el tamaño de la muestra en las conclusiones

Tamaño de la muestra en investigaciones con humanos 93

res, se encuentran publicados trabajos cuya defi-ciente planeación indujo a conclusiones equivoca-das. El error consistió en considerar que los trata-mientos no diferían entre sí por sus efectos sobre los grupos tratados. La causa principal de este error fue el tamaño inapropiado de las observaciones (muestra) efectuadas.

Pensando en esto y en que los conceptos de error tipo I o tipo II son en ocasiones difíciles de asimi-lar (especialmente este último) elaboré este artícu-lo. Pretendiendo únicamente hacer una revisión breve de las razones y de la necesidad de calcular el tamaño de la muestra y de los recursos metodo-lógicos a disposición del investigador para calcu-larla. Aquellos lectores con un interés más profun-do en el tema pueden consultar varios libros exce-lentes (2-4).

ERROR Y VARIABILIDAD Existen tres razones básicas por las cuales se

debe obtener un tamaño aproximado de la muestra: el error de tipo I, el error de tipo II y la variabilidad del resultado.

Error tipo I y II. En general, cuando un inves-tigador se propone comparar, por ejemplo, la efi-cacia de un tratamiento, formula una hipótesis de trabajo que pueda rebatir o desechar, y que en len-guaje estadístico se denomina hipótesis nula. Esta se expresaría más o menos en los siguientes tér-minos: "No hay una diferencia en eficacia entre el tratamiento A y el tratamiento B". Existe también una hipótesis alterna que aceptaríamos al rechazar la hipótesis nula y se expresaría como: "el trata-miento A es más efectivo que el tratamiento B". Cuando el investigador somete a un análisis esta-dístico sus resultados y obtiene un valor p menor de 0.05, dice que la diferencia es estadísticamente significativa, rechaza la hipótesis nula y, por ende, acepta la hipótesis alterna.

Cuando estamos analizando los resultados de un estudio como el enunciado, es posible que aunque en realidad no haya diferencia alguna entre los grupos estudiados (hipótesis nula verdadera), concluyamos falsamente que sí la hay y rechacemos erróneamente la hipótesis nula y aceptemos la alterna. A esto se le ha llamado error de tipo I,

error tipo alfa o simplemente un error de tipo falso positivo (Tabla 1). Obviamente, cuando estamos evaluando un tratamiento con graves efectos secundarios o una terapia invasiva o una terapia cara y de potencial iatrogénico, es no solamente indeseable sino abiertamente peligroso incurrir en error de tipo I por un tamaño de muestra in-suficiente.

Hoy en día en la literatura mundial hay una prevención general contra los errores alfa; nadie acepta ya un resultado como positivo si la p está por encima de 0.05. Sin embargo, todavía existe poca preocupación por el efecto de llevar a cabo múltiples análisis estadísticos con los resultados de un estudio; entre más pruebas de este tipo se hagan, con un nivel de significación de 0.05, hay mayor probabilidad de obtener un resultado falso positivo. Cuando hemos hecho en el transcurso del análisis de un estudio, 10 exámenes estadísticos independientes, la probabilidad de un error de tipo falso positivo (alfa) es del 40% (5). En estos casos se puede entonces ser más rígido, y desde el punto de vista clínico práctico, sólo aceptar como váli-dos resultados con p menor de 0.01.

El valor p es en realidad una probabilidad; es la probalidad de obtener un resultado tanto ( o más) extremo que el observado si la diferencia entre los diferentes grupos fuese enteramente debida a variabilidad del intrumento de medición, o de la respuesta del paciente, o para abreviar, simple-mente por azar (6). Otra forma de expresarlo es aquella probabilidad por encima de la cual dire-

Acta Med Colomb Vol 14 N°2 - 1989

Page 3: Cómo estimar el tamaño de la muestra en investigacione cos ... · PDF filedetectar clínicamente justifican este cálculo. ... tiene el tamaño de la muestra en las conclusiones

94 R. Dennis

mos que las diferencias que nos interesan entre los grupos en estudio, muy probablemente se deben al azar y que muy problamente son diferencias no verdaderas.

La manera de evaluar (antes de desarrollar el estudio) la probabilidad de obtener un error tipo I es a través del máximo nivel alfa que estamos dispuestos a tolerar. El nivel alfa es aquel valor de p por encima del cual nos proponemos rechazar la hipótesis nula de no diferencia entre los grupos (tratamientos, factores de riesgo, etc) en estudio. Por consenso en la literatura médica se ha estable-cido una p=0.05 como el máximo nivel alfa tolera-ble.

En torno a este uso de p existe una gran polémi-ca hoy en día. Así por ejemplo, Rothman (6) argumenta que las revistas de medicina deberían estimular el uso de intervalos de confianza para el informe de resultados en experimentos clínicos en vez de niveles de significación Rothman basa su afirmación en que los intervalos de confianza mostrarían tendencias, no un simple punto de corte dicotómico positivo o negativo. Los intervalos de confianza definirían los límites entre los cuales, con una probalidad del 90 o 95%, se encuentra el resultado que obtuvimos del estudio.

A menores valores de alfa, habrá entonces una menor posibilidad de incurrir en un error tipo I; dicho de otra manera, entre menos error alfa que-ramos tolerar, más pacientes debemos tener: si deseamos ser rígidos y sólo tolerar una probabili-dad de error alfa de 0.01, necesitaremos más pa-cientes en el estudio que si vamos a tolerar una de 0.05.

Cuando estamos analizando el resultado de un estudio, es posible que aunque verdaderamente haya diferencias entre los grupos que se estudian (hipótesis alterna verdadera), concluyamos erró-neamente que no la hay y equivocadamente aceptemos la hipótesis nula y descartemos la hipótesis alterna (Tabla 1). A esto se le ha llamado error de tipo II, error beta, o simplemente un error de tipo falso negativo.

Es indeseable que si estamos evaluando un tra-tamiento efectivo o más barato o más corto, lo descartemos como inútil cuando en realidad sí

sirve. También es abiertamente indeseable concluir que dos esquemas de tratamiento son comparables en efectividad y en efectos colaterales, cuando en realidad uno de ellos tiene efectos colaterales mucho más graves. Estas dos situaciones también tienen implicaciones éticas serias.

La manera de evaluar, la probabilidad de obtener un error de tipo beta, antes de llevar a cabo el estudio, es mediante el máximo nivel beta que estamos dispuestos a tolerar. Esto equivale a fijar un nivel por debajo del cual un resultado negativo es un verdadero negativo, y no un resultado falsamente negativo. Arbitrariamente, al igual que con el nivel alfa, se ha establecido el máximo nivel beta aceptable en 0.20; si un estudio tiene una probabilidad mayor del 20% de que su resultado sea un falso negativo, se deben tener reservas con sus conclusiones. Al igual que con el error de tipo I, a niveles más bajos de beta (0.1, 0.05) menos probabilidad de un error de tipo II. Al igual que con el error de tipo I, a niveles más bajos de beta, mayor número de pacientes se necesitan en el estudio (2).

El valor de la fórmula 1 -beta se ha llamado poder o sensibilidad del estudio; esto es, la capacidad de un estudio de encontrar una diferencia significati-va si en realidad la hubiere (Tabla 1). Otra forma de expresar este concepto es que a niveles más bajos de beta, el poder del estudio para encontrar una diferencia significativa, si en realidad la hay, aumenta.

El concepto de poder de un estudio es relativamente nuevo, y aún no está ampliamente difundido en la literatura médica. Sin embargo, cada día más y más informes anotan el poder que tenía el estudio para detectar un resultado positivo si en verdad lo había (7-8), especialmente si analizan un resultado negativo en sus conclusiones.

Aunque no se ha determinado una cifra mínima aceptable de poder o sensibilidad para calcular el tamaño de las muestras, no se debe usar menos del 80% (e. g., una probabilidad de error beta del 20%). En el análisis crítico de la literatura médica, se deben considerar inconclusos aquellos estudios con un resultado negativo y con poder o sensibilidad menor del 60%.

Page 4: Cómo estimar el tamaño de la muestra en investigacione cos ... · PDF filedetectar clínicamente justifican este cálculo. ... tiene el tamaño de la muestra en las conclusiones

Tamaño de la muestra en investigaciones con humanos 95

Para mostrar la profusión de estudios en la lite-r a tu r a m u n d i a l con r e s u l t a d o s n e g a t i v o s posiblemente debidos a bajo poder, volvamos al estudio de Freiman et al (1), en el que analizaron 71 ensayos clínicos aleatorizados, de múltiples tratamientos que resultaron "negativos" o "sin diferencias". Ellos encontraron que 50 de los 71 estudios no tenían el suficiente poder para encon-trar diferencias incluso del50% entre los tratamien-tos de los grupos en estudio. Este estudio recalca el concepto de que los términos poder y error de tipo II no son una curiosidad estadística y que son una necesidad en el planeamiento de la investiga-ción médica seria (9). Young et al (8) han public-ado además un artículo con tablas fáciles de usar para evaluar trabajos con resultados negativos y determinar la utilidad del estudio dependiendo del número de pacientes y de 1a mínima difercncia entre grupos considerada útil de detectar.

Variabilidad: La tercera razón básica por la cual calculamos el tamaño adecuado de la muestra en un estudio es el concepto de variabilidad de los resultados (10). Las medidas de dispersión de una muestra (varianza, desviación estándar) y el pro-medio de la misma muestra, guardan una relación inversa con el tamaño de la muestra usada para obtener esos valores. Los estudios con muestras pequeñas usualmente no pueden ser informados con la suficiente precisión como para que sus resultados sean útiles. Un ejemplo es el resultado hipotético de un estudio en el cual el riesgo de contraer cáncer de endometrio cuando una mujer menopáusica ha estado expuesta a estrógenos es 7 veces más alto que el de una mujer no expuesta; pero con un intervalo de confianza del resultado que va r íe entre 1.5 (mínima asociación) y 1.8 (asociación extrema).

Mínima diferencia clínicamente importante. Las fórmulas para el cálculo del tamaño de la muestra utilizan, además de un estimativo de los errores alfa y beta, un estimativo de la mínima diferencia que, como clínicos, pensamos que es útil detectar entre los grupos que se evaluarán (4).

Con tamaños de muestra grandes, podremos encontrar diferencias estadísticamente significati-

vas, pero sin mayor utilidad en la práctica clínica. Un ejemplo sería al evaluar dos esquemas antihi-pertensivos. Hipotéticamente, con un número gran-de de pacientes, podemos encontrar que el esque-ma A disminuyó la presión arterial diastólica has-ta 84 mm de Hg y el esquema B hasta 87 mm de Hg, y que esta diferencia fue estadísticamente significativa. Para el clínico, 3 mm de Hg no son una diferencia de utilidad práctica y puede con-cluir que las drogas son comparables. Esta es la diferencia básica entre un resultado estadística-mente significativo pero clínicamente no signifi-cativo ni importante.

Al igual que con los errores de tipo I y II, para poder tener la capacidad de detectar diferencias pequeñas entre los grupos a estudiar, se necesitará un mayor número de pacientes en los grupos. Otra forma de expresar este concepto es que, si sola-mente estamos interesados en explorar diferencias grandes entre los grupos del estudio, necesitaremos menor cantidad de pacientes. El corolario obvio de esto es que el castigo a pagar será el de no en-contrar diferencias significativas entre los grupos, si en realidad existe una diferencia menor de la que estipulamos. Una alegoría que usamos con frecuencia con nuestros estudiantes de medicina y que facilita 1a explicación de este concepto es la de un pescador y su red. Si el pescador está solamente interesado en pescar tiburones (diferencias gran-des) tejerá una red poco tupida que le representará poco trabajo (tamaño de muestra pequeño). El castigo a pagar radicará en no poder pescar sardi-nas (diferencias pequeñas) ya que para eso necesi-tará una red más tupida (mayor tamaño de mues-tra).

Este concepto se amplía en el siguiente ejemplo: Se quiere evaluar un esquema nuevo y promisorio de preparación del colon para cirugía electiva del mismo. Se comparará este nuevo esquema contra el esquema que se utiliza de rutina en el hospital (grupo control). Al investigador le parece que la mínima diferencia que clínicamente se justifica encontrar (en porcentaje de sobreinfección en el postoperatorio) entre los dos esquemas es del 15%, para concluir que el esquema propuesto es mejor que el conocido. Le parece razonable 20% de so-

Acta Med Colomb Vol 14 N°2 - 1989

Page 5: Cómo estimar el tamaño de la muestra en investigacione cos ... · PDF filedetectar clínicamente justifican este cálculo. ... tiene el tamaño de la muestra en las conclusiones

96 R. Dennis

Donde: n: número de pacientes necesario en cada grupo

del estudio. p1: estimativo probable de respuesta en el grupo

control, en porcentaje. p2: estimativo probable de respuesta en el grupo

de tratamiento, que el investigador quiere detectar como diferente de p 1 .

f (alfa y beta): estimativo de cómputo de los niveles alfa y beta dispuesto a tolerar y que el investigador quiere usar, ver Tabla 2 (11) .

Ejemplo: Siguiendo con el estudio del protoco-lo de preparación del colon ya anunciado y con P1 de 20% y p2 de 5%, usando un nivel alfa de 0.05 evaluando dos colas y beta de 0.20, tenemos:

Donde: n: número de pacientes en cada grupo c): la diferencia esperada como verdadera entre

los dos grupos, y que el investigador desea detectar como importante (clínicamente).

S: Estimativo de la desviación estándar del pro-medio de las observaciones (asumiendo homoge-neidad de varianzas y por ende similares desvia-ciones estándar entre los grupos). Este estimativo puede obtenerse fácilmente de otros estudios en la revisión bibliográfica previa al diseño, o de un estudio piloto.

f (alfa y beta): Estimativo de cómputo de los niveles alfa y beta usados, ver Tabla 2 (11) .

Ejemplo: Se quiere evaluar un antibiótico nue-vo para el tratamiento de las exacerbaciones infec-ciosas de la bronquitis crónica y se comparará con un antibiótico comúnmente usado para esta enti-dad. Los investigadores piensan que la variable más importante a investigar es el número de días en promedio hasta la mejoría. La diferencia que en

La evaluación de una o dos colas difiere con respecto a la interpretación de una conclusión estadísticamente significativa. Cuando se usa una cola, la inferencia es que el valor real que buscamos está por encima de aquel especificado en la hipótesis nula; cuando evaluamos dos colas, la inferencia es que el valor real puede estar por encima o por debajo de lo especificado en la hipótesis nula (14). Con relación al ejemplo de la preparación del colon, el nuevo esquema bien puede disminuir la incidencia de infección en el post-operatorio, pero también puede aumentarla (con respecto al grupo control). En esta situación se debe usar la columna de dos colas.

Vale decir que cada grupo requiere 72 pacientes para realizar el estudio propuesto.

breinfección en el grupo control según estadísticas locales, y 5% en el grupo del nuevo esquema, ba-sado en la literatura. Con base a este razonamiento calcula el tamaño de la muestra. Corre el riesgo de que si en realidad hay diferencias entre los dos esquemas, pero la diferencia real es de menos del 15% de sobreinfección (por ejemplo 10% o 5%), el número de pacientes calculado puede no permi-tirle encontrar esa menor diferencia, y concluirá falsamente que el nuevo esquema no ofrece nin-guna ventaja y que ambos esquemas son compara-bles.

F O R M U L A S DE "BOLSILLO" PARA CALCULAR EL T A M A Ñ O DE LAS

M U E S T R A S Varias de estas fórmulas son útiles en más de un

tipo de diseño metodológico, pero pensamos que didácticamente esmejor dividirlas según el diseño que se quiere utilizar para cada uno de los estudios que tenemos en mente (11,12) .

Administrador
Typewritten Text
*
Page 6: Cómo estimar el tamaño de la muestra en investigacione cos ... · PDF filedetectar clínicamente justifican este cálculo. ... tiene el tamaño de la muestra en las conclusiones

Tamaño de la muestra en investigaciones con humanos 97

En este caso cada grupo deberá contar con 30 pacientes.

B. estudios de cohortes: En este tipo de diseño se empieza típicamente

con un grupo de individuos expuestos o no expuestos a un factor de riesgo X y sin enfermedad, y se siguen prospectivamente en el tiempo hasta que desarrollan la enfermedad (o el resultado) blanco que se quiere estudiar. La medida de asociación clave en este tipo de estudios es el riesgo relativo (RR). El RR es definido como el riesgo de desarrollar la enfermedad o el resultado que se busca en el grupo expuesto, con respecto al riesgo de desarrollar la enfermedad en el grupo no expuesto a los factores de riesgo identificados.

Ejemplo: el riesgo de desarrollar cáncer de pul-món es de 9 en 100.000 si la persona fue un fuma-dor moderado, mientras que es sólo de 1 en 100.000si no lo ha sido. El riesgo de desarrollar cáncer de pulmón si la persona ha fumado, con respecto a no haberlo hecho, es de 9. Dicho de otra manera: es 9 veces más frecuente el desarrollar cáncer de pul-món si se ha fumado que si no se ha fumado.

Para el cálculo del tamaño de la muestra en este tipo de estudios se necesita estimar:

a) El máximo nivel alfa dispuesto a tolerar; b) el máximo nivel beta dispuesto a tolerar; c) el míni-mo riesgo relativo considerado como clínicamen-te útil de detectar; d) la incidencia (probabilidad) de la enfermedad en el grupo no expuesto.

La fórmula es:

expuesto (e igual cantidad en el no expuesto) P1: probabilidad de desarrollar la enfermedad

(blanco) en los no expuestos. p2: probabilidad de desarrollar la enfermedad

(blanco) en los expuestos, obtenida de multiplicar P1 por el RR considerado como útil de detectar.

Ejemplo:Se está planeando un estudio para determinar si hay asociación entre exposición a analgésicos y el desarrollo de anemia aplásica. Basado en la literatura, el investigador piensa que la probabilidad de desarrollar anemia aplásica (incidencia) si no se ha estado expuesto a analgésicos antiinflamatorios no esteroideos es del 0.5%. ¿Cuántos pacientes expuestos y no expues-tos necesitaría para tener una probabilidad del 80% (poder) de detectar un riesgo relativo de 2 o más usando un nivel alfa de 0.05?

En este caso el investigador deberá conformar dos cohortes de 4.670 personas cada una.

c. Es tudios de casos y controles : En este tipo de diseño se empieza típicamente

con un grupo de personas que han sufrido la enfermedad blanco, y un grupo de personas que no la tienen (grupo control, por lo general asignado por el investigador). Retrospect ivamente, se determina a qué factores de riesgo estuvieron expuestos ambos grupos, en el lapso considerado como importante por el investigador. La medida de asociación clave en este tipo de estudios es el riesgo relativo (RR), obtenido de manera indirecta (3).

Para el Cálculo de tamaño de muestra se necesita estimar:

a) El máximo nivel alfa dispuesto a tolerar; b) el máximo nivel beta dispuesto a tolerar; c) el mí-nimo RR considerado como útil o importante de detectar; d) la prevalencia (probabilidad) de la exposición en el grupo sin enfermedad (contro-les).

La fórmula a usar es similar a las vistas ante-riormente (11):

Acta Med Colomb Vol 14 N°2 - 1989

promedio hasta la mejoría se estimó como clínica-mente importante es de dos días (6 para el nuevo antibiótico y 8 para el antibiótico control), con una desviación estándar de dos días. Debido a que se quiso evitar al máximo la posibilidad de un error de tipo I o II, se usó un nivel alfa (dos colas) de 0.01 y un nivel beta de 0.10:

Donde: n: número de pacientes necesarios en el grupo

Page 7: Cómo estimar el tamaño de la muestra en investigacione cos ... · PDF filedetectar clínicamente justifican este cálculo. ... tiene el tamaño de la muestra en las conclusiones

98 R. Dennis

Donde: n: número de pacientes necesarios en cada gru-

po. p 1 : probabilidad de exposición (prevalencia) en

el grupo control. p2: probabilidad de exposición en los enfermos,

calculada del siguiente modo:

Ahora; el investigador debe hacer grupos de 177 pacientes, lo cual, desde el punto de vista de eficiencia y costos, con las probabilidades usadas como ejemplo, indica el diseño de casos y contro-les en esta situación.

LIMITACIONES DE LOS CALCULOS DE T A M A Ñ O S D E M U E S T R A S

Las fórmulas enunciadas aquí sólo dan una aproximación (aunque cercana) al número real de pacientes necesarios. La atracción que ejerce una cifra exacta como las que resultan de estas fórmulas, revisten a estos cálculos de un rigor falso que puede prestarse a engaño (6). En lo que sí hay acuerdo en la literatura es que si hay tiempo y los costos lo permiten, es más adecuado sobreestimar los cálculos del tamaño de la muestra, y si es el caso, acabar temprano el estudio (3, 6).

Para estudios con diseños más sofisticados y de

análisis estadístico complicado (estudios con apa-reo de casos y controles, con más de dos grupos, con diseños de "crossover", o análisis de sobrevi-da, por citar unos cuantos) deben consultarse libros o artículos especializados sobre el tema (2, 3 ,4 ) o idealmente contar con la ayuda de un bioestadístico.

En ocasiones, se desea demostrar "equivalencia" de las intervenciones. Calcular tamaños de mues-tra asumiendo que no hay diferencias entre los grupos resultaría en un número infinito de pacientes, con las fórmulas antes descritas. La es-trategia en estos casos es especificar algún valor X, tal que, intervenciones con diferencias entre ellas menores que este valor X puedan ser consideradas "igualmente efectivas" o "equivalentes". El espe-cificar este valor puede ser difícil, pero sin él nin-gún estudio de este tipo podría ser diseñado (3). Otra forma de enfocar este problema es desde el punto de vista de validación de hipótesis: la hipó-tesis nula sería que las dos intervenciones difieren en menos de este valor X y la hipótesis alterna sería el demostrar que sí difieren.

En la práctica, el investigador usualmente tiene más de una variable en los resultados de los que quisiera sacar conclusiones válidas. Esto es parti-cularmente importante en los estudios de casos y controles en los que se va de "expedición de pes-ca". Lo indicado en estos casos es calcular el ta-maño de la muestra para cada una de estas varia-bles y saber en cuáles tiene poder suficiente para sacar conclusiones valederas (12).

A B S T R A C T Medical Research in human beings should be

preceded by calculation of the sample size needed to obtain valid results. The concepts of alpha er-ror, beta error, power, result variability, and of the minimal difference worth finding, are identified not only as the main factors that just ify these cal-culartions but as elements to be used in easy to follow sample size formulas.

REFERENCIAS 1. Freíman JA. The importance of Beta, the type II error, and sample size in

the design and interpretation of the randomized clinical trial. New Engl J Med 1978; 299: 690-694.

Ejemplo: Usemos la misma situación anterior en el diseño de cohortes. Basado en la literatura, el investigador documenta que la probabilidad de exposición a analgésicos en pacientes sin anemia aplásica (grupo control) en los 15 días anteriores al ingreso, es del 20%.

En este caso, p 1 20%

Page 8: Cómo estimar el tamaño de la muestra en investigacione cos ... · PDF filedetectar clínicamente justifican este cálculo. ... tiene el tamaño de la muestra en las conclusiones

Tamaño de la muestra en investigaciones con humanos 99

2. Schlesselman JJ. Case control Studies; Desing, conduct, analysis. New Yo rk : Oxford University Press; 1982: 144-170.

3. Friedman LM, Furberg CD, Demets DL. Fundamentals of clincal trials. 2a ed, Littleton. PSG Publishing Company Inc; 1985: 83-107.

4. Fleiss JL. Statistical methods for rates and proportions. 2a ed. New York: John Wiley and Sons;1982

5. Galen R, Gambino SR. Beyond normality: The predictive value and effi-ciency of medical diagnoses. New York: John Wiley & Sons; 1975:2-3.

6. Rothman KJ. Modem Epidemiology. Boston: Little, Brown and Com-pany; 1986: 79-82,115-125.

7. Berenberg MJ, Baigelman W, Cupples LA, et al. Comparison of me-tered dose ubgaker attached to and aerochamber with an updraft nebulizer

for administration of metaproterenol in hospitalized patients. Journal of Asthna 1985; 22: 87-92.

8. Young MS, Bresnitz EA, Strom BL. Sample size nomograms for inter-preting negative clinical studies. Ann Int Med 1983; 99 :248-251.

9. Ingelfinger JA, Mosteller F, Thibodeau LA, Ware JH. Biostatistics in clinical medicine. New York: Macmillan Publishing Co Ine; 1983.

10. Fletcher RH, Fletcher RH, Wagner EH. Clinical epidemiology the es-sentials. Baltimore: Williams & Wilkins 1982; 154:17-37.

11. Dobson A J. Calculating sample size. Transactions of the Menzies Foun-dation 1984; 7 :75-79.

12. Colton T. Statistics in medicine. Boston: Little, Brown and Company; 1974:147-161.

Acta Med Colomb Vol 14 N°2 - 1989