diseño de agregado

73
SECCIÓN 1. Cómo Estadísticas se utiliza en el Mundo Moderno: Estudios de caso En esta parte del informe, se presentan siete casos de estudio de los usos de las estadísticas en el pasado y el presente. No tenemos intención de estos ejemplos ser exhaustiva. Nosotros les proponemos principalmente como ejemplos educativos para los lectores que quieran saber, "¿Qué es bueno para las estadísticas?" Además, tenemos la intención de estos estudios de casos para ayudar a enmarcar la discusión en las secciones 2 y 3 de las tendencias actuales y los desafíos futuros en materia de estadísticas. 1.1 Ensayos controlados aleatorios Cada nuevo producto farmacéutico en los Estados Unidos y muchos otros países pasa por varias rondas de escrutinio estadístico antes de que pueda llegar al mercado. El tipo prototípico de estudio se llama un ensayo controlado aleatorio, un diseño experimental que surgió de la investigación de Sir Ronald Fisher hace casi un siglo. En 1919, el genetista educado en Cambridge y estadístico aceptó un puesto en la Estación Experimental de Rothamsted, un centro de investigación agrícola en Hertfordshire, Inglaterra. Mientras trabajaba allí, aclaró muchas de las ideas previamente al azar de los científicos sobre el diseño experimental, y sus ideas tuvieron repercusiones que iban mucho más allá de la agronomía. Aquí es un problema típico del tipo Fisher analizó: Un investigador quiere saber si un nuevo fertilizante hace que el maíz más productivos. Él podría comparar una muestra de plantas que se han dado el fertilizante (el "tratamiento" del

Upload: deivit-d-borre

Post on 15-Jan-2016

225 views

Category:

Documents


0 download

DESCRIPTION

trabajo de sociologia

TRANSCRIPT

Page 1: Diseño de Agregado

SECCIÓN 1.

Cómo Estadísticas se utiliza en el

Mundo Moderno: Estudios de caso

En esta parte del informe, se presentan siete casos de estudio de los usos de las estadísticas en el pasado y el presente. No tenemos intención de estos ejemplos ser exhaustiva. Nosotros les proponemos principalmente como ejemplos educativos para los lectores que quieran saber, "¿Qué es bueno para las estadísticas?" Además, tenemos la intención de estos estudios de casos para ayudar a enmarcar la discusión en las secciones 2 y 3 de las tendencias actuales y los desafíos futuros en materia de estadísticas.

1.1 Ensayos controlados aleatorios

Cada nuevo producto farmacéutico en los Estados Unidos y muchos otros países pasa por varias rondas de escrutinio estadístico antes de que pueda llegar al mercado. El tipo prototípico de estudio se llama un ensayo controlado aleatorio, un diseño experimental que surgió de la investigación de Sir Ronald Fisher hace casi un siglo.

En 1919, el genetista educado en Cambridge y estadístico aceptó un puesto en la Estación Experimental de Rothamsted, un centro de investigación agrícola en Hertfordshire, Inglaterra. Mientras trabajaba allí, aclaró muchas de las ideas previamente al azar de los científicos sobre el diseño experimental, y sus ideas tuvieron repercusiones que iban mucho más allá de la agronomía.

Aquí es un problema típico del tipo Fisher analizó: Un investigador quiere saber si un nuevo fertilizante hace que el maíz más productivos. Él podría comparar una muestra de plantas que se han dado el fertilizante (el "tratamiento" del grupo) con plantas que no tienen (el grupo "control"). Este es un ensayo controlado. Pero si el grupo de tratamiento parecía más productivo, un escéptico podría argumentar que esas plantas procedían de semillas más vigorosas, o se habían dado mejores condiciones de crecimiento.

Para anticiparse a tales objeciones, el grupo de tratamiento y el control debe hacerse lo más similares entre sí en todas las formas posibles. Pero ¿cómo se puede hacer cumplir esta similitud? ¿Qué es para mantener el experimentador accidentalmente o deliberadamente apilar la cubierta? La respuesta de Fisher fue revolucionario y lejos de ser obvio: la aleatorización. Si el tratamiento (el fertilizante) se le da a las plantas al azar en parcelas al azar, el experimentador no puede afectar a los resultados con sus propios prejuicios.

Page 2: Diseño de Agregado

La aleatorización parece contradictorio al principio, porque no hay ningún intento para que coincida con el grupo grupo de tratamiento y control. Pero, de hecho, que explota las leyes de la probabilidad. Si usted lanza una moneda 100 veces, es mucho más probable conseguir un más o menos incluso de división de cara y cruz de lo que son para conseguir todas las cabezas, o incluso el 75 por ciento de caras. Del mismo modo, en un experimento controlado, el azar es un duro (aunque no exacta) garantía de equidad.

Además de eliminar el sesgo y juego aproximadamente los grupos de tratamiento y de control, el diseño de ensayo controlado aleatorio (ECA) tiene una ventaja más. Esto hace que la fuente de incertidumbre explícita de modo que puede ser modelado matemáticamente y se utiliza en el análisis. Si la incertidumbre reside en la calidad de la semilla o el suelo, sería difícil para un experimentador para modelar. Pero en un ECA, el procedimiento de asignación al azar en sí es la fuente de incertidumbre. En 100 lanzamientos de una moneda, es fácil decir lo que es un precio razonable y un número excesivo de cabezas para esperar. Como resultado, el investigador puede cuantificar la incertidumbre. Al evaluar si el fertilizante funciona, puede calcular una medida estadística (un "valor p") que refleja la fortaleza de la evidencia de que lo hace. (Ver recuadro, "Estadísticos Were Here." Véase también § 1.4 para algunos aspectos negativos de la utilización acrítica de los valores de p.).

incluso la aleatorización, se remonta un largo camino. Los experimentos de James Lind en el tratamiento del escorbuto en 1747, lo que demuestra que los limones y limas son el tratamiento más eficaz de las seis alternativas, se citan a menudo como los primeros ensayos controlados de la historia. En 1835, los farmacéuticos de Nuremberg, Alemania, añadieron la idea de la asignación al azar en un experimento para saber si un "remedio" homeopático podría ser distinguido de un placebo. Sin embargo, estos experimentos aún no tenían marco matemático de Fisher para cuantificar la incertidumbre.

Fue sólo después de la Segunda Guerra Mundial que Austin Bradford Hill, un epidemiólogo británico, llevó a cabo el primer ECA moderna en la medicina. En 1948, se demostró pruebas abrumadoras de que la vancomicina antibiótico recién descubierto era eficaz contra la tuberculosis. Su estudio fue un parteaguas medicina momento-por y para las estadísticas. Uno de los descubridores de la vancomicina ganó el Premio Nobel en 1952 la tuberculosis, una de las mayores lacras de los siglos 19 y principios del 20, de repente se convirtió en una enfermedad manejable. Y ECA entró en gran demanda, ya que el éxito de

Page 3: Diseño de Agregado

"medicamentos milagrosos", como la penicilina y la vancomicina hizo posible el desarrollo de nuevos productos farmacéuticos en un negocio altamente lucrativo.

Algunos factores no estadísticos también contribuyeron al ascenso de ECA en la investigación médica. En 1937, más de 100 personas murieron a causa de una nueva "droga milagrosa", sulfanilamida, no a causa de la droga, sino por el disolvente en el que se suspendió. Esta tragedia motivó la Ley de Alimentos, Medicamentos y Cosméticos, aprobada en 1938, que obligaba a los fabricantes de drogas para proporcionar evidencia de la seguridad de la Administración de Alimentos y Medicamentos (FDA).

1961, la protesta pública sobre la talidomida (un medicamento experimental que ha demostrado causar defectos de nacimiento graves) condujo a la aprobación de la Drogas Kefauver-Harris

Enmienda, que requiere "una adecuada y bien

estudios controlados "para establecer la eficacia y seguridad de nuevos fármacos para la primera vez. Estos estudios son

a menudo, aunque no siempre, aleatorizado.

Si hay algún problema con la ECA, se ha tenido demasiado éxito, hasta el punto de convertirse en una camisa de fuerza. "Fue uno de los grandes inventos de la historia médica," dice Don Berry, del Centro de Cáncer MD Anderson. "El único problema era que la gente no quería jugar con él."

Durante la epidemia de SIDA de la década de 1980, ECA fue criticado por ser demasiado lento y demasiado insensible a las necesidades de los pacientes. La agitación de los activistas del SIDA llevó a algunas reformas, como el acceso más fácil a las drogas experimentales y el uso de "criterios indirectos de valoración" (como la mejora de los recuentos de células T) que podrían ser utilizados como evidencia de eficacia. Estos sustitutos mismos tenían que ser investigados estadísticamente. Otras innovaciones incluyen el uso de "controles históricos," análisis intermedio (es decir, el análisis de los datos mientras que el estudio está aún en curso) y la terminación anticipada de los estudios en los que el tratamiento tiene ya sea un efecto extremadamente negativo extremadamente positivo o. Por lo tanto, el ECA no tiene que ser una camisa de fuerza. Sin embargo, la participación de los estadísticos se ha vuelto aún más importante asegurarse de que tales modificaciones no comprometen la validez científica de la prueba.

Page 4: Diseño de Agregado

Durante muchos años, el campo de las estadísticas ha tenido dos campos filosóficos con diferentes respuestas a un

pregunta fundamental: ¿Qué significa "probabilidad"? Los campamentos son conocidos como los "frequentists" y la "bayesianos."

para distinguir diferentes tipos de pacientes, así. El ECA convencional con cientos o miles de pacientes puede llegar a ser imposible. Incluso puede no haber un millar de pacientes en el mundo con el subtipo de cáncer A y marcadores genéticos B, C, y D. Sección 3 discutirá un enfoque nuevo (diseños adaptativos) que permitirá a los investigadores a concentrarse en los tratamientos eficaces para las poblaciones más pequeñas. Queda por verse si tales métodos alcanzarán el nivel de aceptación que tienen los ECA tradicionales.

.2 El paradigma bayesiano y Procesamiento de imágenes

Durante muchos años, el campo de las estadísticas ha tenido dos campos filosóficos con diferentes respuestas a una pregunta fundamental: ¿Qué significa "probabilidad"? Los campamentos son conocidos como los "frequentists" y la "bayesianos." El debate no es meramente académico, ya que los distintos puntos de vista sobre esta cuestión llevan a diferentes metodologías. Sin embargo, en los últimos años, la controversia ha disminuido y los estadísticos han dado cuenta de que los dos puntos de vista pueden ser útiles en diferentes contextos.

En breve, el punto de vista frequentist es que una probabilidad refleja la frecuencia con que se observa un resultado particular en ensayos repetidos del mismo experimento. El lenguaje de los frequentists impregna los tratados de estadística; los ejemplos, como el dibujo bolas de una urna y lanzamiento de dados, son situaciones ideales en la que el mismo procedimiento se puede repetir muchas veces con resultados inciertos. El paradigma desarrollado frequentist por los pioneros tempranos tales como Fisher, Jerzy Neyman y Karl Pearson-se refleja en el diseño clásico de los ensayos clínicos (§ 1), donde los resultados se expresan en términos de lo que sucedería si el experimento se repitió muchas veces.

La filosofía bayesiano, llamado así por el reverendo Thomas Bayes (véase la Introducción), aplica las matemáticas de la probabilidad más en general, no sólo a las frecuencias de largo plazo, sino también a la

probabilidades de eventos únicos, como la "probabilidad de que el candidato A ganará las elecciones." A menudo, la vista bayesiano de probabilidad se describe como un "grado de creencia" en un comunicado, pero Andrew Gelman, un

Page 5: Diseño de Agregado

estadístico bayesiano, ha argumentado que esta interpretación es de ninguna manera obligatoria. Un estadístico bayesiano es libre de interpretar la probabilidad en la manera que mejor se adapte al problema-como la frecuencia, como un grado de creencia, o simplemente como una función que obedece a las reglas matemáticas de la probabilidad.

Algunos trabajos recientes en la psicología cognitiva ha dibujado conexiones interesantes entre frequentist e ideas bayesianas. Desde una dirección, Josh

Tenenbaum, Tom Griffiths, y otros han tenido un éxito sorprendente modelado inferencia humana y la toma de decisiones como aproximadamente bayesiano. Desde el otro lado, Gerd Gigerenzer ha demostrado que la gente entienda la incertidumbre mucho mejor cuando está enmarcado como frecuencias, en lugar de probabilidades. Varios problemas de probabilidad se vuelven mucho menos confuso para la gente cuando las probabilidades se reformular como frecuencias (por ejemplo, 85 de 100, en lugar de una probabilidad de 85%).

Estadística bayesiana toma su nombre de teorema de Bayes, que es una norma para la actualización de nuestra creencia en una hipótesis que recogemos nuevas pruebas. Una versión del mismo puede afirmarse de la siguiente manera:

Posterior probabilidades = apuesta a priori razón de verosimilitud ×.

Un buen ejemplo de la regla de Bayes es proporcionada por los programas de corrección ortográfica. Supongamos, por ejemplo, un usuario escribe la palabra "Radom" y el equipo tiene que decidir si se refería al tipo "aleatorio" o "Radom," la ciudad de Polonia. Consultando la base de datos de lenguaje de Google, el ordenador determina que la palabra "azar" aparece 200 veces tan a menudo como "Radom" en todos los documentos. En ausencia de cualquier otra información, las "probabilidades previas" son 200: ". Aleatoria" 1 a favor del Sin embargo, un programa de corrección ortográfica que simplemente por defecto en la palabra más común todo el tiempo iba a cambiar todas las palabras para "el. "Así que las probabilidades previas tienen que ser modificados por la evidencia de lo que la mecanógrafa en realidad escribe. Según el modelo de los errores de ortografía de Google, que es 500 veces más probable que los mecanógrafos se escribe "Radom" si la palabra que significaba que escribir es "Radom" (que lo harán con probabilidad 0,975) que si la palabra es "aleatorio" (probabilidad 0.00195). Así que la razón de verosimilitud es 1/500, y las probabilidades posteriores se convierten en (200/1) (1/500), o 2: 5. Así, el corrector ortográfico no auto-corregir la palabra. Por otro lado, si el corrector ortográfico sabía que la palabra proviene de un documento relativo a las estadísticas, las probabilidades previas en favor de "azar" subirían y el corrector ortográfico haría luego de auto-corrección de la palabra. O si el mecanógrafo eran descuidado, el cociente de probabilidad de un error contra

Page 6: Diseño de Agregado

una ortografía correcta subiría, y otra vez las probabilidades posteriores se desplazaría

norma incorpora nueva información.

Los humanos actualizan sus creencias cada vez que miran algo. "Las percepciones son predictivos, nunca del todo seguro, hipótesis de lo que puede estar ahí", escribió Richard Gregory, un psicólogo experimental y experto en ilusiones visuales. Normalmente, se supone que la fuente de iluminación en una escena es en la parte superior. Suponemos que los objetos sólidos son más propensos a ser convexa que cóncava. Estas son las creencias anteriores, que las ilusiones visuales explotan para crear imágenes que nos confunden. Pero la mayoría de las veces, nuestras hipótesis nos sirven bien. Las imágenes son inherentemente ambiguos-que son proyecciones de un mundo tridimensional en un bidimensional retina-y por lo tanto necesitamos supuestos para dar sentido a lo que vemos. Constantemente perfeccionar o descartarlos como conseguimos nuevos datos visuales o sensoriales. Nuestras hipótesis inconscientes nos permiten separar primer plano del fondo, para leer una señal borrosa en la distancia, para reconocer caras-todas las tareas que son muy difícil para un equipo.

Máquinas Sin embargo, investigaciones recientes han ayudado a averiguar más sobre el contenido de una imagen mediante el razonamiento bayesiano. Por ejemplo, muchas cámaras digitales tienen la capacidad de "engancharse" rostros. Harán un pequeño rectángulo en torno a cualquier cosa que el "cerebro" de la cámara piensa que es probable que sea una cara. La tecnología utilizada es sorprendentemente reciente-fue inventado por Paul Viola y Michael Jones en 2001-sin embargo, es casi omnipresente.

Para otro ejemplo, el jugador del juego Microsoft Kinect utiliza algoritmos bayesianos para rastrear los movimientos de un usuario. Está programado para hacer ciertas suposiciones sobre cómo se generan las imágenes, al igual que lo hacen los humanos: escenas contienen objetos, los objetos tienen texturas, texturas reflejan la luz de ciertas maneras. Estas relaciones causales constriñen nuestras hipótesis previas acerca de una escena. Ellos hacen lo mismo cuando se programa en una computadora. Cuando una nueva imagen viene en, el software puede filtrar a través de esta red de relaciones asumidas (llamados una "red bayesiana") y generar la hipótesis más probable sobre lo que está en primer plano y lo que es de fondo, dónde tiene las manos, y que la mano es conectado a la cual hombro.

Por supuesto, esta investigación se plantea la cuestión de qué tipo de hipótesis previas están incorporados en nuestros propios cerebros y cómo los seres

Page 7: Diseño de Agregado

humanos llegan a ellos. Es razonable esperar que tales preguntas serán impulsar la colaboración entre los estadísticos y psicólogos durante mucho tiempo por venir.

1.3 La cadena de Markov Monte Revolución Carlo

Estadísticas era una ciencia multidisciplinar desde el principio, mucho antes de que el concepto se puso de moda. Las mismas técnicas desarrolladas para analizar los datos en una aplicación son muy a menudo

aplicable en numerosas otras situaciones. Uno de los mejores ejemplos de este fenómeno en los últimos años es la aplicación de Markov Chain Monte Carlo (MCMC) los métodos. Mientras MCMC fue inventado inicialmente por los físicos estadísticos que estaban trabajando en la bomba de hidrógeno, que ya se ha aplicado en entornos tan diversos como el análisis de la imagen, la ciencia política y las humanidades digitales.

Markov Chain Monte Carlo es esencialmente un método para la toma de muestras al azar de una distribución insondablemente grande y complejo probabilidad. Para un ejemplo simple, un funcionario de la prisión una vez trajo estadístico Persi Diaconis un mensaje entre dos presos que habían sido interceptados. El mensaje fue escrito en un código que no se parecía a la

Alfabeto Inglés y los guardias no habían sido capaces de descifrarlo. Diaconis se lo dio a un estudiante como un reto. Cabe destacar que el estudiante tuvo éxito en el primer intento, utilizando un algoritmo MCMC.

Así es como funcionaba. La "distribución de probabilidad grande" describe todas las maneras posibles que el alfabeto podría ser codificado en 26 símbolos. No todos los caminos son igualmente probables. Si uno de descifrado propuesta produce una palabra con las letras "GC" adyacentes uno a otro, este es un descifrado altamente improbable. Por otra parte, una combinación de letras que uno espera ver con frecuencia es "TH", por lo que una de descifrado que produce una gran cantidad de éstos es bastante plausible.

El algoritmo toma un camino aleatorio a través de este espacio de todas las posibles descifrados. Se inicia con un descifrado elegido al azar. Luego, en cada paso, que considera una posible revisión. Si se cambia el símbolo de "A" a la "U", el "QA" sería mucho más plausible "QUs." Cada vez que considera un cambio, el algoritmo MCMC calcula la puntuación de la plausibilidad de la nueva descifrado. Si el nuevo descifrado es más plausible que el anterior, el algoritmo hace que el cambio. Si no, es probable, pero no necesariamente, rechazar el cambio. A veces, se aceptará un cambio que es a priori menos probable. Esto evita que el algoritmo

Page 8: Diseño de Agregado

se vean "atrapados" en un callejón sin salida. Como un detective humano, a veces hay que probar las hipótesis alternativas que parecen menos plausible a primera.

Finalmente, después de muchas iteraciones, MCMC llegará a una muestra aleatoria del espacio de desencriptaciones plausibles. En el caso del código del preso sólo hay un descifrado plausibles, por lo que la "muestra aleatoria" es la solución. Diaconis y su estudiante supieron que habían encontrado que cuando, después de unos pocos miles de pasos del algoritmo MCMC, el equipo se le ocurrió la siguiente descifrado: "Para bat-rb. Con Todo Mi Respeto. Yo estaba sentada jugando al ajedrez con danny ... "

Mientras que los mensajes secretos entre los presos son una aplicación poco habitual de MCMC, el método Tiene una alucinante gama de otros usos. el original.

Visualización de Datos y Comunicación

Varios oradores en el taller de Londres tocaron temas de la percepción pública de las estadísticas y la responsabilidad de los profesionales de la estadística para comunicar su trabajo con eficacia. Una perspectiva de la reflexión fue dada por Mark Hansen, un estadístico que ahora es profesor de periodismo en la Universidad de Columbia. Hansen mostró imágenes de algunas de sus instalaciones de arte que se basan en datos y estadísticas. Un ejemplo es la exposición permanente "tipo movible", en el vestíbulo de la Torre New York Times, en el que la pantalla 560 pantallas que cambian continuamente fragmentos de texto entresacadas algorítmicamente de la base de artículo del Times. Esto es "comunicar estadísticas" en una forma que es más poético que instrumental: El espectador se proporciona ninguna explicación, pero se presenta una vista del periódico como "datos" descompone y se recombina.

David Spiegelhalter habló sobre los retos de la explicación de los riesgos y la incertidumbre para el público. Algunos principios están bien establecidos. Por ejemplo, el riesgo relativo (Comportamiento X aumentará su riesgo de cáncer en un 50 por ciento) se percibe de manera diferente de riesgo absoluto (Comportamiento X cambiará su riesgo de cáncer del 2 por ciento a 3 por ciento). Los antiguos sonidos más alarmantes, mientras que el segundo suena como algo que la gente podría estar dispuesto a vivir con. Jerga estadísticos pueden ser una barrera para la comunicación. El público no entiende lo que es un "hazard ratio" es. Spiegelhalter sugirió reemplazar esto con un número que la gente puede relacionarse directamente: Comportamiento X es equivalente a ser 8 años mayores. Si el caso contra el tabaquismo se ha presentado de esta manera, serían las personas tal vez han sido más rápidos para captar las consecuencias? Además, la comunicación visual puede ser muy eficaz. Psicólogo Angela Fagerlin

Page 9: Diseño de Agregado

encontró que los pacientes les pidió que eligieran entre dos tratamientos fueron susceptibles a anécdotas engañosas (es decir, el tratamiento A trabajado para este paciente), incluso si se hubieran dado las estadísticas que mostraban lo contrario. Sin embargo, si las estadísticas se presentan visualmente, los pacientes conservan la información y eran efectivamente "inmunes" a la anécdota engañosa.

La visualización también es central en la obra de Hans Rosling (que no estuvo en la reunión de Londres), un estadístico sueco y médico que se ha convertido en una estrella de YouTube y los medios de comunicación con sus presentaciones multimedia acerca de la demografía mundial. En 2012, fue nombrado como una de las 100 personas más influyentes de la revista Time. Rosling hace que el tema aparentemente seca de la demografía fascinantes con gráficos coloridos y narración vívida. Como dijo Rosling en el programa de la BBC The Joy of Stats, "Tener los datos no es suficiente. Tengo que mostrar de una manera que la gente disfrute y entender. "Muchos otros estadísticos podrían aprender de su ejemplo. Para bien o para mal, una buena visualización es mucho más convincente para el público de un informe técnicamente correcto que está lleno de jerga y números. (Véase, por ejemplo, su TED hablar en www.ted.com/talks/hans_rosling_shows_

1.4 Estadísticas en Corte

Durante un período de 12 años, desde 1984 hasta 1995, el Bristol Royal Infirmary en Inglaterra tuvo una tasa inusualmente alta de muertes entre los niños que se sometieron a cirugía de corazón abierto. Ya en 1988, un anestesista se quejó acerca de las operaciones que toman demasiado tiempo, que ponen a los pacientes en mayor riesgo de muerte o complicaciones médicas. Sin embargo, tomó la muerte de un bebé en la mesa de operaciones en enero de 1995 para convertir la "

Caso del bebé Bristol "en un escándalo nacional.

De 1998 a 2001, el gobierno británico llevó a cabo una investigación oficial que finalmente costó £ 14 millones y produjo un informe de 500 páginas. Se encontraron fallas sistémicas en Bristol que iban más allá de los malos resultados de uno o dos cirujanos. Varios de los principales cambios fue el resultado de la investigación. Los datos sobre el desempeño de los cirujanos individuales están ahora a disposición del público; nuevas normas se establecen para informar a los pacientes acerca de los riesgos y beneficios; y Gran Bretaña formó una comisión de atención médica permanente, encargado de supervisar la calidad de la atención en el Servicio Nacional de Salud y en las clínicas privadas.

Un ingrediente clave en el informe es una estimación estadística del número de muertes "en exceso" que habían tenido lugar en Bristol. Esto fue difícil de

Page 10: Diseño de Agregado

determinar, no sólo porque la tasa de mortalidad fue sujeto a grandes fluctuaciones aleatorias, sino también porque era imposible decir a partir de registros de casos si la muerte de un niño había sido causado por la cirugía o por otros factores. Además de eso, los distintos pacientes pueden haber tenido diferentes grados de riesgo. El hospital podría haber sido mala suerte de tener una racha de bebés más enfermos. Por último, los datos disponibles, tanto en Bristol y en otros hospitales, provenía de varias fuentes y tenía una calidad desigual.

En resumen, el recuento de muertes en exceso estuvo lleno de dificultades estadísticas. Sin embargo, controlando por factores como la edad del paciente, el tipo de operación, y el año en que se realizó, los estadísticos estiman que el 12 al 34 (de los 41) infante muertes entre 1991 y 1995 fueron el exceso de muertes. Nunca sabremos lo que los bebés habrían sobrevivido en otro hospital, pero podemos decir con confianza que algunos de ellos tendrían.

David Spiegelhalter, el estadístico principal en la investigación de Bristol, pronto fue llamado a en relación con otro, aún más sombrío, caso. Un médico general llamado Harold Shipman fue condenado en 2000 por asesinar a 15 mujeres de edad avanzada dándoles las sobredosis de opiáceos. No hay estadísticas estuvieron involucrados en esta convicción; había un montón de otras pruebas, incluyendo una voluntad fabricada en el que uno de los pacientes dejó todo su patrimonio a él. Sin embargo, una investigación posterior concluyó que Shipman probablemente había matado al menos a 215 pacientes, casi todos ellos de edad avanzada pero por lo demás en buen estado de salud, que data todo el camino

de nuevo a 1971 Este descubrimiento asombroso plantea la cuestión: ¿No podría haberse hecho algo antes? ¿No podría alguien haber visto que la tasa de mortalidad de los pacientes de este doctor era inaceptablemente alto?

La misma pregunta había surgido después de que el caso de Bristol. Para responderla, Spiegelhalter adaptado técnicas de análisis secuenciales que se desarrollaron en la Segunda Guerra Mundial para vigilar los procesos industriales, como la producción de municiones. Llegó a la conclusión de que se habían disponibles los datos y tenía los métodos estadísticos adecuados estado en vigor, la práctica de Shipman podría haber sido identificado como sospechoso mucho antes de 1998, cuando fue finalmente capturado.

Sin embargo, es importante utilizar un exceso de precaución al extrapolar a partir de estadísticas de prevaricato. Esta fue la lección sobresaliente de otro caso que recibió atención de los medios, el caso de la enfermera holandesa Lucia de Berk.

El extraño caso del de Berk comenzó de manera similar al escándalo-con el bebé de la muerte inesperada de un lactante Bristol, llamado Amber, en

Page 11: Diseño de Agregado

04 de septiembre 2001, en el Hospital de Niños de Juliana en La Haya. De Berk era una enfermera de turno en ese momento. Algunos de sus compañeros de trabajo habían notado anteriormente que ella había estado en servicio durante una sospechosamente gran número de muertes de pacientes no previstos, o "incidentes." El director del hospital investigó los registros de dos pabellones anteriores había trabajado en y se dio cuenta de que había habido varios incidentes allí también. El hospital informó de la evidencia a la policía, alegando que de Berk había cometido cinco asesinatos y cinco intentos de asesinato.

El cerebro humano es por desgracia bastante propensos a ver patrones donde solo hay aleatoriedad. Por ejemplo, si usted sacude un tarro de caramelos de goma de diferentes colores, es probable que vea sorprendentemente grandes matas de habas del mismo color. Antes de concluir que las habas del mismo color están adheridos entre sí, o antes de concluir que el cúmulo de muertes en el reloj de De Berk estaban relacionados, uno debe primero hacer un cuidadoso análisis estadístico para ver si dicho grupo podría explicarse por el azar.

En lugar de ello, la policía consultó a un abogado que no era un estadístico profesional y que llevó a cabo un análisis muy mala calidad. Afirmó que había sólo 1 posibilidad entre 342 millones que tantas muertes habrían ocurrido durante los turnos de De Berk por pura casualidad. A pesar de que más tarde se retractó de la afirmación, el número 342 millones cobró vida propia. De Berk fue declarado culpable de cuatro cargos de asesinato en 2003 y sentenciado a cadena perpetua. La condena fue confirmada por el Tribunal Supremo de los Países Bajos en 2006, aunque el tribunal se esforzó en señalar que el veredicto se basó en las pruebas físicas y no se basa en el razonamiento estadístico-muy probablemente debido a serias dudas ya habían surgido sobre lo último.

Sección 1. Cómo Estadísticas se utiliza en el mundo moderno: Estudios de caso

14 Estadísticas y Ciencia - Un Informe del Taller de Londres sobre el futuro de Ciencias Estadísticas

Estadísticos Richard Gill y Willem van Zwet señalaron numerosos defectos estadísticos detrás de la famosa "1 en 342 millones", que ascendía (en palabras de Gill) a un "abuso de cada regla básica en el libro de texto de estadísticas." Un defecto era técnica, pero los osos mencionar porque es una idea errónea tan común. Los "valores p" (véase § 1.1) que se obtienen en las pruebas de significancia convencionales no son probabilidades en el sentido habitual. Sin embargo, el consultor les había combinado como si lo fueran. Para ilustrar, supongamos que había un 10 por ciento de probabilidad de x o más muertes que ocurren en la sala A y una probabilidad del 10 por ciento de las muertes por Y o más ocurren en el Pabellón B durante los turnos de De Berk. Entonces uno podría

Page 12: Diseño de Agregado

pensar que sólo había un 1 por ciento (es decir, 10 por ciento multiplicado por el 10 por ciento) de que ambos eventos sucederían. Pero si los "10 por ciento" son

los valores de p, no probabilidades, entonces son sólo números unidos a los datos. Una pregunta más pertinente sería, "¿Cuáles son las posibilidades de elegir dos números al azar entre 0 y 1 que se multiplican a menos de 1/100?" Esta probabilidad es superior al 5 por ciento-mucho más que la estimación simplista. En el caso de De Berk, Gill mostró que la probabilidad correcta debería haber sido calculado como 1 en 100.000-no 1 en 342 millones.

Eso todavía suena bastante condenatorio, pero había muchas otras

Eso todavía suena bastante condenatorio, pero había muchos otros problemas con los datos que en realidad hacen el cálculo discutible. Las muertes en las otras salas no se habrían dado cuenta de si la administración del hospital no había ido en busca de ellos; esto se llama "sesgo de confirmación". Además, los datos de todos los tiempos de una muerte no habían sucedido en turnos de De Berk

se pasó por alto ("sesgo de selección"). En vista de la forma sesgada los datos fueron adquiridos, un estadístico profesional tendría que decir que no se pueden extraer conclusiones de ellos. Los cálculos expuestos anteriormente serán válidas sólo si los datos provienen de un sistema de supervisión establecido de antemano que trata todas las enfermeras por igual.

En 2010, el caso de De Berk fue reabierto y su condena fue anulada. Una vez más, el tribunal dijo que las estadísticas no eran el problema. No había nueva evidencia médica de que el veneno de Berk supuestamente utilizó (digoxina) pueden acumularse en el cuerpo

naturalmente después de la muerte, por lo que su presencia en los órganos de las presuntas víctimas no indicó juego sucio. Sin embargo, la fragilidad del caso estadística contra ella puede ser la razón por la que los médicos tomaron una mirada más cercana a las pruebas médicas y encontraron que querer también.

Un mensaje fuerte emerge de estos tres casos, aunque los detalles son diferentes. Razonamiento estadístico puede ser útil para detectar el comportamiento nefasto. Pero pueden hacerlo sólo si los datos se recogen en una y de forma planificada y metódica, sin prejuicios. Además, los datos deben ser analizados por los profesionales competentes que entiendan los supuestos detrás de los modelos estadísticos. La mejor defensa contra "mentir con estadísticas" (incluso involuntariamente) es ... contratar

un estadístico.

Page 13: Diseño de Agregado

1.5 Estadística, Genómica y Cáncer

En la década de 1970, cuando el presidente estadounidense Richard Nixon declaró una "guerra contra el cáncer", la enfermedad fue visto como un adversario monolítica; tratamiento fue duro y los éxitos eran pocos. Sin embargo, durante los años 1980 y 1990, los investigadores del cáncer han descubierto que los cánceres son casi tan único como el paciente. No es sólo una enfermedad llamada "cáncer de mama", hay muchos. Cada tipo de cáncer de mama tiene un pronóstico diferente y requiere diferentes tipos de tratamiento. Tomó 20 años para que los científicos reconozcan y encontrar un tratamiento para el cáncer positivo para receptores de estrógenos, a partir del descubrimiento del gen del receptor (llamado HER2) en 1978 a la aprobación de la FDA en el año 1998 de Herceptin.

Page 14: Diseño de Agregado

Pero un nuevo viento soplaba en la investigación del cáncer y en toda la medicina para el final de la década de 1990. Fue la era de la genómica. La invención de los microarrays, o "chip de genes", hizo posible que los científicos estudiar la expresión génica en las células (incluyendo las cancerosas) y no sólo un gen a la vez, pero miles a la vez.

Un tipo de chip de gen contiene fragmentos cortos de ADN de genes conocidos, que están unidos a una base de vidrio. A menudo, están dispuestos en una matriz rectangular, como píxeles en una fotografía. Las filas y columnas de la matriz tienen un significado. Por ejemplo, las filas pueden representar muestras de diferentes tipos de cáncer y las columnas pueden representar genes. Cuando un

Muestra de ADN de un paciente se inserta en el chip, que atribuirá a aquellos

Page 15: Diseño de Agregado

fragmentos que responden a algunos subsecuencia de ADN en la muestra. Cuando esto sucede, los productos químicos fluorescentes en la causa de microarrays que salpican a la iluminan. El conjunto muestra un patrón de luces rojas y verdes brillantes, como un árbol de Navidad, que se identifican genes que están presentes en la muestra de ADN.

Con microarrays, los biólogos pudieron probar durante cientos o miles de genes simultáneamente. Podría utilizarse los datos de microarrays para identificar otros tipos de cáncer antes insospechados, análogas a las variantes de receptor de estrógeno positivo?

La respuesta fue que sí, gracias a una técnica estadística denominada clustering y una técnica de visualización llamada mapas de calor. La idea es buscar filas o columnas en el microarray con patrones similares de luces rojas y verdes. Las filas más similares

Page 16: Diseño de Agregado

se colocan en un clúster. Entonces se repite el proceso. Los grupos que son más similares se agrupan en cúmulos más grandes. El proceso puede continuar hasta que todo se coloca en un racimo grande, o puede ser detenida en una etapa anterior, cuando sólo hay unos pocos grandes grupos.

Después se han encontrado grupos adecuados, las filas y las columnas de los datos de microarrays se pueden reorganizar para que las filas o columnas adyacentes están en el mismo grupo. Tan simple como suena, esto hace una diferencia asombrosa. Un patrón involucró inicialmente de rojos y verdes se enfrentará a un aspecto notable a cuadros después de que se convierte en un mapa de calor. Los grupos-las bandas de tela escocesa-literalmente estallar fuera de la imagen; usted no tiene que ser un experto para verlos. Sin embargo, dos cosas deben señalarse acerca de los mapas de calor.

Page 17: Diseño de Agregado

Primero, son sólo una técnica de visualización y sólo la misma validez que el algoritmo de clustering que los produce. En segundo lugar, a pesar de la creencia de los investigadores de genómica que los mapas de calor son un invento reciente, los estadísticos han estado produciendo imágenes como ésta desde hace casi 100 años!

En un artículo de referencia en el año 2000, con un amplio equipo de investigadores dirigido por el genetista David Botstein aplicó análisis de conglomerados para los tumores malignos de mama y descubrieron que podían ser clasificados en cinco grupos distintos. Lo interesante de esto es que sólo cuatro de los grupos que ya eran conocidos. Uno de ellos, por ejemplo, fue el grupo HER2-positivo. Botstein llamado el grupo recién descubierto de cánceres de mama "basal-como," debido a que el patrón de expresión génica fue similar a las células en

Page 18: Diseño de Agregado

la capa basal (exterior) de la mama. Era la primera vez que un programa estadístico había descubierto un "biomarcador" para un subtipo diferente de cáncer.

Por supuesto, eso fue sólo el comienzo de la historia. Uno de los inconvenientes de análisis de conglomerados es que va a producir racimos si existen grupos significativos, reales o no. Los hallazgos tuvieron que ser replicado y tenía que demostrar que el nuevo clúster era biológicamente relevan

Oficiales / Estadística del Gobierno

Es un hecho poco conocido que la palabra "estadísticas" en realidad proviene de "estado" root -es es la ciencia del Estado. Por lo tanto, las estadísticas del gobierno u oficiales han estado involucrados en la disciplina desde el principio, y, para muchos ciudadanos, que siguen siendo la forma de

Page 19: Diseño de Agregado

la estadística en la vida cotidiana más frecuentes.

Varias tendencias están poniendo nuevas exigencias a los estadísticos oficiales. Muchos gobiernos se están moviendo hacia un gobierno abierto, en el que todos los datos oficiales estarán disponibles en línea. Muchos electores esperan que estos datos sean libres. Sin embargo, el acceso abierto a los datos plantea nuevos problemas de privacidad, especialmente en lo que se hace posible analizar los datos de población en unidades cada vez más finas. Acceso libre es también un problema en una era de presupuestos o han disminuido. Aunque la información puede querer ser libre, sin duda no es libre de recoger y cura.

Al mismo tiempo, las nuevas tecnologías crean nuevas oportunidades. Hay nuevos métodos de recogida de datos, que pueden ser mucho más barato y más fácil que las

Page 20: Diseño de Agregado

encuestas tradicionales. Mientras los gobiernos se mueven en línea, registros administrativos se convierten en una fuente útil y de búsqueda de información. Los estadísticos oficiales se enfrentarán a un problema de Big Data similar a la empresa privada, ya que tratar de averiguar lo que podrían existir tipos de información utilizable en estos grandes volúmenes de datos recogidos automáticamente y cómo combinarlos con los datos más recogidos tradicionalmente. Ellos también tienen que pensar en el formato de los datos; montículos de exploraciones de página o los datos que se presentan fuera de contexto pueden no ser muy útil. Con la debida atención a estas cuestiones, tanto viejas democracias y las nuevas democracias pueden llegar a ser más transparente, y los ciudadanos puedan estar mejor informados acerca de lo que están haciendo sus gobiernos.

Page 21: Diseño de Agregado

En el caso del cáncer de mama de tipo basal, los resultados en los años siguientes han sido claros. Se trata de una entidad distinta de otros tipos de cáncer de mama. Es particularmente prevalente en mujeres más jóvenes y en las mujeres negras y se asocia con un gen (BRCA1) que puede ser identificado por un ensayo disponible comercialmente. Clínicamente, tiene uno de los pronósticos más pobres de cualquier tipo de cáncer de mama, ya que es agresivo y porque es típicamente "triple negativo": IT no muestra ninguno de los tres receptores de estrógeno comunes. Eso significa que los medicamentos como Herceptin, que se dirigen a un receptor de estrógeno, son ineficaces.

En resumen, el cáncer de mama de tipo basal es exactamente el tipo de cáncer que más necesitamos un tratamiento para un cáncer particularmente vicioso que impacta sobre todo las mujeres más jóvenes. Pero es

Page 22: Diseño de Agregado

difícil basar un tratamiento en una prueba negativa. El valor del estudio de microarrays es que identifica un criterio positivo para la identificación de estos tipos de cáncer y sugiere dianas genéticas que un fármaco podría ser capaz

para explotar. Al escribir estas líneas, los medicamentos para el cáncer de mama de tipo basal han sido por la vía rápida por la FDA. Aunque han pasado 14 años desde el descubrimiento del cáncer de mama de tipo basal, una vez dicho desarrollo es normal, o incluso rápido, en el contexto de la investigación del cáncer.

El descubrimiento de cáncer de mama basal-como es un modelo de lo que los biólogos esperan lograr a través de la investigación del genoma, así como las formas en que los estadísticos pueden contribuir. Sin embargo, para ser justos, hay que señalar que esto no es un típico

Page 23: Diseño de Agregado

ejemplo. La literatura de investigación está llena de descubrimientos de biomarcadores putativos. Sin embargo, según un artículo de 2012 por el oncólogo de Scott Kern, "Menos de 1% de los biomarcadores de cáncer publicados en realidad entrar en la práctica clínica." (Él definió "entrar en la práctica clínica" en el sentido de que un paciente puede conseguir realmente una prueba para ese biomarcador que lo hará ser reembolsado por una compañía de seguros.) En algunos casos, un biomarcador puede ser válida, pero no ser útil para el tratamiento clínico. En otros casos, los supuestos descubrimientos son simplemente mal y no se pueden replicar. La dificultad de reproducir los resultados publicados se ha discutido mucho en los últimos años y se discutirá más adelante en este informe.

1.6 Después de la fiebre del oro: Kriging

y Geoestadística

Page 24: Diseño de Agregado

No mucha gente llega a ver sus nombres se convirtieron en un verbo. Pero a principios de 1950, un ingeniero de minas del sur-africano llamado Danie Krige revolucionó la industria de la minería hasta el punto de que su nombre ha sido colocada en una técnica estadística que él ayudó a inventar. "Kriging" ahora se refiere a un método para interpolar los datos recogidos en los puntos de muestreo dispersas en una forma que minimiza el error esperado de las estimaciones.

La aplicación Krige desarrolló su método para la extracción de oro era. Los enormes depósitos de oro en el

Witwatersrand (campo de oro más rico del mundo) están enterrados bajo tierra, por lo que los mineros tienen que perforar pozos de sondeo para averiguar dónde está el mineral de alto grado es. Pero los sondeos son sólo puntos aislados en un paisaje de

Page 25: Diseño de Agregado

miles de kilómetros cuadrados. Hasta Krige, no había habido ningún método estadístico formal para estimar el grado de mineral entre sondeos.

Krige hizo tres supuestos simples. (A pesar de que son discutibles, algunos supuestos tienen siempre que ser hecho para derivar cualquier tipo de modelo matemático o estadístico. A menudo, se aplican modelos alternativos para determinar la solidez de las conclusiones a supuestos concretos.) En primer lugar, se supone que no era algo normal concentración de oro a lo largo de los campos de oro. En segundo lugar, hay desviaciones aleatorias de este promedio, debido a toda la agitación y aleatorización de roca a través de la historia geológica de la Tierra. Tercero y más importante, las desviaciones están correlacionados.

Un pozo perforado en un solo lugar se puede decir acerca de la concentración de mineral

Page 26: Diseño de Agregado

cerca. La forma de la correlación no se especifica de antemano, pero se asume que se mantiene sin cambios o varían lentamente en todo el campo. Por ejemplo, si los estratos que la mentira de oro en se orientan de norte a sur, a continuación, las correlaciones puede ser mayor en esa dirección que en la dirección este-oeste.

El método de Krige deriva de estos supuestos era esencialmente estadística, debido a que el prospector presta más atención a las covarianzas (una medida proporcional a la correlación de las desviaciones al azar) que los valores reales de las mediciones de pozos en un primer momento. Esta información se resume en un gráfico llamado "variograma." Una vez que se conoce el variograma, una estimación del grado de mineral en cualquier punto en el campo se puede interpolar, tomando una media ponderada de la calificación en los pozos cercanos. Los pesos se calculan a

Page 27: Diseño de Agregado

partir del variograma por una fórmula que Krige desarrollado. La estimación resultante es el mejor predictor lineal insesgado de la concentración real de mineral.

Técnicas de interpolación de varias clases se desarrollaron mucho antes Krige. Sin embargo, ninguno de estos enfoques es inherentemente estadística. Ellos no se basan en un modelo de incertidumbre. En lugar de minimizar el error esperado en el predictor, optimizan otras cosas-la suavidad de la función interpolada, por ejemplo. Pero un minero no le importa si la distribución prevista de mineral es suave. Él sólo quiere asegurarse de que es correcto!

Irónicamente, el propio Krige no entendía plenamente la optimización de su técnica. Fue Georges Matheron, un matemático francés y geólogo, quien aclaró la teoría en la década de 1960 e introdujo el nombre "kriging". Matheron también desarrolló una

Page 28: Diseño de Agregado

serie de métodos alternativos para los casos en que modelo simple de Krige no es razonable. Por ejemplo, en kriging "ordinaria" (inventado por Matheron), no asuma que usted sabe que la concentración promedio del mineral en el campo. En kriging "universal" (también inventado por Matheron), se puede asumir que la concentración promedio del mineral tiene una tendencia distinta. Por ejemplo, puede aumentar gradualmente en la dirección norte-sur.

Nuevas variantes se han descubierto hasta hoy. Técnicas-como muchos escala estadística tradicional de Matheron técnicas-no así. En la práctica, si usted tiene más de unos pocos cientos de puntos de datos, el cálculo se detendría (o un arrastre lento). Para resolver este problema, "kriging rango fijo", introducido en 2006, trae kriging en la era de Big Data. De rango fijo kriging Krige y acelera el algoritmo en órdenes de magnitud

Page 29: Diseño de Agregado

al asumir una forma particularmente parsimoniosa de los variogramas.

La utilidad de kriging va mucho más allá de la minería, aunque no siempre es llamado por ese nombre en más campos alejadas. Modelo estadístico de Krige fue descubierto en la Unión Soviética antes de que fuera conocida en Occidente, y un meteorólogo soviético llamado Lev Gandin demostró independientemente teoremas de MATHERON sobre la optimalidad de kriging. Los rusos llaman el variograma una "función homogénea estructura" y kriging "interpolación óptima", o OI. Por desgracia, no eran tan listos a nombrar las cosas como Georges Matheron era!

Las cuestiones de nomenclatura de lado, la aplicabilidad de kriging a la meteorología no es difícil de explicar. Los meteorólogos constantemente tienen que producir mapas con curvas suaves a partir de datos que se

Page 30: Diseño de Agregado

concentran en un pequeño número de puntos de observación. Mientras kriging puede ser demasiado computacionalmente intensivas a utilizar para un mapa del tiempo diario, es perfecto para cosas como la estimación del espesor de la capa de nieve o dibujar un mapa del agujero de ozono.

En los últimos años, muchos agricultores han adoptado la "agricultura de precisión", un desarrollo que se debe tanto a kriging como a la nueva tecnología. Los agricultores pueden ahora manejar sus cultivos de una manera que tenga en cuenta las variaciones en las condiciones de cultivo dentro de un campo. Miden estadísticas tales como la acidez del suelo o de la productividad de los cultivos anteriores en unos pocos lugares y utilizan kriging para crear un mapa sin problemas de todo el campo. El mapa permite a decidir dónde colocar cal o fertilizantes y la cantidad. Al limitar el uso de estos productos químicos, que no sólo

Page 31: Diseño de Agregado

ahorrar dinero, sino también minimizar el daño a

el medio ambiente.

Aunque desarrollado para las geociencias, kriging incluso puede extenderse al espacio exterior. Una manera en que los astrónomos infieren la distribución de materia en el universo implica lo que ellos llaman el "bosque Lyman-alfa." La luz de los quásares muy lejanos pasa a través de muchas galaxias y nubes de gas en su camino hacia nuestros telescopios en la Tierra. Una longitud de onda específica de esta luz (la banda Lyman-alfa) es absorbida por los átomos de hidrógeno que encuentra en el camino. La cantidad de absorción da a los astrónomos una pista a la cantidad de materia que está ahí fuera. Sin embargo, la información se limita a una sola dimensión-la línea recta de visión entre la Tierra y el quasar. Esa línea de visión es como un pozo

Page 32: Diseño de Agregado

en un campo de oro, sólo que es un pozo de miles de millones de años luz de largo. Por desgracia, no hay muchos quásares, y hay un montón de espacio vacío entre las perforaciones (o los árboles en el bosque Lyman-alfa, para usar la metáfora de que los astrónomos prefieren). No es de extrañar, kriging es un método para inferir la distribución de la materia en los de-entre regiones.

1.7 'Analytics' en Deportes y Política

En los últimos años, las estadísticas y los métodos estadísticos han alcanzado prominencia sin precedentes en el mundo del deporte, donde se refieren a menudo como

En los últimos años, las estadísticas y los métodos estadísticos han alcanzado prominencia sin precedentes en el mundo del deporte, donde se refieren a menudo como "análisis"

Page 33: Diseño de Agregado

Los estudios de análisis "." El ejemplo más publicitado fue la adopción de la analítica por el Oakland (California)

Equipo de béisbol de Atletismo a finales de 1990 y principios de 2000, el tema del libro (y la película) Moneyball. El Atletismo disfrutó-y todavía están disfrutando-una racha de éxito que es inconmensurable con sus recursos financieros. Moneyball atribuye su éxito a la gerente general visionario, Billy Beane, que estaba dispuesto a adoptar las métricas convencionales de capacidad de béisbol. (Un gerente general hace que las decisiones de contratación y comercial y es por lo tanto responsable de personal en un equipo de béisbol.)

El movimiento de análisis también recibió un impulso por el éxito de los Medias Rojas de Boston. Aunque no es un equipo de mercado pequeño en el molde de los Atléticos, la franquicia de los Medias Rojas de largo

Page 34: Diseño de Agregado

había sido considerado para ser "maldito" (no es un concepto estadístico o científico!) Debido a su incapacidad para ganar una Serie Mundial desde 1918 En 2002 , los Medias Rojas contrataron a un nuevo director general de análisis orientado, Theo Epstein, y trajeron en el fundador de la analítica de béisbol (también conocido como "sabermetrics"), Bill James, como consultor en 2003 Efectivamente, en 2004, que ganó su primera Serie Mundial en 86 años y lo siguió con dos títulos más en 2007 y 2013 Analytics repente parecía un camino de oro para el éxito. Hoy en día, de acuerdo a Oakland

Director de operaciones de béisbol de Atletismo Farhan Zaidi, cada equipo de béisbol profesional cuenta con un departamento de análisis de algún tipo.

Page 35: Diseño de Agregado

El movimiento sabermetric comenzó realmente a principios de 1980, cuando James, en su béisbol anual

Resumen, comenzó someter las estadísticas de béisbol al escrutinio cuantitativa. Béisbol había sido durante mucho tiempo uno de los deportes más ricos en datos, pero James encontrado que muchas de las medidas tradicionales de éxito, como "promedio de bateo" para los bateadores o "registro de pérdida de ganado" para los lanzadores, tenían poco valor predictivo. El promedio de bateo ignoró arbitrariamente una manera importante de un bateador puede contribuir a su equipo (dibujando un paseo, por lo tanto llegar a la base sin tener que golpear la bola). El promedio de bateo también se inclina a favor de los bateadores en los parques "amigable para los bateadores". Para los lanzadores, victorias y derrotas se parecen como una métrica natural, pero están contaminados por muchos

Page 36: Diseño de Agregado

ESTADÍSTICOS ESTUVIERAS AQUÍ: UNAS PALABRAS SOBRE LA TERMINOLOGÍA

Tal como se utiliza en este informe, las palabras "datos" y "estadísticas" significan dos cosas diferentes. Este punto, que es tan evidente para los estadísticos que apenas necesita mencionar, sin embargo, es crucial establecer desde el principio. Para el público en general, las dos palabras son casi sinónimos, y la mayoría de la gente tendría grandes dificultades para explicar la diferencia si se presiona para hacerlo. La confusión es muy importante, ya que conduce a una falta de comprensión o apreciación por lo que los estadísticos hacen.

En este informe, la palabra "datos" se refiere a una serie de mediciones u observaciones-por lo general en forma numérica, pero no necesariamente-de algún fenómeno. Por

Page 37: Diseño de Agregado

otra parte, las "estadísticas" palabra se refiere a una disciplina académica y un conjunto de mejores prácticas para convertir los datos en información procesable significativa sobre el mundo real, sobre todo en presencia de incertidumbre. La palabra "estadística" también se utiliza en la literatura especializada para significar "un resumen numérico de datos." Por ejemplo, la mediana y la media son ejemplos de una estadística.

Por ejemplo, un estadístico puede dar datos sobre el número de visitantes únicos a un sitio web cada día. El objetivo es transformar los datos en conocimiento, tales como esto:

El número de visitantes tiende a ser mayor en los días cuando hay una nueva entrada, o el número de visitantes se comporta como una función lineal del presupuesto de publicidad, además de una cierta cantidad de variación aleatoria.

Page 38: Diseño de Agregado

¿Los datos apoyan esta conclusión? Si es así, con qué fuerza? Para evaluar estas declaraciones, el estadístico puede calcular ciertos tipos de estadísticas, como medios y coeficientes de regresión lineal y los valores de p. (Este último término se menciona en varios lugares de este informe. En resumen, los valores de p son una forma de evaluar la "significación estadística" de una diferencia entre dos grupos, como "día con un mensaje" y "días sin mensaje. ") No importa qué conclusión llega el estadístico, siempre habrá incertidumbre sobre el resultado. Estadísticas pretende cuantificar la incertidumbre, no para ocultarla.

La incertidumbre viene en dos sabores: aleatorios y sistemáticos. Ambos son motivo de preocupación para los estadísticos. Ellos han desarrollado un conjunto de potentes herramientas matemáticas en los últimos años para estimar el tamaño y la naturaleza de la incertidumbre aleatoria en diversos

Page 39: Diseño de Agregado

contextos. Esta es la experiencia profesional que los estudiantes estadísticas adquieren durante su formación y que los científicos llaman a todos los días. Incertidumbre sistemática es tan importante, y no es tan fácil de manejar. Incertidumbre sistemática comprensión requiere un cierto marco escépticos de mente, que está dispuesto a buscar

los sesgos ocultos en la recogida de datos y para rechazar los datos directamente si los prejuicios no pueden ser corregidos por.

Este escepticismo lúcido se puede enseñar en la escuela, pero también se aprende mediante la experiencia y el ejemplo. Es uno de los ingredientes más importantes que los estadísticos profesionales pueden llevar a la mesa en la investigación científica, a ser posible, incluso antes de recoger los datos. "El estadístico que supone que su principal contribución a la planificación de un

Page 40: Diseño de Agregado

experimento implicará la teoría estadística, se encuentra en varias ocasiones que él hace su contribución más valiosa simplemente por persuadir al investigador a explicar por qué se quiere hacer el experimento", escribió Gertrude M. Cox , un estadístico estadounidense pionero y el ex presidente de la Asociación Americana de Estadística.

En resumen, la estadística es una profesión que se basa en los datos, pero las estadísticas son más que datos. Los datos deben recogerse con un propósito (aunque el uso adecuado de los datos secundario, diferente del uso previsto originalmente, puede también ser de carácter informativo). Se debe prestar atención a la identificación de factores de confusión y la eliminación de las fuentes sistemáticas de sesgo. Cuando se extraen conclusiones, que deben presentarse de una manera que reconoce la incertidumbre y calcula su tamaño. Cuando

Page 41: Diseño de Agregado

todos estos ingredientes están presentes, si el contexto es la economía o la biología o el comercio Web, es como una firma: "Estadísticos estaban aquí."

Estadísticos estuvieras aquí: Unas palabras sobre la terminología factores de confusión. Un lanzador puede lanzar mal, pero

no obstante, obtener crédito por la victoria porque su equipo marca muchas carreras. Del mismo modo, un esfuerzo de lanzadores de gran alcance puede ir a perder por razones fuera del control del lanzador. A lo sumo, victorias y derrotas son una medida imperfecta del valor de un lanzador, y no son causal. Un buen registro de ganados y perdidos es el resultado del éxito de un lanzador; no es un predictor.

Estos principios-de controlar los factores de confusión, eliminar el sesgo, la correlación distintiva de la causalidad-han sido parte de

Page 42: Diseño de Agregado

la buena práctica estadística durante mucho tiempo. Sin embargo, a pesar de la abundancia de datos en el béisbol, los datos nunca habían sido sometidos antes a un pensamiento estadístico riguroso. No es de extrañar que los primeros usuarios de sabermetrics disfrutaron de un éxito considerable contra equipos que utilizan métricas sin fundamentos estadísticos sólidos.

En 2007, Nate Silver, un sabermetrician conocido, se aventuró en otra área de alto perfil: la política. Frustrado por la falta de una metodología sólida entre muchos expertos políticos, comenzó a escribir un blog llamado FiveThirtyEight.com. En las elecciones presidenciales de 2008 en Estados Unidos, pronosticó correctamente los resultados de 49 de los 50 estados, así como todas las 35 carreras del Senado. Esta tasa de éxito aparentemente extraña atrajo a una gran cantidad de atención de los medios, y su

Page 43: Diseño de Agregado

blog fue adquirida por The New York Times. En la elección presidencial de 2012, que llamó correctamente los resultados de los 50 estados y 31 de las 33 carreras del Senado. Una semana antes de la elección, que dio al presidente Obama una probabilidad del 70 por ciento de ganar, y por el día de la elección, la probabilidad era un 90 por ciento, aunque muchos comentaristas estaban llamando la elección de un cara o cruz.

Silver no se basa (al menos no en gran medida) en información privilegiada. Su método es simplemente a agregarse encuestas existentes, la ponderación de ellos de la manera más informativo. Incluso una encuesta que está sesgada hacia habitualmente una de las partes puede contener información útil. Se puede tener acceso, por cualquier razón, a los votantes potenciales que otras encuestas se pierda. Un agregado de las encuestas puede

Page 44: Diseño de Agregado

incorporar más información que cualquier encuesta individual, y al final, será casi siempre superan a las encuestas individuales.

Hasta cierto punto, la notable hazaña de predecir correctamente 50 de los 50 estados oscurece lo que Silver realmente hizo y por qué sus métodos funcionan. Como explica en su libro best seller La señal y el ruido, hay una diferencia entre la predicción y la previsión. Una predicción es un solo resultado: "Obama va a ganar Ohio." Un pronóstico es una declaración de probabilidad: "Obama tiene una probabilidad del 80 por ciento de ganar Ohio ".

Un ejemplo de los pronósticos que todos conocemos es un pronóstico del tiempo. Como Silver señala, estamos mejor en la predicción del tiempo que casi cualquier otro fenómeno incierto en nuestras vidas: los mercados de valores, terremotos, ataques

Page 45: Diseño de Agregado

terroristas. Hay muchas razones, pero una de ellas es que las previsiones meteorológicas no pretenden ser predicciones. Siempre vienen con una probabilidad de error. Si un meteorólogo honesto dice que hay una probabilidad del 80 por ciento de la lluvia, él debe estar mal de una quinta parte del tiempo. Debería llover literalmente el 80 por ciento de las veces que emite un pronóstico de este tipo y

no debería llover el otro 20 por ciento. los datos

muestran, de hecho, que esto es exactamente lo que sucede con las previsiones meteorológicas.

Elecciones presidenciales estadounidenses son especialmente adecuados para un enfoque probabilístico porque implican 51 mini-elecciones (incluyendo el Distrito de Columbia) que se correlacionan de manera complicada. Un experto que se basa

Page 46: Diseño de Agregado

únicamente en la experiencia y la intuición no puede evaluar las probabilidades suficientemente bien, pero un modelo computarizado de lata.

Es sumamente importante para un pronosticador político para pensar como un pronosticador del tiempo en términos de una distribución de probabilidad con un cierto margen de error. Por supuesto, esto va en contra de la inclinación de la mayoría de la gente que lee las encuestas. La naturaleza humana no le gusta la incertidumbre. Nos gusta predicciones: "El presidente Obama va a ganar las elecciones." Pero un pronóstico es más honesto y más confiable en el largo plazo, si se hace alguna declaración explícita acerca de la gama de posibles resultados.

Al igual que los éxitos de Theo Epstein y Billy Beane, el éxito de Nate Silver no se logró en el vacío. Los estadísticos han estado pronosticando cosas como la

Page 47: Diseño de Agregado

participación electoral y los efectos de gerrymandering durante al menos tres décadas, y los métodos de la plata no son particularmente novedoso o mejor que los otros. Lo que es nuevo es la cantidad de atención de los medios que él ha atraído. Ha ido más allá de las revistas académicas tradicionales, la difusión de sus investigaciones a través del medio más leído de la Internet. De esta manera, se ha mejorado en gran medida el perfil público de estadísticas. Este enfoque claramente tiene sus peligros, y no puede sustituir a la publicación revisada por pares en revistas. Sin embargo, sí proporciona una oportunidad y un modelo para el compromiso público que otros estadísticos podrían pensar en emular. No sólo eso, se nota que el sonido, el razonamiento estadístico de principios tiene una oportunidad de ser escuchado en medio de la Babel de opiniones en conflicto que es la

Internet. ❖