sem11_preparacion y sintesis de datos

19
UNIVERSIDAD JOSE CARLOS MARIATEGUI Pág. 66 PREPARACIÓN Y SINTESIS DE DATOS INTRODUCCIÓN Hasta en el restaurante más elegante, hay alguien encargado de abrir las latas, cortar la verdura y mondar las papas. Y sobre eso versa precisamente el presente capitulo la elaboración de los datos que hemos reunido y su conversión en una forma que facilite el análisis y la presentación de los mismos. A diferencia de los capítulos anteriores que trataban de la obtención de información, en éste veremos lo que se hace una vez que la hemos recabado. El proceso de preparación de los datos incluye la corrección de ellos, la codificación de las respuestas en categorías y su fabulación en frecuencias o tablas. Antes de iniciar el análisis y la presentación de los datos, éstos han de ser compendiados en forma estadística o gráfica. Así pues, en este capitulo abordaremos los siguientes temas: I. Corrección. II. Codificación III. Tabulación IV. Síntesis estadística V. Síntesis gráfica CORRECCIÓN En la primera etapa de la preparación de los datos examina los datos iniciales un editor de campo o central, y lo hace para cerciorarse de que la información sea exacta, completa y útil. Entre las consideraciones que se hacen en esta fase se encuentran el examen (tamizado) inicial el establecimiento de las categorías de respuestas y la corrección en el campo y en las oficinas centrales.

Upload: m4gn3to

Post on 15-Jan-2016

219 views

Category:

Documents


0 download

DESCRIPTION

mercado

TRANSCRIPT

Page 1: Sem11_Preparacion y Sintesis de Datos

UNIVERSIDAD JOSE CARLOS MARIATEGUI

Pág. 66

PREPARACIÓN Y SINTESIS DE DATOS INTRODUCCIÓN

Hasta en el restaurante más elegante, hay alguien encargado de abrir las latas, cortar la verdura y mondar las papas. Y sobre eso versa precisamente el presente capitulo la elaboración de los datos que hemos reunido y su conversión en una forma que facilite el análisis y la presentación de los mismos. A diferencia de los capítulos anteriores que trataban de la obtención de información, en éste veremos lo que se hace una vez que la hemos recabado.

El proceso de preparación de los datos incluye la corrección de ellos, la codificación de las respuestas en categorías y su fabulación en frecuencias o tablas. Antes de iniciar el análisis y la presentación de los datos, éstos han de ser compendiados en forma estadística o gráfica. Así pues, en este capitulo abordaremos los siguientes temas: I. Corrección. II. Codificación III. Tabulación IV. Síntesis estadística V. Síntesis gráfica CORRECCIÓN

En la primera etapa de la preparación de los datos examina los datos iniciales un editor de campo o central, y lo hace para cerciorarse de que la información sea exacta, completa y útil. Entre las consideraciones que se hacen en esta fase se encuentran el examen (tamizado) inicial el establecimiento de las categorías de respuestas y la corrección en el campo y en las oficinas centrales.

Page 2: Sem11_Preparacion y Sintesis de Datos

UNIVERSIDAD JOSE CARLOS MARIATEGUI

Pág. 67

Examen (tamizado) inicial Inmediatamente después de terminada una encuesta, se realiza este examen de los cuestionarios

para precisar si las respuestas son legibles, coherentes y completas, y también para averiguar si el respondiente tomó en serio su responsabilidad.

¿Son legibles las respuestas?. Si la contestación a una pregunta no es legible, quizá debamos: 1) volver al entrevistador o al sujeto para que nos la aclare; 2) tratar de inferir de otras contestaciones lo que probablemente significa la respuesta ilegible; 3) desecharla por completo. Desde luego, esta clase de problema tiende a surgir cuando se recurre a preguntas abiertas y el respondiente llena el cuestionario sin que esté presente el entrevistador ¿Son coherentes las respuestas?. Demuestra incongruencia el respondiente que contesta una pregunta sobre la escolaridad diciendo "actualmente curso el último año de enseñanza media" y luego indica que su ocupación es "profesor universitario". Asimismo, puede estar en favor de una cuestión o preferir a un candidato político en la primera parte del cuestionario y luego contradecirse más adelante. Al diseñar los cuestionarios, redactamos intencionalmente una pregunta en dos formas distintas con objeto de "atrapar" a quienes ofrecen contestaciones incongruentes. Las respuestas incompatibles entre sí revelan que el respondiente ha cambiado de alguna manera durante la entrevista o cuestionario, no ha entendido una o varias preguntas o bien que simplemente no ha sido muy cuidadoso en su papel de entrevistado. Al corregir un cuestionario que contenga contradicciones, se aconseja eliminar todas las respuestas incongruentes a menos que podamos averiguar cuáles tienen mayores probabilidades de ser verídicas. ¿Están completas las respuesta?. EI error por falta de respuesta puede existir en preguntas individuales y también en. el cuestionario entero. Ese tipo de error plantea un problema especial, ya qué es imposible saber si el sujeto simplemente omitió la contestación, no conocía la respuesta o bien la conocía pero no quería compartir el secreto con el investigador. A causa del anonimato garantizado en multitud de cuestionarios auto administrados, el motivo de la falta de respuestas puede seguir siendo un misterio. Pero cuando ha estado presente un entrevistador, en ocasiones es posible interrogarlo a fin de conseguir información sobre la respuesta faltante. ¿Toma en serio su papel el respondiente? La generalidad de los, participantes toman en serio su papel de respondientes, pero hay quienes no. Por ejemplo, algunos dicen que su ocupación es la gerencia de una gran ¡corporación o que su hobby consiste en esquiar en Suiza durante el invierno. Este tipo de respondientes suele ser fácil de detectar de modo que podemos prescindir de sus cuestionarios. sin perder información útil. No obstante, algunas contestaciones que al inicio dan la impresión de ser absurdas pueden ser a veces fruto de un esfuerzo responsable, por parte del sujeto. A manera de ejemplo, examinemos una de las preguntas proyectivas explicadas en el capítulo 8: Al inicio se pensó que una respuesta: "No, ya lo hice en la oficina" provenía de un cómico frustrado. En una entrevista posterior de sesiones de grupo, el respondiente aclaró que su contestación no pretendía ser una broma, sino que reflejaba su opinión personal de que inscribirse en el curso equivalía a “donar” parte de su tiempo y no le redituaría importantes beneficios en cuanto a su realización personal y profesional. Si bien se trata de un punto de vista de una minoría insignificante, expresaba las ideas de ese individuo acerca del curso. Sin la información conseguida en la sesión de grupo, sé hubiera desechado la respuesta por considerarla una de tantas bromas de los participantes poco serios.

Persona A: “En la compañía se ofrecerá un curso de manejo defensivo la próxima semana. ¿Piensa usted

inscribirse en él?”

Persona B: “No Yo_________________________________________________________________

Page 3: Sem11_Preparacion y Sintesis de Datos

UNIVERSIDAD JOSE CARLOS MARIATEGUI

Pág. 68

¿Son demasiado congruentes las respuestas? La presencia de un patrón extraordinariamente coherente dentro de un cuestionario (por ejemplo, en cada pregunta de opción múltiple la primera categoría de respuestas ha sido comprobada) revela que el sujeto ha puesto más empeño al escribir que en reflexionar. Asimismo, las semejanzas, insólitas entre varios cuestionarios se deben a veces a la intervención de un entrevistador profesional que ha ejercido un influjo demasiado profundo en los respondientes o que ha dado contestaciones personalmente. Establecimiento de las categorías de respuesta

Aunque las contestaciones a preguntas dicotómicas y de opción múltiple bien formuladas no plantean problemas ni para la codificación ni para la síntesis, las provenientes de la terminación de oraciones y de otras preguntas abiertas a menudo resultarán difíciles de prever. De ahí que, luego de observar los tipos de respuesta, sea necesario establecer categorías significativas para la codificación y tabulación. Por ejemplo, supongamos que acabamos de preguntar a una muestra de compradores recientes de una televisión: "¿Qué es lo que más le gusta de su televisor?"

Luego de examinar todas las respuestas, estableceremos categorías en las cuales las codificaremos. 'He aquí algunas de ellas: "calidad de la imagen", "estilo atractivo" y "buena recepción". Además de ellas, incluiremos también otras categorías según lo exija la gama de respuestas. Las categorías se seleccionarán de modo que: 1) abarquen todas las contestaciones y 2) cada contestación encaje en una categoría. Presentaremos un ejemplo más completo,¡respecto a la selección de categorías cuando hablemos de la poscodificación de las respuestas a la encuesta. Corrección en el campo

Este tipo de corrección se lleva a cabo "en la trinchera", donde los entrevistadores hacen una pausa

para completar las oraciones inconclusas, terminar las abreviaturas y redondear otras ideas o puntos que eran importantes para la entrevista, pero que no pudieron escribir antes. Dado que con el tiempo se olvidan los detalles de la entrevista, conviene que la corrección en el campo se realice Inmediatamente después de finalizada la entrevista. Tanto la corrección en el campo como la corrección en las oficinas centrales, expuestas en la siguiente sección, se refieren a la integridad, legibilidad y otros puntos mencionados antes bajo el encabezado de examen inicial. Corrección en la oficina central

Después de la corrección hecha en el campo, los formularios de los cuestionarios o entrevistas suelen corregirse en una oficina central, de manera que ofrece la mayor congruencia posible gracias a la intervención de un solo corrector. Si el tamaño de la encuesta hace imposible que una persona realice sola toda la tarea de corrección en la oficina central, se aconseja dividir el, trabajo en forma tal que cada corrector se encargue de una sección determinada del cuestionario. Con ello nos aseguramos de que cada pregunta sea tratada de manera unif9rrne para cada respondiente.

Page 4: Sem11_Preparacion y Sintesis de Datos

UNIVERSIDAD JOSE CARLOS MARIATEGUI

Pág. 69

CODIFICACIÓN

La codificación es la asignación de respuestas a las categorías e incluye la identificación de cada respuesta con un número asociado a esta categoría. Hay dos procedimientos de codificación: la precodificación y la poscodificación. Precodificación

La precodificación es apropiada en las preguntas dicotómicas y de opinión múltiple, que sólo tienen

una escasa selección de respuestas. La naturaleza de estos tipos de preguntas permite al investigador establecer las formas en que los números se asignarán a distintas respuestas.

A continuación damos un ejemplo de cómo la codificación puede hacerse con cuestionarios estructurales. Examinemos el cuestionario de la figura 11-2, que sirvió para examinar el atractivo de varios temas de programas destinados al curso de mejoramiento de los conductores. El cuestionario se llenó por medio de las X ordinarias, marcas de comprobación y círculo, como lo hubiera hecho un respondiente real. Según se advierte en la figura 11-2, tenemos ahora 14 diferentes “descriptores” del respondiente: 1-10: grado de énfasis que le gustaría que tuviera cada uno de los diez temas presentados. 11: el tema que identificó como el que mas prefiere.

Page 5: Sem11_Preparacion y Sintesis de Datos

UNIVERSIDAD JOSE CARLOS MARIATEGUI

Pág. 70

12: su grado de conocimiento del curso de manejo defensivo 13: edad 14: sexo

Según el modo en que queramos tabular los datos, podemos codificar las respuestas en una hoja de resumen o perforarlas en una tarjeta de computadora. Si los resultados se analizaran por computadora, una hoja de resume como la de la figura 11-3 será suficiente. Sin importar si las entradas se colocan en la hoja o en las tarjetas de computadora, es preciso servirse de un esquema de codificación para traducir en números las respuestas

En la hoja de resumen de la figura 11-3, vemos que el. respondiente número 9 es la persona

cuyo cuestionario aparece en la figura 11-2. En el noveno renglón bajo el encabezado del “Sujeto", cada una de sus respuestas ha sido convertida en un número.

Por ejemplo, ha dado la máxima preferencia(7) a la presentación de la política estatal y a los temas de condiciones desfavorables; indicó que este último es el tema que más prefiere (está presentado por el asterisco cercano a su puntuación de ese tema). De manera análoga, el respondiente se encuentra en la

Page 6: Sem11_Preparacion y Sintesis de Datos

UNIVERSIDAD JOSE CARLOS MARIATEGUI

Pág. 71

segunda de las cuatro categorías del conocimiento del curso de manejo defensivo, recibiendo un "2" en esa medida. Ésta no es la única clave de codificación que pudiera haber sido constituida para convertir las respuestas en números. Sin embargo, lo importante es llegar a una clave lógica y luego aplicarla de manera uniforme en todos los cuestionarios.

Si las respuestas serán analizadas por computadoras, primero se convierten en una forma que permita perforarlas en una tarjeta. El primer paso consiste en introducir las respuestas codificadas en una hoja de resumen que tiene el formato de 80 columnas de la tarjeta perforada. A continuación, las respuestas se perforan en la tarjeta; cada responde queda representado por una o más tarjetas. En este caso, bastará una tarjeta por persona. La figura 11-4 muestra cómo los datos de nuestro ejemplo pueden introducirse para el respondiente número 9. Se perforará una tarjeta para cada respondiente (pero las entradas corresponderán al cuestionario del respondiente). En el caso del respondiente número 9, la tarjeta de la figura 11-4 se perforará así: Cols. 1.2: el número del respondiente (9) Cols. 3-4: grado de preferencia del respondiente por el primer tema presentado ("discusiónen, el aula...) Cols. 5-6: grado de preferencia del respondiente por el segundo tema presentado (presentación del conductor del autobús) Cols. 7-12: grado de preferencia del respondiente por los temas del tres al diez Cols. 23-25: tema favorito del respondiente (condiciones desfavorables) Cols. 26-27: categoría de conocimiento del respondiente sobre el curso de manejo defensivo (2) Cols. 28-30: edad (36) Cols. 31-32: sexo (1 = varón)

Obsérvese que hemos tenido en cuenta el mayor número posible en cada uno de los campos precedentes y que se ha dejado espacio entre las entradas. Por ejemplo, se dejaron tres espacios para la edad del respondiente, que en la muestra seleccionada es un número de dos dígitos. Esto facilita un poco la verificación de las tarjetas perforadas en caso de ser necesario, pues los números no están amontonados en la tarjeta. Pero si tenemos copiosos datos para cada respondiente, quizá haya que renunciar al lujo de dejar espacios entre las entradas y terminar con un mínimo número de tarjetas para cada respondiente.

Al decidir cuántos espacios dejar para una pregunta determinada, habrá que considerar también la posibilidad de que una pregunta reciba varias respuestas. Por ejemplo, si en una pregunta se inquiriese: "¿Cuál de los seis adjetivos siguientes describe sus ideas ante el curso de manejo defensivo?", un sujeto podría marcar varios de ellos; por ejemplo, "útil", "informativo" y "barato" dejando el resto sin marcar. En esa

Page 7: Sem11_Preparacion y Sintesis de Datos

UNIVERSIDAD JOSE CARLOS MARIATEGUI

Pág. 72

pregunta asignaremos seis espacios en la tarjeta perforada, ya que es posible que un respondiente marque todos los adjetivos. Poscodificación

Cuando las respuestas son de tipo abierto, como sucede con un conjunto de preguntas no

estructuradas, será preciso asignar las respuestas a categorías que han sido seleccionadas después de recabar los datos. En seguida damos un ejemplo de cómo funciona la poscodificación. Examinemos la siguiente pregunta y las respuestas dadas por una muestra hipotética de quince. personas: Pregunta

"Cuando veo un automóvil Porsche, de inmediato pienso en _________________ “

Respuestas 1. "cuánto me divertiría si tuviera uno," 2. “cuán injusto es nuestro sistema social porque en él sólo algunos tienen suficiente dinero para comprarse un auto de esos." 3. “carreras de automóviles." 4. "los autos pequeños y lo peligroso que son," 5. "la balanza de pagos de mi país." 6. "los riesgos que encierra conducirlo." 7. "mi hermano, porque él está loco por los autos deportivos." 8. "el precio de una póliza de seguros de un auto de esos." 9. "en los ricos." 10. “en los obreros de las fábricas que están sin empleo." 11. "todos estos trabajadores de la industria siderúrgica que están sin empleo." 12. “lo que cuesta hacer uno de esos autos." 13. "en la sorpresa que se llevaría mi esposa si me viera conduciendo uno." . 14. "ir al cine." 15. "levantar la mano y pedir un paseo al que conduce uno de esos autos."

Luego de seleccionar las categorías donde encajan todas las respuestas, podríamos poscodificar las respuestas anteriores del modo siguiente: Deseo del conducir un Porsche o de poseer uno, respuesta 1, 6, 13, 15 Comentario socioeconómico negativo, respuestas 2, 5, 9, 11 Inconveniencia o desventajas de poseer uno, respuestas, 4, 8, 10, 12 Otros, respuestas, 3, 7 Respuesta irrelevante o, humorística, respuesta 14.

Las contestaciones 9 y 13 plantean un problema ligero, y se pusieron en sus categorías como "necesidad de juicio". Por ejemplo, una discusión con el que proporcionó la respuesta 9 quizá revele que desea ser rico y que le gustaría tener un Porsche por su valor de "status". No obstante, la codificación de esa respuesta en la segunda categoría se llevó a cabo por la connotación negativa del adjetivo "rico", mientras que "acaudalado" habría sido un descriptor menos, negativo de aquellos que gozan de una buena posición económica.. Asimismo, la respuesta 13 se colocó en la primera categoría por suponerse que al respondiente le gustaría poseer un Porsche, pero cree que su esposa (y sus acreedores) se molestarían si lo comprase. La respuesta 14 se lista por separado de la categoría "otros" debido a su evidente falta de relación con el tema de la pregunta.

Si el número de cuestionario hace indispensable emplear varios códigos, es preferible dividir el

trabajo de modo que,.cada codificador se encargue de todas las preguntas de una parte del cuestionario.

Page 8: Sem11_Preparacion y Sintesis de Datos

UNIVERSIDAD JOSE CARLOS MARIATEGUI

Pág. 73

Esta recomendación y sus ventajas de uniformidad, se expusieron antes al hablar de la asignación de las tareas de corrección cuando se procesan cuestionarios extensos. En los casos en que se requiere la división de esa responsabilidad, también se aconseja dejar a cada codificador "muestrear" parte del trabajo de los demás. 0eese modo; podrán hacer que los resultados tengan mayor coherencia de la que se lograría si la tarea la efectuara uno solo. TABULACION

Una vez asignadas las respuestas a las categorías, el siguiente paso consiste en contar cuántas

tenemos en cada categoría. A esto se le llama tabulación y puede adoptar dos formas básicas: tabulación sencilla y tabulación cruzada. El recuento y la síntesis de las. respuestas pueden hacerse manualmente o con una máquina, según el volumen de los datos y la disponibilidad de programas, de computadora adecuados. Tabulación sencilla

La tabulación sencilla, denominada también fabulación marginal o con un solo criterio, culmina en

una distribución de frecuencia de cuántas respuestas había en cada categoría. Supongamos, por ejemplo, que acabamos de encuestar a los usuarios de una marca hipotética de una pastilla para adelgazar, figurando en el cuestionario las siguientes preguntas: 1)edad, 2) número de meses que el cliente lleva ingiriendo la pastilla y 3) número de kilogramos que ha perdido desde que inició el programa de reducción de peso. Una simple tabulación de los resultados podría revelar datos como los que vienen en la tabla 11-1, donde las entradas son el número de personas en cada categoría para las tres preguntas; Tabulación cruzada

Aunque la tabulación sencilla nos permite expresar nuestros hallazgos en función de una variable a

la vez, muchos de los resultados más útiles en las investigaciones de mercado representan importantes relaciones entre variables. ,En este caso se requiere una tabulación cruzada. Un ejemplo de una tabulación cruzada con dos criterios, referente a la tableta maravillosa del Dr. Helium, se presenta en la tabla 11-2. Esta tabulación incluye dos de las tres mediciones que se advierten en la tabla 11-1: 1) número de meses que el respondiente lleva ingiriendo la tableta; 2) número de kilogramos que el respondiente ha perdido desde que usó por primera vez el producto. Si nos basamos, en un examen visual datos de la tabla 11-2, tendríamos la impresión de que puede existir alguna relación entre la pérdida de peso y la ingestión de las tabletas. Sin embargo, conviene posponer esto para el siguiente capítulo que dedicamos al análisis de ésta y otras clases de datos.

La tabulación cruzada con dos criterios en la tabla 11-2 se parece a un experimento factorial de dos

variables 6 x 6. En efecto, la tabla podría reflejar los resultados de un experimento diseñado específicamente para determinar si las dos variables guardan una relación entre si. Como sucede con el experimento factorial, mas de dos variables también pueden estar presentes, si bien describirlas en una hoja bidimensional de papel constituye un reto. Por ejemplo, la tabla 11-3 muestra los datos básicos de la encuesta sobre la tableta del Dr. Helium que incluye la edad, meses desde la fecha en que se empezó a ingerir la tableta y el número de kilogramos (libras) perdidas. Para simplificar la tabla 11-3, la variable edad se condensó en dos categorías solamente : 40 y menos de 40, 41 y más de 41.

Page 9: Sem11_Preparacion y Sintesis de Datos

UNIVERSIDAD JOSE CARLOS MARIATEGUI

Pág. 74

La tabulación cruzada es una de las técnicas más comunes con que se sintetizan los datos de la investigación de mercados. Permite al analista identificar estadísticamente las relaciones significativas entre las variables y ofrece la ventaja adicional de presentar un "panorama" lógico de los datos que laico puede examinar e identificar visualmente. Si bien la forma más eficaz de la tabulación cruzada es la variedad bidimensional, surgen pocos problemas cuando se están midiendo más de dos variables en un estudio. Lo único que se debe hacer es presentar las variables dos a la vez.

Así pues, si hay n variables, esto exigiría [n (n – 1)]/2 presentaciones diferentes (la combinación de

/1 cosas tomadas dos a la vez). En el caso de cuatro variables distintas, habría [4(4 - 1 )]/2, o sea 6 presentaciones diferentes bidimensionales. Sin duda limitar el análisis a dos variables a la vez no es muy aconsejable. Sin embargo, esta variedad sigue siendo uno de los medios más potentes de demostrar las relaciones entre variables al encargado de la toma de decisiones de mercadotecnia no versado en métodos cuantitativos. Después de todo, no quisiéramos que el Dr. Helium siguiera en la ignorancia respecto a la

Page 10: Sem11_Preparacion y Sintesis de Datos

UNIVERSIDAD JOSE CARLOS MARIATEGUI

Pág. 75

eficacia de su producto.) Además de poder resumir los datos en una forma tabular, como en las tabulaciones con un criterio,

con dos criterios y con tres criterios descritos en la sección anterior, podemos presentar los datos en términos estadísticos. En la presente sección veremos dos de las formas principales en que los datos se sintetizan estadísticamente: por medio de las medidas de centralidad y las medidas de dispersión. Asimismo explica-remos un importante descriptor estadístico llamado porcentaje. Medidas de centralidad

Las tres formas más comunes de describir la centralidad de un conjunto de datos son la moda, la mediana y la media. Para ilustrar cada una, supongamos que el fabricante de un rastrillo desechable ha realizado un estudio para saber cuántas rasuradas pueden hacerse él, obteniendo los siguientes resultados de una muestra de 11 hombres. Persona Número Número de rasuradas 1 11 2 9 3 6 4 14 5 12 6 8 7 14 8 10 9 7 10 14 11 9 Moda

La moda es el valor que ocurre con más frecuencia. Podemos llamarla la más típica de las respuestas. En el caso de los datos referentes al rastrillo desechable, podríamos disponer los datos en la siguiente distribución de frecuencia a fin de identificar el valor de la moda: Numero de rasuradas Número de personas que obtuvieron esas rasuradas 6 1 7 1 8 1 9 2 10 1 11 1 12 1 13 0 14 3

Así pues, en estos datos, la moda es 14 rasuradas, pues este resultado se consiguió de un número mayor de individuos que cualquier otro. Atendiendo a la información procedente, el fabricante puede hacer que en la publicidad del producto se afirme que el rastrillo desechable “en una prueba de consumidores brindó a los usuarios un promedio de 14 rasuradas”. Como se aprecia en este ejemplo, la debilidad potencial de la moda es la posibilidad de que la medición anotada con mayor frecuencia tal vez no sea muy representativa del. conjunto entero de resultados. Por ejemplo, en nuestros datos 8 de 11 hombres obtuvieron menos de 14 rasuradas de la hoja y sin embargo, 14 fue la moda estadística. Como usuarios de la información de mercado, conviene ser un poco escéptico respecto a la moda, sobre todo si otras medidas de cel1tralidad son muy diferentes o no se proporcionan.

Page 11: Sem11_Preparacion y Sintesis de Datos

UNIVERSIDAD JOSE CARLOS MARIATEGUI

Pág. 76

Mediana El valor de la mediana, en un conjunto de datos es el que tiene la misma cantidad de respuestas por

encima que por debajo. Si las respuestas seenu11lenm por orden de rangos, desde la más grande hasta la última, la mediana será la que se halle en la mitad. Por ejemplo, los datos referentes a la hoja de rasurar podrían listarse así: 14, 14, 14, 12, 11, 9, 9, 8, 7, 6

El número dentro del círculo, 10, es el número promedio de rasuradas obtenidas por la muestra de 11 hombres. Cinco lograron más de 10, en tanto que otros 5 lograron menos de 10.

En el caso de que haya un número par de respuestas (es decir, no hay una respuesta que esté en la mitad), se necesita sólo tomar el promedió de dos respuestas que juntas se encuentren en la mitad. Por ejemplo, la mediana de (6, 4, 2, 0) será 3, ya que 4 y 2 representan la, posición intermedia. En cuanto a medida de tendencia central, la mediana suele ser más representativa que la moda. Además, por basarse en un rango ordinal de los datos, está menos expuesta a puntuaciones demasiado altas o demasiado bajas. Media

La media es la medida de mayor uso de la centralidad de un conjunto de datos; los legos la conocen

con el nombre de promedio. Aunque se utiliza dentro de un contexto del lenguaje común (por ejemplo, una gruesa media de hojas, un jugador medio de baloncesto, etc.) designa en estadística la suma que los datos dividida entre el número de puntos de los datos. En el ejemplo del rastrillo desechable, la media, o número promedio, de las rasuradas obtenidas será la suma de las respuestas dividida entre 11, es decir: Media muestral = x = 11 + 9 + 6 + 14 + 12 + 8 + 14 + 10 + 7 + 14 + 9 11 = 10.36 rasuradas.

Así pues, la media de los datos puede calcularse como 10.36 rasuradas por persona. Una importante característica de ella es que podemos calcularla sin necesidad de disponer los datos en una frecuencia de distribución ni clasificar por orden las calificaciones: de las más altas hasta las más bajas. Otro atributo de la media consiste en que se presta a hacen generalizaciones estadísticas de la muestra a la población; por ejemplo, cuando una muestra probabilística se ha extraído y la media muestral se emplea para estimar y construir un intervalo de confianza para la media de la población.

Sin duda la principal debilidad de este estadístico como descriptor de un conjunto de datos es su susceptibilidad a mostrar valores extremos. Supongamos, por ejemplo, que la muestra de participantes incluya a un individuo mal informado que cometió el error de usar el extremo equivocado del rastrillo, de modo que obtuvo 935 "rasuradas" antes de acabar con el mango de plástico. Ello habría elevado la media muestral a aproximadamente 95 rasuradas por persona, evidentemente un indicio falso dé la verdadera durabilidad del rastrillo. Si bien tales episodios extremos rara vez ocurren en la investigación, otros casos extremos sí se presentan. Por ejemplo, cuando se miden los ingresos de los consumidores, no pocas veces el ingreso medio es superior a la mediana, lo que refleja los ingresos. de unos cuantos individuos con excelentes percepciones.

Antes de empezar a calcular cualquiera de las anteriores medidas de la centralidad, le

recomendamos cerciorarse de que los datos estén en una escala apropiada. Como en el caso de las escalas de medición, estos descriptores van del más débil al mas fuerte (de la moda a la media). Las escalas de medición correspondientes son:

10

Page 12: Sem11_Preparacion y Sintesis de Datos

UNIVERSIDAD JOSE CARLOS MARIATEGUI

Pág. 77

Moda : escala nominal de datos o más fuerte Mediana : escala ordinal de datos o más fuerte Media : escala de intervalos o más fuerte

La notación de "o mas fuerte" se debe a que en este resumen los datos pueden transformarse en la escala, más débil y se expresan por un descriptor adecuado para ella.

Así, aunque los datos de nuestro estudio sobre las hojas de afeitar representan información en la

escala de razón, estamos todavía en condiciones de determinar la moda (los datos tratados sencillamente como un conjunto de categorías) la mediana (los datos se tratan como un orden rol rangos del rendimiento del rastrillo desechable) y la media (los datos se tratan en su forma más, fuerte posible, la escala de razón). Medidas de dispersión

Además de describir la centralidad de un conjunto de datos, también conviene determinar la cantidad de dispersión que existe entre un grupo de mediciones. Hay tres principales descriptores de dispersión: el intervalo (rango), la desviación estándar y la variancia. Intervalo (rango)

El rango es fa más elemental de las tres medidas; consiste simplemente en la distancia entre los

dos valores extremos. Por ejemplo, en nuestro estudio sobre las hojas de rasurar, un individuo logró apenas 6 rasuradas con el rastrillo desechable; en cambio, otro pudo rasurarse 14 veces antes de que la hoja se volviera inservible. Así, el intervalo era 14 – 6, o sea una diferencia de 8 rasuradas.

Como el intervalo pone de relieve los valores más extremos, no influye en él lo que podríamos

calificar de dispersión típica de los datos., Por ejemplo, en nuestro experimento si un pobre hombre hubiera sostenido 'el rastrillo al revés y se hubiera rasurado 935 veces antes de acabarse el mango de plástico, el intervalo habría sido 935 - 6, o sea 929, lo cual no es una representación muy realista de la dispersión típica de tales datos. Pongamos otro ejemplo: Examinemos un grupo de datos que indican los ingresos actuales de los habitantes de un pueblo pequeño: bastaría un desempleado y un millonario excéntrico para ampliar el intervalo en un número de seis dígitos y destruir prácticamente una descripción significativa de la dispersión de Tos ingresos entre los miles de individuos más típicos que se hallan entre esos dos extremos.

Pese a ello, el intervalo es una medida útil, aunque aproximada, de la cantidad de dispersión en los

datos. Un aspecto inquietante es su gran uso en la descripción de los resultados de ¡la investigación que se emplean en algunos anuncios. Seguramente el lector habrá visto encabezados como este: "Después de instalar el dispositivo, en los automóviles de prueba se lograron ahorros de 2 y 15% de combustible". Recuerde que basta sólo un valor extremo para que el intervalo resulte impresionante. Desviación estándar y variancia

Estas medidas (te dispersión son más vigorosas, pero fáciles de calcular. Además, si nuestra muestra es del tipo probabilístico explicado en el capitulo 4, la desviación estándar también puede utilizarse para hacer generalizaciones estadísticas a partir de la muestra y aplicarlas a la población de donde la extrajimos. La desviación estándar de un conjunto de datos se calcula así:

S = Desviación estándar de la muestra = 1)( 2

−−nXX

Donde X = cada observación en los datos. X = la media de las observaciones n = el número de observaciones. Σ = “la suma de”

Page 13: Sem11_Preparacion y Sintesis de Datos

UNIVERSIDAD JOSE CARLOS MARIATEGUI

Pág. 78

En el caso del ejemplo del rastrillo desechable, la desviación estándar se calculará como se muestra en la tabla 11-4, que contiene además los cálculos de la media y de

En el caso del ejemplo del rastrillo desechable, la desviación estándar se calculará, como se muestra en la tabla 11-4, que contiene además los cálculos de la media y de la variancia de los datos. La variancia no es otra cosa que el cuadrado de la desviación estándar. Los cálculos de la tabla 11-4, además de estar disponibles como parte de "paquetes" dé programas de computadora para la síntesis y análisis de datos, también se venden en diversas marcas de calculadoras manuales.

Conviene señalar que, al calcular fa desviación estándar y la variancia de la muestra, el procedimiento normal consiste en utilizar (n - 1) como divisor. Cuando la muestra s y s2 se calculan en esta forma, son mejores "estimadores" de la desviación estándar y de la población de donde se estrajo la muestra. Tratándose de muestras grandes (por ejemplo, n 2: 30), restarle 1 a n nO tiene mucha importancia. Si los datos representan a todos los miembros de la población, conviene entonces utilizar sólo n como divisor. Como la mayor parte delos estudios de investigación de mercados se refieren a muestra y no a poblaciones enteras, usaremos (n - 1) como divisor a menos que se indique lo contrario. Porcentajes

Otro procedimiento común con que compendian los datos consiste en servirse de porcentajes, los cuales representan la proporción de los elementos de la muestra que caen dentro de varias categorías. El porcentaje se calcula fácilmente y no es difícil de entender, cualidades que ayudan a explicar su empleo generalizado y en la comunicación de los hallazgos de la investigación. Es útil sobre todo en las encuestas y en los sondeos de opinión pública. En el segundo caso, los resultados casi siempre se expresan en función del porcentaje de respondientes que favorece un punto de vista u otro, o bien que posee ciertas características.

Los porcentajes nos permiten describir las frecuencias en sentido relativo, no absoluto; por ello es

más fácil comparar los grupos y las distribuciones cuando los tamaños de)as¡[l1uestr,as no son iguales. Por ejemplo, en la tabulación cruzada de la tabla 11-2, los tamaños de las columnas oscilan entre 50 y 140 personas. Si quisiéramos expresar los datos en una forma más' clara y condensada, los porcentajes constituirían una solución idónea. En la tabla 11-5 se combinan las cuatro primeras columnas y las dos

Page 14: Sem11_Preparacion y Sintesis de Datos

UNIVERSIDAD JOSE CARLOS MARIATEGUI

Pág. 79

últimas de la tabla 11-2; a continuación se describe la distribución de "libras perdidas" en términos' de porcentajes. Hay dos. opciones respecto a la retención de información de frecuencias: 1) listar las frecuencias a lo largo de sus porcentajes respectivos o 2) indicar el tamaño total de las columnas en la parte inferior de cada columna, para que los que lo deseen las recorran hacia atrás e identifiquen los valores de las frecuencias. La tabla 11-5 usa estas dos técnicas.

Al servirse de porcentajes para describir los datos, no se olvide que no conviene limitarse a promediar los porcentajes a menos que cada uno se base exactamente en el mismo número de elementos. Así, supongamos que efectuamos un estudio y descubrimos que:

1. El 40% de 200 personas con un grado académico dijo estar en favor de la medicina social. 2. El 55% de 300 personas sin un grado académico dijo estar en favor de la medicina social.

Con estos datos, no podríamos sumar simplemente 40 y 55, dividir el total entre 2 y luego afirmar

que el 4.5% de la muestra total es partidaria de la medicina social. Pero sí podemos utilizar un promedio ponderado para pesar cada porcentaje por su tamaño muestra relativo, a fin de obtener el verdadero porcentaje global:

500200

x 40% + 500300

x 55% = 49.0%

Otro problema que surge cuando se usan porcentajes para sintetizar los datos, es la posibilidad de que algunos porcentajes estén basados en un número muy reducido de elementos. Ello puede dar origen a equívocos, puesto que sólo una ligera diferencia de frecuencias puede ocasionar diferencias aparentemente insignificantes en los porcentajes. Por ejemplo, .supóngase que acabamos de observar a cuatro personas que salen de un bar y que tres de ellas (75%) iban tambaleándose. Si sólo una persona hubiera consumido más o menos alcohol, la diferencia en los porcentajes sería extraordinaria. Y ello alteraría el porcentaje de 75% a 50% o bien a 100%, un cambio notable desde el punto de vista de los porcentajes. SINTESIS GRÁFICA

Además de calcular los descriptores estadísticos de los datos, quizá queramos también resumir los resultados en una forma más gráfica. Esas síntesis, según veremos en el capítulo 15, son sumamente Útiles para persuadir al empleado o al cliente sobre puntos importantes de la investigación. Además, como en el caso de 16s descriptores estadísticos se prestan a un mal uso con fines pocos éticos. Tal capacidad de engallar al lector no conocedor la comparten prácticamente todos los aspectos de la estadística y la investigación. Sin embargo, hablaremos de esto en el capítulo 15 y por ahora nos concentraremos en describir los tres grandes tipos de la síntesis gráfica: gráfica, gráficas de barras y pictogramas.

Page 15: Sem11_Preparacion y Sintesis de Datos

UNIVERSIDAD JOSE CARLOS MARIATEGUI

Pág. 80

Gráficas

Las gráficas se utilizan para describir uno o más variables a lo largo del tiempo o para mostrar visualmente las relaciones existentes entre ellas. Las gráficas se emplean desde hace mucho en matemáticas cuando se quiere describir cómo una variable cambia en respuesta a las alternativas de otra. Lo mismo que en las aplicaciones matemáticas, en la investigación de mercados las gráficas tienen un eje horizontal y un eje vertical, y los valores de las variables mostradas se trazan sobre este sistema de coordenadas. La figura 11-5 contiene ejemplos de ésta y otras técnicas fundamentales con que se resumen los datos. Gráficas de barras

Son uno, de los medios más conocidos con que se representan gráficamente los datos de, una

distribución de frecuencia. por lo regular muestra los grupos sobre un eje con las frecuencias o porcentajes descritos a lo largo de otro según se aprecia en la figura 11-5. Además de mostrar las frecuencias totales, los rectángulos de la gráfica puede dividirse en secciones que indican como se divide la frecuencia en cada grupo: Figuras

Otra forma de sintetizar visualmente los datos, consiste en valerse de figuras, que asumen tantas formas como admite la: imaginación. Los tres tipos que más se conocen son el diagrama de secciones, el pictograma y el bosquejo. Diagramas de secciones

Estos diagramas son en realidad una “circunferencia” que se divide en secciones según el número de elementos que pertenecen a una categoría particular.

Al constituir los diagramas de secciones, se recomienda tener a la mano un compás para medir los ángulos y recordar un poco nuestros conocimientos de trigonometría; es decir, que una circunferencia completa mide 360 grados. Al calcular cuántos grados de ancho tendrá una sección, basta aplicar la fórmula siguiente: Número de grados de un grupo = proporción de la muestra total de miembros del grupo x 360°. En otras palabras, si descubrimos que el 37% de los miembros de la muestra caen dentro de cierta categoría, asignaremos .37 x 360°, o sea 133.2 grados a su sección del diagrama. Pictogramas

El pictograma es algo más que una simple representación grafica de los elementos que también podrían mostrarse en una gráfica de barras. En esta representación, se recurre a símbolos para representar las frecuencias. Por ejemplo, cada una de las personas "que corren en el pictograma" dé la figura 11-5 representa a 1000 individuos. La selección de los símbolos depende principalmente del investigador y muchos de ellos son de índole emocional (por ejemplo, niños golpeados, lápidas de cementerio, automóviles chocados, peatones ciegos); e! empleo" del pictograma puede ser por eso sumamente eficaz cuando el tema de la investigación es un tema hacia el cual la gente alberga emociones muy intensas.. Otras figuras pueden incluir "termómetros” que registran, entre, otras cosas, los niveles de satisfacción de varios grupos de votantes en vez de la temperatura.

Page 16: Sem11_Preparacion y Sintesis de Datos

UNIVERSIDAD JOSE CARLOS MARIATEGUI

Pág. 81

Bosquejos

Los bosquejos que varían de tamaño según el valor de la variable son otro medio de representación de los datos. Un ejemplo lo vemos en la parte inferior de la figura 11-5. Este método tiene la capacidad especial de exagerar las diferencias. Obsérvese que en la figura 11-5 el dibujo de la derecha parece ser gas veces más grande que el de la, derecha. Ello se debe a que el área es cuatro veces mayor. (Recuérdese que tanto la altura como el ancho del paquete fueron duplicados.

Page 17: Sem11_Preparacion y Sintesis de Datos

UNIVERSIDAD JOSE CARLOS MARIATEGUI

Pág. 82

RESUMEN

El proceso de preparación de los datos consiste en corregir los datos codificar en categorías las

respuestas y luego tabular las respuestas en frecuencias o tablas Antes de iniciar el análisis y la presentación de los resultados, hay que sintetizar estadística o gráficamente los datos.

La revisión consiste en examinar los datos para cerciorarse de su exactitud, integridad y utilidad. Se efectúa un examen (tamizado) inicial para precisar si las respuestas son legibles, congruentes y completas, asegurándose también que el respondiente haya tomado en serio su tarea. En esta fase, conviene establecer las categorías de respuesta para las preguntas abiertas. La corrección en el campo se efectúa inmediatamente después de realizar las entrevistas; la corrección en la oficina central tiene lugar después para cerciorarse de que las preguntas sean calificadas uniformemente para cada respondiente.

La codificación es la asignación de respuestas a categorías; requiere identificar cada respuesta con un número asociado con esa categoría. La precodificación es adecuada en las preguntas dicotómicas y de opción múltiple, que cuentan con una selección reducida de respuestas. Cuando éstas pertenecen al tipo de pregunta abierta, como sucede con un conjunto de preguntas no estructuradas, quizá haya que asignar respuestas a categorías que se acogen después de reunir los datos. A esta técnica se le llama poscodificación.

Una vez asignadas las respuestas a las categorías, se inicia la tabulación para averiguar cuántas respuestas hay en cada categoría. El recuento y síntesis de las respuestas pueden hacerse manualmente o por computadora, según el volumen de los datos y la disponibilidad de programas adecuados de computadora. La tabulación sencilla culmina en una simple distribución de frecuencia de cuantas respuestas hay en cada categoría; en cambio la tabulación cruzada indica el número de respuestas que ocurren en combinaciones de dos o más categorías. Se acostumbra sintetizar los datos en términos estadísticos que representan la centralidad o dispersión. Las medidas comunes de centralidad son la moda, la mediana y la media. Las medidas típicas de la dispersión son el intervalo (rango), la desviación estándar y la variancia. Los porcentajes se utilizan a menudo para representar la proporción de la muestra que caen dentro de las diversas categorías. El porcentaje es fácil de calcular y de entender, dos ventajas que ayudan a explicar su uso común en la presentación de sondeos de opinión pública y otros hallazgos de la investigación.

Además de calcular los descriptores estadísticos de los datos, también podemos sintetizar los resultados en una forma más gráfica. Los tres tipos fundamentales de síntesis gráfica son gráficas, gráficas de barras y figuras. Entre este último tipo destacan el diagrama de secciones, el pictograma y el bosquejo.

Page 18: Sem11_Preparacion y Sintesis de Datos

UNIVERSIDAD JOSE CARLOS MARIATEGUI

Pág. 83

PREGUNTAS PARA REPASO

1. ¿Por qué es necesario corregir los cuestionarios de encuesta antes de analizar los datos reunidos? ¿Cuáles son algunas de las dificultades con que nos enfrentaremos y que habremos de resolver en esta etapa de la obtención de datos y de su análisis?.

2. ¿Qué consejo daría usted a un ayudante que esté estableciendo las categorías de respuesta para

una pregunta abierta cuyos datos ya se recabaron? ¿Qué categorías de respuesta preverá que haya para la pregunta? "¿Qué es lo que más le gusta de esta universidad?"

3. Si las respuestas dadas en varios formularios de entrevistas personales parecen demasiado

congruentes o excesivamente incoherentes, es posible que se haya ejercido un fuerte influjo sobre los respondientes o que se hayan fabricado totalmente las contestaciones. ¿Qué medidas habrán de tomarse para cerciorarse de que los entrevistadores en el campo "no hagan trampa"?

4. ¿Por qué es importante que la corrección en la oficina central esté a cargo de una sola persona?

5. “A muchas personas les gusta el fútbol americano profesional porque__________"Codifique las

siguientes respuestas en categorías escogidas por usted:

a. "demasiado violento." b. “no interesante de ver." c. “demasiado difícil comprender las reglas." d. “más agradable de ver que una película." e. “aburrido." f. “no tan divertido como un juego de salón." g. “muy lento." h. "demasiado difícil encontrar estacionamiento en los estadios." i. "demasiado caro." j. "más divertido el fútbol colegial" k. “no es el tipo de deporte en que puede participar la mayor parte del público."

6. Distinga entre la precodificación y poscodificación de los datos recabados mediante cuestionario y explique en qué condiciones será más apropiada una y otra técnica.

7. Explique la distinción entre tabulación sencilla y tabulación cruzada, dando un ejemplo de uno y otro

en la síntesis de datos.

8. Al describir la centralidad de un conjunto de datos. ¿qué problemas pueden presentarse al utilizar: a) la media, b) la mediana y c) la moda?

9. Determina la media, la mediana, la moda, la desviación estándar y el intervalo (rango) de los

siguientes datos: 4, 3, 2, 7, 10, 12, 3, 56 y 3.

10. Proporcione un ejemplo, real o hipotético, en el cual el intervalo de un conjunto de datos sobre la pérdida de peso pueden ofrecer una visión deformada de la eficacia del producto dietético. Si el intervalo se usara después en un anuncio que promueve el producto, ¿cree usted que eso es una práctica poco ética? (Después de todo, podría afirmarse que el anunciase limita a presentar la medida estadística factual de los datos reunidos).

11. AI promover las siguientes actividades para anunciantes a quienes puede interesar presentarlas

como un lema en sus anuncios publicitarios, determiné si la media ola mediana de los ingresos de los participantes será más adecuada para comunicarla: a. Boliche b. Alpinismo. c. Reparación de autos como actividad personal.

Page 19: Sem11_Preparacion y Sintesis de Datos

UNIVERSIDAD JOSE CARLOS MARIATEGUI

Pág. 84

d. Tenis. e. Golf

12. Al calcular la desviación estándar de un grupo de datos. ¿con qué criterio se decidirá utilizar n o (n - 1) como divisor en la fórmula?

13. Un investigador descubre que el 40% de una muestra de 200 prefiere la marca A. “Divide la

diferencia” y llega a la conclusión de que el 35% prefiere la marca A a todas las otras. ¿Por qué esta equivocado ese razonamiento?

14. Entre los que han usado por lo menos 5 meses el producto del Dr. Helium, 27.9% no han

adelgazado; 20,5% han bajado de 1 a 5 libras; 21.1% de 6 a 10 libras; 14.2%, de 11 a 15 libras 12.1% de 16 a 20 libras; y 4.2% mas de 20 libras. Construya un diagrama de secciones que sintetice esa información.

15. De tres ejemplos diferentes en los cuales la construcción de una gráfica, un diagrama de barras u

otras ayudas visuales tienden a dar una visión distorsionada de los datos.