Para facilitar
el análisis de los datos, debemos almacenarlos bien ordenados. Las
herramientas tradicionales para esta tarea suelen ser las fichas y las
carpetas, pero hoy esto se suele llevar a cabo con la ayuda de un ordenador.
Al principio el investigador debe haber considerado ya qué tipo
de programa será más adelante el más efectivo cuando
haya que alimentar y extraer datos a y desde las operaciones analíticas.
La elección depende de la naturaleza de nuestros datos.
La herramienta informática normal para datos cuantitativos es
una hoja de cálculo como Excel o QuattroPro. Nuestros datos
pueden ser dispuestos en la forma en que convenga, clasificados y presentados
en varias tablas; junto a ello, es fácil someter nuestros datos
a operaciones aritméticas o booleanas y también transformarlos
en llamativos diagramas.
La selección se hace más complicada si nuestro material
es una combinación de mediciones, descripciones y tal vez fotos
u otros ingredientes multimedia. Tales conjuntos combinados de materiales
son a veces gestionados mejor con programas de a bases de datos
tales como DBase y Paradox, incluso si algunos programas de procesamiento
de textos van siendo capaces de manejar diversos tipos de materiales.
Una vez recibidos los datos y antes de someterlos al análisis, suele ser útil llevar a cabo algunas operaciones preliminares. Esto puede incluir:
En otras palabras, el investigador suele primero decidir qué tipo de patrón es el que está buscando en los datos. Esto determinará los métodos para un análisis matemático. Así, la primera cuestión a la hora de elegir el método de análisis es: ¿Queremos usar las variables medidas para clasificar casos o individuos? ¿O deseamos analizar variables inconexas, o bien las relaciones entre diversas variables?
(Otra cuestión es cuál es la razón para la asociación estadística: ¿Hay una relación causal o algún otro tipo de relación entre las variables? Esto es algo que el análisis estadístico no será capaz de revelar.)
En el método
del análisis de grupos (cluster analysis) se tiene en cuenta
simultáneamente un gran número de variables. Se usa
para encontrar tales grupos de casos individuales de la muestra que, de
acuerdo con los valores de las variables, se asemejan entre sí en
el mayor grado.
Por ejemplo, en la figura de la derecha han sido analizadas 30 respuestas
a un cuestionario. El programa de análisis de grupos estudia, para
cada caso de la muestra, su conjunto de valores para todas las variables
dadas, y resuelve qué casos de la muestra tienen el conjunto de
valores más similar.
En este caso particular resulta que los que se parecen más entre
sí son los individuos 8 y 29, y también 6 y 22 etc.
Después de que se haya encontrado la mejor manera de agrupar
los casos, el siguiente estadio en el análisis es descubrir grupos
cada vez más amplios, siendo el principio de agrupación que
cada caso en un grupo se parece más a los demás casos de
ese grupo que a los casos de fuera del mismo.
Corresponde al investigador el decidir cuántos grupos acabará
al final el programa. En la figura hay tres grupos finales: A, B y C. Cada
investigador tiene que tomar la decisión sobre la base de su teoría,
como es habitual en todo análisis estadístico. Para tomar
la decisión, debemos considerar el significado e interpretación
teóricos de cada grupo.
| Símbolos habituales en tablas | |
|---|---|
| (caja vacía) | = la tabla no ha sido completada |
| . . | = no se ha obtenido la información |
| * | = datos preliminares |
| - | = 0.000 (exactamente cero) |
| 0 | = redondeado a cero |
| - | Escala nominal | Escala ordinal | Escala de intervalo | Escala de proporción |
|---|---|---|---|---|
| Métodos de presentación de los datos | - Tabulación ; Presentación gráfica - | |||
| Medias: | - La moda - | |||
| - | - La mediana - | |||
| - | - | - Media aritmética - | ||
| Medidas de dispersión: | - | - Desviación de cuartil - | ||
| - | - El rango - | |||
| - | - | - Desviación estándar - | ||
Un modo simple
de presentar una distribución de valores es mostrar cada valor como
un punto en una escala. Si hay un gran número de valores, puede
ser mejor clasificarlos primero y entonces presentar la frecuencia
de cada clase como un histograma (Fig. de la derecha).
Si nuestros estudios
tienen que ver con personas, ocurrirá con bastante frecuencia que
nuestras mediciones estarán distribuidas de acuerdo con cierta curva,
la llamada curva de Gauss (a la izquierda) que es, por consiguiente,
llamada la distribución normal. Una de sus propiedades es
que el 68% de todas las mediciones diferirá de la media (en la figura:
M)
en no más que la desviación estándar,
y el 95% en no más que el doble de la desviación estándar.
A veces querremos
poner el énfasis no en la distribución absoluta, sino
en la proporcional o de porcentaje. Un diagrama apropiado para esto
es el gráfico de sectores, también llamado "de tarta"
o "de queso" (a la derecha):
Mediana es el valor en el medio de la selección, si todos los valores están dispuestos del menor al mayor.
Media (aritmética) es la suma de todos los valores dividido por su número, o
De entre las medias que se han presentado más arriba, el investigador puede elegir habitualmente aquella que muestra mejor el valor típico de la variable. La media aritmética es el más popular, pero puede ofrecer un cuadro equivocado por ejemplo en datos que incluyen un valor que difieren en gran medida de los otros (véase la imagen de abajo).
Lo mismo ocurre
si la distribución está desviada, como en la imagen
de la derecha. En el ejemplo, se relacionan los minutos que los distintos
sujetos tardan en llevar a cabo una tarea. Los más rápidos
necesitaron 5 minutos, pero el resultado más común (=la moda)
fue de siete minutos. El valor en el medio, es decir, la mediana,
se ha mostrado en rojo en la imagen. La mediana tenía aquí
el valor 11.
¿Qué pasa con la media? Como al sujeto más
lento le llevó el acabar 34 minutos, la media se eleva a 11.98 minutos,
lo que no da un cuadro exacto del resultado medio en este caso. Esto muestra
que los datos están desviados; el tipo de media debe elegirse con
cuidado. Una presentación gráfica muchas veces sería
más ilustrativa que calcular una sola estadística.
La distribución mostrada en esta figura está escorada
positivamente,
porque las mediciones que han dado valores mayores que la mediana
(11) se extieneden en un amplio rango (de 11 a 34), mientras que las mediciones
que han dado valores por debajo de la mediana se concentran pocos valores
(5...11).
Se puede también, si es necesario, acudir a una estadística
para describir la cantidad de desviación.
Al elegir la media más apropiada, debemos tener en cuenta la escala que fue usada en la recolección de los datos. Si la escala era nominal, la única media posible es la moda. Si la escala fue ordinal, podemos usar la mediana o la moda.
Finalmente, si la media fue calculada a partir de una muestra, debemos examinar su representatividad estadística, o qué probable es que la misma media sea cierta en la población de la que la muestra se extrajo. Una comprobación apropiada para esto es la prueba t.
Sin embargo, si la desviación estándar sólo se refiere a una muestra, la formula es,
En ambas fórmulas, n es el número de los valores,
y los valores de cada variable sustituirán a x uno tras otro.
Raramente un investigador se molestará en realizar por sí
mismo el cálculo, porque el algoritmo necesario para esto existe
incluso en calculadoras de bolsillo.
A la raíz cuadrada de la desviación estándar se
llama varianza, y también ésta es usada con frecuencia
para describir y analizar la dispersión.
Si la estadística de dispersión se ha calculado a partir de una muestra, su representatividad estadística debe también calcularse al final. La prueba t es adecuada para esto.
La ciencia de la estadística ofrece numerosos métodos para revelar y presentar las asociaciones entre dos y hasta más variables. Los medios más simple son los medios de presentación gráfica y tabulación. La asociación entre las variables puede también describirse como una estadística especial, como el coeficiente de contingencia y una correlación para lo que hay varios métodos de análisis disponibles.
Si, al analizar los datos, se descubre alguna asociación entre las variables, esto no significa que necesariamente alguna de ellas dependa causalmente de la otra. Una fuerte correlación entre, digamos, A y B, puede deberse a cuatro razones alternativas:
A continuación mencionamos algunos métodos usuales de
análisis estadístico que pueden usarse al estudiar la interdependencia
entre una o más variables. Los métodos han sido dispuestos
siguiendo a qué escala de medición
corresponden la mayor parte de las variables.
| - | Escala nominal | escala ordinal | escala de intervalo | escala de proporción |
|---|---|---|---|---|
| Métodos de presentación de datos | - Tabulación ; Gráficos - | |||
| Medidas de asociación | - Coeficiente de contingencia; Chi cuadrado - | |||
| - | - correlación ordinal - | |||
| - | - | Correlación r de Pearson ; ANOVA | ||
| - | - | análisis de regresión ; análisis factorial | ||
Si el investigador
desea resaltar algunos rasgos comunes o patrones generales que ha encontrado
en un grupo de objetos, puede combinar varios objetos en un gráfico,
como en la figura de la izquierda. En el diagrama, Sture Balgård
muestra cómo los edificios viejos en Härnösand siguen
proporciones uniformes de anchura y altura (la línea roja) con sólo
algunas excepciones. Al inventar métodos ilustrativos de presentación
de los hallazgos del estudio de artefactos, la más seria restricción
es la imaginación del investigador.
Con frecuencia,
no obstante, la apariencia del objeto en sí no es importante y sólo
interesan los valores numéricos de sus mediciones. Si se
considera así, lo primero que debiéramos plantearnos al elegir
el tipo de gráficos es cuál es la estructura que queremos
mostrar de los datos. Por supuesto tenemos que no "mentir con ayuda de
la estadística", pero siempre es admisible elegir un estilo de presentación
realce los patrones importantes al eliminar o dejar en segundo plano las
relaciones y estructuras que no nos interesan.
Si nuestros datos consisten en solamente unas pocas mediciones, es posible mostrarlos todos como un diagrama de dispersión. Podemos exhibir los valores de dos variables sobre los ejes de abscisas y ordenadas, y adicionalmente unas cuantas variables más utilizando los colores o formas de los puntos. En el diagrama de la derecha, la variable z tiene dos valores que se indican respectivamente por un cuadrado y un signo +.
Si la variación es demasiado pequeña para que aparezca claramente, podemos darle énfasis eliminando partes de una o ambas escalas, véanse los ejemplos. Simplemente eliminamos la parte que no nos interesa, sea por la parte superior o por la inferior. La parte descartada debe estar vacía de valores medidos empíricamente. Para asegurarnos que el lector se da cuenta de la operación, es mejor mostrarlo no sólo en las escalas, sino también en la cuadrícula de fondo del diagrama.
Por otro lado,
si el rango de variación de nuestros datos es muy amplio, podemos
plantearnos usar una escala logarítmica en uno o ambos ejes
(véase el diagrama de la izquierda). La escala logarítmica
es apropiada solamente en una escala de proporción.
Si tenemos cientos de mediciones, es probable que no queramos mostrarlas
todas en forma de diagrama de dispersión. Una posibilidad en este
caso es clasificar los casos y presentarlos como un histograma.
El histograma puede adaptarse para presentar hasta cuatro o cinco variables.
Podemos hacer esto variando las anchuras de las columnas, sus colores,
sus tramados y por una representación tridimensional (fig. de la
izda.). Todas estas variaciones se crean fácilmente con un programa
de hoja de cálculo como Excel, pero no deben ser usadas sólo
como adorno.
Los patrones que rellenan o marcan las columnas del histograma
pueden ser elegidos de forma que simbolicen una de las variables. Por ejemplo,
las columnas que describen el número de automóviles pueden
estar formadas por una pila de automóviles unos sobre otros. Esto
es correcto, con tal de que no variemos el tamaño de los símbolos
usados en un histograma. De otro modo, la interpretación se le haría
difícil al lector (¿se vincula el número de automóviles
a la longitud, el área o el volumen de los símbolos de los
automóviles?)
El investigador suele estar interesado en las relaciones de dos o más variables antes que en las parejas de mediciones tomadas separadamente. La forma normal de presentar dos o más variables interdependientes es la curva. Esto implica una variable continua (es decir, en que el número de posibles valores es infinito). (Ejemplos.)
No debemos producir una curva a partir de mediciones
que no son valores de la misma variable. Por ejemplo, los atributos
de un objeto son variables diferentes. Ejemplos de ello son las evaluaciones
personales que los investigadores suelen reunir con la ayuda de escalas
semánticas diferenciales del tipo de la mostrada abajo:
| Estime las características de su dormitorio.
Tache un recuadro en cada línea. |
||||||||
|---|---|---|---|---|---|---|---|---|
| Claro | _ | _ | _ | _ | _ | _ | _ | Oscuro |
| Ruidoso | _ | _ | _ | _ | _ | _ | _ | Tranquilo |
| Limpio | _ | _ | _ | _ | _ | _ | _ | Sucio |
| Grande | _ | _ | _ | _ | _ | _ | _ | Pequeño |
Carecería
ahora de sentido el presentar las distintas evaluaciones del dormitorio
como un solo "perfil" como en el diagrama de la izquierda (aunque encontremos
con frecuencia este tipo de presentaciones ilógicas en informes
de investigación.)
Todos los diagramas mostrados arriba pueden combinarse con mapas
y otras presentaciones topológicas.
Por ejemplo, la variación en las diferentes áreas del país
suele mostrarse como un cartograma que distinga los diferentes distritos
con distintos colores o tramas. Otra forma es el cartopictograma
en que pequeños diagramas de sectores ("de tarta" o "queso") o de
columnas han sido colocados en el mapa. Las conexiones entre distintas
áreas suele ser con frecuencia mostradas con filas cuyo grosor indica
el número de conexiones. (Ejemplo.)
Una obra útil y concisa en español sobre el uso de diagramas
para análisis estadístico es: Antonio Alaminos, Gráficos,
Madrid, Centro de Investigaciones Sociológicas, 1993 (Col. Cuadernos
metodológicos, nº 7)
El metro más rudimentario y general de la covarianza estadística de las variables es la contingencia. Puede aplicarse a todo tipo de variables, incluyendo aquellas que se han medido solo con una escala de clasificación, es decir, una escala de diferencia de cualidades. La contingencia suele ser analizada haciendo una tabla, pero también hay disponibles estadísticas especiales para indicar su intensidad:
Una forma habitual
de expresar la fuerza de la asociación entre dos variables es la
correlación del momento-producto o correlación de
Pearson. Suele abreviarse con la letra r. La fórmula es bastante
complicada pero raramente se necesita hoy, pues el algoritmo es ahora común
incluso en las calculadoras de bolsillo. Aunque el algoritmo presupone
que ambas variables deben ser medidas sobre una escala
aritmética, en la práctica los investigadores suelen
pasar por alto esta limitación.
Si el coeficiente de correlación es bajo, por ejemplo algo entre
-0.3 y +0.3, las dos variables no tienen mucho que ver entre sí.
Si es alto, en otras palabras, si su valor se aproxima ya sea a +1 o a
-1, esto significa que la relación entre las dos variables se aproxima
a la ecuación
y = ax + b.
El signo del coeficiente de correlación no es importante; el
signo siempre es idéntico al signo del coeficiente a en la
ecuación de arriba.
La correlación es una herramienta práctica para el análisis inicial de los datos, cuando no tenemos una idea clara de las relaciones mutuas entre variables. Es fácil para un ordenador calcular una matriz de correlación entre un gran número de variables o, más exactamente, para todos los pares potenciales de variables. Podemos entonces elegir esos pares que presentan las correlaciones más fuertes, y continuar examinandolos con otras herramientas, más refinadas, de análisis, por ejemplo el análisis de regresión.
Un aspecto débil del análisis de correlación es
que no puede detectar otras relaciones lineales entre las variables. Por
ejemplo, una relación que obedece a la ecuación
y = ax2 + bx + c
pasaría inadvertida. Sin embargo, algunos de los nuevos programas
de análisis son capaces de detectar incluso esta y algunas otras
asociaciones habituales de variables.
Si la correlación se calcula a partir de una muestra, debemos recordar probar su representatividad estadística. Una prueba adecuada para esto es la prueba t.
El método de análisis de varianza se basa en el hecho
matemáticamente probado de que hay una diferencia entre los grupos
sólo si la varianza inter-grupos
es mayor que la varianza intra-grupo.
El análisis se inicia calculando la varianza intra-grupo
para cada grupo, y la media de todas estas varianzas de grupo.
El siguiente paso es calcular la media para cada grupo, y entonces
la varianza de estas medias. Esa es la varianza inter-grupos.
Entonces calculamos la proporción de las dos cifras que acabamos
de obtener, que es llamada F. En otras palabras,
= (varianza de las medias de grupo) / (media de las varianzas de grupo).
Finalmente nos referimos a la tabla (en manuales estadísticos)
que muestra qué valores puede alcanzar el coeficiente F cuando sólo
actúa el azar. Si el F obtenido del ANOVA es mayor que el valor
de la tabla, hay una diferencia entre los grupos que es significativa
según muestra la tabla.
El algoritmo de análisis de regresión construye una ecuación, que tiene el siguiente patrón. Además, da los parámetros a1, a2 etc. y b valores tales que la ecuación corresponde a los valores empíricos con tanta precisión como es posible.
y = a1x1 + a2x2 + a3x3 + ... + b
En la ecuación,
y = la variable dependiente
x1 , x2 etc. = variables independentes
a1 , a2 etc. = parámetros
b = coeficiente.
Si tenemos amplios datos con muchas variables, al principio del análisis no estaremos tal vez seguros de qué variables están mutuamente conectadas y cuales debieran así ser incluidas en la ecuación. Podríamos primero estudiar esto con el análisis de correlación, o podemos dejar al programa de análisis de regresión elegir las variables "correctas" (x1, x2 etc.) para la ecuación. "Correctas" son aquellas variables que mejoran la exactitud del ajuste entre la ecuación y los valores empíricos.
Como ejemplo, consideremos los datos de un cuestionario (mostrado en
otra parte) donde a un cierto número de sujetos de un test se
les preguntó en qué grado se correspondían sus dormitorios
personales con los adjetivos proporcionados por el investigador (mostrados
en escalas "semánticas diferenciales"). El investigador ahora quiere
descubrir si tras las estimaciones de los sujetos, hay algunas "variables
de fondo" cuya medición directa por a través de medios lingüísticos
no sería posible a causa de la carencia de adjetivos apropiados
en el lenguaje. La hipótesis del investigador es que estas variables
de fondo "aparecen" a través de los adjetivos usados en las escalas
semánticas, habitualmente no con un adjetivo único, sino
mediante un grupo de adjetivos con correlación entre ellos.
Con la ayuda de un análisis factorial, las variables de combinación
o factores ocultos tras los atributos medidos pueden detectarse
y especificarse, y el análisis también dice lo estrechamente
que estos factores están vinculados con las variables originalmente
verificadas.-- A veces se sitúa también una condición
suplementaria sobre los factores, concretamente que no deben tener correlación
alguna entre ellos y estén por lo tanto en "ángulo recto"
uno con respecto a otro (= "rotación ortogonal" de los factores
durante el análisis).
Un inconveniente del método del análisis factorial es que es demasiado fácil de usar para estudios que son formalmente correctos pero en la práctica absurdos, porque siempre presenta los resultados de una forma elegante y matemáticamente exacta, incluso cuando los factores obtenidos son tienen ningún contenido empírico sensato.
La curva es la presentación más usual para la serie
cronológica. El tiempo siempre se presenta en el eje horizontal,
x. Si es necesario, pueden situarse varias variables o series de datos
en el mismo diagrama. Esto tiene especial sentido cuando se están
investigando sus conexiones o ha de ponerse énfasis en éstas.
Cuando se presentan dos series cronológicas distintas con distintas
escalas en una figura, podemos situar una escala cuanto al margen izquierdo
de la figura y la otra junto al margen derecho.
Si es necesario, tanto los valores medidos como los que se predicen
pueden mostrarse en la misma curva; véanse las figuras de abajo.
Si el rango
de la variable es muy pequeño, puede ser resaltado acortando la
escala Y, es decir, cortando la parte que no contiene valores, normalmente
a partir de la parte de abajo de la escala.
La figura
de la derecha tiene exactamente los mismos contenidos que la de la izquierda,
pero la variación se ha hecho más visible al recortar la
escala por la parte de abajo. - Si, por el contrario, la variable varía
en una escala muy amplia, puede hacerse logarítmica la escala del
eje Y.
Toda serie cronológica
es intrínsecamente discontinua, es decir, obtiene un
valor discreto para cada periodo de tiempo. Esto es por lo que la presentación
elegida para una serie cronológica suele ser una curva "en escalera",
que es en principio lo mismo que un histograma donde las columnas se dibujan
una junto a otra. Véase la figura de la izquierda.
Si dirigimos una mirada más detenida a la variación de la serie cronológica, ésta suele revelar componentes, todos los cuales tienen sus regularidades específicas que pueden ser analizadas. Los más habituales de estos componentes son:
Una variación periódica es una variación
cíclica recurrente en forma similar una y otra vez. El periodo de
variación suele ser una unidad natural de tiempo, como un año
o un día.
Por ejemplo, el consumo de energía de un edificio varía
simultáneamente con tres frecuencias: ritmos anual, semanal y diario.
Estos se calculan uno cada vez, por el siguiente método, básicamente
el mismo en los tres casos:
Una variación de coyuntura tiene lugar repetidamente en
la misma manera que una variación periódica, pero su longitud
y forma varían.
Para revelar la variación de coyuntura, la tendencia y las variaciones
periódicas de los datos han de ser halladas primero. Tras esto,
la tendencia y las variaciones periódicas se eliminan de los datos.
Esto se hace por ejemplo dividiendo todos los valores individuales por
el índice de la variación periódica, y por la fórmula
de la tendencia tal y como se ha hallado por el método de análisis
de regresión.
Tras estas operaciones, los datos sólo incluyen (de forma suplementaria
a la variación aleatoria) la variación de coyuntura. La variación
coyuntural se presenta gráficamente como una curva o numéricamente,
como un índice de coyuntura, del mismo modo que el índice
de variación mencionado anteriormente.
La variación aleatoria es habitualmente eliminada mediante
la media flexible. Por ejemplo, en datos que contienen valores mensuales,
esto se hace sustituyendo para cada valor mensual una media que comprende
a ese mes y los meses vecinos.
La media de cinco o siete meses puede también usarse, aunque
la desventaja de esto es que puede oscurecer incluso la variación
que podría interesar al investigador.
La variación aleatoria no es necesariamente una perturbación que haya de ser eliminada. Si hay una gran cantidad de ella, el investigador podría intentar plantearse las razones para esta variación: ¿es causada por un factor importante o interesante que debiera ser incluido en la hipótesis del proyecto de investigación?
Todos los análisis de series cronológicas que acaban de mencionarse son hoy realizados normalmente con un ordenador.
Aquí sólo era posible presentar los métodos más
habituales de análisis estadístico. Otras guías sobre
metodología son, por ejemplo.: Friedman, Pisani, Purves, Adhikari:
Statistics.
Cuando la información deseada se ha extraído de los datos,
la credibilidad de los resultados debiera ser evaluada,
como una fase separada, antes de publicarlos y antes
de aplicarlos en la práctica.
15.dic.1998. Comentarios para el autor: email pentti.routio@uiah.fi Versión en español: jbermejo@iponet.es
Ubicación original:
http://usuarios.iponet.es/casinada/arteolog
(España) http://www.uiah.fi/projects/metodi/
(Finlandia)