Arteología / Indice / GlosarioIn Finnish

Análisis cuantitativo

  1. Clasificar
  2. Analizar variables individuales
  3. Analizar las relaciones entre variables

La lógica de estudiar cantidades

Si deseamos estudiar algo que también queremos medir, un prerrequisito es que, al comenzar, tenemos que tener una idea bastante clara de la cosa que se va a estudiar (de otro modo, no podríamos medirla). Este preconcepto del objeto de estudio también hace posible planear nuestra investigación de manera relativamente precisa en comparación con muchos proyectos de investigación cualitativa humanística.
Normalmente, un proyecto de investigación que examina cantidades medibles puede organizarse en distintas fases, como en el diagrama de la derecha. Primero, recogemos los datos y después los procesamos o depuramos, de modo que sean adecuados a los fines del proyecto.

Para facilitar el análisis de los datos, debemos almacenarlos bien ordenados. Las herramientas tradicionales para esta tarea suelen ser las fichas y las carpetas, pero hoy esto se suele llevar a cabo con la ayuda de un ordenador. Al principio el investigador debe haber considerado ya qué tipo de programa será más adelante el más efectivo cuando haya que alimentar y extraer datos a y desde las operaciones analíticas. La elección depende de la naturaleza de nuestros datos.
La herramienta informática normal para datos cuantitativos es una hoja de cálculo como Excel o QuattroPro. Nuestros datos pueden ser dispuestos en la forma en que convenga, clasificados y presentados en varias tablas; junto a ello, es fácil someter nuestros datos a operaciones aritméticas o booleanas  y también transformarlos en llamativos diagramas.
La selección se hace más complicada si nuestro material es una combinación de mediciones, descripciones y tal vez fotos u otros ingredientes multimedia. Tales conjuntos combinados de materiales son a veces gestionados mejor con programas de  a bases de datos tales como DBase y Paradox, incluso si algunos programas de procesamiento de textos van siendo capaces de manejar diversos tipos de materiales.

Una vez recibidos los datos y antes de someterlos al análisis, suele ser útil llevar a cabo algunas operaciones preliminares. Esto puede incluir:

En el análisis propiamente dicho de los datos, el propósito es extraer una invariante o estructura que nos interese a partir de los datos. Esto no significa que introduzcamos los datos en un ordenador y esperemos que el ordenador nos muestre qué estructuras pueden encontrarse en ellos. Los ordenadores no son lo bastante listos para eso.
En lugar de ello, es bastante habitual que ya en un momento tan temprano como el inicio del proyecto, el investigador tenga un modelo matemático que aplicará a los resultados. Este modelo también proporciona las hipótesis para el proyecto de investigación o al menos actúa como una "hipótesis de trabajo" no exacta.
Los resultados empíricos pueden entonces analizarse del modo siguiente: primero, el investigador dispone los resultados de acuerdo con el modelo y después considera en qué grado el marco es adecuado a los datos o si ha de buscarse un modelo que se adapte mejor.

En otras palabras, el investigador suele primero decidir qué tipo de patrón es el que está buscando en los datos. Esto determinará los métodos para un análisis matemático. Así, la primera cuestión a la hora de elegir el método de análisis es: ¿Queremos usar las variables medidas para clasificar casos o individuos? ¿O deseamos analizar variables inconexas, o bien las relaciones entre diversas variables?

(Otra cuestión es cuál es la razón para la asociación estadística: ¿Hay una relación causal o algún otro tipo de relación entre las variables? Esto es algo que el análisis estadístico no será capaz de revelar.)

Clasificar

Si deseamos clasificar los individuos o casos en nuestra muestra de objetos de estudio, hay unos cuantos métodos alternativos. La elección depende de la base de la clasificación: Una vez que se ha llevado a cabo una clasificación con uno de los métodos arriba mostrados, queda la tarea de presentarla en el informe. El número de individuos en cada categoría es llamado frecuencia. Si se divide por el número total del conjunto de la muestra, se obtiene la frecuencia relativa. La frecuencia relativa puede indicarse como un porcentaje o una fracción. Todas estas estadísticas son variables de la  escala aritmética sin que importe el tipo de escala de las mediciones originales.
Símbolos habituales en tablas
(caja vacía) = la tabla no ha sido completada
. . = no se ha obtenido la información
* = datos preliminares
- = 0.000 (exactamente cero)
0 = redondeado a cero
Algunas abreviaturas usadas convencionalmete en tablas se presentan a la derecha. En lo alto de la tabla, en el  encabezamiento de la tabla, se muestran los nombres de las variables, las unidades de medida y los posibles límites de las clases. Una columna es un conjunto vertical de valores de una variable. La correspondiente línea horizontal es una fila. Las notaciones convencionales en tablas comprenden:
 

Analizar variables individuales

A continuación hay una lista de algunos métodos habituales para el análisis estadístico de una sola variable. Los métodos han sido dispuestos de acuerdo con la escala de medición de la variable.
 
- Escala nominal  Escala ordinal  Escala de intervalo Escala de proporción
Métodos de presentación de los datos - Tabulación ; Presentación gráfica -
Medias: - La moda -
- - La mediana -
- - - Media aritmética -
Medidas de dispersión: - - Desviación de cuartil -
- - El rango -
- - - Desviación estándar  -

 
 
 
 
 

Presentación gráfica de una variable

Un modo simple de presentar una distribución de valores es mostrar cada valor como un punto en una escala. Si hay un gran número de valores, puede ser mejor clasificarlos primero y entonces presentar la frecuencia de cada clase como un histograma (Fig. de la derecha).

Si nuestros estudios tienen que ver con personas, ocurrirá con bastante frecuencia que nuestras mediciones estarán distribuidas de acuerdo con cierta curva, la llamada curva de Gauss (a la izquierda) que es, por consiguiente, llamada la distribución normal. Una de sus propiedades es que el 68% de todas las mediciones diferirá de la media (en la figura: M) en no más que la desviación estándar, y el 95% en no más que el doble de la desviación estándar.

A veces querremos poner el énfasis no en la distribución absoluta, sino en la proporcional o de porcentaje. Un diagrama apropiado para esto es el gráfico de sectores, también llamado "de tarta" o "de queso" (a la derecha):

Medias

Una media es una estadística que caracteriza el valor típico de nuestros datos y elimina la dispersión aleatoria de valores. Para cada una de las distintas escalas de medición hay un tipo adecuado de media, Moda es el valor más común en nuestro conjunto de datos.

Mediana es el valor en el medio de la selección, si todos los valores están dispuestos del menor al mayor.

Media (aritmética) es la suma de todos los valores dividido por su número, o

De entre las medias que se han presentado más arriba, el investigador puede elegir habitualmente aquella que muestra mejor el valor típico de la variable. La media aritmética es el más popular, pero puede ofrecer un cuadro equivocado por ejemplo en datos que incluyen un valor que difieren en gran medida de los otros (véase la imagen de abajo).

Lo mismo ocurre si la distribución está desviada, como en la imagen de la derecha. En el ejemplo, se relacionan los minutos que los distintos sujetos tardan en llevar a cabo una tarea. Los más rápidos necesitaron 5 minutos, pero el resultado más común (=la moda) fue de siete minutos. El valor en el medio, es decir, la mediana, se ha mostrado en rojo en la imagen. La mediana tenía aquí el valor 11.
¿Qué pasa con la media? Como al sujeto más lento le llevó el acabar 34 minutos, la media se eleva a 11.98 minutos, lo que no da un cuadro exacto del resultado medio en este caso. Esto muestra que los datos están desviados; el tipo de media debe elegirse con cuidado. Una presentación gráfica muchas veces sería más ilustrativa que calcular una sola estadística.
La distribución mostrada en esta figura está escorada positivamente, porque las mediciones que han dado valores mayores que la mediana (11) se extieneden en un amplio rango (de 11 a 34), mientras que las mediciones que han dado valores por debajo de la mediana se concentran pocos valores (5...11).
Se puede también, si es necesario, acudir a una estadística para describir la cantidad de desviación.

Al elegir la media más apropiada, debemos tener en cuenta la escala que fue usada en la recolección de los datos. Si la escala era nominal, la única media posible es la moda. Si la escala fue ordinal, podemos usar la mediana o la moda.

Finalmente, si la media fue calculada a partir de una muestra, debemos examinar su representatividad estadística, o qué probable es que la misma media sea cierta en la población de la que la muestra se extrajo. Una comprobación apropiada para esto es la prueba t.

Indicar la dispersión de los datos

Una vez que hemos calculado el valor medio, puede ser a veces interesante describir a qué distancia en torno a la media están diseminados los valores singulares. Para este fin, podemos elegir entre diversas estadísticas. La elección depende del tipo de media que hayamos usado:

Sin embargo, si la desviación estándar sólo se refiere a una muestra, la formula es,

En ambas fórmulas, n es el número de los valores, y los valores de cada variable sustituirán a x uno tras otro. Raramente un investigador se molestará en realizar por sí mismo el cálculo, porque el algoritmo necesario para esto existe incluso en calculadoras de bolsillo.
A la raíz cuadrada de la desviación estándar se llama varianza, y también ésta es usada con frecuencia para describir y analizar la dispersión.

Si la estadística de dispersión se ha calculado a partir de una muestra, su representatividad estadística debe también calcularse al final. La prueba t es adecuada para esto.

Analizar las relaciones entre variables

Si dos variables evolucionan modo tal que en alguna medida se siguen entre ellas, podemos decir que existe una asociación entre ellas. Por ejemplo, la altura y peso de la gente están estadísticamente asociadas: aunque el peso de nadie esté causado por su altura ni la altura por el peso es, no obstante, habitual que las personas altas pesen más que las personas bajas. Por otro lado los datos habitualmente incluyen también excepciones, lo que significa que una asociación estadística es inherentemente estocástica.

La ciencia de la estadística ofrece numerosos métodos para revelar y presentar las asociaciones entre dos y hasta más variables. Los medios más simple son los medios de presentación gráfica y tabulación. La asociación entre las variables puede también describirse como una estadística especial, como el coeficiente de contingencia y una correlación para lo que hay varios métodos de análisis disponibles.

Si, al analizar los datos, se descubre alguna asociación entre las variables, esto no significa que necesariamente alguna de ellas dependa causalmente de la otra. Una fuerte correlación entre, digamos, A y B, puede deberse a cuatro razones alternativas:

El investigador debe elegir deliberadamente una de estas alternativas. No hay medios en el análisis estadístico para la tarea de descubrir la explicación causal para una asociación estadística. En muchos casos, la teoría original del investigador puede proporcionar una explicación; si no, el investigador debe usar su sentido común para clarificar la causa.

A continuación mencionamos algunos métodos usuales de análisis estadístico que pueden usarse al estudiar la interdependencia entre una o más variables. Los métodos han sido dispuestos siguiendo a qué escala de medición corresponden la mayor parte de las variables.
 
- Escala nominal escala ordinal escala de intervalo escala de proporción
Métodos de presentación de datos - Tabulación ; Gráficos -
Medidas de asociación - Coeficiente de contingencia; Chi cuadrado -
- - correlación ordinal -
- - Correlación r de Pearson ; ANOVA
- - análisis de regresión ; análisis factorial

Tabulación

La tabulación es una forma habitual de presentar las asociaciones entre dos o más variables. Una tabla tiene la ventaja de que en ella puede disponerse bien una cantidad extensa de datos y se conservan las cifras exactas. Una desventaja es que una tabla grande no es ilustrativa: raras veces revela algo más que las más obvias regularidades o interdependencias entre datos. Algunas abreviaturas convencionales usadas en tablas se presentan bajo el encabezado Clasificar.

Presentación gráfica

Los artefactos, como objetos de estudio, son presentados con frecuencia como imágenes, que son una forma de presentación gráfica. (Ejemplos de presentaciones gráficas.)
Si el investigador desea resaltar algunos rasgos comunes o patrones generales que ha encontrado en un grupo de objetos, puede combinar varios objetos en un gráfico, como en la figura de la izquierda. En el diagrama, Sture Balgård muestra cómo los edificios viejos en Härnösand siguen proporciones uniformes de anchura y altura (la línea roja) con sólo algunas excepciones. Al inventar métodos ilustrativos de presentación de los hallazgos del estudio de artefactos, la más seria restricción es la imaginación del investigador.

Con frecuencia, no obstante, la apariencia del objeto en sí no es importante y sólo interesan los valores numéricos de sus mediciones. Si se considera así, lo primero que debiéramos plantearnos al elegir el tipo de gráficos es cuál es la estructura que queremos mostrar de los datos. Por supuesto tenemos que no "mentir con ayuda de la estadística", pero siempre es admisible elegir un estilo de presentación realce los patrones importantes al eliminar o dejar en segundo plano las relaciones y estructuras que no nos interesan.

Si nuestros datos consisten en solamente unas pocas mediciones, es posible mostrarlos todos como un diagrama de dispersión. Podemos exhibir los valores de dos variables sobre los ejes de abscisas y ordenadas, y adicionalmente unas cuantas variables más utilizando los colores o formas de los puntos. En el diagrama de la derecha, la variable z tiene dos valores que se indican respectivamente por un cuadrado y un signo +.

Si la variación es demasiado pequeña para que aparezca claramente, podemos darle énfasis eliminando partes de una o ambas escalas, véanse los ejemplos.  Simplemente eliminamos la parte que no nos interesa, sea por la parte superior o por la inferior. La parte descartada debe estar vacía de valores medidos empíricamente. Para asegurarnos que el lector se da cuenta de la operación, es mejor mostrarlo no sólo en las escalas, sino también en la cuadrícula de fondo del diagrama.

Por otro lado, si el rango de variación de nuestros datos es muy amplio, podemos plantearnos usar una escala logarítmica en uno o ambos ejes (véase el diagrama de la izquierda). La escala logarítmica es apropiada solamente en una escala de proporción.

Si tenemos cientos de mediciones, es probable que no queramos mostrarlas todas en forma de diagrama de dispersión. Una posibilidad en este caso es clasificar los casos y presentarlos como un histograma.
El histograma puede adaptarse para presentar hasta cuatro o cinco variables. Podemos hacer esto variando las anchuras de las columnas, sus colores, sus tramados y por una representación tridimensional (fig. de la izda.). Todas estas variaciones se crean fácilmente con un programa de hoja de cálculo como Excel, pero no deben ser usadas sólo como adorno.
Los patrones que rellenan o marcan las columnas del histograma pueden ser elegidos de forma que simbolicen una de las variables. Por ejemplo, las columnas que describen el número de automóviles pueden estar formadas por una pila de automóviles unos sobre otros. Esto es correcto, con tal de que no variemos el tamaño de los símbolos usados en un histograma. De otro modo, la interpretación se le haría difícil al lector (¿se vincula el número de automóviles a la longitud, el área o el volumen de los símbolos de los automóviles?)

El investigador suele estar interesado en las relaciones de dos o más variables antes que en las parejas de mediciones tomadas separadamente. La forma normal de presentar dos o más variables interdependientes es la curva. Esto implica una variable continua (es decir, en que el número de posibles valores es infinito). (Ejemplos.)

No debemos producir una curva a partir de mediciones que no son valores de la misma variable. Por ejemplo, los atributos de un objeto son variables diferentes. Ejemplos de ello son las evaluaciones personales que los investigadores suelen reunir con la ayuda de escalas semánticas diferenciales del tipo de la mostrada abajo:
 
Estime las características de su dormitorio. 
Tache un recuadro en cada línea.
Claro _ _ _ _ _ _ _ Oscuro
Ruidoso _ _ _ _ _ _ _ Tranquilo
Limpio _ _ _ _ _ _ _ Sucio
Grande _ _ _ _ _ _ _ Pequeño
Carecería ahora de sentido el presentar las distintas evaluaciones del dormitorio como un solo "perfil" como en el diagrama de la izquierda (aunque encontremos con frecuencia este tipo de presentaciones ilógicas en informes de investigación.)
Si queremos a toda costa poner el acento en que las variables han de ir juntas (por ejemplo porque todas son evaluaciones del mismo objeto), un método apropiado podría ser, por ejemplo, un grupo de histogramas (como el de la derecha).

Todos los diagramas mostrados arriba pueden combinarse con mapas y otras presentaciones topológicas. Por ejemplo, la variación en las diferentes áreas del país suele mostrarse como un cartograma que distinga los diferentes distritos con distintos colores o tramas. Otra forma es el cartopictograma en que pequeños diagramas de sectores ("de tarta" o "queso") o de columnas han sido colocados en el mapa. Las conexiones entre distintas áreas suele ser con frecuencia mostradas con filas cuyo grosor indica el número de conexiones. (Ejemplo.)

Una obra útil y concisa en español sobre el uso de diagramas para análisis estadístico es:  Antonio Alaminos, Gráficos, Madrid, Centro de Investigaciones Sociológicas, 1993 (Col. Cuadernos metodológicos, nº 7)

Contingencia

Los medios disponibles para el análisis de los vínculos entre las variables dependen de con qué tipo de escala  se han medido las variables. La variable decisiva es aquella cuya escala es la más rudimentaria.

El metro más rudimentario y general de la covarianza estadística de las variables es la contingencia. Puede aplicarse a todo tipo de variables, incluyendo aquellas que se han medido solo con una escala de clasificación, es decir, una escala de diferencia de  cualidades. La contingencia suele ser analizada haciendo una tabla, pero también hay disponibles estadísticas especiales para indicar su intensidad:

Las formulas para calcular las estadísticas de contingencia no se muestran aquí porque llevar a cabo los cálculos manualmente sería poco práctico y los investigadores habitualmente los hacen con un ordenador.

Correlación

Una forma habitual de expresar la fuerza de la asociación entre dos variables es la correlación del momento-producto o correlación de Pearson. Suele abreviarse con la letra r. La fórmula es bastante complicada pero raramente se necesita hoy, pues el algoritmo es ahora común incluso en las calculadoras de bolsillo. Aunque el algoritmo presupone que ambas variables deben ser medidas sobre una escala aritmética, en la práctica los investigadores suelen pasar por alto esta limitación.
A la derecha podemos ver un diagrama de dispersión que muestra los valores de dos variables y la correlación entre ellas. Se trata de una imagen animada, pero podemos ver también una vista combinada de los once conjuntos de valores, que puede servirnos también en el caso de que el programa que estamos utilizando para ver estas páginas (navegador o browser) no muestre de forma alternativa once conjuntos de valores con sus respectivas correlaciones.

Si el coeficiente de correlación es bajo, por ejemplo algo entre -0.3 y  +0.3, las dos variables no tienen mucho que ver entre sí. Si es alto, en otras palabras, si su valor se aproxima ya sea a +1 o a -1, esto significa que la relación entre las dos variables se aproxima a la ecuación
y = ax + b.
El signo del coeficiente de correlación no es importante; el signo siempre es idéntico al signo del coeficiente a en la ecuación de arriba.

La correlación es una herramienta práctica para el análisis inicial de los datos, cuando no tenemos una idea clara de las relaciones mutuas entre variables. Es fácil para un ordenador calcular una matriz de correlación entre un gran número de variables o, más exactamente, para todos los pares potenciales de variables. Podemos entonces elegir esos pares que presentan las correlaciones más fuertes, y continuar examinandolos con otras herramientas, más refinadas, de análisis, por ejemplo el análisis de regresión.

Un aspecto débil del análisis de correlación es que no puede detectar otras relaciones lineales entre las variables. Por ejemplo, una relación que obedece a la ecuación
y = ax2 + bx + c
pasaría inadvertida. Sin embargo, algunos de los nuevos programas de análisis son capaces de detectar incluso esta y algunas otras asociaciones habituales de variables.

Si la correlación se calcula a partir de una muestra, debemos recordar probar su representatividad estadística. Una prueba adecuada para esto es la prueba t.

Análisis de varianza

El análisis de varianza (en inglés ANOVA, ANalysis Of VAriance) examina dos o más conjuntos de mediciones, especialmente sus varianzas, e intenta detectar diferencias estadísticamente representativas entre los conjuntos. Estos conjuntos podrían ser, por ejemplo, reacciones medidas para dos grupos experimentales, y el investigador quiere examinar si hay una diferencia en las reacciones, tal vez causada por los distintos estímulos a los grupos.

El método de análisis de varianza se basa en el hecho matemáticamente probado de que hay una diferencia entre los grupos sólo si la varianza  inter-grupos  es mayor que la varianza intra-grupo.
El análisis se inicia calculando la varianza intra-grupo para cada grupo, y la media de todas estas varianzas de grupo.
El siguiente paso es calcular la media para cada grupo, y entonces la varianza de estas medias. Esa es la varianza inter-grupos.
Entonces calculamos la proporción de las dos cifras que acabamos de obtener, que es llamada F. En otras palabras,
= (varianza de las medias de grupo) / (media de las varianzas de grupo).
Finalmente nos referimos a la tabla (en manuales estadísticos) que muestra qué valores puede alcanzar el coeficiente F cuando sólo actúa el azar. Si el F obtenido del ANOVA es mayor que el valor de la tabla, hay una diferencia entre los grupos que es significativa según muestra la tabla.

Análisis de regresión

El investigador suele tener razones teóricas o prácticas para creer que determinada variable es causalmente dependiente de una o más variables distintas. Si hay bastantes datos empíricos sobre estas variables, el análisis de regresión es un método apropiado para desvelar el patrón exacto de esta asociación.

El algoritmo de análisis de regresión construye una ecuación, que tiene el siguiente patrón. Además, da los parámetros a1, a2 etc. y b valores tales que la ecuación corresponde a los valores empíricos con tanta precisión como es posible.

y = a1x1 + a2x2 + a3x3 + ... + b

En la ecuación,
y = la variable dependiente
x1 , x2 etc. = variables independentes
a1 , a2 etc. = parámetros
b = coeficiente.

Si tenemos amplios datos con muchas variables, al principio del análisis no estaremos tal vez seguros de qué variables están mutuamente conectadas y cuales debieran así ser incluidas en la ecuación. Podríamos primero estudiar esto con el análisis de correlación, o podemos dejar al programa de análisis de regresión elegir las variables "correctas" (x1, x2 etc.) para la ecuación. "Correctas" son aquellas variables que mejoran la exactitud del ajuste entre la ecuación y los valores empíricos.

Análisis factorial

A veces tiene el investigador una gran cantidad de datos sobre numerosas variables diferentes con correlación entre ellas. Con ayuda del análisis factorial, tales datos suelen poder comprimirse y las variaciones presentarse a través de sólo unas pocas variables.

Como ejemplo, consideremos los datos de un cuestionario (mostrado en otra parte) donde a un cierto número de sujetos de un test se les preguntó en qué grado se correspondían sus dormitorios personales con los adjetivos proporcionados por el investigador (mostrados en escalas "semánticas diferenciales"). El investigador ahora quiere descubrir si tras las estimaciones de los sujetos, hay algunas "variables de fondo" cuya medición directa por a través de medios lingüísticos no sería posible a causa de la carencia de adjetivos apropiados en el lenguaje. La hipótesis del investigador es que estas variables de fondo "aparecen" a través de los adjetivos usados en las escalas semánticas, habitualmente no con un adjetivo único, sino mediante un grupo de adjetivos con correlación entre ellos.
Con la ayuda de un análisis factorial, las variables de combinación o factores ocultos tras los atributos medidos pueden detectarse y especificarse, y el análisis también dice lo estrechamente que estos factores están vinculados con las variables originalmente verificadas.-- A veces se sitúa también una condición suplementaria sobre los factores, concretamente que no deben tener correlación  alguna entre ellos y estén por lo tanto en "ángulo recto" uno con respecto a otro (= "rotación ortogonal" de los factores durante el análisis).

Un inconveniente del método del análisis factorial es que es demasiado fácil de usar para estudios que son formalmente correctos pero en la práctica absurdos, porque siempre presenta los resultados de una forma elegante y matemáticamente exacta, incluso cuando los factores obtenidos son tienen ningún contenido empírico sensato.

Analizar una serie temporal

Una serie cronológica es una línea de valores de variables reunidos en un cierto periodo de tiempo, habitualmente en intervalos regulares. Si cada valor nuevo se añade a los previos, la serie es acumulativa.

La curva es la presentación más usual para la serie cronológica. El tiempo siempre se presenta en el eje horizontal, x. Si es necesario, pueden situarse varias variables o series de datos en el mismo diagrama. Esto tiene especial sentido cuando se están investigando sus conexiones o ha de ponerse énfasis en éstas.  Cuando se presentan dos series cronológicas distintas con distintas escalas en una figura, podemos situar una escala cuanto al margen izquierdo de la figura y la otra junto al margen derecho.
Si es necesario, tanto los valores medidos como los que se predicen pueden mostrarse en la misma curva; véanse las figuras de abajo.

Si el rango de la variable es muy pequeño, puede ser resaltado acortando la escala Y, es decir, cortando la parte que no contiene valores, normalmente a partir de la parte de abajo de la escala.
La figura de la derecha tiene exactamente los mismos contenidos que la de la izquierda, pero la variación se ha hecho más visible al recortar la escala por la parte de abajo. - Si, por el contrario, la variable varía en una escala muy amplia, puede hacerse logarítmica la escala del eje Y.

Toda serie cronológica es intrínsecamente discontinua, es decir,  obtiene un valor discreto para cada periodo de tiempo. Esto es por lo que la presentación elegida para una serie cronológica suele ser una curva "en escalera", que es en principio lo mismo que un histograma donde las columnas se dibujan una junto a otra. Véase la figura de la izquierda.

Si dirigimos una mirada más detenida a la variación de la serie cronológica, ésta suele revelar componentes, todos los cuales tienen sus regularidades específicas que pueden ser analizadas. Los más habituales de estos componentes son:

Una tendencia es una dirección lineal de desarrollo en un periodo de tiempo. Una forma sencilla de estudiarla es hacer un diagrama de dispersión y entonces situar manualmente una estimación aproximada de la línea que describe la tendencia en él.
Un método más refinado y exacto para la tarea arriba mencionada es el análisis de regresión. Tras haber encontrado la ecuación que se ajusta de forma óptima a la tendencia, ésta habitualmente es también presentada de forma gráfica, posiblemente junto con el diagrama de dispersión original.

Una variación periódica es una variación cíclica recurrente en forma similar una y otra vez. El periodo de variación suele ser una unidad natural de tiempo, como un año o un día.
Por ejemplo, el consumo de energía de un edificio varía simultáneamente con tres frecuencias: ritmos anual, semanal y diario. Estos se calculan uno cada vez, por el siguiente método, básicamente el mismo en los tres casos:

Cuando se ha encontrado la variación periódica, ésta se presenta, sea gráficamente como curva de la longitud de un periodo, o bien numéricamente como un índice. Este índice habitualmente se hace a partir de una base de 100 (ó 1,00), y sus valores periódicos se obtienen cuando las medias periódicas (por ejemplo mensuales) se dividen por la media común del conjunto de los datos.

Una variación de coyuntura tiene lugar repetidamente en la misma manera que una variación periódica, pero su longitud y forma varían.
Para revelar la variación de coyuntura, la tendencia y las variaciones periódicas de los datos han de ser halladas primero. Tras esto, la tendencia y las variaciones periódicas se eliminan de los datos. Esto se hace por ejemplo dividiendo todos los valores individuales por el índice de la variación periódica, y por la fórmula de la tendencia tal y como se ha hallado por el método de análisis de regresión.
Tras estas operaciones, los datos sólo incluyen (de forma suplementaria a la variación aleatoria) la variación de coyuntura. La variación coyuntural se presenta gráficamente como una curva o numéricamente, como un índice de coyuntura, del mismo modo que el índice de variación  mencionado anteriormente.

La variación aleatoria es habitualmente eliminada mediante la media flexible. Por ejemplo, en datos que contienen valores mensuales, esto se hace sustituyendo para cada valor mensual una media que comprende a ese mes y los meses vecinos.
La media de cinco o siete meses puede también usarse, aunque la desventaja de esto es que puede oscurecer incluso la variación que podría interesar al investigador.

La variación aleatoria no es necesariamente una perturbación que haya de ser eliminada. Si hay una gran cantidad de ella, el investigador podría intentar plantearse las razones para esta variación: ¿es causada por un factor importante o interesante que debiera ser incluido en la hipótesis del proyecto de investigación?

Todos los análisis de series cronológicas que acaban de mencionarse son hoy realizados normalmente con un ordenador.

Aquí sólo era posible presentar los métodos más habituales de análisis estadístico. Otras guías sobre metodología son, por ejemplo.: Friedman, Pisani, Purves, Adhikari: Statistics.

Cuando la información deseada se ha extraído de los datos, la credibilidad de los resultados debiera ser evaluada, como una fase separada, antes de publicarlos y antes de aplicarlos en la práctica. 


Indice / Glosario / Indice de nombres

15.dic.1998. Comentarios para el autor: email pentti.routio@uiah.fi  Versión en español: jbermejo@iponet.es

Ubicación original: http://usuarios.iponet.es/casinada/arteolog (España) http://www.uiah.fi/projects/metodi/ (Finlandia)