Tema 8: Medidas de tendencia central, posición y dispersión.
Esta tema, es un tema muy práctico, donde veremos formulas estadísticas que se aplican solamente a variables cuantitativas.
Hay tres grandes tipos de medidas estadísticas:
- Medidas de posición: dan idea de la magnitud,
tamaño o posición de la observaciones de los datos una vez que están ordenados
de menor a mayor.
- Tendencia central: dan idea del comportamiento central mayoritario.
- Medidas de dispersión o variabilidad: dan información acerca de la heterogeneidad de
nuestras observaciones.
- Medidas De Tendencia Central
Media aritmética: Se calcula para variables cuantitativas y se trata del
centro geométrico o de gravedad de nuestros datos. Es la suma de todos los
valores de la variable observada entre el total de observaciones. La fórmula
es:
x= Ʃx/n
Mediana:
Es el valor de la observación tal que deja a un 50% de
los datos menor y otro 50% de los datos
mayor.
-
Si el número de observaciones es impar el valor de la
observación será justamente la observación que ocupa la posición (n+1/2)
Ejemplo: si son 75, pues 76 entre 2 = 38, la mediana seria la edad que tiene el
sujeto 38.
-
Si el número de observaciones es par, el valor de la mediana
corresponde a la media entre los dos valores centrales, es decir, la media
entre la observación n/2 y la observación (n/2)+1. Ejemplo: cuatro sujetos de
edades, 10, 15, 20, 25, cogemos los dos sujetos centrales y hacemos la media
aritmética entre ambos.
Propiedad: robustez. Sólo tiene en
cuenta la posición de los valores en la muestra y por tanto tiene mucho mejor
comportamiento que la media cuando hay observaciones extremas.
Moda:
también se puede calcular en variables cualitativas.
Es el valor con mayor frecuencia (que más veces se
repite). Si se repiten dos números, es dimodal o mas números multimodal.
Si hay más de una se dice que la muestra es bimodal
(dos modas) o multimodal (más de dos modas).
Se puede calcular para cualquier tipo de variable.
Si los datos están agrupados, se habla de clase modal
y corresponde al intervalo en el que el cociente entre la frecuencia relativa y
la amplitud es mayor (hi/ci). Donde la frecuencia
absoluta sea mayor.
Medidas De Posición
Cuantiles:
Se calculan para variables cuantitativas y, al igual que la mediana, sólo tienen en cuenta la posición de los valores en la muestra.
Los cuantiles más usuales son los percentiles,
los deciles y los cuartiles, según dividan la muestra ordenada en 100, 10 ó 4
partes, respectivamente.
-
Percentiles:
o Dividen la muestra ordenada
en 100 partes.
o El percentil “i” (Pi),
es aquél valor que, ordenadas las observaciones en forma creciente, el i% de
ellas son menores que él y el (100-i)% restante son mayores.
o Para buscar la posición de un
percentil en una serie de datos agrupados, buscamos el intervalo en el que la
frecuencia relativa acumulada (Hi) sea superior al valor del
percentil.
o El valor del P50
corresponde al valor de la mediana.
-
Deciles:
o Dividen la muestra ordenada
en 10 partes.
o El decil “i” (Di),
es aquél valor que, ordenadas las observaciones en forma creciente, el i/10% de
ellas son menores que él y el (100-i)/10% restante son mayores.
o El valor del D5
corresponde al valor de la mediana y, por tanto, al del P50.
-
Cuartil:
o Dividen la muestra ordenada
en 4 partes.
o El Q1, primer
cuartil indica el valor que ocupa una posición en la serie numérica de forma
que el 25% de las observaciones son menores y que el 75% son mayores.
o El Q2, segundo
cuartil indica el valor que ocupa una posición en la serie numérica de forma
que el 50% de las observaciones son menores y que el 50% son mayores. Por
tanto, el Q2 coincide con el valor del D5, con el valor
de la mediana P50.
o El Q3, tercer
cuartil indica el valor que ocupa una posición en la serie numérica de forma
que el 75% de las observaciones son menores y que el 25% son mayores.
o El Q4, cuarto cuartil indica el valor mayor
que se alcanza en la serie numérica.
La
información aportada por las medidas de tendencia central es limitada.
Distribuciones Normales
En
estadística se llama distribución normal a una de las distribuciones de probabilidad de variable continua que
con más frecuencia aparece en fenómenos reales. Es Distribución de probabilidad
mas frecuente con variables continuas, por ejemplo, altura, peso, niveles de
colesterol…
Las
distribuciones normales en un histograma aparece una especie de Campana, por
eso la campana de Gauss. Y es simétrica respecto de los valores de posición
central, es decir que la moda va a coincidir con la media y la mediana.
La gráfica de
su función de densidad tiene una forma acampanada y es simétrica respecto de
los valores posición central (media, mediana y moda, que coinciden en estas
distribuciones). Es simetrica dejando la mitad de los valores
por debajo del punto maximo y la mitad de los valores por encima.
Esta
curva se conoce como campana de Gauss.
Una
distribución normal sigue estos principios básicos: si al valor de la media le
restamos y le sumamos una desviación típica, si la serie numérica siguiera una
distribución normal (como el colesterol). Dice que el 68.25% de las observaciones
se va a sumar entre los valores de la suma y la resta de la media a una
desviación típica. Estas datos varían si sumamos una, dos o tres desviaciones
típicas.
-
S 68,26% de las observaciones.
-
2xS 95,45% de las observaciones.
-
3xS 99,73% de las observaciones.
Asimetrías y Curtosis
La
asimetría es al lado contrario al que vemos el pico (la moda), es decir si
vemos el pico hacia la derecha la asimetría es a la izquierda, y si la moda
esta a la izquierda la asimetría esta hacia la derecha.
Coeficiente
de asimetría de una variable: Grado de asimetría de la
distribución de sus datos en torno a su media, cuanto mas asimétrica sea,
valores mas diferentes encontraremos. Es adimensional y se define:
no
aprender, es para calcular el grado de asimetría.
Asimetrías:
Curtosis o apuntamiento de la curva.
No
tiene relación con la simetría. Coeficiente de apuntamiento o curtosis de una
variable, sirve para medir el grado de concentración de los valores que toma en
torno a su media. Los datos se acumulan mucho, mientras mas se acumulen, mas
apuntada esta la curva.
Los
resultados pueden ser los siguientes:
-
g2=0 (distribución mesocúrtica o normal). Presenta un grado
de concentración medio alrededor de los valores centrales de la variable (el
mismo que presenta una distribución normal). Presentan un grado de
concentración medio a los valores de la
media.
-
g2>0 (distribución leptocúrtica). Presenta un elevado
grado de concentración alrededor de los valores centrales de la variable.
-
g2<0 (distribución platicúrtica). Presenta un reducido grado
de concentración alrededor de los valores centrales de la variable.
Este tema es otro tema muy practico, el cual, personalmente me gusta más, prefiero hacer problemas y sustituir formulas, ya que lo veo mucho más practico y sencillo. Sinceramente me encanta esta parte de la estadística y no me resulta difícil. Para mi es muy entretenida,