- El 73,9% de los españoles tiene al menos un ordenador en casa.
- El 73,7% de los cántabros tiene al menos un ordenador en casa.
- En España los nombres de niños recién nacidos más frecuentes son Daniel y Alejandro.
- En Cantabria los nombres de niños recién nacidos más frecuentes son Daniel y Pablo.
En esta unidad estudiaremos las dos ramas de la estadística:
- Estadística descriptiva: Organiza, ordena y presenta los datos en tablas y gráficos, y calcula parámetros que permiten estudiar los aspectos más importantes de los datos.
- Estadística inferencial: es un conjunto de técnicas mediante las cuales se hacen generalizaciones o se toman decisiones en base a información parcial obtenida mediante técnicas descriptivas.
Las variables
son las características que se
estudian de cada individuo de la muestra.
·
Cualitativas: son datos que sólo toman valores
asociados a las cualidades, es decir, no son valores numéricos
·
Cuantitativas: son las variables que pueden
medirse, expresarse numéricamente. Pueden ser:
o
Discretas: es aquella que sólo puede tomar un número finito
de valores (o infinito numerable).
o
Continuas: es aquella que puede tomar cualquier valor en una
escala continua
Ejemplo:
- Comida favorita: cualitativa
- Profesión que te gusta: cualitativa
- Número de alumnos de tu instituto:
cuantitativa discreta
- El color de ojos de tus compañeros:
cualitativa
- Nacionalidad de una persona: cualitativa
- Número de litros de agua contenidos en un
depósito: cuantitativa continua
- Número de libros en una estantería:
cuantitativa discreta
- El área de las distintas baldosas de un
edificio: cuantitativa continua
Los datos
son los valores que toma la variable en cada caso.
Una vez que
se ha realizado la recolección de los datos, se organizan y se tabulan:
Ø Elaboración
de una tabla de frecuencias: es una ordenación en forma de tabla de los datos
estadísticos, asignando a cada dato su frecuencia correspondiente. La
frecuencia es el número de veces que aparece un determinado valor en un estudio
estadístico. Se presenta por fi.
Ejemplo:
Durante el mes de Julio, en una ciudad se han
registrado las siguientes temperaturas máximas:
32 31 28 29
33 32 31
30 31 31
27 28 29
30 32 31
31 30 30
29 29 30
30 31 30
31 34 33
33 29 29
Obteniendo la siguiente tabla de frecuencias:
En función del tipo de variable que sea elegiremos
un tipo de gráfico u otro.
Para variables cualitativas representaremos los
datos en un diagrama de sectores:
Para variables cuantitativas discretas
representaremos los datos en un diagrama de barras:
Para variables cuantitativas continuas o discretas
agrupadas en intervalos, representamos los datos en un histograma:
Tareas a
realizar:
T10, T11.
Nota: ya se
puede empezar a recoger datos para el trabajo final: T30
METODOLOGÍA:
Para
esta primera sesión el peso recae sobre el profesor. Introduce el tema
incluyendo ejemplos de la vida real para mostrar a los alumnos la importancia
que, un tema en principio teórico, tiene y su repercusión en nuestra vida
diaria. Así, la mayor parte de la sesión consiste en una exposición por parte
del profesor. Los alumnos contestan en voz alta a los ejemplos planteados para
afianzar los nuevos conceptos adquiridos.
Para
finalizar se mandan los deberes que se corregirán al día siguiente.
Sesión 2
Continuación…
Si
las variables toman un número grande de valores o la variable es continuase
emplea una tabla con datos agrupados.
Se
agrupan los valores en intervalos que tengan la misma amplitud.
La
marca de clase es el punto medio de cada intervalo y es el valor que representa
a todo el intervalo de las tablas y en el cálculo de algunos parámetros.
Los
pasos para organizar una distribución
agrupada en intervalos son los siguientes:
1.
Se localizan los valores menor “a” y mayor “b” de
la distribución.
2.
Se restan, “a-b”
y este será el recorrido.
3.
Se decide el número de intervalos que se quiere
formar teniendo en cuenta la cantidad de datos que se posee. El número de
intervalos no debe ser inferior a 6 ni superior a 15.
La longitud
de cada intervalo debe ser siempre la misma.
4.
Se toma un intervalo r’, de longitud algo mayor que
el recorrido y que sea múltiplo del número de intervalos que hemos elegido
(para que los intervalos tengan una longitud entera)
5.
Se forman los intervalos de modo que el extremo
inferior del primero sea algo menor que
“a” y el extremo superior del último algo mayor que “b”. Es deseable que los
extremos de los intervalos no coincidan con ninguno de los datos. Para ello,
conviene que los extremos de los intervalos tengan una cifra decimal más que
los datos.
Ejemplo: T1
En estadística
un parámetro es un número que resume la cantidad de datos que se recogen en el
estudio de una variable estadística.
Ø Medidas de
centralización: Nos indican en torno a qué valores se distribuyen
los datos.
o
Media: es el promedio de un conjunto de números, el
valor característico:
o
Mediana: es el valor que ocupa el lugar central de
todos los datos cuando estos están ordenados.
o
Moda: es el valor que más se repite.
Ø Medidas de
dispersión: muestran la variabilidad de una distribución, nos
informan sobre cuánto se alejan los valores del centro.
o
Varianza: es la media de las diferencias con la
media(es muy sensible a las puntuaciones extremas).
o
Desviación típica: mide cuanto se separan los datos
o
Coeficiente
de variación: es la relación que hay entre la desviación típica de una muestra
y su media. Suele expresarse en porcentajes. Cuanto mayor sea el C.V. mayor
dispersión habrá.
Ø Medidas de posición: las medidas de posición
dividen un conjunto de datos en grupos con el mismo número de individuos(es
necesario que los datos estén ordenados de menor a mayor).
Nos indican qué porcentaje de datos están por
encima o por debajo de cierto valor.
o
Mediana: es
el valor que divide a la población por la mitad, es decir, el 50% de los datos
son iguales o menores que la mediana.
o
Cuartiles(Q1,
Q3):
§ Q1: valor que deja por debajo al 25% de los datos.
§ Q3: valor que deja por debajo al 75% de los datos.
o
Percentiles:
partimos a la población en 100 partes. Pk será el valor que deje por debajo el
k% de los datos.
Nota: Mediana= p50 ;
Q1=p25 ; Q3=p75
Ejemplo: T6
Tareas a realizar:
T2, T3, T4, T5,T7
METODOLOGÍA:
La
primera parte de la clase los alumnos elegidos corrigen los deberes en la
pizarra. Se observa quienes los han hecho, quienes no han sabido y quienes no
han querido hacerlos. Se comentan los errores, se pone en común las diferentes
respuestas obtenidas y explican el procedimiento seguido hasta dar con la
respuesta. El resto de los alumnos pueden preguntar al que está corrigiendo sus
dudas.
Una
vez acabados los deberes, el profesor explica el siguiente punto con la ayuda
de los estudiantes quienes aportan sus opiniones y dudas.
Sesión 3
Continuación…
Para
calcular la mediana, los cuartiles y los demás percentiles en distribuciones
dadas por tablas de frecuencias, se necesita el concepto de frecuencia
acumulada...
En una distribución de frecuencias,
se llama frecuencia acumulada, Fi, correspondiente al valor i-ésimo, xi, a la
suma de la frecuencia de ese valor con todas las anteriores:
Fi=fi+f2+…+fi
Por ejemplo,
en la distribución de frecuencias dada:
Obtenemos:
La expresión
en % de las frecuencias acumuladas nos permite obtener fácilmente los
percentiles.
Para hallar
el percentil pk en una tabla de frecuencias, se obtienen las frecuencias
acumuladas y se expresan en %. El percentil pk es el calor para el cual la
frecuencia acumulada correspondiente supera el k%.
En el caso
de que una de ellas coincida con k%, se toma como pk el valor intermedio entre
ese valor de x y el siguiente.
Por ejemplo
en la tabla, obtenemos:
Me=p50=2 porque para xi=2
la Fi supera el 50%
Q1=p25=1,5 porque para xi=1
la Fi es exactamente el 25%
Q3=p75=3 porque para xi=3
la Fi supera el 75%
P99=5 porque para xi=5
la Fi supera el 99%
Tareas a
realizar:
T12, T13,
T15, T16, T17
Sesión 4
- Esta sesión está dedicada al trabajo final.
- Se trata de un estudio estadístico. El
60% de la nota final se pondrá en
base a este trabajo.
- Es un trabajo para hacer en parejas y ellos
deciden en esta sesión los grupos para empezar cuanto antes a recoger
datos y organizar el trabajo.
- Después de leer las pautas, explicar en qué
consiste y elegir las parejas, el resto de la sesión se destina a elegir
la variable que se quiere estudiar y a elaborar una lista de los posibles
individuos a entrevistar.
- El resto del trabajo se hará fuera del aula y
se entregará y expondrá al final del tema.
METODOLOGÍA:
El comienzo
de la sesión como siempre es para corregir deberes en la pizarra.
Una vez que
se ha terminado de corregir se plantea el trabajo final. Se comenta en voz alta
en qué consiste, los alumnos preguntan sus dudas, y se les deja unos minutos
para que elijan a la pareja con la que elaborarán el estudio.
Por último,
en parejas ya colocados, comienzan a decidir la variable que desean estudiar y
a organizar el trabajo.
Sesión 5
Diagrama de
caja
La gráfica
corresponde a la distribución de notas en un cierto examen. En la parte alta se
ha puesto la escala sobre la que se mueve la variable. Debajo se pone el
diagrama propiamente dicho, que consiste en lo siguiente:
-
La población total se parte en cuatro trozos, cada
uno de ellos con el 25% de los individuos, previamente ordenador de menos a
mayor.
-
El 50% de los valores centrales se destacan
mediante un rectángulo (caja).
-
Los valores extremos (el 25% de los menores y el
25% de los mayores) representan mediante sendos segmentos (bigotes).
Los puntos que separan los cuatro trozos son,
obviamente, los cuartiles y la mediana.
Los diagramas de caja (o caja y bigotes) se
construyen del siguiente modo:
·
La caja abarca el intervalo Q1, Q3 (llamado
recorrido intercuartílico) y en este se señala expresamente el valor de la
mediana, Me.
·
Los bigotes se trazan hasta abarcar la totalidad de
los individuos, con la condición de que cada lado no se alargue más de una vez
y media la longitud de la caja.
·
Si uno (o
más) de los individuos quedara por debajo o por arriba de esa longitud, el
correspondiente lado del bigote se dibujaría con esa limitación y se añade
mediante asterisco, el individuo en el lugar que le corresponda.
Ejemplo:
El número de libros que un grupo de 100 personas lee
anualmente está comprendido entre 1 y 8. Hay una persona que lee 9 libros al
año. Conocemos los siguientes parámetros: Q1 = 2, Me
= 3 y Q3 = 4,5. Haz un diagrama de caja para esta
distribución.
La
longitud de la caja es 4,5 - 2 = 2,5.
Los
segmentos del bigote han de tener como mucho 1,5 · 2,5 = 3,75. La rama izquierda mide menos. La de la derecha, de 3,75, no abarca
el elemento mayor (una
persona que lee 9 libros); se
representa pues mediante un asterisco.
Tareas a
realizar:
T8, T9, T14,
T18, T19, T20, T21
Sesión 6
Estadística
Inferencial
I.
Si deseamos conocer algunos datos anatómicos
(estatura, peso, perímetro torácico…) de los 843 estudiantes de un centro
docente, se puede conseguir con facilidad midiéndolos. Sin embargo, si
quisiéramos las mismas medidas de todos los jóvenes europeos de edades
comprendidas entre 18 y 30 años, la tarea sería desmesurada. Tendríamos que
recurrir a una muestra.
II.
Para estudiar la duración de una bombilla, hay que
dejarla encendida y medir el tiempo transcurrido hasta que se funda. Como es
natural, no se puede hacer eso con la totalidad de las bombillas de una
producción. Debe recurrir a una muestra
III.
Deseamos conocer la opinión que tienen sobre las
rebajas las personas que acuden a unos grandes almacenes. Es imposible
preguntas a todas ellas; hay que recurrir a una muestra, pues no es posible
controlar, ni aproximadamente, cuáles son los individuos de la población, ni a
cuántos de ellos no se ha encuestado.
En la práctica, es muy frecuente tener que recurrir
a una muestra para inferir datos de la población por alguno o varios de los siguientes
motivos:
·
La población es excesivamente numerosa (caso I).
·
La población es muy difícil, o imposible, de
controlar (caso III).
·
El proceso de medición es destructivo (caso II) o
demasiado caso.
·
Se desea conocer rápidamente ciertos datos de la
población y se tardaría demasiado en consultas a todos (por ejemplo, los
sondeos electorales).
Ejemplos:
1.
Un
fabricante de tornillos desea hacer un control de calisas, recoge uno de cada
100 tornillos y lo analiza. El conjunto de tronillos analizados, ¿es población o muestra? ¿por qué?
Solución:
Es muestra, pues sólo se analiza uno de cada cien
tornillos fabricados.
2.
Un
fabricante de vasos de vidrio quiere estudiar la resistencia que presentan a la
rotura. El procedimiento consiste en someterlos a presiones paulatinamente
crecientes hasta que se parten. ¿Puede hacer el estudio sobre la población o
debe recurrir a una muestra? ¿Por qué?
Solución:
Debe recurrir a una muestra, pues el proceso de
análisis es destructivo.
3.
Un campesino
posee 127 gallinas. Para probar la eficacia de un nuevo tipo de alimentación,
las pesa todas antes y después de los veinte días que dura el tratamiento. El
conjunto de esas 127 gallinas, ¿es población o muestra? ¿por qué?
Solución:
Es población. Pero si se quisiera, a partir de los
datos obtenidos, sacar conclusiones para todas las gallinas de España, o de
Europa, o del mundo, sería una muestra.
Tamaño de la muestra
Respecto
al tamaño, es claro que si la muestra es demasiado pequeña, no podremos extraer
de ella ninguna conclusión que valga la pena. Sin embargo, con muestras
aparentemente muy pequeñas se consiguen estimaciones sorprendentemente buenas
de la realidad.
Más
adelante analizaremos la relación que hay entre el tamaño de la muestra y el
tipo de conclusiones que obtengamos de ella.
La muestra ha de elegirse al azar
Al
sustituir el estudio de la población por el de la muestra, se cometen errores.
Pero
con ellos contamos de antemano y pueden controlarse.
Sin
embargo, la muestra está mal elegida (no
es representativa), se producen errores adicionales imprevistos e incontrolados
(sesgos).
El
proceso mediante el cual se confecciona la muestra se llama muestreo. ¿Cómo debe ser el muestreo
para que nos proporcione una muestra representativa, no sesgada? Tal vez te
resulte chocante pero es imprescindible que la muestra se elija al azar. Es
decir, el muestreo ha de ser aleatorio.
Tareas
a realizar:
T22,
T31, T32, T33, T34,
Metodología
Durante la primera parte de la
sesión corregimos los deberes mandado el día anterior, en la pizarra,
explicando como han hecho los ejercicios que dificultades han encontrado y
contestando a las dudas de sus compañeros.
La segunda parte de la sesión el
profesor explica, sin entrar demasiado en el tema, la otra rama de la
estadística, la inferencial. Esta es la última clase antes de la exposición del
trabajo y por tanto se dedican los últimos diez minutos a resolver dudas. La
tarea mandada hoy no se corregirán a menos que haya dudas, todas las
soluciones, de todos los ejercicios corregidos o no colgados, están a
disposición del alumnos por si quisiera trabajar en casa y autoevaluarse.
Sesión 7 Y 8 (Exposición trabajo
final)
En cada sesión cuatro de los grupos expondrán sus
trabajos. Disponen de 10 minutos para ello, mientras sus compañeros toman notas
sobre lo que les gusta y lo que no y evalúan su trabajo.
Una vez expuestos todos, debatimos de sobre cada
trabajo la nota que se merecen y por qué, después de haber escuchado a los
autores su valoración personal y sus motivos.
Metodología
En este caso son los alumnos los que dirigen la
clase, ellos exponen y explican.
El resto de los compañeros también desempeñan una
de las tareas propias del profesor: evaluar los trabajos. Deberán mencionar lo
que les ha gustado lo que no les ha gustado y por todo esto la nota que creen
que merecen.
Una vez que todos han expuesto, grupo por grupo
debatimos su valoración, valoración que tendré en cuenta a la hora de ponerles
la nota, incluyendo la de los autores del trabajo.