cas

1 INTEGRANTES TIFFANY YINETH BERNAL LOPEZ CÓDIGO 1711022890 JENNY FERNANDA RIVERA QUEMBA CÓDIGO 1811026515 TUTOR ZAPA

Views 1,002 Downloads 61 File size 520KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

1

INTEGRANTES

TIFFANY YINETH BERNAL LOPEZ CÓDIGO 1711022890 JENNY FERNANDA RIVERA QUEMBA CÓDIGO 1811026515

TUTOR ZAPATA CIFUENTES EDWIN HERNANDO

CB/PRIMER BLOQUE-ESTADISTICA INFERENCIAL-[GRUPO3] 2019

Introducción

La estadística inferencial es una materia derivada de clásicas matemáticas y la probabilidad para la solución de problemas de estimación puntal y segmentada que favorecen las i2 actividades que clasificación y recuenta todos los hechos que tienen una determinada característica en común, para poder llegar a conclusiones a partir de los datos numéricos extraídos. La inferencia es llegar a puntos objetivos, metas claras y a cifras puntuales o bajos ciertos rangos destinados a informar acerca de un comportamiento de una población mediante la extracción de una muestra para posteriormente ser analizada. De acuerdo con lo anterior observaremos mediante una serie de ejercicios aplicativos la manera adecuada de desarrollar los diferentes comportamientos de compra del cliente frente a diferentes productos. Específicamente, el problema que estamos tratando de predecir la variable dependiente.

22

Objetivo

Desarrollar cada uno de los ejercicios del trabajo con el fin de aplicar conceptos básicos de la estadística inferencial Identifica variables constantes y parámetros, y las relaciones que pueden existir entre ellos y su representación matemática. Desarrolla la estimación de parámetros mediante el uso de intervalos de confianza. Comprender el procedimiento para construir intervalo de confianza para estimar la diferencia de dos promedios poblacionales e interpretarlo

Tabla de Contenidos

Introducción…………………………………………………,.01 Objetivo………………………………………………………02 Descripción…………………………………………………...03 Desarrollo…………………………………………………….04 Referencias…………………………………………………....05

Descripción El conjunto de datos en el archivo “black-friday” (Dagdoug, 2019) es una muestra de las transacciones realizadas en una tienda minorista. La tienda quiere conocer mejor el comportamiento de compra del cliente frente a diferentes productos. Específicamente, el problema que estamos tratando de predecir la variable dependiente (el monto de la compra) con la ayuda de la información contenida en las otras variables. Las variables del archivo adjunto son las siguientes:

User_ID

Identificador único del comprador

Product_ID

Identificador único del producto.

Gender

Sexo del comprador

Age

Edad del comprador contenedores

Occupation

Ocupación del comprador.

City_Category

Lugar de residencia del comprador.

dividida

en

Stay_In_Current_City_Years Número de años en la ciudad actual. Marital_Status

Estado civil del comprador

Product_Category_1

Categoría de producto de compra

Product_Category_2

El producto puede pertenecer a otra categoría

Product_Category_3

El producto puede pertenecer a otra categoría

Purchase

Valor de la compra en dólares

En el siguiente link podrá descargar el archivo: http://bit.ly/2M8AZmG Por lo anterior se sugiere que realice la siguiente: Utilizando la variable del valor de la compra (Purchase), realice lo siguiente: Realice un histograma y explique la forma y la curtosis según el contexto. Calcular: la media, mediana, moda, desviación estándar, coeficiente de variación e interprete los resultados.

1. 2.

En relación a la variables dadas en la tabla anterior, responda y justifique los resultados: 3.1 ¿Cuál es la categoría de edades que más realiza compras en el black-friday? 3.2 ¿Cuál es promedio de gatos de la categoría de la edad que más compra? 3.3 ¿La proporción de hombres que compran es mayor que la de mujeres? 3.4 ¿Cuánto es el promedio de gasto de los hombres y las mujeres?

Intervalos de confianza ¿Cuál es el tamaño de la muestra que se requiere?. Si se exige un error al calcular la media del 2% y un nivel de confianza del 95%

4.1

Asumiendo que los datos son normales, calcule un Intervalo de confianza al 95% para la diferencia de los gastos para los hombres y mujeres e interprete el resultado obtenido.

4.2

1 Realice un histograma y explique la forma y la curtosis según el contexto.

Tabla 1: Histograma Purchase Podemos ver que los datos tienen una tendencia de forma central hacia aquellos que están entre 5225 dólares y 9845 dólares, el coeficiente de curtosis es -0,34312137 lo que indica que hay muy poca concentración de datos en la media, lo cual se evidencia en el histograma, donde a pesar de que se evidencia una tendencia central existe gran dispersión de los datos.

2 Calcular: la media, mediana, moda, desviación estándar, coeficiente de variación e interprete los resultados.

Media 9333,859853 Mediana 8062 Moda 6855 Desviacion estandar 1,33376E+13 Coeficiente de variacion 1,42895E+11 Tabla 2 Media, Mediana, Moda, Desviación Estándar, Coeficiente de Variación Vemos que la media es mayor que la mediana lo cual indica que la distribución de los datos es asimétrica con cola a la derecha, también notamos que el dato que más se repite (la moda) es menor que la media y la mediana. La desviación estándar y el coeficiente de correlación son muy pequeños, lo que nos indica poca variabilidad en los datos. 3.1 ¿Cuál es la categoría de edades que más realiza compras en el black-friday? La categoría de edades que más realiza compras en el black Friday es de 26 – 35 años.

Age 0 - 17 18 - 25 26 - 35 36 - 45 46 - 50 51 - 55 55+

Frecuencia 14707 97634 214690 107499 44526 37618 20903

Tabla 3 Categoría por edades

3.2 El promedio de gastos de la categoría de la edad que más compra (26 -35) es 9314,58897 dólares.

3.3 ¿La proporción de hombres que compran es mayor que la de mujeres?

Gender Frecuencia Proporcion M 405380 75,41% F 132197 24,59% Total 537577 100,00% Tabla 4 Proporción por sexo La proporción de hombres que compran (75,41%) es mayor que la de mujeres que compran (24,59%). 3.4 ¿Cuánto es el promedio de gasto de los hombres y las mujeres?

Gender M F

Promedio gastos 9504,771713 8809,761349

Tabla 5 Promedio de Gasto El promedio de gastos de los hombres es de 9504,77 dólares y el de las mujeres es de 8809,76 dólares.

4.1 ¿Cuál es el tamaño de la muestra que se requiere? Si se exige un error relativo del 2% y un nivel de confianza del 95%

𝑛=

𝑛=

𝑍𝛼 2 𝑁𝑝𝑞 𝑒 2 (𝑁 − 1) + 𝑍𝛼 2 𝑝𝑞

1.962 × 537577 × 0.5 × 0.95 0.022 × 537576 + 1.962 × 0.5 × 0.95 𝑛 = 4523.52

El tamaño de la muestra debe ser de 4525.

4.2 Asumiendo que los datos son normales, calcule un Intervalo de confianza al 95% para la diferencia de los gastos para los hombres y mujeres e interprete el resultado obtenido. 𝜎12 𝜎22 ̅̅̅̅ 𝜎12 𝜎22 ̅̅̅̅ − ̅̅̅̅ 𝐼𝐶 = (𝑋1 𝑋2 − 𝑍√ + , 𝑋1 − ̅̅̅̅ 𝑋2 + 𝑍√ + ) 𝑛1 𝑛2 𝑛1 𝑛2

𝐼𝐶 = (9504.7717 − 8809.7613 − 1.96√

170695.01052 4981.02213 + , 9504.7717 405380 132197

170695.01052 4981.02213 − 8809.7613 + 1.96√ + ) 405380 132197

𝐼𝐶 = (695.0104 − √71875.273321, 695.0104 + √71875.273321) 𝐼𝐶 = (426.91, 963.1060) La diferencia del promedio de gastos entre hombres y mujeres se encuentra en el Intervalo (426.91, 963.1060) con una confiabilidad del 95%.

Lista de referencias    

i

Cartillas semana 1,2,3,4,5/ Estadística Inferencial, Politécnico Gran Colombiano Bibliografía Dagdoug, M. (10 de Julio de 2019). Black Friday Sales: Analysis an Prediction. Obtenido de Kaggle: https://www.kaggle.com/mehdidag/black-friday