Este proyecto fue uno de los requisitos dentro de mi módulo de posgrado llamado estadísticas aplicadas. El objetivo principal de este proyecto es generar un modelo preciso para predecir el precio del boleto de la aerolínea en función de las características. Los modelos de aprendizaje automático utilizados en este proyecto son una regresión lineal simple y una regresión lineal múltiple. Además, se realizan una gran cantidad de edad que usa Auto ARIMA para pronosticar el precio de una aerolínea particular en el año de 2023. El flujo de proceso principal de este proyecto es realizar análisis de datos exploratorios, preprocesamiento de datos, análisis de corralización, capacitación modelo, análisis de Timeseries, y pruebas de hipótesis usando ADF.
El proyecto está codificado en el lenguaje R utilizando el IDE R Studio.
Se utilizan 2 conjuntos de datos en este proyecto que se encuentran en la carpeta "DataSet".
El código completo se puede ver en el archivo "Code.r".
Si alguien quiere usar una parte del código. Por favor, haga referencia a él. Gracias.
La investigación actual dentro de este dominio implica que los precios de las entradas de las aerolíneas se pueden predecir utilizando un conjunto de ciertas características que pueden ser compañías útiles y turistas para deducir el precio y cuándo es el mejor momento para comprar un boleto de avión. A medida que el precio de un boleto de avión fluctúa, ya que hay un precio estacional se aplica de vez en cuando, es difícil obtener una predicción precisa. Por lo tanto, la pregunta principal ahora es posible predecir el precio del boleto en función de las características relacionadas con el vuelo en sí, como la duración del vuelo, el número de paradas, etc.
Durante el análisis de correlación, se identifica una fuerte correlación positiva de 0.92 entre el precio promedio y los días restantes que quedan para comprar el boleto. Esta fue la más fuerte de toda la correlación fundada. El análisis de regresión lineal descubrió que la característica "precio promedio" y "días_left" podría explicar el 62.53% de la variación del "precio promedio". Además, el análisis de Timeseries pronosticó que en abril de 2023 el precio del boleto para Jet Airways es de ₹ 12431.34.
En general, los hallazgos en este proyecto concluyen que las características se pueden usar para predecir el precio del boleto de la aerolínea. Sin embargo, se podrían considerar más características, como la condición climática o la expansión del conjunto de datos con variables numéricas para predecir un resultado más preciso.
El proyecto cubre todo el proceso desde el preprocesamiento de datos hasta el desarrollo de un modelo de regresión lineal. Los resultados encontrados en este proyecto abarcan todas las preguntas estadísticas mencionadas anteriormente. El preprocesamiento de datos se realizó para transformar los datos en un estándar adecuado para el modelo de regresión lineal. Se completa un análisis de correlación para identificar cuáles son las variables que dependen fuertemente entre sí, cuáles son beneficiosas para el análisis de regresión lineal. Según el análisis de correlación, se creó un modelo de regresión lineal para realizar una predicción en el boleto de precio de vuelo de la aerolínea. Además, se realiza un análisis de Timeseries para pronosticar el precio del boleto de Jet Airways Airline en 2023, que es de ₹ 12431.34. Finalmente, se realiza pruebas de hipótesis utilizando Dickey Fuller (ADF) o prueba de raíz unitaria para identificar si la serie Times es estacionaria o no.
En general, las características proporcionadas pueden deducir el boleto de precio de la aerolínea. Sin embargo, no todas las características se usan y lo suficientemente fuertes como para lograr esta tarea. Por lo tanto, se puede realizar una mejora futura donde se puedan considerar más factores, como las condiciones climáticas o la expansión del conjunto de datos con más variables numéricas que pueden usarse para predecir un resultado más preciso.