Clasificación de fuga de clientes en una entidad financiera utilizando el algoritmo Smote para datos desbalanceados en una regresión logística

Pariona Huarhuachi, Jefferson Clauss

dc.contributor.advisor	Salinas Flores, Jesús Walter
dc.contributor.author	Pariona Huarhuachi, Jefferson Clauss
dc.date.accessioned	2018-05-30T13:05:31Z
dc.date.available	2018-05-30T13:05:31Z
dc.date.issued	2017
dc.identifier.other	E13.P37-T BAN UNALM
dc.identifier.uri	https://hdl.handle.net/20.500.12996/3329
dc.description	Universidad Nacional Agraria La Molina. Facultad de Economía y Planificación. Departamento Académico de Estadística e Informática	es_PE
dc.description.abstract	La retención de clientes ha tomado mucha importancia en los últimos años en las entidades financieras debido a la competencia agresiva por parte del sector, así como la autonomía del cliente en buscar mejores beneficios dentro de todas las ofertas que existen en el mercado bancario lo que se ve reflejado en el aumento de la tasa de clientes fugados. Ante esto se ha visto necesaria la implementación de técnicas estadísticas y/o técnicas de minería de datos, con la finalidad de construir un clasificador predictivo que pueda ayudar a identificar a clientes potenciales a fugarse. En muchos casos cuando se aplican técnicas de clasificación, es común que la clase a predecir ocurra con menor frecuencia que la otra clase: la presencia de datos desbalanceados. Es decir, se tiene menor número de clientes fugados que no fugados, lo cual representa un inconveniente debido a que el clasificador necesita datos suficientes de ambas clases para poder aprender de ellas y así alcanzar una buena predicción. En esta investigación se propone el algoritmo Syntetic Minority Over-sampling Technique (SMOTE) como solución a este problema. SMOTE crea instancias nuevas a partir de un sobre-muestreo de las instancias existentes, llevando la clase minoritaria a un número suficiente para ser considerada balanceada y la clase mayoritaria si es necesaria reducirla mediante sub-muestreo aleatorio. En la presente investigación se validarán tales beneficios con la construcción de un modelo de regresión logística binaria con datos desbalanceados con y sin la aplicación del algoritmo de SMOTE; con el fin predecir la fuga de clientes en una entidad financiera. Se usarán para medir la precisión, la curva ROC y elementos de la comprobación de tabla cruzada como la especificidad y la sensibilidad.	es_PE
dc.description.abstract	Customer retention has taken much importance in recent years in financial institutions due to aggressive competition from the sector, as well as the autonomy of the client to seek better benefits within all offers that exist in the banking market, which is reflected in the increase in the rate of customers escaped. It has been necessary the implementation of statistical or technical techniques of data mining, in order to build a predictive classifier that can help identify potential customers to abscond. In many cases when classification techniques are applied, it is common to predict class to occur less frequently than other kind: the presence of unbalanced data. I.e. you have fewer customers escaped than not escapees, which represents a drawback since the classifier needs sufficient both kinds of data to be able to learn from them and thus achieve a good prediction. This research proposes the Syntetic Minority Over-sampling algorithm Technique (SMOTE) as a solution to this problem. SMOTE creates instances new starting from a sobre-muestreo of them instances existing, carrying the class minority to a number enough to be considered balanced and the class majority if is necessary reduce it by sub-sampling random. In the present study are validated such benefits with the construction of a model of binary logistic regression with unbalanced data with and without the application of the algorithm of SMOTE; in order to predict the flight of clients in a financial institution. They will be used to measure the precision, the ROC curve and elements of table cross as the specificity and sensitivity testing.	en_US
dc.description.uri	Tesis	es_PE
dc.format	application/pdf	en_US
dc.language.iso	spa	es_PE
dc.publisher	Universidad Nacional Agraria La Molina	es_PE
dc.rights	info:eu-repo/semantics/openAccess	en_US
dc.rights.uri	https://creativecommons.org/licenses/by-nc-nd/4.0/	*
dc.source	Universidad Nacional Agraria La Molina	es_PE
dc.source	Repositorio institucional - UNALM	es_PE
dc.subject	Instituciones financieras	es_PE
dc.subject	Consumidores	es_PE
dc.subject	Comportamiento del consumidor	es_PE
dc.subject	Métodos estadísticos	es_PE
dc.subject	Modelos matemáticos	es_PE
dc.subject	Análisis de la regresión	es_PE
dc.subject	Técnicas de predicción	es_PE
dc.subject	Evaluación	es_PE
dc.subject	Perú	es_PE
dc.subject	Algoritmo Smote	es_PE
dc.subject	Fuga de clientes	es_PE
dc.subject	Retención de clientes	es_PE
dc.title	Clasificación de fuga de clientes en una entidad financiera utilizando el algoritmo Smote para datos desbalanceados en una regresión logística	es_PE
dc.type	info:eu-repo/semantics/bachelorThesis	en_US
thesis.degree.discipline	Estadística e Informática	es_PE
thesis.degree.grantor	Universidad Nacional Agraria La Molina. Facultad de Economía y Planificación	es_PE
thesis.degree.name	Ingeniero Estadístico e Informático	es_PE
thesis.degree.level	Título Profesional	es_PE
dc.subject.ocde	http://purl.org/pe-repo/ocde/ford#4.05.00	es_PE