Eventos por variable en regresión logística y redes Bayesianas para predecir actitudes emprendedoras

  1. López Puga, Jorge
  2. García García, Juan
Revista:
REMA

ISSN: 1135-6855

Año de publicación: 2011

Volumen: 16

Número: 1

Páginas: 13-34

Tipo: Artículo

Otras publicaciones en: REMA

Resumen

Pese a que la regresión logística es una de las técnicas estadísticas de análisis mas usadas en ciencias sociales no está carente de ciertas limitaciones. El reducido tamaño de la muestra y la presencia de casos perdidos son algunas de las situaciones que han sido identificadas como problemáticas para la regresión logística. En este trabajo hemos comparado la regresión logística dicotómica y el clasificador simple de Bayes en su habilidad para predecir la tendencia emprendedora manipulando el número de eventos por variable. Una muestra de estudiantes universitarios (N = 1230) respondió a cinco escalas (motivación, actitud emprendedora, obstáculos, carencias y preparación percibida) que fueron utilizadas como variables predictoras de la tendencia emprendedora y a un conjunto de tres preguntas relativas a la tendencia emprendedora que fueron consideradas como variables de respuesta. Nuestros resultados indican que el número de eventos por variable afecta más a la regresión logística en términos del área bajo la curva ROC comparado con las redes bayesianas. Así pues, proponemos que las redes bayesianas podrían considerarse como otra alternativa más, junto a las ya existentes, para superar las debilidades de la regresión logística en determinadas condiciones de ejecución.

Referencias bibliográficas

  • Ajzen, I., y Fishbein, M. (1980). Understanding attitudes and predicting social behavior. Englewood, NJ: Prentice-Hall.
  • Ajzen, I., y Fishbein, M. (2005). The influence of attitudes on behavior. En D. Albarracín, B. T. Hohnson, y M. P. Zanna (Eds.), The hadnbook of attitudes (pp. 173–221). Mahwah, NJ: Erlbaum.
  • Allison, P. D. (2002). Missing data. Thousand Oaks, CA: SAGE University Papers. Allport, G. W. (1935). Attitudes. En C. Murchison (Ed.), Handbook of social psychology (pp. 798–844). Worcester, MA: Clark University Press.
  • Alonso, D., y Tubau, E. (2002). Inferencias bayesianas: una revisión. Anuario de Psicología, 33, 25–47.
  • Bartfay, E., Mackillop, W. J., y Pater, J. L. (2006). Comparing the predictive value of neural network models to logistic regression models on the risk of death for small-cell lung cancer patients. European Journal of Cancer Care, 15, 115–124.
  • Brehm, S. S., Kassin, S., y Fein, S. (2005). Social psychology (6 ed.). New York: Houghton
  • Mifflin. Bull, S. B., Mak, C., y Greenwood, C. M. T. (2002). A modified score function estimator for multinomial logistic regression in small samples. Computational Statistics and Data Analysis, 39, 57–74.
  • Cano, C. J., García, J., y Gea, A. B. (2003). Actitudes emprendedoras y creación de empresas en los estudiantes universitarios. Almería: Servicio de Publicaciones de la Universidad de Almería / Consejo Social de la Universidad de Almería.
  • Conati, C., Gertner, A., y VanLehn, K. (2002). Using bayesian networks to manage uncertainty in student modeling. Modeling and User-Adapted Interaction, 12, 371– 417.
  • Concato, J., Peduzzi, P., Holford, T. R., y Feinstein, A. R. (1995). Importance of events per independent variable in proportional hazards analysis. I. Background, goals, and general strategy. Journal of Clinical Epidemiology, 48, 1495–1501.
  • Conejo, R., Guzmán, E., Millán, E., Trella, M., Perez-de-la-Cruz, J. L., y Ríos, A. (2004). Siette: A web-based tool for adaptive testing. International Journal of Artificial Intelligence in Education, 14, 29–61.
  • Conejo, R., Millán, E., Perez de la Cruz, J. L., y Trella, M. (2001). Modelado del alumno: un enfoque bayesiano. Inteligencia Artificial, Revista Iberoamericana de Inteligencia Artificial, 12, 50–58.
  • Corman, J., Lussier, R., y Nolan, K. G. (1996). Factors that encourage entrepreneurial start ups and existing firm expansion: a longitudinal study comparing recession and expansion periods. Academy of Entrepreneurship Journal, 1, 43–55.
  • Cowell, R. G., Dawid, A. P., Lauritzen, S. L., y Spiegelhalter, D. J. (1999). Probabilistic netwoks and expert systems. Harrisonburg, VA: Springer.
  • De la Fuente, E. I., García, J., y De la Fuente, L. (2002). Estadística bayesiana en la investigación psicológica. Metodología de las Ciencias del Comportamiento, 4, 185– 200.
  • Deaux, K., Dane, C. F., y Wrightsman, L. S. (1993). Social psychology in the 90s (6 ed.). Pacific Grove, CA: Brooks/Cole.
  • Delgado, M. L. (2003). Aplicación de las redes neurales artificiales a la estadística. Madrid: Muralla / Hespérides.
  • DeMaris, A. (2002). Explained variance in logistic regression. A Monte Carlo study of proposed measures. Sociological Methods & Research, 31, 27–74.
  • Díaz, J. C. (2003). La creación de empresas en extremadura. Un análisis institucional. Tesis doctoral no publicada, Departamento de Economía Financiera y Contabilidad, Universidad de Extremadura.
  • Domingos, P., y Pazzni, M. (1996). Beyond independence: conditions for the optimality of the simple bayesian classifier. En L. Saitta (Ed.), Proccedings of the 13th international conference on machine learning (pp. 105–112). Bari, Italia: Morgan Kaufman.
  • Eftekhar, B., Mohammad, K., Ardebili, H. E., Ghodsi, M., y Ketabchi, E. (2005). Comparison of artificial neural network and logistic regression models for prediction of mortality in head trauma based on initial clinical data. BMC Medical Informatics and Decision Making, 5, 3.
  • Feldman, R. S. (1998). Social psychology (2 ed.). Upper Saddle River, NJ: Prentice Hall. Finch, H., y Schneider, M. K. (2007). Classification accuracy of neural networks vs. discriminant analysis, logistic regression, and classification and regression trees. Methodology, 3, 47–57.
  • Firth, D. (1993). Bias reduction of maximum likelihood estimates. Biometrika, 80, 27–38. Franzoi, S. L. (2005). Social psychology (4 ed.). New York: Mc Graw Hill.
  • Freedman, L. S., y Pee, D. (1989). Return to a note on screening regression equations. The American Statistician, 43, 279–282.
  • García, J., Cano, C. J., y Gea, A. B. (2005). Actitudes emprendedoras en estudiantes universitarios y empresarios. Evidencias de validez de un instrumento. Iberpsicología, 10 (8), art. 12.
  • García, J., López, J., Cano, C. J., Gea, A. B., y De la Fuente, E. I. (2006, Septiembre). Aplicación de las redes bayesianas al modelado de las actitudes emprendedoras. Comunicación presentada en el IV Congreso de Metodología de Encuestas. Pamplona.
  • García, J., López, J., De la Fuente, L., Cano, C. J., y Gea, A. B. (2007, Febrero). Modelos de ecuaciones estructurales y redes bayesianas. Una perspectiva confirmatoria aplicada a las actitudes emprendedoras. Comunicación presentada en el X Congreso de Metodología de las Ciencias Sociales y de la Salud. Barcelona.
  • Gartner, W. B. (1988). “Who is an entrepreneur?” Is the wrong question. American Journal of Small Business, 12 (4), 11–32.
  • Genescá, E., y Capelleras, J. L. (2004). Un análisis comparativo de las características de las microempresas en España. Universia Business Review, 2, 72–93.
  • Genesca, E., y Veciana, J. M. (1984). Actitudes hacia la creación de empresas. Información Comercial Española, 611, 147–155.
  • Genkin, A., Lewis, D. D., y Madigan, D. (2005). BBR: Bayesian logistic regression software. Descargado el 7 de Marzo de 2009, desde http://www.stat.rutgers.edu/ madigan/BBR/.
  • Glymour, C. (2001). The mind’s arrows. Bayes nets and graphical causal models in psychology. Cambridge, MA: MIT Press.
  • Glymour, C. (2003). Learning, prediction and causal Bayes nets. Trends in Cognitives Sciences, 7, 43–48.
  • Gómez, J. M., Mira, I., y Martínez, J. (2007). Condicionantes de la actividad emprendedora e instituciones de apoyo desde el ámbito local: el caso de la provincia de Alicante. Revista de Empresa, 20, 20–31.
  • Gopnik, A., Glymour, C., Sobel, D. M., Schulz, L. E., Kushnir, T., y Danks, D. (2004). A theory of causal learning in children: causal and bayes nets. Psychological Review, 111, 3–32.
  • Gopnik, A., Sobel, D. M., Schulz, L., y Glymour, C. (2001). Causal learning mechanisms in very young children: two, three, and four-years-olds infer causal relations from patterns of variation and covariation. Developmental Psychology, 37, 620–629.
  • Gopnik, A., y Schulz, L. (2004). Mechanisms of theory formation in young children. Trends in Cognitives Sciences, 8, 371–377.
  • Greiner, R., Su, X., Shen, B., y Zhou, W. (2005). Structural extension to logistic regression: discriminative parameter learning of belief net classifiers. Machine Learning, 59, 297– 322.
  • Greiner, R., y Zhou, W. (2002). Structural extension to logistic regression: discriminative parameter learning of belief net classifiers. Proceedings of the Eighteenth Annual National Conference on Artificial Intelligence, Aug, 2002, 167–173.
  • Hair, J. F., Anderson, R. E., Tatham, R. L., y Black, W. C. (1998). Multivariate data analysis. Englewood Cliffs, NY: Prentice Hall.
  • Hanley, J. A., y McNeil, B. J. (1982). The meaning and use of the area under a receiver operating characteristic (ROC) curve.
  • Radiology, 143, 29–36. Hanley, J. A., y McNeil, B. J. (1983). A method of comparing the areas under receiver operating characteristic curves derived from the same cases. Radiology, 148, 839–843.
  • Harrel, F. E., Lee, K. E., Matchar, D. B., y Reichert, T. A. (1985). Regression models for prognostic prediction: advantages, problems, and suggested solutions. Cancer Treatment Reports, 69, 1071–1077.
  • Hayek, F. A. (1985). Richard Cantillon. The Journal of Libertarian Studies, 7, 217–247.
  • HayGroup, y SAP AG. (2003). Factbook, recursos humanos. Navarra: Aranzadi.
  • Hébert, R. F., y Link, A. (1989). In search of the meaning of entrepreneurship. Small Business Economics, 1, 39–49.
  • Heckerman, D. (1995). A tutorial on learning with bayesian networks (Rep. Téc. MS-TR-9506). Redmon, WA: Microsoft Research.
  • Hirji, K. F., Mehta, C. R., y Patel, N. R. (1987). Computing distributions for exact logistic regression. Journal of the American Statistical Association, 82, 1110–1117.
  • Hsieh, F. Y. (1989). Sample size tables for logistic regression. Statistics in Medicine, 8, 795-802.
  • Hsieh, F. Y., Bloch, D. A., y Larsen, M. D. (1998). A simple method of sample size calculation for linear and logistic regresion. Statistics in Medicine, 17, 1623–1634.
  • Huefner, J. C., Hunt, H. K., y Robinson, P. B. (1996). A comparison of four scales predicting entrepreneursihp. Academy of Entrepreneurship Journal, 1, 56–80.
  • Irala, J., Fernández-Crehuet, R., y Serrano, A. (1997). Intervalos de confianza anormalmente amplios en regresión logística: interpretación de resultados de programas estadísticos. Revista Panamericana de Salud Pública, 1, 230–234.
  • Jaimes, F., Farbiarz, J., Alvarez, D., y Martínez, C. (2005). Comparison between logistic regression and neural networks to predict death in patients with suspected sepsis in the emergency room. Critical Care, 9, 150–156.
  • Jovel, A. J. (1995). Análisis de regresión logística. Madird: Centro de Investigaciones Sociológicas.
  • Jurafsky, D. (1996). A probabilistic model of lexical and syntactic access and disambiguation. Cognitive Science, 20, 137–194.
  • Kadie, C. M., Hovel, D., y Horvitz, E. (2001). MSBNx: a component-centric toolkit for modeling and inference with bayesian networks (Rep. Téc. MSTTR2001-67). Redmon, WA: Microsoft Research.
  • King, E., y Ryan, T. P. (2002). A preliminary investigation of maximum likelihood logistic regression versus exact logistic regression. The American Statistician, 56, 163–170.
  • King, G., y Zeng, L. (2001a). Explaining rare events in international relations. International Organization, 55, 693–715.
  • King, G., y Zeng, L. (2001b). Logistic regression in rare events data. Political Analysis, 9, 137–163.
  • Krynski, T. R., y Tenenbaum, J. B. (2007). The role of causality in judgment under uncertainty. Journal of Experimental Psychology: General, 136, 430–450.
  • Kumar, A., Rao, V. R., y Soni, H. (1995). An empirical comparison of neural network and logistic regression models. Marketing Letters, 6, 251–263.
  • Lee, S. M., Abbott, P., y Johantgen, M. (2005). Logistic regression and Bayesian networks to study outcomes using large data sets. Nursing Research, 2, 133–138.
  • Lilienfeld, D. E., y Pyne, D. A. (1984). The logistic analysis of epidemiologic prospective studies: investigation by simulation. Statistics in Medicine, 3, 15–26.
  • Long, J. S. (1997). Regression models for categorical and limited dependent variables. Thousand Oaks, CA: SAGE Publications.
  • López, J. (2009). Modelos predictivos en actitudes emprendedoras: análisis comparativo de las condiciones de ejecución de las redes bayesianas y la regresión logística. Tesis doctoral no publicada, Facultad de Psicología, Universidad de Almería.
  • López, J. y García, J. (2010). Technological potential entrepreneurs and optimism. En I. Gómez, D. Martí, e I. Candel. (Eds.), ICERI2010 Proceedings CD (pp. 456-461). Valencia: International Association of Technology, Education and Development.
  • López, J., García, J., Cano, C. J., Gea, A. B., y De la Fuente, L. (2009, Septiembre). A definition of potential entrepreneur from a probabilistic point of view. Comunicación presentada en el XI Congreso de Metodología de las Ciencias Sociales y de la Salud. Málaga.
  • López, J., García, J., De la Fuente, L., y De la Fuente, E. I. (2007). Las redes bayesianas como herramienta de modelado en psicología. Anales de Psicología, 23, 307–316.
  • López, J., Ruiz-Ruano, A. M., y García, J. (2008, Noviembre). Relationship between self assessment and marks in higher education: linear, logistic and bayesian analysis. Comunicación presentada en la International Conference of Education, Research and Innovation (ICERI 2008). Madrid.
  • López, J., y García, J. (2007). Valores, actitudes y comportamiento ecológico modelados con una red bayesiana. Medio Ambiente y Comportamiento Humano, 8, 159–175.
  • López, J., y García, J. (2009). Asimetría en el razonamiento causal bayesiano bajo incertidumbre. Boletín de Psicología, 95, 43–58.
  • Martin, J., y VanLehn, K. (1995). Sutdent assessment using bayesian nets. International Journal of Human-Computer Studies, 42, 575–591.
  • Martínez, I., y Rodríguez, C. (2003). Modelos gráficos. En Y. del Águila et al. (Eds.), Técnicas estadísticas aplicadas al análisis de datos (pp. 217–257). Almería: Servicio de Publicaciones de la Universidad de Almería.
  • McKenzie, B., Ugbah, S., y Smothers, N. (2007). “Who is an entrepreneur” is still the wrong question? Academy of Entrepreneurship Journal, 13, 23–43.
  • Mehta, C. R., y Patel, N. R. (1995). Exact logistic regression: theory and examples. Statistic in Medicine, 14, 2143–2160.
  • Mislevy, R. J., y Gitomer, D. H. (1996). The role of probability-based inference in an intelligent tutoring system. User-Mediated and User-Adapted Interaction, 128, 253– 282.
  • Morales, J. F., Rebolloso, E., y Moya, M. (1994). Actitudes. En J. F. Morales (Ed.), Psicología social (pp. 495–524). Madrid:
  • McGraw-Hill. Morales, M. E. (2006). Modelización y predicción en estadística universitaria. Tesis doctoral no publicada, Facultad de Ciencias Experimentales, Universidad de Almería.
  • Narayan, S., y Jurafsky, D. (1998, Agosto). Bayesian models of human sentence processing. Comunicación presentada en la XX Annual Meeting of the Cognitive Science Society. Madison.
  • Narayan, S., y Jurafsky, D. (2002). A bayesian model predicts human parse preference and reading times in sentence processing. Advances in Neural Information Processing, 14, 59–65.
  • Ng, A. Y., y Jordan, M. I. (2002). On discriminative vs. generative classifiers: a comparation of logistic regresion and naive Bayes. Advances in Neural Information Processing Systems, 14, 841–848.
  • Ortega, M., y Cayuela, A. (2002). Regresión logística no condicionada y tamaño de muestra: una revisión bibliográfica. Revista Española de Salud Pública, 76, 85–93.
  • Ortiz, A. J., Martín, M. T., Ureña, L. A., y García, M. A. (2005). Detección automática de SPAM usando regresión logística bayesiana. Procesamiento del Lenguaje Natural, 35, 127–133.
  • Peduzzi, P., Concato, J., Feinstein, A. R., y Holford, T. R. (1995). Importance of events per independent variable in proportional hazards regression analysis. II. Accuracy and precision of regression estimates. Journal of Clinical Epidiemiology, 48, 1503–1510.
  • Peduzzi, P., Concato, J., Kemper, E., Holford, T. R., y Feinstein, A. R. (1996). A simulation study of the number of events per variable in logistic regression analysis. Journal of Clinical Epidiemiology, 49, 1373–1379.
  • Peñas, M. J., y Quijano, J. (2008, Abril). ¿Es posible fomentar el carácter emprendedor desde la universidad? Un diseño de la asignatura «Empresa Familiar». Comunicación presentada en el Congreso Internacional de Emprendedores Ciudad de Salamanca. Salamanca.
  • Peng, C. Y. J., y So, T. S. H. (2002). Logistic regression analysis and reporting: a premier. Understanding Statistics, 1, 31–70.
  • Quinlan, P. (1991). Connectionism and psychology: a psychological perspective on new connectionist research. Hertfordshire: Cambridge University Press.
  • Rogoff, E. G., y Lee, M. S. (1996). Does firm origin matter? An empirical examination of types of small business owners and entrepreneurs. Academy of Entrepreneurship Journal, 1, 1–17.
  • Ruiz, J., Rojas, A., y Suárez, A. (2008). Actitudes de los estudiantes universitarios de Andalucía ante la creación de empresas. Cádiz: Servicio de Publicaciones de la Universidad de Cádiz.
  • Samuelson, P. A. (1970). Economics (8ª ed.). New York: McGraw-Hill.
  • Sánchez, M. L. (2003). El perfil psicológico del autoempleado. Tesis doctoral publicada en edición electrónica, Facultad de Psicología, Universidad Complutense de Madrid.
  • Serrano, J. (2003). Iniciación a la estadística bayesiana. Madrid: Muralla / Hespérides.
  • Shen, B., Su, X., Greiner, R., Musilek, P., y Cheng, C. (2003, Noviembre). Discriminative parameter learning of general bayesian network classifiers. Comunicación presentada en la 15th IEEE International Conference on Tools with Artificial Intelligence (ICTAI-03). Sacramento, California.
  • Silva, L. C., y Barroso, I. M. (2004). Regresión logística. Madrid: La Muralla / Hespérides.
  • SPSS, y Recognition Systems. (1997). Neural conection 2. 0. User’s guide. Chicago, IL: SPSS y Recognition Systems.
  • Terrin, N., Schmid, C. H., Griffith, J. L., D’Agostino, R., y Selker, H. P. (2003). External validity of predictive models: A comparison of logistic regression, classification trees, and neural networks. Journal of Clinical Epidemiology, 56, 721–729.
  • Veciana, J. M. (1989). Características del empresario en España. Papeles de Economía Española, 39, 19–36.
  • Walker, S. H., y Duncan, D. B. (1967). Estimation of the probability of an event as function of several independent variables. Biometrika, 54, 167–179.
  • Whittermore, A. S. (1981). Sample size for logistic regression with small response probability. Journal of American Statistical Association, 76, 27–32.
  • Ankarali, H., Canan, A., Akkus, Z., Bugdayci, R., y Ali, M. (2007). Comparison of logistic regression model and classification tree: An application to postpartum depression data. Expert Systems with Applications, 32, 987–994.