INTRODUCCIÓN
⌅La principal clasificación de los tipos de preguntas en cuestionarios es la que considera la libertad de respuesta del encuestado (entre otros, Schuman 2008: 30Schuman, Howard. 2008. Method and Meaning in Polls & Surveys. Harvard: Harvard University Press.). Esto permite diferenciar entre preguntas abiertas -en las que el entrevistado puede responder lo que se le antoje- y cerradas, que limitan la elección del encuestado a una serie de respuestas previamente formuladas por el investigador.
Las preguntas cerradas son clasificadas en función del número de respuestas a recoger, que da lugar al segundo nivel de clasificación. Las preguntas con respuesta única precisan de opciones de respuesta exhaustivas y mutuamente excluyentes que no hagan dudar al encuestado de qué respuesta elegir. Dentro de estas se diferencia cuando existe, o no, una relación de orden entre las respuestas. Cuando las opciones implican una relación de orden y se desea profundizar en un determinado tema, es habitual elaborar preguntas con la misma formulación utilizando las mismas opciones de respuesta. Son las denominadas ‘preguntas de batería’, que constituyen el objeto de estudio de este trabajo.
Un gran número de expertos (entre otros, recientemente, Terentev y Maloshonok 2019Terentev, Evgeniy y Natalia Maloshonok. 2019. “The impact of response options ordering on respondents’ answers to rating questions: results of two experiments”. International Journal of Social Research Methodology 22(2): 179-198. https://doi.org/10.1080/13645579.2018.1510660.; Toepoel, Vermeeren y Metin 2019Toepoel, Vera, Brenda Vermeeren y Baran Metin. 2019. “Smileys, Stars, Hearts, Buttons, Tiles or Grids: Influence of Response Format on Substantive Response, Questionnaire Experience and Response Time”. Bulletin de Méthodologie Sociologique 142: 57-74. https://doi.org/10.1177/0759106319834.) han detectado que el diseño de las opciones de respuesta tiene un efecto significativo en las respuestas de las personas encuestadas. Partiendo de estos hallazgos, este trabajo utiliza dos muestras equivalentes para comparar las respuestas obtenidas en una pregunta de batería y en una serie de preguntas con la misma temática y que son administradas secuencialmente (sin formar parte de una batería). Se utilizan tres preguntas, una actitudinal (siete ítems) y dos sobre comportamientos (cinco y seis ítems respectivamente), todas respondidas utilizando una escala tipo Likert de cinco opciones. El objetivo es averiguar si el uso de una pregunta en batería, o “descompuesta” en varias preguntas sencillas, presenta cambios en la respuesta. Estas posibles diferencias se consideran en relación con:
-
la ausencia de respuestas por no saber o declinar responder;
-
la elección de respuestas extremas;
-
el número de elecciones de respuestas “positivas” o favorables (aquiescencia);
-
la presencia de “respuestas fáciles”, como son los extremos o el centro de la escala;
-
el número de respuestas centrales;
-
la correlación entre las respuestas;
-
las elecciones de la misma respuesta en varias preguntas diferentes (ausencia de diferenciación); y
-
la distribución de las respuestas.
La hipótesis de partida es que las preguntas que forman parte de una batería presentan con más frecuencia cada una de estas situaciones.
Para ello, se utiliza una encuesta telefónica aplicada a dos muestras equivalentes. Debe tenerse en cuenta que esta modalidad implica una comunicación estrictamente oral, sin las ayudas visuales que proporcionan las encuestas presenciales (utilizando tarjetas con las opciones de respuesta) ni las autoadministradas, que incluyen figuras y otros recursos gráficos en las opciones de respuesta (Toepoel y Dillman 2011Toepoel, Vera y Don Dillman. 2011. “How visual design affects the interpretability of survey question”. Pp. 165-190 en Social and behavioral research and the internet, compilado por Marcel Das, Peter Ester y Lars Kaczmirek. Nueva York.: Routledge https://doi.org/10.4324/978020384492.). La ausencia de comunicación visual en la encuesta telefónica explica, a juicio de un gran número de expertos (entre otros, De Leeuw y Hox 2015De Leeuw, Edith. y Joop Hox. 2015. “Survey mode and mode effects”. Pp. 22-35 en Improving survey methods. Lessons from recent research, compilado por Uriel Engel, Benn Jann, Peer Lynn et al. Nueva York and London: Routledge and European Association of Methodology.; Jordan, Marcus y Reeder 1980Jordan, Lawrence, Alfred Marcus y Lee Reeder. 1980. “Response styles in telephone and household interviewing, a field experiment”. Public Opinion Quarterly 44: 102-111. https://doi.org/10.1086/268585.; Groves y Kahn 1979Groves, Robert y Robert Kahn. 1979. Surveys by telephone, a national comparison with personal interviews. San Francisco: Academic Press.), la peor respuesta de las preguntas de batería.
Es importante dar cuenta de que apenas existen investigaciones que consideren la influencia de este tipo de preguntas en las encuestas telefónicas, frente a la gran cantidad de investigaciones con encuestas autoadministradas a través de la web (entre otros, Revilla, Toninelli y Ochoa 2017Revilla, Melanie, Daniele Toninelli y Carlos Ochoa. 2017. “An experiment comparing grids and item-by-item formats in web surveys completed through PCs and smartphones”. Telematics and Informatics 34: 30-42. https://doi.org/10.1016/j.tele.2016.04.002.; Kim et al. 2019Kim, Yujin, Jennifer Dykema, Paul Moberg, John Stevenson, Penny Black y Paul Moberg. 2019. “Straightlining: Overview of Measurement, Comparison of Indicators, and Effects in Mail-Web Mixed-Mode Surveys”. Social Science Computer Review 37(2): 214-233. https://doi.org/10.1177/0894439317752406.; Liu y Cernat 2018Liu, Mingnan y Alexandru Cernat. 2018. “Item-by-item Versus Matrix Questions: a web survey experiment”. Social Sciences Computer Review 36(3): 690-706. https://doi.org/10.1177/08944393166744.; Revilla y Couper 2018Revilla, Melanie y Mick Couper. 2018. “Comparing Grids With Vertical and Horizontal Item-by-Item Formats for PCs and Smartphones”. Social Sciences Computer Review, 36(3): 349-368. https://doi.org/10.1177/0894439317715.; Revilla, Saris y Krosnick 2014Revilla, Melanie, Willem Saris y Jon Krosnick. 2014. “Choosing the Number of Categories in Agree-Disagree Scales“. Sociological Methods y Research 43(1): 73-97. https://doi.org/10.1177/0049124113509605.; Couper et al. 2013Couper, Mick, Rogert Tourangeau., Frederick Conrad y Chan Zang. 2013. “The design of grids in web surveys”. Social Science Computer Review 31 (3): 322-341. https://doi.org/10.1177/0894439312469865.; Chang y Krosnick 2010Chang, Linchat y Jon Krosnick. 2010. “Comparing Oral Interviewing with Self-Administered Computerized Questionnaires, An Experiment”. Public Opinion Quarterly 74: 154-167. https://doi.org/10.1093/poq/nfr046.), fundamentalmente en el ámbito anglosajón. Se trata de una situación sorprendente cuando diversas investigaciones realizadas en otros contextos (Greene, Speizer y Wiitala 2008Greene, Jessica, Howard Speizer y Wyndy Wiitala. 2008. “Telephone and web: Mixed-mode challenge”. Health Services Research 43: 230-248. https://doi.org/10.1111/j.1475-6773.2007.00747.x.; Holbrook, Green y Krosnick 2003Holbrook, Allyson, Melanie C. Green y Jon Krosnick. 2003. “Telephone versus face-to-face interviewing of national probability samples with long questionnaires”. Public Opinion Quarterly 67: 79-125. https://doi.org/10.1086/346010.) han detectado una peor respuesta por parte de los cuestionarios telefónicos.
El artículo comienza con una revisión de los trabajos publicados sobre el tema, para proceder a continuación con la metodología, cuando se da cuenta del diseño de la investigación, El muestreo, las medidas y los análisis de datos. Los resultados preceden a las conclusiones y principales hallazgos. Un listado con las referencias bibliográficas y tres anexos cierran el trabajo.
DEFINICIÓN CONCEPTUAL
⌅Se definen como preguntas de batería una serie de preguntas “ligadas” que se complementan entre sí con el fin de profundizar en los aspectos objeto de estudio. Se trata de cuestiones que utilizan la misma formulación para preguntar sobre aspectos diferentes utilizando las mismas opciones de respuesta (Olson, Smyth y Cochran 2018Olson, Kristen, Jolene Smyth y Beth Cochran. 2018. “Item Location, the Interviewer-Respondent Interaction, and Responses to Battery Questions in Telephone Surveys”. Sociological Methodology 48 (1): 225-268. https://doi.org/10.1177/008117501877829.; Azofra 1999Azofra, María José. 1999. Cuestionarios. Madrid: Centro de Investigaciones Sociológicas.). Otros expertos las definen como “un conjunto de preguntas encadenadas, que se complementan entre sí al estar referidas a una misma temática y utilizar la misma respuesta” (Díaz de Rada 2001: 87Díaz de Rada, Vidal. 2001. Diseño y elaboración de cuestionarios para la investigación comercial. Madrid: Esic.). Más precisa es la definición de Couper et al. (2013: 323)Couper, Mick, Rogert Tourangeau., Frederick Conrad y Chan Zang. 2013. “The design of grids in web surveys”. Social Science Computer Review 31 (3): 322-341. https://doi.org/10.1177/0894439312469865.: “en estas preguntas se presentan varios elementos (generalmente en filas), compartiendo un conjunto común de opciones de respuesta (generalmente en columnas), haciendo una o más preguntas sobre cada elemento”. Reciben este nombre por la forma que tienen en el cuestionario, similar a un cuadro de doble entrada.
Son muy frecuentes en los cuestionarios y, de hecho, un análisis de los barómetros del CIS del primer semestre del año 2022 desvela que más de la mitad de las respuestas de las preguntas de “contenido” (excluidas las sociodemográficas) son preguntas de batería (véase anexo 1). Su elevado nivel de utilización se justifica porque dan más fluidez al cuestionario y su capacidad para profundizar en las temáticas objeto de estudio.
Esta gran utilización, a juicio de Lozar Manfreda, Vehovar y Koren (2008)Lozar Manfreda, Katja, Vasja Vehovar y Gasper Koren. 2008. “Internet surveys”. Pp. 271-283 en Handbook of public opinion research, editado por Wolfgang Donsbach y Michael Traugott. Thousand Oaks, CA: Sage., se explica por su sencillez de preparación, la posibilidad de medir un gran número de conductas, así como una administración del cuestionario fácil y rápida (al tener que ser explicadas una vez). Además, presentan un coste menor que el resto de preguntas: menos coste de papel, menos trabajo de los entrevistadores y economía en la preparación (Revilla, Saris y Krosnick 2014Revilla, Melanie, Willem Saris y Jon Krosnick. 2014. “Choosing the Number of Categories in Agree-Disagree Scales“. Sociological Methods y Research 43(1): 73-97. https://doi.org/10.1177/0049124113509605.). Otros expertos destacan que el entrevistado responde entre dos y tres veces más rápido que en otras preguntas (Dillman, Smyth y Christian 2014Dillman, Don, Jolene D. Smyth y Leath Christian. 2014. Internet, Phone, Mail and Mixed-Mode Surveys: The Tailored Design Method (4th edición). Nueva York: Wiley.; Bethlehem y Biffignandi 2011Bethlehem, Jeike y Silvia Biffignandi. 2011. Handbook of web surveys. Neva York: Wiley.; Couper, Traugott y Lamias 2001Couper, Mick, Michael Traugott y Mark Lamias. 2001. “Web survey design and administration”. Public Opinion Quarterly 65(2): 230-253.). En definitiva, eficientes y fáciles de administrar (Kim et al. 2019Kim, Yujin, Jennifer Dykema, Paul Moberg, John Stevenson, Penny Black y Paul Moberg. 2019. “Straightlining: Overview of Measurement, Comparison of Indicators, and Effects in Mail-Web Mixed-Mode Surveys”. Social Science Computer Review 37(2): 214-233. https://doi.org/10.1177/0894439317752406.).
La suposición subyacente de estas preguntas es que las personas encuestadas diferenciarán las respuestas a los diferentes ítems, pero las baterías no siempre producen datos de alta calidad (Couper et al. 2013Couper, Mick, Rogert Tourangeau., Frederick Conrad y Chan Zang. 2013. “The design of grids in web surveys”. Social Science Computer Review 31 (3): 322-341. https://doi.org/10.1177/0894439312469865.). Bien es verdad que su abuso puede cansar al entrevistado y perjudicar la calidad de la información por el riesgo de elegir -de forma automática y sin pensar- la misma respuesta; situación definida como ausencia de diferenciación (Kim et al. 2019Kim, Yujin, Jennifer Dykema, Paul Moberg, John Stevenson, Penny Black y Paul Moberg. 2019. “Straightlining: Overview of Measurement, Comparison of Indicators, and Effects in Mail-Web Mixed-Mode Surveys”. Social Science Computer Review 37(2): 214-233. https://doi.org/10.1177/0894439317752406.; Krosnick y Alwin 1988Krosnick, Jon A. y Duane F. Alwin. 1988. “A test of the form-resistant correlation hypothesis. Ratings, rankings, and the measurement of values”. Public Opinion Quarterly 52(3): 526-538. https://doi.org/10.1086/269128.).
Otro problema de las preguntas de batería es que, al presentar varias veces la misma respuesta, los entrevistados seleccionen las respuestas extremas, algo habitual en las preguntas administradas sin ayudas visuales, como sucede en las encuestas telefónicas, como la utilizada en este trabajo (De Leeuw y Hox 2015De Leeuw, Edith. y Joop Hox. 2015. “Survey mode and mode effects”. Pp. 22-35 en Improving survey methods. Lessons from recent research, compilado por Uriel Engel, Benn Jann, Peer Lynn et al. Nueva York and London: Routledge and European Association of Methodology.; Ye, Fulton y Tourangeau 2011Ye, Cong, Jenna Fulton y Rogert Tourangeau. 2011. “More positive or More Extreme? A Meta-Analysis of Mode Differences in Response Choice”. Public Opinion Quarterly 75: 349-365. https://doi.org/10.1093/poq/nfr009.; Nicolaas, Thomson y Lynn, 2000Nicolaas, Gerry, Katarina Thomson y Peter Lynn. 2000. The feasibility of conducing Electoral Surveys in the UK by telephone. Londres: NCSR.; De Leeuw, 1992de Leeuw, Edith. 1992. Data Quality in Mail, Telephone and Face to Face Surveys. Amsterdam: TT-Publikaties.; Sykes y Collins 1988Sykes, Wendy y Martin Collins. 1988. “Effects of Mode of Interview, Experiments in the UK”. Pp. 30-306 en Telephone Survey Methodology, compilado por Robert Groves et al. Nueva York: Wiley.; Jordan, Marcus y Reeder 1980Jordan, Lawrence, Alfred Marcus y Lee Reeder. 1980. “Response styles in telephone and household interviewing, a field experiment”. Public Opinion Quarterly 44: 102-111. https://doi.org/10.1086/268585.; Groves y Kahn 1979Groves, Robert y Robert Kahn. 1979. Surveys by telephone, a national comparison with personal interviews. San Francisco: Academic Press.). Esta elección de los extremos supone, la mayor parte de las veces, una mayor elección de respuestas “positivas” o favorables (Ye, Fulton y Tourangeau 2011Ye, Cong, Jenna Fulton y Rogert Tourangeau. 2011. “More positive or More Extreme? A Meta-Analysis of Mode Differences in Response Choice”. Public Opinion Quarterly 75: 349-365. https://doi.org/10.1093/poq/nfr009.; Sykes y Collins 1988Sykes, Wendy y Martin Collins. 1988. “Effects of Mode of Interview, Experiments in the UK”. Pp. 30-306 en Telephone Survey Methodology, compilado por Robert Groves et al. Nueva York: Wiley.), conocida como aquiescencia. La “pesadez” de una pregunta en que se proporciona varias veces la misma respuesta lleva, en ocasiones, a la elección de respuestas “fáciles”, como es la elección de los extremos o el centro de la escala utilizada.
Otra desventaja, señalan Revilla, Toninelli y Ochoa (2017)Revilla, Melanie, Daniele Toninelli y Carlos Ochoa. 2017. “An experiment comparing grids and item-by-item formats in web surveys completed through PCs and smartphones”. Telematics and Informatics 34: 30-42. https://doi.org/10.1016/j.tele.2016.04.002., es el aumento de la correlación entre ítems que miden el mismo concepto, así como una menor satisfacción de las personas entrevistadas, pese al ahorro de tiempo que supone su utilización. Otras investigaciones, como la realizada por Liu y Cernat (2018)Liu, Mingnan y Alexandru Cernat. 2018. “Item-by-item Versus Matrix Questions: a web survey experiment”. Social Sciences Computer Review 36(3): 690-706. https://doi.org/10.1177/08944393166744., detectan una escasa equivalencia entre baterías y preguntas separadas cuando hay más de siete alternativas de respuesta.
En el cuadro 1, se muestra una síntesis de las ventajas y desventajas de este tipo de preguntas, incluidas las relacionadas con el modo autoadministrado, para el que no son muy adecuadas porque suelen presentar un elevado número de preguntas sin responder y un notable incremento del número de abandonos en la cumplimentación del cuestionario (Liu 2017Liu, Mingnan. 2017. “Labelling and Direction of Slider Questions Results from web survey experiments”. International Journal of Market Research 59(5): 601-624. https://doi.org/10.2501/IJMR-2017-033.; Couper et al. 2013Couper, Mick, Rogert Tourangeau., Frederick Conrad y Chan Zang. 2013. “The design of grids in web surveys”. Social Science Computer Review 31 (3): 322-341. https://doi.org/10.1177/0894439312469865.; Peytchev 2011Peytchev, Andy. 2011. “Breakoff and unit nonresponse across web surveys”. Journal of Official Statistics 27: pp. 33-47.). De hecho, diversas investigaciones recomiendan limitar, e incluso suprimir, este tipo de preguntas por su gran dificultad para ser respondidas (Revilla, Toninelli y Ochoa 2017Revilla, Melanie, Daniele Toninelli y Carlos Ochoa. 2017. “An experiment comparing grids and item-by-item formats in web surveys completed through PCs and smartphones”. Telematics and Informatics 34: 30-42. https://doi.org/10.1016/j.tele.2016.04.002.; Dillman, Smyth y Christian 2014Dillman, Don, Jolene D. Smyth y Leath Christian. 2014. Internet, Phone, Mail and Mixed-Mode Surveys: The Tailored Design Method (4th edición). Nueva York: Wiley.; Gräf 2002Graäf, Lorenz. 2002. “Assessing internet questionnaires: The online pretest lab”. Pp. 69-79 en Online social sciences, compilado por B. Batinic, U.-D. Reips y M. Bosnjak. WA. Seattle: Hogrefe & Huber.; Wojtowicz 2001Wojtowicz, Tamara. 2001. “Designing Lengthy Internet Questionnaires: Suggestions and Solutions”. Pp. 25-32 en The Challenge of the Internet; Proceedings of the ASC International Conference on Survey Research Methods, compilado por Andrew Westlake, Wendy Sykes, Tony Manners y Malcom Rigg. Londres: Association for Survey Computing.). A pesar de estos límites siguen siendo muy utilizadas en todo tipo de cuestionarios, tanto aplicados de forma presencial, telefónica y autoadministrada (véase el anexo 1).
Fuente: elaboración propia con base en las referencias citadas
METODOLOGÍA
⌅Diseño
⌅Para comprobar hasta qué punto el formato de pregunta utilizado (considerando baterías o preguntas sueltas) influye en las respuestas, se elaboraron dos cuestionarios idénticos, excepto en tres preguntas, una actitudinal y dos referidas a comportamientos. La primera considera el nivel de satisfacción con diversos aspectos de la vida de la persona encuestada (salud, vida familiar, relaciones de pareja, amistades, situación laboral, tiempo libre disponible y distribución de las tareas del hogar); la segunda se refiere a la presencia de problemas de salud (dificultades en el trabajo, achaques o dolores, sensación de desdicha o depresión, pérdida de confianza en sí mismo, sensación de no ser capaz de superar sus problemas). Ambas se responden utilizando una escala tipo Likert de cinco opciones. La tercera pregunta analiza el reparto de seis tareas del hogar: hacer la mayor parte de la compra, cocinar, fregar los platos, pasar el aspirador, limpiar el hogar y llevar el presupuesto familiar.
En el primer cuestionario, denominado ‘A’, para la pregunta sobre satisfacción con la vida y el reparto de tareas en el hogar las opciones aparecen en formato batería, mientras que la presencia de problemas de salud se pregunta en tantas preguntas como problemas. En el cuestionario B se procede de forma inversa, la presencia de problemas de salud aparece en formato batería y las otras dos como preguntas descompuestas (véase el anexo 2).
Con esta forma de proceder, se evita que un cuestionario esté “demasiado cargado” de preguntas de batería y otro sin ninguna. Esto implica que todos los entrevistados van a estar sometidos a alguna pregunta de batería, dos los que responden el cuestionario A y una los que responden el B.
Conviene precisar también que las preguntas no son consecutivas en el cuestionario; se trata de las preguntas 13, 16 y 22 (véase el anexo 2).
Universo y muestra
⌅El universo son las personas de ambos sexos de 18 y más años que residen en hogares de las comunidades autónomas vasca y navarra. Con el fin de obtener un tamaño suficiente para las condiciones planteadas, se seleccionaron dos muestras de 520 personas, muestras estratificadas según zona de residencia y hábitat, y con una selección de las unidades últimas utilizando cuotas de sexo y edad. Las muestras presentan un error muestral del ±4,4 %, con un nivel de confianza del 95,5 %, p = 0,5, y en el supuesto de muestreo aleatorio simple.
Se trata de dos muestras equivalentes (Peterson 2008Peterson, Thomas. 2008. “Split ballots and an experimental approach to public opinion research”. Pp. 322-329 en The SAGE Handbook of Public Opinion Research, compilado por Wolfgang Donsbach y Michael W. Traugott. Thousand-Oaks, LA: Sage.), considerando las distribuciones en cuanto a sexo, edad, nivel de estudios, situación de convivencia y tamaño del hogar de la persona entrevistada (véase el anexo 3).
Cada cuestionario fue administrado telefónicamente (383 a números fijos y 137 a móviles) por 22 entrevistadores, con una duración media de 12,8 minutos el cuestionario A y 13,3 el cuestionario B.
El personal que realizó el trabajo de campo recibió una intensa formación que incluyó la aplicación de 16 cuestionarios, 8 de cada versión, entrevistas que fueron grabadas y analizadas por el equipo técnico con el fin de detectar y corregir los errores cometidos. Para reducir al máximo la influencia de los entrevistadores todos aplicaron el mismo número de cuestionarios de cada tipo.
Medidas y análisis de datos
⌅Considerando el planteamiento teórico del satisficing o complacencia (Chang y Krosnick 2010Chang, Linchat y Jon Krosnick. 2010. “Comparing Oral Interviewing with Self-Administered Computerized Questionnaires, An Experiment”. Public Opinion Quarterly 74: 154-167. https://doi.org/10.1093/poq/nfr046.; Holbrook, Green y Krosnick 2003Holbrook, Allyson, Melanie C. Green y Jon Krosnick. 2003. “Telephone versus face-to-face interviewing of national probability samples with long questionnaires”. Public Opinion Quarterly 67: 79-125. https://doi.org/10.1086/346010.; Tourangeau, Rips y Rasinski 2000Tourangeau, Rogert, Lance Rips y Kennet Rasinski. 2000. The psychology of survey response. Cambridge: Cambridge University Press.;Krosnick 1991Krosnick, Jon A. 1991. “Response strategies for coping with the cognitive demands of attitude measures in surveys”. Applied Cognitive Psychology 5: 213-236. https://doi.org/10.1002/acp.2350050305.; 1999Krosnick, Jon A. 1999. “Survey research”. Annual Review of Psychology 50: 537-567. https://doi.org/10.1146/annurev.psych.50.1.537.; Krosnik et al. 2002Krosnick, Jon A., Allyson Holbrook, Matthew Berent, Richard T. Carson, W. Michael Hanemann, Raymond J. Koop, Robert Cameron Mitchell, Stanley Presser, Paul A. Ruud, V.Kerry Smith, Wendy R. Moody, Melanie C. Green y Michael Conaway 2002. “The Impact of No Opinion Response Options on Data Quality, Non-Attitude Reduction or an Invitation to Satisfice?”. Public Opinion Quarterly 66: 371-403. https://doi.org/10.1086/341394.), la calidad de respuesta en las preguntas de batería puede definirse operativamente considerando seis criterios: 1) número de ítems no respondidos; 2) elección de respuestas afirmativas en preguntas de escala (aquiescencia); 3) respuesta de las opciones de respuesta extremas; 4) elección de categorías fáciles (posiciones finales y centrales); 5) presencia de correlaciones, y 6) variabilidad (diferenciación) en las respuestas a los ítems que componen la pregunta. Son índices cuyos valores oscilan entre 0 y 1. Se analizará con detalle cada uno, mostrando su cálculo -para el caso de la pregunta 13 en el cuestionario A- en el cuadro 2:
Ausencia de respuestas |
[1]
|
[2]
|
Número de elecciones de respuestas “positivas” o favorables (aquiescencia) |
[3]
|
[4]
|
Elección de respuestas extremas |
[5]
|
Presencia de “respuestas fáciles” (extremos o el centro de la escala) |
[6]
|
Presencia de “respuestas centrales” (centro de la escala) |
[7]
|
[8] Elecciones de la misma respuesta en varias preguntas diferentes (ausencia de diferenciación) |
1. Elaboración de tantas variables como respuestas de la escala |
[8]
|
2. Generación de nuevas variables en que se recoge el número de repeticiones |
Para la respuesta 1 “muy satisfecho”: |
Cuando p131.=1 entonces p131.1 = 0 Cuando p131.=2 entonces p131.2 = 2/7 Cuando p131.=3 entonces p131.3 = 3/7 Cuando p131.=4 entonces p131.4 = 4/7 Cuando p131.=5 entonces p131.5 = 5/7 Cuando p131.=6 entonces p131.6 = 6/7 Cuando p131.=7 entonces p131.7 = 7/7 |
Proceder de forma similar en el resto de respuestas 2, 3, 4 y 5 de la pregunta 13 |
3. Elaboración del índice |
Diferenciación = [(p131.1 + p131.2 + p131.3 + p131.4 + p131.5 + p131.6 + p131.7) + (p132.1 + p132.2 + …) + (p133.1 + p133.2…) + (p134.1 + p134.2 +…) + (p13.5.1 + p135.2 +…) ] / 5 |
Fuente: elaboración propia con base en las referencias citadas
-
presencia de respuestas no sustantivas, no responder la pregunta u optar por la respuesta ‘no sé’, definida como no respuesta parcial o respuestas “no sustantivas”, adoptando la terminología de Peytchev et al. (2006)Peytchev, Andy, Mick Couper, Sean McCabe y Scott Crawford. 2006. “Web survey design, paging versus scrolling”. Public Opinion Quarterly 70: 596-607. https://doi.org/10.1093/poq/nfl028.. Se trata de un criterio de calidad muy utilizado. De echo, la práctica totalidad de investigación sobre el tema (entre otros, Liu y Cernat 2018Liu, Mingnan y Alexandru Cernat. 2018. “Item-by-item Versus Matrix Questions: a web survey experiment”. Social Sciences Computer Review 36(3): 690-706. https://doi.org/10.1177/08944393166744.; Thorndike et al. 2009Thorndike, Frances P.; Per Carlbring, Frederick Smyth; Joshua Magee, Linda Gorder-Frederick, Lars, Göran Ost y Lee M. Ritterband 2009. “Web-based measurement: effect of completing single or multiple items per webpage”. Computers in Human Behavior 25: 393-401. https://doi.org/10.1016/j.chb.2008.05.006.; Thoepoel, Das y van Soest 2009Toepoel, Vera, Marcel Das, y Arthur van Soest 2009: “Design of web questionnaires: The effects of he number of items per screen”. Field Methods 21: 200-213. https://doi.org/10.1177/1525822X08330261 ; Tourangeu, Couper y Conrad 2004Tourangeau, Rogert, Mick Couper y Frederick Conrad. 2004. “Spacing, position, and order: interpretive heuristics for visual features of survey questions”. Public Opinion Quarterly 68(3): 368-393. https://doi.org/10.1093/poq/nfh035.; Bell, Mangione y Kahn 2001Bell, Douglas. Carol Mangione y Charles Kahn. 2001. “Randomized testing of alternative survey formats using anonymous volunteers on the world wide web”. Journal of the American Medical Informatics Association 8: 616-620. https://doi.org/10.1136/jamia.2001.0080616.; Couper, Traugott y Lamias 2001Couper, Mick, Michael Traugott y Mark Lamias. 2001. “Web survey design and administration”. Public Opinion Quarterly 65(2): 230-253.) desvela que colocar los ítems seguidos consigue una mayor rapidez de respuesta, pero esta produce un mayor número de ítems no respondidos. También hay investigaciones (entre otros, Couper, Traugott y Lamias 2001Couper, Mick, Michael Traugott y Mark Lamias. 2001. “Web survey design and administration”. Public Opinion Quarterly 65(2): 230-253.) que detectan resultados opuestos.
El índice se calcula, tal y como se aprecia en el cuadro 2 [fórmula 1], considerando el número de respuestas ‘no sabe’, que son divididas entre el número de ítems de la pregunta y, posteriormente, entre el número de casos. Se procede de la misma forma con la falta de respuesta [2]. Tal y como se aprecia en el cuadro 2, en el caso de la batería de la pregunta 13 (tabla 1 en el cuestionario A) se obtienen valores muy bajos, considerando que el índice oscila entre 0 y 1: 0,088 en las respuestas ‘no sabe’ y 0,18 en la falta de respuesta. -
Tendencia a responder con opciones favorables o positivas, diferenciando entre aquiescencia “fuerte”, para la elección del valor favorable más extremo (el cinco en este caso, véase el anexo 2) y aquiescencia “suave”, para elecciones del segundo valor favorable más extremo (el 4). Para el cálculo del primero [fórmula 3 en el cuadro 2], se consideran el número de respuestas realizadas sobre el valor 5, divididas entre el número de ítems de la pregunta, y el resultado dividido entre el total de casos. En el caso de la aquiescencia “suave”, se considera el valor 4 [4].
-
Elección de un mayor número de respuestas extremas, como uno de los rasgos específicos de las encuestas telefónicas (Ye, Fulton y Tourangeau 2011Ye, Cong, Jenna Fulton y Rogert Tourangeau. 2011. “More positive or More Extreme? A Meta-Analysis of Mode Differences in Response Choice”. Public Opinion Quarterly 75: 349-365. https://doi.org/10.1093/poq/nfr009.; Nicolaas, Thomson y Lynn 2000Nicolaas, Gerry, Katarina Thomson y Peter Lynn. 2000. The feasibility of conducing Electoral Surveys in the UK by telephone. Londres: NCSR.; Sykes y Collins 1988Sykes, Wendy y Martin Collins. 1988. “Effects of Mode of Interview, Experiments in the UK”. Pp. 30-306 en Telephone Survey Methodology, compilado por Robert Groves et al. Nueva York: Wiley.; Jordan, Marcus y Reeder 1980Jordan, Lawrence, Alfred Marcus y Lee Reeder. 1980. “Response styles in telephone and household interviewing, a field experiment”. Public Opinion Quarterly 44: 102-111. https://doi.org/10.1086/268585.; Groves y Kahn 1979Groves, Robert y Robert Kahn. 1979. Surveys by telephone, a national comparison with personal interviews. San Francisco: Academic Press.). Tal y como se muestra en el cuadro 2 [5], la frecuencia de elección de los valores 1 y 5 es promediada considerando el número de variables que componen la batería. Al igual que los anteriores, se trata de una puntuación que oscila entre 0 y 1.
-
Facilidad de las respuestas, que añade al indicador anterior el punto medio [fórmula 6 en el cuadro 2], lo que implica la elección de las respuestas más cómodas (extremos) y no definición (punto medio). Se ha elaborado también un índice que recoge el número de elecciones centrales, la no definición [7].
-
Presencia de elevadas correlaciones entre los ítems de una batería, debido a que el entrevistado percibe toda la pregunta de una vez. Sudman, Bradburn y Schwarz (1996)Sudman, Seymour, Norbert Bradburn y Norman Schwarz. 1996. Thinking about answers. San Francisco: Jossey-Bass. consideran que agrupar elementos relacionados en una pregunta aumentará las correlaciones entre ellos, por lo que proponen separar los aspectos considerados en varias preguntas, especialmente cuando se está interesado en el efecto del orden. Asimismo, otras investigaciones realizadas con encuestas autoadministradas a través de Internet localizan mayor correlación entre los ítems cuando se utilizan baterías (Revilla, Toninelli y Ochoa, 2017Revilla, Melanie, Daniele Toninelli y Carlos Ochoa. 2017. “An experiment comparing grids and item-by-item formats in web surveys completed through PCs and smartphones”. Telematics and Informatics 34: 30-42. https://doi.org/10.1016/j.tele.2016.04.002.; Tourangeau, Couper y Conrad 2004Tourangeau, Rogert, Mick Couper y Frederick Conrad. 2004. “Spacing, position, and order: interpretive heuristics for visual features of survey questions”. Public Opinion Quarterly 68(3): 368-393. https://doi.org/10.1093/poq/nfh035.; Couper, Traugott y Lamias 2001Couper, Mick, Michael Traugott y Mark Lamias. 2001. “Web survey design and administration”. Public Opinion Quarterly 65(2): 230-253.). Se emplearán, al igual que estos trabajos, las correlaciones de cada ítem con el total (item-total correlations), utilizando la Alpha de Crombach. Las preguntas utilizadas presentan cinco y siete ítems, similares a una de las últimas investigaciones publicadas (Silver, Robmann y Gummer 2018Silver, Henning, Joss Robmann y Tobias Gummer. 2018. “When near means related: evidence from three web survey experiments on inter-item correlations in grid questions”. International Journal of Social Research Methodology 21 (3): 275-288. https://doi.org/10.1080/13645579.2017.1381478.), que vuelve a localizar correlaciones más altas en los ítems que forman parte de la batería que en las preguntas individuales.
-
Variabilidad de la respuesta del entrevistado a los diferentes ítems, denominada ‘ausencia de diferenciación’, entendida como “la utilización de una categoría de respuesta idéntica para todos los ítems de una misma pregunta” (Herzog y Bachman 1981: 551Herzog, A. Regula y Jerald G. Bachman. 1981. “Effects of questionnaire length on response quality”. Public Opinion Quarterly 45: 549-559.). Detectar la diferenciación es importante porque puede deteriorar tanto la fiabilidad como la validez de las respuestas de la encuesta, en la medida que su presencia puede “inflar las correlaciones entre los elementos dentro de la batería y, por lo tanto, suprimir las diferencias entre los elementos” (Yan 2008: 521Yan, Tim 2008. “Nondifferentiation”. Pp. 520-521 en Encyclopedia of survey research methodology, compilado por Paul Lavrakas. Newbury Park, CA: Sage.). En este sentido, a juicio de Kim et al. (2019Kim, Yujin, Jennifer Dykema, Paul Moberg, John Stevenson, Penny Black y Paul Moberg. 2019. “Straightlining: Overview of Measurement, Comparison of Indicators, and Effects in Mail-Web Mixed-Mode Surveys”. Social Science Computer Review 37(2): 214-233. https://doi.org/10.1177/0894439317752406.), se trata de un aspecto especialmente problemático para las preguntas de batería.
De todos los índices existentes (entre otros, Heerwegh 2009Heerwegh, Dirk. 2009. “Mode differences between face-to-face and web surveys: An experimental investigation of data quality and social desirability effects”. International Journal of Public Opinion Research 21: 111-120. https://doi.org/10.1093/ijpor/edn054.; Narayan y Krosnick 1996Narayan, Sowmya y Jon Krosnick. 1996. “Education Moderates some Response Effects in a Attitude Measurement”. Public Opinion Quarterly 60: 58-88. https://doi.org/10.1086/297739.; McCarty y Shrum 2000McCarty, John A. y Lion Shrum. 2000. “The measurement of personal values in survey research, a test of alternative rating procedures”. Public Opinion Quarterly 64: 271-298. https://doi.org/10.1086/317989.; Alwin y Krosnick, 1991Alwin, Duane F. y Jon A. Krosnick. 1991. “The Reliability of Survey Attitude Measurement: The Influence of Question and Respondent Attributes”. Sociological Methods and Research 20: 139-81. https://doi.org/10.1177/0049124191020001005.), se ha utilizado la propuesta denominada “método máximo de calificación idéntica” (Maximum identical rating method), desarrollada por Holbrook, Green y Krosnick (2003)Holbrook, Allyson, Melanie C. Green y Jon Krosnick. 2003. “Telephone versus face-to-face interviewing of national probability samples with long questionnaires”. Public Opinion Quarterly 67: 79-125. https://doi.org/10.1086/346010.. Para su cálculo1 Agradecemos esta información a la explicación de la profesora Allyson Holbrook, de la Universidad de Chicago. se procede, en primer lugar, a elaborar cinco variables (en el caso de una escala de 1 a 5), en que cada una indica el valor de cada posible respuesta [8]. Tomando la nomenclatura del cuadro 2, p131 recoge las respuestas ‘muy satisfecho’, p132 las respuestas ‘satisfecho’ y, así, hasta los 5 valores de la escala. Posteriormente, se elaboran, para el valor 1 (‘muy satisfecho’) siete variables con un coeficiente que corresponde al número de repeticiones del valor 1. Cuando es elegido una vez (ninguna repetición), la primera variable (p131.1) es 0; cuando se producen dos elecciones, la segunda variable (p131.2) es 2/7 (número de repeticiones entre número de ítems); si hay tres la variable es 3/7, y así sucesivamente hasta el 7, mayor número de repeticiones, cuando el valor concedido es 7/7 (véase el cuadro 2). De forma similar, se procede en el resto de respuestas de la escala: p132, p132, p133, p134 y p135. Por último, la diferenciación es el promedio, es decir, la suma de todos los valores dividido entre 5.
Valores del índice cercanos a la unidad indican que las personas entrevistadas han expresado las mismas respuestas a todos los ítems de la batería, con independencia de la pregunta planteada. Valores cercanos a 0 están indicando que las personas entrevistadas responden de forma diferente cada ítem, que apenas repiten las respuestas expresadas anteriormente, lo que indica una mayor diferenciación.
¿Nivel de satisfacción con… Su salud, vida familiar. Relaciones de pareja, amistades, situación laboral, tiempo libre que tiene y distribución de las tareas del hogar (Preg. 13, 7 ítems) 5 opciones de respuesta: 1=muy insatisfecho, 5=muy satisfecho Tipo de cuestionario |
||||||
Batería | Varias preguntas | Promedio | Sig. | D de Cohen | ||
Cuestionario A | Cuestionario B | |||||
Falta de respuesta: | No sabe | 0,088 | 0,046 | 0,067 | + *** | 0, 292 |
No responde | 0,188 | 0,279 | 0,234 | + *** | 0, 562 | |
Aquiescencia “fuerte” (5) | 0,303 | 0,274 | 0,289 | + ** | 0, 287 | |
Aquiescencia “suave” (4) | 0,548 | 0,542 | 0,545 | + | 0, 291 | |
Elección de respuestas extremas | 0,320 | 0,288 | 0,304 | + ** | 0, 290 | |
Elección de respuestas fáciles | 0,354 | 0,319 | 0,336 | + ** | 0, 292 | |
Elección de la respuesta central | 0,034 | 0,031 | 0,032 | 0, 085 | ||
Correlación entre los ítems | 0,552 | 0,517 | 0,534 | ** | 0, 001 | |
Diferenciación | 0,730 | 0,724 | 0,728 | 0, 176 | ||
n | 521 | 519 | 1.040 | |||
Frecuencia de problemas de salud: dificultades en su trabajo por razones de salud, achaques (o dolor en alguna parte de su cuerpo), sentimiento de desdicha o depresión, pérdida de confianza en sí mismo, sentimiento de no poder superar sus problemas (Preg. 16, 5 ítems) 5 opciones de respuesta: 1=nunca, 5=muy frecuentemente Tipo de cuestionario |
||||||
Batería | Varias preguntas | Promedio | Sig. | D de Cohen | ||
Cuestionario B | Cuestionario A | |||||
Falta de respuesta: | No sabe | 0,014 | 0,015 | 0,014 | 0, 127 | |
No responde | 0,041 | 0,025 | 0,033 | + | 0, 212 | |
Aquiescencia “fuerte” (5) | 0,028 | 0,025 | 0,027 | 0, 106 | ||
Aquiescencia “suave” (4) | 0,062 | 0,057 | 0,060 | 0, 140 | ||
Elección de respuestas extremas | 0,641 | 0,621 | 0,631 | 0, 322 | ||
Elección de respuestas fáciles | 0,802 | 0,776 | 0,789 | ** | 0, 248 | |
Elección de la respuesta central | 0,162 | 0,156 | 0,159 | 0, 224 | ||
Correlación entre los ítems | 0,719 | 0,753 | 0,736 | ** | 0, 001 | |
Diferenciación | 0,778 | 0,766 | 0,764 | 0, 186 | ||
n | 519 | 521 | 1.040 | |||
Reparto de tareas en el hogar: (Preg. 22, 5 ítems) 5 opciones de respuesta: 1=nunca, 5=muy frecuentemente 5 opciones de respuesta: 1=entrevistado, 2=pareja, 3=ambos, 4=otros miembros del hogar, 5=otras personas Tipo de cuestionario |
||||||
Batería | Varias preguntas | Promedio | Sig. | D de Cohen | ||
Falta de respuesta: | No sabe | 0,012 | 0,014 | 0,013 | 0, 111 | |
No responde | 0,021 | 0,037 | 0,029 | + * | 0, 178 | |
Aquiescencia “fuerte” (5) | 0,041 | 0,035 | 0,038 | + | 0, 136 | |
Aquiescencia “suave” (4) | 0,151 | 0,114 | 0,132 | ** | 0, 322 | |
Elección de respuestas extremas | 0,589 | 0,550 | 0,569 | * | 0, 446 | |
Elección de respuestas fáciles | 0,923 | 0,870 | 0,896 | + *** | 0, 368 | |
Elección de la respuesta central | 0,334 | 0,320 | 0,327 | 0, 361 | ||
Correlación entre los ítems | 0,810 | 0,808 | 0,809 | 0, 000 | ||
Diferenciación | 0,779 | 0,767 | 0,773 | 0, 272 | ||
N | 521 | 519 | 1.040 |
Notas:
(+)
Varianzas diferentes, utilización de la t de Welch (en el resto t de
Student).
(*) Significación al 0,10.
(**) Significación al 0,05.
(***)
Significación al 0,01.
Fuente: Elaboración propia.
Cada una de estas situaciones produce un indicador (de falta de respuesta, aquiescencia, etc.) en cada una de las muestras. Considerando esta situación, con el fin de conocer si existen diferencias significativas en cada medida se utilizó el test de significación de la diferencia de medias, tal y como han procedido investigaciones similares realizadas en otros contextos (Chang y Krosnick 2010Chang, Linchat y Jon Krosnick. 2010. “Comparing Oral Interviewing with Self-Administered Computerized Questionnaires, An Experiment”. Public Opinion Quarterly 74: 154-167. https://doi.org/10.1093/poq/nfr046.; Holbrook et al. 2007Holbrook, Alyson, Jon Krosnick, David Moore y Rogert Tourangeau. 2007. “Response order effects in dichotomous categorical questions presented orally: the impact of question and respondent attributes”. Public Opinion Quarterly 71: 325-348. https://doi.org/10.1093/poq/nfm024.; Bishop y Smith 2001Bishop, George y Andrew Smith. 2001. “Response-Order Effects and the Early Gallup Split-Ballots”. Public Opinion Quarterly 65: 479-505. https://doi.org/10.1086/323575.; Krosnick y Berent 1993Krosnick, Jon A. y Katthew Berent. 1993. “Comparison of party identification and policy preferences: the impact of survey question format”. American Journal of Political Science 37(3): 941-964. https://doi.org/10.2307/2111580.). Se utilizará la t de Student cuando la varianza de las variables comparadas sea igual (homocedasticidad), empleando la t de Welch cuando se trate de varianzas desiguales.
Una vez comprobado que existe diferencia entre los indicadores de ambas muestras, es recomendable utilizar alguna medida que proporcione información de la magnitud de esta diferencia, de especial relevancia cuando se trabaja con muestras de elevado tamaño, como es el caso. Es lo que se conoce como ‘tamaño del efecto’. Para conocerlo, se utiliza la d de Cohen, que es la diferencia de medias de los dos grupos comparados dividida entre la media de sus desviaciones típicas. Cohen establece tres umbrales para conocer el tamaño del efecto: valores d inferiores a 0,20 indican un efecto pequeño, medio si rondan el 0,50, y elevados cuando superan el 0,8 (Pardo y Sanmartín 2010Pardo, Antonio y Rafael San Martín. 2010. Análisis de datos. Madrid: Síntesis.).
RESULTADOS
⌅Índices de calidad
⌅En la tabla 1 se muestran los índices explicados en la sección anterior, aplicados a las tres preguntas analizadas. La primera (pregunta 13) versa sobre el nivel de satisfacción con siete aspectos de la vida del encuestado (salud, vida familiar, relaciones de pareja, amistades, situación laboral, tiempo libre disponible y distribución de las tareas del hogar) y se responde con una escala tipo Likert de cinco opciones, entre ‘muy satisfecho’ y ‘muy insatisfecho’, en que la opción central (‘ni satisfecho ni insatisfecho’) no es ofrecida al entrevistado (véase el anexo 2).
Los índices de calidad de la primera parte de la tabla 1 (pregunta 13) dan cuenta de un mayor número de respuestas ‘no sabe‘ en las preguntas de batería. La situación cambia en la falta de respuesta, que es superior en la administración con varias preguntas. El efecto de diseño es pequeño en el primer caso (‘no sabe’), y medio en la falta de respuestas.
Además, la administración en batería proporciona valores superiores en todos los índices, si bien solo cuatro de ellos alcanzan una diferencia significativa. La batería presenta una mayor aquiescencia “fuerte”, mayor elección de respuestas extremas, respuestas fáciles y respuesta central (esta no significativa), así como una mayor correlación entre los ítems. Obsérvese que la diferenciación es elevada, y mayor en las preguntas administradas en batería. Los efectos del diseño son pequeños, rondando el 0,3, como puede observarse en la columna derecha de la tabla 1.
La segunda de las preguntas utilizadas (pregunta 16) versa sobre la frecuencia con la que han aparecido cinco síntomas relacionados con la salud, y se vuelve a responder con una escala tipo Likert (cinco opciones), si bien en este caso se leen al encuestado todas las opciones de respuesta. Tal y como se aprecia en la parte central de la tabla 1, el número de respuestas “no sustantivas” es muy bajo, presentando la administración en batería un mayor número de no responde (diferencia no significativa). La batería ofrece también una mayor aquiescencia, mayor elección de respuestas extremas, fáciles y respuestas centrales. Esta última es una de las dos que presentan diferencia significativa, con un tamaño del efecto que puede considerarse como pequeño (0,248). Por su parte, la administración en varias preguntas presenta una mayor correlación entre los ítems. También una mayor diferenciación, esta última sin llegar a ser significativa. Obsérvese que esta última presenta magnitudes superiores a las localizadas en la pregunta anterior, consecuencia de leer a la persona entrevistada la respuesta central (‘algunas veces’)2 En la pregunta 13, la respuesta central es elegida 236 veces, lo cual, considerando las 7290 respuestas (1040*7) supone un 3,24 %. La pregunta 16, por su parte, es elegida 824 veces, lo cual, considerando las 5200 respuestas (1040*5) supone un 16 % de las respuestas.. La recomendación es no leer la opción central en este tipo de preguntas.
La tercera pregunta, que corresponde a la número 22 en el cuestionario empleado, plantea el reparto de seis tareas del hogar: comprar, cocinar, fregar, pasar el aspirador, limpiar el hogar y llevar el presupuesto de la casa. La utilización de varias preguntas produce una falta de respuesta ligeramente mayor, si bien el tamaño del efecto es inferior a 0,20 (efecto pequeño). En el resto de indicadores, la pregunta de batería obtiene una peor calidad de respuesta, presentando una mayor aquiescencia, un mayor número de respuestas extremas, de respuestas fáciles, mayor número de respuesta central, mayor correlación entre los ítems y mayor diferenciación, si bien en estas tres últimas la diferencia entre ambas no llega a ser significativa. Es importante señalar los elevados tamaños del efecto de la elección de respuestas extremas, d de Cohen de 0,446 rondando el efecto medio, así como la elección de respuestas fáciles (0,368) y la aquiescencia “suave” (0,322).
En síntesis, en la primera pregunta actitudinal se produce una mayor influencia del formato de la pregunta (siete diferencias significativas) que en las de comportamiento, con unas diferencias menores. En la segunda pregunta el formato batería presenta una superior aquiescencia, más respuestas extremas, más respuestas fáciles, centrales, y una mayor diferenciación. Ahora bien, tan solo el rechazo a responder, las respuestas fáciles y la correlación entre los ítems (menor en la batería) presentan diferencia significativa en la aquiescencia “suave”, respuestas extremas, respuestas fáciles y ‘no responde’. La tónica común es una peor respuesta en las preguntas de batería, logrando peores valores en los siete índices considerados.
Distribución de las respuestas
⌅Los índices utilizados desvelan escasas diferencias entre los dos tipos de preguntas, pero pudiera ocurrir que, al tratarse de índices agregados -que consideran la pregunta en conjunto-, dejaran fuera determinados aspectos específicos de las preguntas. Para resolver esta duda, en el gráfico 1 se presenta la distribución de las tres preguntas, diferenciando la administración en batería o en un conjunto de preguntas.
El primer gráfico muestra los valores medios de la pregunta actitudinal, considerando el valor 5 como ‘muy satisfecho’, el 4 como ‘satisfecho’, el 3 ‘ni lo uno ni lo otro’, el 2 como ‘insatisfecho’ y el último (1) como ‘muy insatisfecho’. Un análisis visual del gráfico muestra escasas diferencias entre la administración en batería o en varias preguntas, diferencias de una décima que no son suficientemente significativas tras utilizar un contraste de medias.
La diferencia es aún menor en la pregunta sobre la presencia de problemas de salud, en que tres de los cinco ítems presentan la misma media, y la diferencia en los otros dos es, de nuevo, de una décima; por lo que no puede hablarse de una diferencia significativa.
Los ítems de las dos primeras preguntas, al estar medidos con una escala tipo Likert que proporciona una métrica ordinal, permiten trabajar con puntuaciones medias; algo que no es posible con la tercera de las preguntas, en la que cada entrevistado debe identificar la persona que realiza cada una de esas actividades. En este caso, se utiliza la V de Cramer para conocer si el formato del cuestionario influye en la respuesta, y la diferencia de residuos estandarizados corregidos (Haberman 1973Haberman, Shelby. 1973. “The Analysis of Residuals in Cross-Classified Tables”. Biometrics 29: 205-220.) para conocer esa diferencia al nivel de cada celdilla.
Las diferencias de las barras del gráfico no permiten señalar que la distribución de las respuestas sea significativamente diferente cuando se utiliza una pregunta batería o varias preguntas. El análisis celda a celda -siguiendo el procedimiento de Haberman con un valor superior a 1,96- tan solo localiza una mayor asignación por parte del entrevistado en el ítem ‘hacer la mayor parte de la compra’. Por su parte, en actividades de limpieza, como fregar los platos o hacer la limpieza del hogar, la utilización de varias preguntas supone un incremento de otros miembros del hogar.
DISCUSIÓN, CONCLUSIONES Y FUTURAS LÍNEAS DE INVESTIGACIÓN
⌅Los resultados obtenidos en la sección anterior ponen de manifiesto que existen diferencias escasas en las respuestas cuando se emplea una pregunta de batería o esta se descompone en tantas preguntas como ítems que forman parte de la batería. Las diferencias son más elevadas en la pregunta sobre actitud que en las dos sobre comportamientos. En este punto, llega el momento de decidir por cuál de ellas optar.
Considerando las ventajas e inconvenientes señaladas en la segunda sección, los datos de la presente investigación coinciden con los que dan cuenta de una administración de cuestionario fácil y rápida (Lozar Manfreda, Vehovar y Koren 2008Lozar Manfreda, Katja, Vasja Vehovar y Gasper Koren. 2008. “Internet surveys”. Pp. 271-283 en Handbook of public opinion research, editado por Wolfgang Donsbach y Michael Traugott. Thousand Oaks, CA: Sage.): el cuestionario con dos baterías (cuestionario A) se responde en 12,8 minutos, y el que tiene una sola pregunta batería en 13,3 minutos (cuestionario B), diferencia significativa. Esta diferencia, lógicamente, se incrementará a medida que se utilicen más baterías. Esto coincide con la opinión de los expertos que las justifican, porque el entrevistado responde más rápido que en otras preguntas (Dillman, Smyth y Christian 2014Dillman, Don, Jolene D. Smyth y Leath Christian. 2014. Internet, Phone, Mail and Mixed-Mode Surveys: The Tailored Design Method (4th edición). Nueva York: Wiley.; Bethlehem y Biffignandi 2011Bethlehem, Jeike y Silvia Biffignandi. 2011. Handbook of web surveys. Neva York: Wiley.;Couper, Traugott y Lamias 2001Couper, Mick, Michael Traugott y Mark Lamias. 2001. “Web survey design and administration”. Public Opinion Quarterly 65(2): 230-253.).
A estas ventajas, Revilla, Saris y Krosnick (2014)Revilla, Melanie, Willem Saris y Jon Krosnick. 2014. “Choosing the Number of Categories in Agree-Disagree Scales“. Sociological Methods y Research 43(1): 73-97. https://doi.org/10.1177/0049124113509605. añaden el menor coste de papel y un menor trabajo de los entrevistadores, aspectos no muy relevantes en la medida que -hoy en día- la mayor parte de los cuestionarios son electrónicos (Díaz de Rada 2018Díaz de Rada, Vidal. 2018. “Encuestas presenciales con cuestionario de papel y ordenador: una comparativa en preguntas de actitudes”. Papers 103/2: 199-227. https://doi.org/10.5565/rev/papers.2301.); mucho más en el modo telefónico con la implementación de sistemas CATI. Esto supone la eliminación del coste de papel y la reducción de la carga de trabajo de los encuestadores, en la medida que las “páginas” se pasan solas y se cuenta con sistemas de depuración (en tiempo real) y ayudas en la recogida de preguntas abiertas. En relación con el trabajo de los encuestadores, en las sesiones de formación de la presente investigación se les indicó que las baterías debían plantearse haciendo referencia a la pregunta (colocada en la parte superior), esto es, repitiendo las palabras ‘satisfacción’ o ‘insatisfacción’ en la pregunta 13 (véase el cuadro 3, en que está todo el texto que debía leerse). Se trataba de lograr la máxima similitud entre los dos tipos de situaciones (batería y varias preguntas), y cumplir así el principio de estandarización (Fowler y Mangione 1990Fowler, Floyd J. y Tom Mangione. 1990. Standarized survey interviewing. Newbury Park, CA: Sage, Applied Social Research Methdods Series, vol 18. ), aspecto básico en la técnica de la encuesta. En las sesiones de monitorización de las primeras encuestas, los encuestadores fueron advertidos que debían leer todo el texto de la pregunta mostrado en el cuadro 3.
13. ¿En qué medida se siente Ud. satisfecho/a o insatisfecho/a con… | |||||||
---|---|---|---|---|---|---|---|
Muy Satisfecho | Satisfecho | Ni satisfecho ni insatisfecho [NO LEER] |
Insatisfecho | Muy insatisfecho | No sabe [NO LEER] | No resp. [NO LEER] | |
A. Su salud Se siente satisfecho o insatisfecho con… |
5 | 4 | 3 | 2 | 1 | 8 | 9 |
B. Su vida familiar Se siente satisfecho o insatisfecho con… |
5 | 4 | 3 | 2 | 1 | 8 | 9 |
C. Sus relaciones de pareja Se siente satisfecho o insatisfecho con… |
5 | 4 | 3 | 2 | 1 | 8 | 9 |
D. Sus amistades Se siente satisfecho o insatisfecho con… |
5 | 4 | 3 | 2 | 1 | 8 | 9 |
E. Su situación laboral Se siente satisfecho o insatisfecho con… |
5 | 4 | 3 | 2 | 1 | 8 | 9 |
F. El tiempo libre que tiene Se siente satisfecho o insatisfecho con… |
5 | 4 | 3 | 2 | 1 | 8 | 9 |
G. La distribución de las tareas en su hogar | 5 | 4 | 3 | 2 | 1 | 8 | 9 |
Fuente: elaboración propia
Aunque en las tres preguntas utilizadas las baterías logran mayor diferenciación, las diferencias son escasas y en ninguna de ellas es significativa. Algo similar ocurre con la correlación entre los ítems, superior en las preguntas de batería con dos diferencias significativas. Se ha dado cuenta también de que en las baterías hay una mayor selección de respuestas extremas y fáciles, así como unas respuestas que expresan una mayor tasa de acuerdo con lo planteado. Se confirma, de este modo, las desventajas del cuadro 1 en lo que respecta a la peor calidad de la respuesta proporcionada a la pregunta de batería.
Al principio de esta sección se planteó que, identificadas las similitudes entre las respuestas a cada tipo de pregunta, es el momento de decidir por cuál de ellas optar. En esta decisión debe considerase la progresiva aparición de nuevos modos de recogida, generados principalmente por el descenso en la tasa de respuesta (National Research Council 2013National Research Council. 2013. Nonresponse in social science surveys: a research agenda. R. Tourangeau y T. Plewer, editores. Panel on a Research Agenda for the Future of Social Science Data Collection, Committee on National Statistics. Division of Behavioral and Social Sciences and Education. Washington DC: The National Academic Press.). Esta mayor disponibilidad de modos de recogida, unido al hecho de que determinados colectivos colaboran más con unos modos que con otros (Guinaliu Blasco y Díaz de Rada 2021Guinaliu Blasco, Miguel y Vidal Díaz de Rada. 2021. “Combining sources of information to increase survey response rates”. Spanish Journal of Marketing-ESIC 25 (1): 29-45. https://doi.org/10.1108/SJME-04-2020-0060.; Dillman, Smyth y Christian 2014Dillman, Don, Jolene D. Smyth y Leath Christian. 2014. Internet, Phone, Mail and Mixed-Mode Surveys: The Tailored Design Method (4th edición). Nueva York: Wiley.), ha llevado a un gran número de expertos (entre otros, De Leeuw 2018; Dillman, Smyth y Christian 2014Dillman, Don, Jolene D. Smyth y Leath Christian. 2014. Internet, Phone, Mail and Mixed-Mode Surveys: The Tailored Design Method (4th edición). Nueva York: Wiley.) a recomendar conjuntamente el empleo de varios modos (modos mixtos) con el fin de lograr una mejor representatividad. El empleo conjunto de varios modos precisa de una adaptación de los cuestionarios a los modos que no cuentan con la ayuda de un encuestador que lo administre, lo que inclina la decisión hacia el uso de varias preguntas en lugar de las baterías. Aunque en el segundo epígrafe se señaló que esta forma de proceder supone más tiempo de administración, también se aludió a la mayor satisfacción de los encuestados (Revilla, Toninelli y Ochoa 2017Revilla, Melanie, Daniele Toninelli y Carlos Ochoa. 2017. “An experiment comparing grids and item-by-item formats in web surveys completed through PCs and smartphones”. Telematics and Informatics 34: 30-42. https://doi.org/10.1016/j.tele.2016.04.002.).
Esta mayor disponibilidad de modos de recogida está generando, a su vez, un desplazamiento de los modos con encuestador (encuestas presenciales y telefónicas) a modos autoadministrados. Utilizando información de Insights+Analytics España, Díaz de Rada (2022)Díaz de Rada, Vidal. 2022. “Strategies to improve response rates to online surveys”. Papers 107 (4): https://doi.org/10.5565/rev/papers.3073. señala que, en el año 2020, el 35 % de las encuestas realizadas por el sector de la investigación de mercados y opinión en España fue realizada online, siendo el modo predominante desde el año 2014. En otros contextos, expertos como Kennedy et al (2021)Kennedy, Courtney, Nicholas Hatley, Arnold Lau, Andrew Mercer, Scott Keeter, Joshua Ferno y Dorene Asare-Marlo. 2021. “Strategies for detecting insincere respondents in online surveys”. Public Opinion Quarterly 85 (4): 1050-1075. https://doi.org/10.1093/poq/nfab057. señalan que el 80 % de las encuestas se realizan utilizando modos autoadministrados, dando cuenta de que se trata de una tendencia que se está extendiendo a otros países.
Este predominio del modo autoadministrado, que no se cuenta con un encuestador que ayude al entrevistado, recomienda una eliminación de preguntas complejas como son las baterías. En estas, el encuestado debe cambiar de responder “en vertical” (suponiendo preguntas con opciones de arriba abajo o formato abanico, véase el anexo 2) a responder de forma horizontal y expresar varias respuestas a una misma pregunta. Ahora bien, esta recomendación de preguntas individuales frente a las baterías precisa estudiar la presencia de primacía y otros efectos de respuesta en las respuestas individuales, algo que han localizado expertos como Terentev y Maloshonok (2019)Terentev, Evgeniy y Natalia Maloshonok. 2019. “The impact of response options ordering on respondents’ answers to rating questions: results of two experiments”. International Journal of Social Research Methodology 22(2): 179-198. https://doi.org/10.1080/13645579.2018.1510660. y que no se ha abordado en este trabajo. Aparte de esta primera limitación, cabe mencionar una segunda que radica en el hecho de contar únicamente con tres preguntas, una actitudinal y dos de comportamiento, lo que precisa de más trabajos similares con el fin de constatar que los hallazgos aquí localizados son extensibles a otro tipo de temáticas. Una tercera limitación es que en las tres preguntas se utiliza una misma escala de respuestas, escala tipo Likert de cinco opciones etiquetadas, siguiendo así las recomendaciones de Revilla, Saris y Krosnick (2014)Revilla, Melanie, Willem Saris y Jon Krosnick. 2014. “Choosing the Number of Categories in Agree-Disagree Scales“. Sociological Methods y Research 43(1): 73-97. https://doi.org/10.1177/0049124113509605. cuando indican que se trata de las preguntas con más fiabilidad y validez. La cuarta limitación es que, a pesar de la exhaustiva formación que se le prodigó al personal entrevistador del estudio, no se controlaron aspectos como el tono de voz, el estilo al hablar, el tipo de interacción con el oyente, etc., ni se valoró el cansancio del encuestado con cada pregunta, uno de los aspectos que está reflejado en el cuadro 1.
El hecho de que algunos expertos -entre otros, Liu y Cernat (2018)Liu, Mingnan y Alexandru Cernat. 2018. “Item-by-item Versus Matrix Questions: a web survey experiment”. Social Sciences Computer Review 36(3): 690-706. https://doi.org/10.1177/08944393166744.- señalen que las diferencias entre las baterías y las preguntas sucesivas se incrementan cuando la escala de respuesta supera las siete opciones justifica la necesidad de seguir trabajando en esta temática. En este sentido, es preciso conocer si escalas más amplias (con más opciones de respuesta) y sin presencia de etiquetas en cada punto presentan los mismos resultados que los localizados aquí. Otro aspecto por considerar es el número de ítems de la pregunta, siete y cinco ítems en el presente artículo, un número muy inferior al utilizado habitualmente en las preguntas de batería (véase el anexo 1).