Muestreo de respuestas aleatorizadas en poblaciones finitas: un enfoque unificador

Soberanis-Cruz, Víctor; Ramírez-Valverde, Gustavo; Pérez-Elizalde, Sergio; González-Cossio, Félix

Servicios Personalizados

Revista

Articulo

Indicadores

Links relacionados

Similares en SciELO

Otros
Otros

Permalink

Agrociencia

versión On-line ISSN 2521-9766versión impresa ISSN 1405-3195

Agrociencia vol.42 no.5 Texcoco jul./ago. 2008

Matemáticas aplicadas, estadística y computación

Muestreo de respuestas aleatorizadas en poblaciones finitas: un enfoque unificador

Randomized response sampling in finite populations: a unifying approach

Víctor Soberanis–Cruz¹, Gustavo Ramírez–Valverde²*, Sergio Pérez–Elizalde² y Félix González–Cossio²

¹Universidad de Quintana Roo. Colonia del Bosque. Chetumal. 77000. Quintana Roo, México (vsobera@correo.uqroo.mx).

² Campus Montecillo. Colegio de Postgraduados. 56230. Montecillo, Estado de México *Autor responsable: (gramirez@colpos.mx)

Recibido: Septiembre, 2006.
Aprobado: Marzo, 2008.

Resumen

La técnica de respuesta aleatorizada (RA) introducida por Warner (1965), fue diseñada para disminuir la no respuesta sobre aspectos sensibles y para proteger la confidencialidad del entrevistado. En este trabajo se propone un nuevo enfoque que utiliza la información contenida en la correlación entre la variable de interés y una variable inocua W, enfoque que denominaremos modelo C. Así mismo se propone, bajo un muestreo de poblaciones finitas y en el marco de la teoría de los estimadores–π (Särndal et al., 1992; Cassel et al., 1977), la unificación de varios de los modelos propuestos de RA en uno más general (modelo G). Además, se obtienen las varianzas de los distintos modelos y se observa que, bajo ciertas restricciones, el estimador del modelo C es más eficiente.

Palabras clave: Estimadores–π, pregunta sensitiva, respuesta aleatorizada, técnica de Warner.

Abstract

The randomized response technique (RR), introduced by Warner (1965) was designed to avoid non–answers to questions about sensitive issues and protect the privacy of the interviewee. In this paper, a new approach is proposed using information contained in the correlation between the variable of interest and an innocuous variable W; this approach is called here, the C model. Likewise it is proposed, under a finite populations sampling scheme, and in the framework theory of π estimators (Särndal et al., 1992; Cassel et al., 1977) the unification of several of the RR models in a more general one (G model). Furthermore, the variances of the different models are obtained and, under certain restrictions, the C model estimator is more efficient.

Key words: π–estimators, sensitive question, randomized response, Warner's technique.

INTRODUCCIÓN

En estudios de muestreo por encuestas el interés frecuentemente se centra en aspectos sensibles o confidenciales para las personas entrevistadas, tales como uso de drogas, evasión de impuestos, preferencias sexuales, honestidad en exámenes, opinión respecto a autoridades, etcétera. Por tal motivo, algunos entrevistados se niegan a responder (fenómeno de no–respuesta) la pregunta con la que se pretende obtener información sobre el aspecto sensible, o proporcionan respuestas falsas; en cualquiera de los dos casos las estimaciones son sesgadas.

La técnica de respuesta aleatorizada (RA), introducida por Warner (1965), propone una solución para la protección de la confidencialidad del entrevistado, y consiste en la utilización de un mecanismo aleatorio (MA) por medio del cual se selecciona una de dos preguntas: ¿pertenece al grupo con la característica A? o ¿pertenece al grupo que no tiene la característica A?, donde A es la característica sensible de interés. El entrevistado contestará sí o no y el entrevistador no tiene la posibilidad de saber qué pregunta contestó el entrevistado, protegiendo así la confidencialidad del mismo.

La técnica RA ha propiciado que se generen una serie de enfoques, entre los que destacan los siguientes modelos: a) el W (Warner, 1965), b) el U con pregunta inocua W no relacionada (Greenberg et al., 1969), c) el C, d) el H (Horvitz et al., 1976), e) el D (Devore, 1977) y, f) el M (Mangat y Singh, 1990), cada modelo se describe a continuación.

El modelo U (Greenberg et al., 1969) es de respuesta aleatorizada con preguntas no relacionadas. Al igual que el modelo W tiene un mecanismo aleatorio que selecciona una de dos preguntas, pero mientras una pregunta corresponde al aspecto sensible, ¿perteneces al grupo con la característica A?, la segunda pregunta no tiene que ver con el aspecto sensible; es sobre algún otro aspecto inocuo W; esto es, no afecta la sensibilidad del entrevistado. Por ejemplo, si la primera pregunta es ¿evade usted impuestos?, la segunda pregunta podría ser ¿le gusta el cine? La comparación de los modelos W y U se ha hecho en el marco de poblaciones infinitas (Moors, 1971), resultando el modelo U más eficiente que el W.

Horvitz et al. (1976) proponen el modelo H, que permite una mayor protección del anonimato del entrevistado sin utilizar la pregunta complementaria; cada elemento de la muestra responde aleatoriamente una de tres proposiciones: (1) la pregunta sensitiva, (2) una instrucción que dice sí y (3) una instrucción que dice no, a ser escogidas con probabilidades p₁, p₂y p₃, con p₁+ p₂+ p₃ = 1.

En el modelo M el mecanismo aleatorio proporciona n respuestas independientes con dos componentes aleatorias. El modelo D es análogo al U, con una diferencia básica: la pertenencia al grupo inocuo W se establece con probabilidad uno.

Chaudhuri y Mukerjee (1988) presentan una buena reseña sobre los trabajos pioneros en respuestas alea–torizadas. Algunos trabajos más recientes son los de Lakshmi y Raghavarao (1992); Mangat et al. (1993); Chua y Tsui (2000); Padmawar y Vijayan (2000); y Chaudhuri (2001). Un enfoque bayesiano al modelo de Warner puede verse en Winkler y Franklin (1979) y Bar–Lev et al. (2003).

En este trabajo se propone un nuevo esquema (modelo C) que permite que la pregunta inocua del modelo U esté correlacionada con la variable sensitiva Y, pero que no afecta la sensibilidad del individuo, manteniéndose así la confidencialidad del entrevistado. En este nuevo enfoque se aprovecha la información contenida en la correlación de la variable sensible con la variable inocua para tener una mejor estimación en términos de sesgo y varianza, bajo un esquema de muestreo de poblaciones finitas. Asimismo, se propone unificar estos esquemas en un modelo G de respuesta aleatorizada, tal que los modelos W, U, C, H, D, y M sean casos particulares. Se obtienen las varianzas de los distintos modelos y se estudia por simulación la dispersión del estimador; y resulta que el modelo C es más eficiente.

MATERIALES Y MÉTODOS

Población bajo estudio

Se considera una población finita U = {1, 2,,... ,N} . Se definen las subpoblaciones: i= 0,1 ; y W_i , i = 0,1. El tamaño de la población N se supone conocido. El tamaño de la muestra se denota por n, el cual no necesariamente es fijo. Sea y la variable dicotómica que denota la pertenencia de un individuo al grupo con la característica sensible de interés, con y_k el valor de y para el k–ésimo elemento de la población. Así, y_k es desconocida pero no aleatoria. Además, y_k=1 si el k–ésimo individuo tiene la característica sensitiva A y y_k=0 en caso contrario. Lo que se desea estimar es t_A = Σ_U y_k , el total de los individuos en la población con la característica sensible A.

Procedimiento de muestreo

Para el modelo general (G) el procedimiento de muestreo es:

Etapa 1 (selección de la muestra). Se toma una muestra de tamaño n de acuerdo con el diseño de muestreo p(s) con probabilidades positivas de inclusión π_k y π_kl , donde

Para cada elemento k en la muestra S se tiene I_k = 1 si k = S, I _k = 0 de otra forma; nótese que I_k(S) es función de la variable aleatoria S. Además,

Etapa 2 (recopilación de la información). Las entrevistas se realizan a los individuos en la muestra de acuerdo al MA definido por el modelo de respuesta aleatorizada empleado. El MA induce para cada k S una variable aleatoria Z_k, tal que la combinación lineal es una estimación insesgada de y_k, donde a y b_k son constantes conocidas que dependen del MA; por tanto, y el cálculo de V_MA(Z_k)también depende de MA.

Enfoque unificador (modelo G)

De manera semejante a la generalización desarrollada por Chaudhuri y Mukerjee (1988), se propone un enfoque unificador de los modelos considerados. Además, se propone aprovechar la información contenida en la correlación entre la variable inocua y la sensitiva, generando el modelo C.

El estimador general que se propone para la estimación del total t_A = Σ_Uy_kes:

Se tiene que

por lo que el estimador es insesgado bajo el diseño de muestreo p(s). También

La varianza para cualquier modelo que cumpla con las condiciones del modelo G está formada por dos términos: el primero depende del diseño de muestreo p(s) y los valores y_k, esta parte es común a todos los modelos y será denotada por V_G; el otro término depende del mecanismo aleatorio empleado. Por tanto, para comparar la varianza de los distintos modelos es suficiente la comparación del segundo término de la varianza.

A continuación se muestra que los modelos W, U, C, H, D y M, son casos particulares del modelo G, con las constantes presentadas en el Cuadro 1.

Modelo de Warner (W): preguntas complementarias

Para el mecanismo aleatorio del modelo de Warner se tiene

para cada k S, y

con de modo que

De (1.5) y (1.6) se puede ver que el modelo W es un caso particular del modelo G. Si es el estimador del total t_A = Σ _U y_k en el modelo de Warner, de (1.1) obtenemos

De (1.3) y (1.6)

donde . La selección de p debe hacerse de tal modo que el entrevistado esté convencido de la protección de su anonimato. Obviamente, la selección p= 1/2 es la más convincente; no obstante, es inadmisible ya que para este valor no está definido el estimador.

Modelo U

El modelo U propuesto por Greenberg et al. (1969) utiliza el siguiente mecanismo aleatorio:

la esperanza es:

con . Observe que aunque b_k depende de k, es constante respecto al MA, lo cual implica que el modelo U es un caso particular del modelo G. Además, se tiene que

Denotando con al estimador del total ^{t_A = Σ _U y_k}de (2.2) y de (1.1) se tiene,

De (2.3) y de la ultima igualdad en (1.3) se tiene que

En la expresión (2.5), si y y W están correlacionadas se reduce la varianza del estimador.

Modelo H

El modelo H es una alternativa al esquema de Warner que da mayor protección al entrevistado, y consiste en que cada elemento de la muestra selecciona aleatoriamente una de tres proposiciones: (1) la sensitiva Q_A, (2) una instrucción que dice si y (3) una que dice no, con probabilidades p₁, p₂, p₃ y p₁+ p₂+ p₃ = 1.

Para el modelo H se imponen las siguientes restricciones:

Se tiene

donde

con

De (3.2a) y (3.3) se puede ver que el modelo H es un caso particular del modelo G. Si es el estimador del total _{^{t_A = Σ_U y_k}}en el modelo H, de (1.1) se tiene

De (1.3) y de (3.3) se obtiene

Considerando a como función de p₂ únicamente tomando una p₁ fija, se puede ver que es creciente en p₂, y como entonces es mínima cuando y (3.5) se reduce a

Modelo D

Esta propuesta es análoga al modelo U, con una diferencia básica, la pertenencia al grupo inocuo W es con probabilidad uno. Por ejemplo, la pregunta inocua W puede ser: ¿está usted vivo? Para este modelo tenemos

De modo que

con . Denotando por al estimador del total _{^{t_A =}}_^Σ_{^{_U y}} ^en ^el modelo D, de (1.1) se tiene

Para obtener la varianza del estimador correspondiente al modelo D primero vemos que

Así

finalmente se obtiene:

Posteriormente se verá que la expresión anterior puede utilizarse para comparar la varianza del modelo D con la del modelo C.

Modelo M

En el modelo M propuesto por Mangat y Singh (1990) el MA proporciona n respuestas independientes con dos componentes aleatorias. La primera componente consta de dos proposiciones, seleccionadas con probabilidades t y í—t, respectivamente: (1) pertenezco al grupo A, y (2) ir a la segunda componente. La segunda componente también consta de dos proposiciones seleccionadas con probabilidades p y 1—p: (1) pertenezco al grupo A, y (2) pertenezco al grupo . Se tiene entonces

con De modo que

Para obtener la varianza del estimador para el modelo M, se define , con lo que se obtiene

ya que 1 – α – 2β = 0 ; de modo que:

Nótese que (5.4) es finita sí y sólo sí , lo cual es cierto si p>1/2 y t >1/2.

Modelo C

Una forma de mejorar la precisión de un estimador es introducir información auxiliar correlacionada con la variable de interés. A diferencia del modelo U, que considera la introducción de una variable inocua no relacionada con la variable sensitiva y, en el modelo C la variable inocua W está correlacionada con y, pero manteniendo la confidencialidad del entrevistado; el procedimiento de muestreo es exactamente como en el modelo U.

Un ejemplo donde se puede aplicar este modelo C es cuando se desea estimar el número total de empresas que evaden impuestos y se utiliza como variable inocua el tamaño de la empresa. Se espera que exista una asociación entre la variable sensible (evadir impuestos) y la variable inocua (tamaño de la empresa), asumiendo que existe un censo de las empresas y su tamaño.

Si se denota por al estimador del total t_A = Σ_U y_k en el modelo C, se tiene que

La expresión 6.2 muestra que la varianza del estimador decrece al aumentar la correlación de W con y. Asimismo, la última igualdad en (6.2) abre la posibilidad de comparar la varianza del estimador de este modelo C con la varianza de los estimadores correspondientes a otros modelos; en particular, con la del D dada por (4.4). En el Cuadro 2 se resumen los resultados.

Estudio de simulación

Se realizó un estudio de simulación para destacar el efecto de la correlación entre la variable W y la variable sensitiva y en la reducción de la varianza del estimador.

La comparación entre los modelos estudiados se hizo considerando el esquema de muestreo aleatorio simple (MAS). Así, tenemos donde S es la colección de todas las posibles muestras; las probabilidades de inclusión son

Para cada modelo la simulación se realizó para los siguientes parámetros: una población de N=1000 individuos, de los cuales A=702 tendrán la característica sensible. El tamaño de muestra es n=100.

En el estudio de simulación se tiene fija la variable de interés (y) en la población, y se construyeron 100 vectores, cada uno representando un variable inocua W, de tal manera que las correlaciones de W con la variable sensible, van creciendo desde —1 hasta 1, esto permite ver la eficiencia del modelo C; esto es, permite ver la relación inversa que existe entre la varianza del estimador con la correlación de W con y.

Para el modelo H se imponen las restricciones:

Los valores considerados para los parámetros son p=p₁=t=0.70 de donde el valor óptimo para p₂ en el modelo H, de acuerdo con (3.5), es . Para todos los modelos se realizó una simulación de Monte Carlo con J=1000 iteraciones. Las expresiones de los estimadores para cada modelo son:

RESULTADOS Y DISCUSIÓN

En el Cuadro 3 se presenta la media y las desviación estándar de las estimaciones simuladas. La media de las estimaciones es cercana al valor verdadero, lo que confirma el insesgamiento de los estimadores.

Se puede observar que con el mismo valor de p, en el mecanismo aleatorio, el modelo menos eficiente en cuanto a la varianza es el modelo Warner. Las varianzas estimadas disminuyen drásticamente al utilizar los modelos H, D, M o C.

La desviación estándar del estimador del total en el modelo C depende del valor de la correlación con la pregunta inocua: si la correlación es negativa, los modelos H, D y M resultan con menor desviación estándar; sin embargo, cuando la correlación es positiva la desviación estándar de los estimadores en el modelo C disminuye y es menor que la correspondiente a los otros modelos.

En la Figura 1 se puede observar que la desviación estándar sigue una relación inversa con la correlación entre la variable sensible y y la pregunta inocua W. La relación entre la correlación y la desviación estándar del estimador en el modelo C (ecuación 6.2) se preserva en otros escenarios de simulación con distintos tamaños de muestra y de población, así como con diferentes parámetros del MA.

CONCLUSIONES

El modelo G generaliza el de respuesta aleatorizada. Los modelos considerados en este trabajo pueden ser vistos como casos particulares. De acuerdo con la expresión de la varianza del estimador del total en el modelo G, ésta se puede dividir en dos partes: la primera, común a todos los modelos RA y la segunda, que depende del MA. Por lo anterior, la comparación de la varianza entre dos modelos sólo depende de la segunda componente de la varianza.

La expresión (6.2) indica la existencia de una relación inversa entre la varianza del estimador del total y la correlación entre las variables sensible e inocua en el modelo C. En particular, cuando la correlación es uno la precisión de estimador es máxima, ya que el segundo término de la expresión de la varianza se anula.

El estudio de simulación muestra que el estimador del modelo C tiene menor varianza que los demás. Ésto es, se logra una reducción muy importante en la varianza del estimador al considerar una variable W inocua, pero altamente correlacionada con la variable sensible y.

LITERATURA CITADA

Bar–Lev, S. K., E. Bobovich, and B. Boukai. 2003. A Common conjugate prior structure for several randomized response models. Test. 12: 101–113. [ Links ]

Cassel, C. M., J. K. Wretman, and C. E. Särndal. 1977. Foundations of Inference in Survey Sampling. J. Wiley. New York. 192 p. [ Links ]

Chaudhuri, A. 2001. Using randomized response from a complex survey to estimate a sensitive proportion in a dichotomous finite population. Journal of Statistical Planning and Inference. 94: 37–42. [ Links ]

Chaudhuri, A., and R. Mukerjee. 1988. Randomized Response Theory and Technique. Marcel Dekker. New York. 162 p. [ Links ]

Chua, T. C., and A. K. Tsui. 2000. Procuring honest responses indirectly. Journal of Statistical Planning and Inference. 90: 107–116. [ Links ]

Devore, J. L. 1977. A note on the randomized response technique. Communications in Statistics Theory and Methods. 6: 1525–1529. [ Links ]

Greenberg, B. G., A. A. Abulela, W. R. Simmons, and D. C. Horvitz. 1969. The unrelated question RR model: theoretical framework. JASA. 64: 520–539. [ Links ]

Horvitz, D. C., B. G. Greenberg, and J. R. Abernathy. 1976. Randomized response. A data gathering device for sensitive questions. International Statistical Review. 44: 181–196. [ Links ]

Lakshmi, D. V., and D. Raghavarao. 1992. A test for detecting untruthful answering in randomized response procedures. Journal of Statistical Planning and Inference. 31: 387–390. [ Links ]

Mangat, N. S., and R. Singh. 1990. An alternative randomized response procedure. Biometrika. 77: 439–442. [ Links ]

Mangat, N. S., R. Singh, S. Singh and B. Singh. 1993. On Moors' randomized response model. Biometrical Journal. 35: 727–732. [ Links ]

Moors, J.J. 1971. Optimization of the unrelated question in RR model. JASA. 66: 627–629. [ Links ]

Padmawar, V. R., and K. Vijayan. 2000. Randomized response revisited. Journal of Statistical Planning and Inference. 90: 293– 304. [ Links ]

Särndal, C. E., B. Swensson, and J. Wretman. 1992. Model Assisted Survey Sampling. Springer Verlag. New York. 694 p. [ Links ]

Warner, S. L. 1965. Randomized response: A survey technique for eliminating evasive answer bias. JASA. 60: 63–69. [ Links ]

Winkler, R. L., and L. A. Franklin. 1979. Warner's randomized response model: A Bayesian approach. JASA. 74: 207–214. [ Links ]