SciELO - Scientific Electronic Library Online

 
vol.42 número5Contenido de poliaminas en anteras y durante la germinación de polen en Pyrus pyrifolia NakaiProcedimiento para revisión (sin hidrometría) de la seguridad hidrológica de presas pequeñas para riego índice de autoresíndice de materiabúsqueda de artículos
Home Pagelista alfabética de revistas  

Servicios Personalizados

Revista

Articulo

Indicadores

Links relacionados

  • No hay artículos similaresSimilares en SciELO

Compartir


Agrociencia

versión impresa ISSN 1405-3195

Agrociencia vol.42 no.5 México jul./ago. 2008

 

Matemáticas aplicadas, estadística y computación

 

Muestreo de respuestas aleatorizadas en poblaciones finitas: un enfoque unificador

 

Randomized response sampling in finite populations: a unifying approach

 

Víctor Soberanis–Cruz1, Gustavo Ramírez–Valverde2*, Sergio Pérez–Elizalde2 y Félix González–Cossio2

 

1 Universidad de Quintana Roo. Colonia del Bosque. Chetumal. 77000. Quintana Roo, México (vsobera@correo.uqroo.mx).

2 Campus Montecillo. Colegio de Postgraduados. 56230. Montecillo, Estado de México *Autor responsable: (gramirez@colpos.mx)

 

Recibido: Septiembre, 2006.
Aprobado: Marzo, 2008.

 

Resumen

La técnica de respuesta aleatorizada (RA) introducida por Warner (1965), fue diseñada para disminuir la no respuesta sobre aspectos sensibles y para proteger la confidencialidad del entrevistado. En este trabajo se propone un nuevo enfoque que utiliza la información contenida en la correlación entre la variable de interés y una variable inocua W, enfoque que denominaremos modelo C. Así mismo se propone, bajo un muestreo de poblaciones finitas y en el marco de la teoría de los estimadores–π (Särndal et al., 1992; Cassel et al., 1977), la unificación de varios de los modelos propuestos de RA en uno más general (modelo G). Además, se obtienen las varianzas de los distintos modelos y se observa que, bajo ciertas restricciones, el estimador del modelo C es más eficiente.

Palabras clave: Estimadores–π, pregunta sensitiva, respuesta aleatorizada, técnica de Warner.

 

Abstract

The randomized response technique (RR), introduced by Warner (1965) was designed to avoid non–answers to questions about sensitive issues and protect the privacy of the interviewee. In this paper, a new approach is proposed using information contained in the correlation between the variable of interest and an innocuous variable W; this approach is called here, the C model. Likewise it is proposed, under a finite populations sampling scheme, and in the framework theory of π estimators (Särndal et al., 1992; Cassel et al., 1977) the unification of several of the RR models in a more general one (G model). Furthermore, the variances of the different models are obtained and, under certain restrictions, the C model estimator is more efficient.

Key words: π–estimators, sensitive question, randomized response, Warner's technique.

 

INTRODUCCIÓN

En estudios de muestreo por encuestas el interés frecuentemente se centra en aspectos sensibles o confidenciales para las personas entrevistadas, tales como uso de drogas, evasión de impuestos, preferencias sexuales, honestidad en exámenes, opinión respecto a autoridades, etcétera. Por tal motivo, algunos entrevistados se niegan a responder (fenómeno de no–respuesta) la pregunta con la que se pretende obtener información sobre el aspecto sensible, o proporcionan respuestas falsas; en cualquiera de los dos casos las estimaciones son sesgadas.

La técnica de respuesta aleatorizada (RA), introducida por Warner (1965), propone una solución para la protección de la confidencialidad del entrevistado, y consiste en la utilización de un mecanismo aleatorio (MA) por medio del cual se selecciona una de dos preguntas: ¿pertenece al grupo con la característica A? o ¿pertenece al grupo que no tiene la característica A?, donde A es la característica sensible de interés. El entrevistado contestará sí o no y el entrevistador no tiene la posibilidad de saber qué pregunta contestó el entrevistado, protegiendo así la confidencialidad del mismo.

La técnica RA ha propiciado que se generen una serie de enfoques, entre los que destacan los siguientes modelos: a) el W (Warner, 1965), b) el U con pregunta inocua W no relacionada (Greenberg et al., 1969), c) el C, d) el H (Horvitz et al., 1976), e) el D (Devore, 1977) y, f) el M (Mangat y Singh, 1990), cada modelo se describe a continuación.

El modelo U (Greenberg et al., 1969) es de respuesta aleatorizada con preguntas no relacionadas. Al igual que el modelo W tiene un mecanismo aleatorio que selecciona una de dos preguntas, pero mientras una pregunta corresponde al aspecto sensible, ¿perteneces al grupo con la característica A?, la segunda pregunta no tiene que ver con el aspecto sensible; es sobre algún otro aspecto inocuo W; esto es, no afecta la sensibilidad del entrevistado. Por ejemplo, si la primera pregunta es ¿evade usted impuestos?, la segunda pregunta podría ser ¿le gusta el cine? La comparación de los modelos W y U se ha hecho en el marco de poblaciones infinitas (Moors, 1971), resultando el modelo U más eficiente que el W.

Horvitz et al. (1976) proponen el modelo H, que permite una mayor protección del anonimato del entrevistado sin utilizar la pregunta complementaria; cada elemento de la muestra responde aleatoriamente una de tres proposiciones: (1) la pregunta sensitiva, (2) una instrucción que dice sí y (3) una instrucción que dice no, a ser escogidas con probabilidades p1, p2 y p3 , con p1+ p2+ p3 = 1.

En el modelo M el mecanismo aleatorio proporciona n respuestas independientes con dos componentes aleatorias. El modelo D es análogo al U, con una diferencia básica: la pertenencia al grupo inocuo W se establece con probabilidad uno.

Chaudhuri y Mukerjee (1988) presentan una buena reseña sobre los trabajos pioneros en respuestas alea–torizadas. Algunos trabajos más recientes son los de Lakshmi y Raghavarao (1992); Mangat et al. (1993); Chua y Tsui (2000); Padmawar y Vijayan (2000); y Chaudhuri (2001). Un enfoque bayesiano al modelo de Warner puede verse en Winkler y Franklin (1979) y Bar–Lev et al. (2003).

En este trabajo se propone un nuevo esquema (modelo C) que permite que la pregunta inocua del modelo U esté correlacionada con la variable sensitiva Y, pero que no afecta la sensibilidad del individuo, manteniéndose así la confidencialidad del entrevistado. En este nuevo enfoque se aprovecha la información contenida en la correlación de la variable sensible con la variable inocua para tener una mejor estimación en términos de sesgo y varianza, bajo un esquema de muestreo de poblaciones finitas. Asimismo, se propone unificar estos esquemas en un modelo G de respuesta aleatorizada, tal que los modelos W, U, C, H, D, y M sean casos particulares. Se obtienen las varianzas de los distintos modelos y se estudia por simulación la dispersión del estimador; y resulta que el modelo C es más eficiente.

 

MATERIALES Y MÉTODOS

Población bajo estudio

Se considera una población finita U = {1, 2,,... ,N} . Se definen las subpoblaciones: i= 0,1 ; y Wi , i = 0,1. El tamaño de la población N se supone conocido. El tamaño de la muestra se denota por n, el cual no necesariamente es fijo. Sea y la variable dicotómica que denota la pertenencia de un individuo al grupo con la característica sensible de interés, con yk el valor de y para el k–ésimo elemento de la población. Así, yk es desconocida pero no aleatoria. Además, yk=1 si el k–ésimo individuo tiene la característica sensitiva A y yk=0 en caso contrario. Lo que se desea estimar es tA = ΣU yk , el total de los individuos en la población con la característica sensible A.

Procedimiento de muestreo

Para el modelo general (G) el procedimiento de muestreo es:

Etapa 1 (selección de la muestra). Se toma una muestra de tamaño n de acuerdo con el diseño de muestreo p(s) con probabilidades positivas de inclusión πk y πkl , donde

Para cada elemento k en la muestra S se tiene Ik = 1 si k = S, I k = 0 de otra forma; nótese que Ik(S) es función de la variable aleatoria S. Además,

Etapa 2 (recopilación de la información). Las entrevistas se realizan a los individuos en la muestra de acuerdo al MA definido por el modelo de respuesta aleatorizada empleado. El MA induce para cada k S una variable aleatoria Zk, tal que la combinación lineal es una estimación insesgada de yk, donde a y bk son constantes conocidas que dependen del MA; por tanto, y el cálculo de VMA (Zk) también depende de MA.

Enfoque unificador (modelo G)

De manera semejante a la generalización desarrollada por Chaudhuri y Mukerjee (1988), se propone un enfoque unificador de los modelos considerados. Además, se propone aprovechar la información contenida en la correlación entre la variable inocua y la sensitiva, generando el modelo C.

El estimador general que se propone para la estimación del total tA = ΣUyk es:

Se tiene que

por lo que el estimador es insesgado bajo el diseño de muestreo p(s). También

La varianza para cualquier modelo que cumpla con las condiciones del modelo G está formada por dos términos: el primero depende del diseño de muestreo p(s) y los valores yk, esta parte es común a todos los modelos y será denotada por VG; el otro término depende del mecanismo aleatorio empleado. Por tanto, para comparar la varianza de los distintos modelos es suficiente la comparación del segundo término de la varianza.

A continuación se muestra que los modelos W, U, C, H, D y M, son casos particulares del modelo G, con las constantes presentadas en el Cuadro 1.

Modelo de Warner (W): preguntas complementarias

Para el mecanismo aleatorio del modelo de Warner se tiene

para cada k S, y

con de modo que

y

De (1.5) y (1.6) se puede ver que el modelo W es un caso particular del modelo G. Si es el estimador del total tA = Σ U yk en el modelo de Warner, de (1.1) obtenemos

De (1.3) y (1.6)

donde . La selección de p debe hacerse de tal modo que el entrevistado esté convencido de la protección de su anonimato. Obviamente, la selección p= 1/2 es la más convincente; no obstante, es inadmisible ya que para este valor no está definido el estimador.

Modelo U

El modelo U propuesto por Greenberg et al. (1969) utiliza el siguiente mecanismo aleatorio:

la esperanza es:

con . Observe que aunque bk depende de k, es constante respecto al MA, lo cual implica que el modelo U es un caso particular del modelo G. Además, se tiene que

Denotando con al estimador del total tA = Σ U yk de (2.2) y de (1.1) se tiene,

De (2.3) y de la ultima igualdad en (1.3) se tiene que

En la expresión (2.5), si y y W están correlacionadas se reduce la varianza del estimador.

Modelo H

El modelo H es una alternativa al esquema de Warner que da mayor protección al entrevistado, y consiste en que cada elemento de la muestra selecciona aleatoriamente una de tres proposiciones: (1) la sensitiva QA, (2) una instrucción que dice si y (3) una que dice no, con probabilidades p1, p2, p3 y p1+ p2+ p3 = 1.

Para el modelo H se imponen las siguientes restricciones:

Se tiene

donde

y

con

De (3.2a) y (3.3) se puede ver que el modelo H es un caso particular del modelo G. Si es el estimador del total tA = ΣU yk en el modelo H, de (1.1) se tiene

De (1.3) y de (3.3) se obtiene

Considerando a como función de p2 únicamente tomando una p1 fija, se puede ver que es creciente en p2, y como entonces es mínima cuando y (3.5) se reduce a

Modelo D

Esta propuesta es análoga al modelo U, con una diferencia básica, la pertenencia al grupo inocuo W es con probabilidad uno. Por ejemplo, la pregunta inocua W puede ser: ¿está usted vivo? Para este modelo tenemos

De modo que

y

con . Denotando por al estimador del total tA = ΣU y en el modelo D, de (1.1) se tiene

Para obtener la varianza del estimador correspondiente al modelo D primero vemos que

Así

finalmente se obtiene:

Posteriormente se verá que la expresión anterior puede utilizarse para comparar la varianza del modelo D con la del modelo C.

Modelo M

En el modelo M propuesto por Mangat y Singh (1990) el MA proporciona n respuestas independientes con dos componentes aleatorias. La primera componente consta de dos proposiciones, seleccionadas con probabilidades t y í—t, respectivamente: (1) pertenezco al grupo A, y (2) ir a la segunda componente. La segunda componente también consta de dos proposiciones seleccionadas con probabilidades p y 1—p: (1) pertenezco al grupo A, y (2) pertenezco al grupo . Se tiene entonces

con De modo que

Para obtener la varianza del estimador para el modelo M, se define , con lo que se obtiene

ya que 1 – α – 2β = 0 ; de modo que:

Nótese que (5.4) es finita sí y sólo sí , lo cual es cierto si p>1/2 y t >1/2.

Modelo C

Una forma de mejorar la precisión de un estimador es introducir información auxiliar correlacionada con la variable de interés. A diferencia del modelo U, que considera la introducción de una variable inocua no relacionada con la variable sensitiva y, en el modelo C la variable inocua W está correlacionada con y, pero manteniendo la confidencialidad del entrevistado; el procedimiento de muestreo es exactamente como en el modelo U.

Un ejemplo donde se puede aplicar este modelo C es cuando se desea estimar el número total de empresas que evaden impuestos y se utiliza como variable inocua el tamaño de la empresa. Se espera que exista una asociación entre la variable sensible (evadir impuestos) y la variable inocua (tamaño de la empresa), asumiendo que existe un censo de las empresas y su tamaño.

Si se denota por al estimador del total tA = ΣU yk en el modelo C, se tiene que

y

La expresión 6.2 muestra que la varianza del estimador decrece al aumentar la correlación de W con y. Asimismo, la última igualdad en (6.2) abre la posibilidad de comparar la varianza del estimador de este modelo C con la varianza de los estimadores correspondientes a otros modelos; en particular, con la del D dada por (4.4). En el Cuadro 2 se resumen los resultados.

Estudio de simulación

Se realizó un estudio de simulación para destacar el efecto de la correlación entre la variable W y la variable sensitiva y en la reducción de la varianza del estimador.

La comparación entre los modelos estudiados se hizo considerando el esquema de muestreo aleatorio simple (MAS). Así, tenemos donde S es la colección de todas las posibles muestras; las probabilidades de inclusión son

Para cada modelo la simulación se realizó para los siguientes parámetros: una población de N=1000 individuos, de los cuales A=702 tendrán la característica sensible. El tamaño de muestra es n=100.

En el estudio de simulación se tiene fija la variable de interés (y) en la población, y se construyeron 100 vectores, cada uno representando un variable inocua W, de tal manera que las correlaciones de W con la variable sensible, van creciendo desde —1 hasta 1, esto permite ver la eficiencia del modelo C; esto es, permite ver la relación inversa que existe entre la varianza del estimador con la correlación de W con y.

Para el modelo H se imponen las restricciones:

Los valores considerados para los parámetros son p=p1=t=0.70 de donde el valor óptimo para p2 en el modelo H, de acuerdo con (3.5), es . Para todos los modelos se realizó una simulación de Monte Carlo con J=1000 iteraciones. Las expresiones de los estimadores para cada modelo son:

 

RESULTADOS Y DISCUSIÓN

En el Cuadro 3 se presenta la media y las desviación estándar de las estimaciones simuladas. La media de las estimaciones es cercana al valor verdadero, lo que confirma el insesgamiento de los estimadores.

Se puede observar que con el mismo valor de p, en el mecanismo aleatorio, el modelo menos eficiente en cuanto a la varianza es el modelo Warner. Las varianzas estimadas disminuyen drásticamente al utilizar los modelos H, D, M o C.

La desviación estándar del estimador del total en el modelo C depende del valor de la correlación con la pregunta inocua: si la correlación es negativa, los modelos H, D y M resultan con menor desviación estándar; sin embargo, cuando la correlación es positiva la desviación estándar de los estimadores en el modelo C disminuye y es menor que la correspondiente a los otros modelos.

En la Figura 1 se puede observar que la desviación estándar sigue una relación inversa con la correlación entre la variable sensible y y la pregunta inocua W. La relación entre la correlación y la desviación estándar del estimador en el modelo C (ecuación 6.2) se preserva en otros escenarios de simulación con distintos tamaños de muestra y de población, así como con diferentes parámetros del MA.

 

CONCLUSIONES

El modelo G generaliza el de respuesta aleatorizada. Los modelos considerados en este trabajo pueden ser vistos como casos particulares. De acuerdo con la expresión de la varianza del estimador del total en el modelo G, ésta se puede dividir en dos partes: la primera, común a todos los modelos RA y la segunda, que depende del MA. Por lo anterior, la comparación de la varianza entre dos modelos sólo depende de la segunda componente de la varianza.

La expresión (6.2) indica la existencia de una relación inversa entre la varianza del estimador del total y la correlación entre las variables sensible e inocua en el modelo C. En particular, cuando la correlación es uno la precisión de estimador es máxima, ya que el segundo término de la expresión de la varianza se anula.

El estudio de simulación muestra que el estimador del modelo C tiene menor varianza que los demás. Ésto es, se logra una reducción muy importante en la varianza del estimador al considerar una variable W inocua, pero altamente correlacionada con la variable sensible y.

 

LITERATURA CITADA

Bar–Lev, S. K., E. Bobovich, and B. Boukai. 2003. A Common conjugate prior structure for several randomized response models. Test. 12: 101–113.        [ Links ]

Cassel, C. M., J. K. Wretman, and C. E. Särndal. 1977. Foundations of Inference in Survey Sampling. J. Wiley. New York. 192 p.        [ Links ]

Chaudhuri, A. 2001. Using randomized response from a complex survey to estimate a sensitive proportion in a dichotomous finite population. Journal of Statistical Planning and Inference. 94: 37–42.        [ Links ]

Chaudhuri, A., and R. Mukerjee. 1988. Randomized Response Theory and Technique. Marcel Dekker. New York. 162 p.        [ Links ]

Chua, T. C., and A. K. Tsui. 2000. Procuring honest responses indirectly. Journal of Statistical Planning and Inference. 90: 107–116.        [ Links ]

Devore, J. L. 1977. A note on the randomized response technique. Communications in Statistics Theory and Methods. 6: 1525–1529.        [ Links ]

Greenberg, B. G., A. A. Abulela, W. R. Simmons, and D. C. Horvitz. 1969. The unrelated question RR model: theoretical framework. JASA. 64: 520–539.        [ Links ]

Horvitz, D. C., B. G. Greenberg, and J. R. Abernathy. 1976. Randomized response. A data gathering device for sensitive questions. International Statistical Review. 44: 181–196.        [ Links ]

Lakshmi, D. V., and D. Raghavarao. 1992. A test for detecting untruthful answering in randomized response procedures. Journal of Statistical Planning and Inference. 31: 387–390.        [ Links ]

Mangat, N. S., and R. Singh. 1990. An alternative randomized response procedure. Biometrika. 77: 439–442.        [ Links ]

Mangat, N. S., R. Singh, S. Singh and B. Singh. 1993. On Moors' randomized response model. Biometrical Journal. 35: 727–732.        [ Links ]

Moors, J.J. 1971. Optimization of the unrelated question in RR model. JASA. 66: 627–629.         [ Links ]

Padmawar, V. R., and K. Vijayan. 2000. Randomized response revisited. Journal of Statistical Planning and Inference. 90: 293– 304.        [ Links ]

Särndal, C. E., B. Swensson, and J. Wretman. 1992. Model Assisted Survey Sampling. Springer Verlag. New York. 694 p.        [ Links ]

Warner, S. L. 1965. Randomized response: A survey technique for eliminating evasive answer bias. JASA. 60: 63–69.        [ Links ]

Winkler, R. L., and L. A. Franklin. 1979. Warner's randomized response model: A Bayesian approach. JASA. 74: 207–214.        [ Links ]

Creative Commons License Todo el contenido de esta revista, excepto dónde está identificado, está bajo una Licencia Creative Commons