Introducción
A pesar de que la inteligencia artificial facilita el manejo de muchos datos (big data), el uso indiscriminado de algoritmos y del aprendizaje autónomo de los programas (machine learning) ha causado daños y repercusiones indeseables en la toma de decisiones al respecto de esta. Por ende, descubrir los mejores modelos y prácticas para evaluar estos impactos algorítmicos adquiere relevancia.
Para lograr este objetivo se requiere, por una parte, el reconocimiento de la transversalidad de los impactos, riesgos y daños, y por la otra, analizar los modelos y considerar las mejores prácticas de evaluación. Con esto en consideración, las preguntas eje de la indagatoria son: ¿cuáles son los modelos y prácticas evaluativas más deseables de los impactos, riesgos y daños que provoca el uso de la inteligencia artificial?, y ¿qué elementos deben poseer las evaluaciones de impacto algorítmico?
Para dar notoriedad a la relevancia de las evaluaciones de la inteligencia artificial es útil comprender dos puntos de partida: la naturaleza y proceder de la inteligencia artificial y los diversos impactos, riesgos y daños de esta. Ambos aspectos se desarrollarán en estos párrafos introductorios para más adelante dar pauta al análisis de los modelos, la revisión de las buenas prácticas más reconocidas y, finalmente, en las conclusiones reflexionar sobre las respuestas a las interrogantes de investigación, además de aportar algunas propuestas complementarias.
La inteligencia artificial es definida por el grupo de expertos de la Organización de las Naciones Unidas para la Educación, la Ciencias y la Cultura (UNESCO) como: “sistemas capaces de procesar datos e información de una manera que se asemeja a un comportamiento inteligente, y abarca generalmente aspectos de razonamiento, aprendizaje, percepción, predicción, planificación o control” (2021, p. 16).
De este concepto es importante destacar los aspectos de aprendizaje (por el autoaprendizaje de los sistemas tecnológicos, machine learning) y del control (por la toma de decisiones directas o las orientaciones para que los humanos tomen las decisiones). Es decir, los algoritmos de la inteligencia artificial pueden obtener nuevos conocimientos a partir de los datos básicos de primer nivel o de las capas con que son alimentados y, en consecuencia, tomar u orientar decisiones más rápidas y con mayor certeza probabilística que las capacidades humanas.
En relación al procedimiento de los algoritmos, cabe destacar que el aprendizaje y las nuevas conclusiones que obtienen los sistemas de información tecnológica pueden ser supervisados o no supervisados. En los casos no supervisados, los algoritmos obtienen los nuevos datos a raíz de los primeros resultados de inferencias preliminares, sobre todo de aquellos que no fueron etiquetados.
Un ejemplo común se ilustra en el llamado correo electrónico no deseado o basura (en inglés spam), donde el algoritmo del servidor del correo electrónico etiqueta algunos correos como “no deseados” en base a información o decisiones previas del usuario respecto al remitente. Asimismo, el algoritmo también “decide” que otros remitentes corresponden al correo no deseado según inferencias más complejas que realiza con los datos iniciales. Ahora bien, la toma de decisiones sobre un correo “no deseado” no es tan grave como la decisión de un sistema algorítmico que niega el ingreso a un país a un migrante porque no asoció su apellido al de extranjeros previamente calificados o porque lo vinculó con un criminal.
Recapitulando, los sistemas de inteligencia artificial reciben los datos, los procesan bajo un esquema, programa o sistema y proporcionan una salida o respuesta de información, no obstante, cuando las primeras salidas vuelven a ser procesadas por nuevos esquemas autogestionados desde la experiencia anterior, se producen una cantidad indeterminada de capas ocultas con representaciones, correlaciones y abstracciones cada vez más complejas. Es en este punto que se inicia el aprendizaje profundo (en inglés deep learning).
El proceso y las nuevas capas que se van creando son difíciles de rastrear, hasta el punto de que “en entornos de aprendizaje profundo, incluso los desarrolladores podrían no ser capaces de ‘comprender’ el razonamiento detrás de cierta producción” (Martínez-Ramill, 2021, p. 4). La complejidad y dificultad cognitiva de las nuevas capas y sus salidas problematiza el derecho que tienen los usuarios a la explicabilidad de los algoritmos, a la vez que justifica, con mayor solidez, la necesidad de las evaluaciones de impacto.
En lo atingente a los impactos, riesgos y daños de la inteligencia artificial se han identificado seis áreas de vulnerabilidad: los riesgos de la seguridad ciudadana; los riesgos de violaciones a los derechos fundamentales; la carencia de procedimientos y recursos por parte de las autoridades para garantizar el cumplimiento de las normativas; la incertidumbre legal que disuade a las empresas para desarrollar sistemas de inteligencia artificial; la desconfianza en la inteligencia artificial, nacida de la probable reducción de la competitividad global para empresas y gobiernos; y las incoherencias jurídicas entre naciones que causan obstáculos para un mercado único transfronterizo y amenazan la soberanía digital de cualquier nación (Dalli, 2021).
En resumen, la vulnerabilidad se encuentra en que lo prohibido en un país se promueve en otro, en que aquello que puede ser obligatorio para las autoridades de una nación, en otra puede tenerse como delito. Ejemplo de esto puede observarse en la prohibición de la plataforma de Uber en Colombia por razones de la libre competencia comercial, situación que no se aceptaría en el mercado liberal de Estados Unidos de América. Un segundo caso es lo ocurrido con Corona-Warn-App, que toma datos desde los dispositivos móviles con el objetivo de controlar las cadenas de contagio por covid-19, su uso fue obligatorio en China y Corea, mientras en Alemania está prohibido.
En busca de categorizar el contenido de las áreas vulnerables, se propone identificar los efectos algorítmicos en impactos, riesgos y daños, que pueden ubicarse en cualquiera de las seis áreas vulnerables y en más de un dominio. Los impactos pueden ejemplificarse con sistemas de inteligencia artificial situados o no situados en robots.
Un caso situado es el robot ASIMO (por sus siglas en inglés Advanced Step in Innovative Mobility) creado por Honda en el año 2000 y perfeccionado hasta la versión 2011. La empresa lo describe como “una máquina autónoma con la capacidad de tomar decisiones y hacer cambios en su comportamiento de acuerdo con el entorno en el que esté” (Honda-Robotics, s/f). ASIMO puede auxiliar a cualquier persona en sus necesidades de movilidad y puede utilizarse para sustituir a los humanos en tareas de alta peligrosidad, como combatir incendios, ingresar a áreas tóxicas o exponerse a ataques bélicos. La particularidad de su inteligencia artificial consiste en responder a estímulos del entorno corrigiendo su trayectoria o conducta de manera independiente gracias a la coordinación de sensores visuales y auditivos, además tiene la capacidad de reconocer rostros y la voz de otras personas.
Un caso paradigmático de los resultados de la inteligencia artificial no situada es el programa Libratus, que es capaz de operar exitosamente en la toma de decisiones aún con información incompleta, omitida con dolo y hasta engañosa. Sus desarrolladores, en la Universidad de Carnegie Mellon, proyectan sus rendimientos en la toma de decisiones tanto en juegos de mesa como en estrategias militares, tratamientos médicos, negociaciones comerciales y, por supuesto, en el ámbito de decisiones políticas en el sector privado y público.
De forma paralela, los impactos pueden llegar a ser riesgos. Por ejemplo, los dispositivos digitales portátiles, como relojes con sensores biométricos (oxímetro, cuenta pasos, cuantificadores de ingesta o quema de calorías, frecuencias cardíacas, etcétera), los dispositivos de programación deportiva (como los de Fitbit y Nike) y los rastreadores GPS, han controlado las vidas de la mayoría de sus consumidores sin importar que pueden arrojan resultados con falsos positivos y negativos (De Moya & Pallud, 2020; Ruckenstein & Schüll, 2017) que, en la escala social, conllevan errores mayores.
Negar prestaciones sociales o médicas cuando se tienen necesidades y derechos a las mismas u otorgarlas cuando no hay derecho a recibirlas son errores que laceran la calidad de la administración pública y el Estado de Derecho, pauperizan los recursos sociales y aumentan las desigualdades y la exclusión. Los riesgos pueden llegar no solo a la vulneración de derechos, sino también a causar daños, algunos que pueden ser mitigados y otros que son definitivos.
Por mencionar algunos, entre los daños mitigables se encuentra la interacción de un usuario con un chatbot, donde el algoritmo ordena y clasifica los datos del usuario y determina o estereotipa su condición; mientras que entre los daños definitivos se cuentan la toma de decisiones irreversibles a partir de información y procedimientos parciales, como clasificar a una mujer exenta del riesgo de violencia doméstica, liberar un criminal con alta probabilidad de reincidencia (Hartmann & Wenzelburger, 2021), o categorizar a sujetos como inapropiados para la ampliación de un crédito o una beca.
Los riesgos y daños presentes en las decisiones arrojadas por la inteligencia artificial tienen una base discriminatoria. Según Hacker (2018), estas razones se deben a datos de alimentación sesgados que producirán lo resultados inequitativos (pp. 1143-1148). Existen pocas garantías para que los datos de entrada en un algoritmo sean representativos, completos y depurados de prejuicios, por tanto, los diseñadores no podrían afirmar que los datos de salida estén armonizados con los principios éticos y las legislaciones -ejemplo de esto se ve en la exclusión de mujeres en ciertas contrataciones laborales en el caso de la compañía Amazon (Dastin, 2018).
La construcción inadecuada de conjuntos de datos y etiquetado (tagging) también es discriminatoria. Esto ha dado cabida a, por ejemplo, la invalidez jurídica de los contratos inteligentes (smart contracts) (Argelich, 2020), o que el software de reconocimiento facial de Google Photos etiquetara por error a dos personas de color como “gorilas” (Zhang, 2015). Otra razón discriminatoria obedece al sesgo histórico de los datos y las representaciones intermediarias (proxy).
Esto puede observarse en la variable “raza” que se ha operativizado en varias ciudades de los Estados Unidos de América, al grado que algunas prácticas policiales fueron denunciadas por detenciones ilegales de personas de color o con rasgos latinos cuando los sistemas de inteligencia artificial se utilizaron para la identificación facial, de la voz o de la manera de caminar (European Union, Agency for Fundamental Rights, 2020, p. 34).
Otros casos discriminatorios están asociados a la correlación de la solvencia económica en el caso de hipotecas, a la longevidad, en cuanto a seguros médicos y de vida, o a variables como “código postal-sexo-edad”, en relación con los costos de seguros de automóviles. Aizenberg y Van den Hoven (2020) han mostrado que los desarrolladores y diseñadores de sistemas de inteligencia artificial no poseen una comprensión profunda de las razones sociales e históricas de la discriminación, pues su labor se concentra en aspectos técnicos, como la representatividad de variables y la construcción de etiquetas para clasificar (p. 3). Esto vuelve a mostrar la necesidad de utilizar los modelos de evaluación algorítmica y de acudir a las buenas prácticas.
Modelos para evaluar la inteligencia artificial
Los impactos, riesgos y daños pueden evaluarse con diversos modelos dependiendo de los enfoques. En un primer conjunto, el enfoque se concentra en la ética, la legalidad y la cultura. Algunas organizaciones y gobiernos procuran establecer códigos de ética sobre la inteligencia artificial; el gobierno chino ha promovido uno de los códigos más recientes en esta materia (Del Río, 2022) e incluso la UNESCO (2021) ha postulado sus recomendaciones al respecto.
Empero, estos códigos no son vinculantes ni persuasivos para todas las audiencias, y la ética de la inteligencia artificial (rama de la ética enfocada en la existencia de robots inteligentes o cualquier tipo de inteligencia artificial) es solo para quién desee adoptarla (Cortina, 2019; Lauer, 2021).
Como puede observarse, el modelo de la legalidad está fragmentado y posee inconsistencias por la variedad de legislaciones internacionales. Esto no se limita a lo obligatorio en un país y lo prohibido en otro, sino también al disímil alcance de los derechos de autor de los desarrolladores de inteligencia artificial en distintas jurisdicciones. La Unión Europea (European Union, European Commission, 2021b) ha realizado esfuerzos para alcanzar legislaciones armonizadas, pero las autoridades están impedidas en su intervención judicial por los derechos de autor correspondientes a los desarrolladores y propietarios de los algoritmos.
El modelo de la cultura presenta más fragmentación que el de la legalidad por la diversa geolocalización del mundo digital en Oceanía, Asia, Europa, África y América. No obstante, dentro de la cultura digital, una figura líder sigue siendo Tim Berners Lee (el creador de la World Wide Web), quien en noviembre de 2019 convocó a adherirse al llamado Contrato para la Web. Este plan de acción consta de nueve principios que generan compromisos dirigidos a gobiernos, empresas y usuarios, con el objeto de mantener a la red libre, descentralizada y segura.
Este esfuerzo de Berners Lee es una muestra de la gravedad del estado de la cuestión, preocupación que continuo la Unión Europea al establecer en 2020 el Libro blanco sobre la inteligencia artificial. Otros modelos enfocan sus evaluaciones desde los daños colectivos, el diagnóstico y la asignación de amenazas.
Desde los daños colectivos pueden ejemplificarse las recomendaciones “personalizadas” de productos ofrecidos por empresas como Uber, Airbnb, Amazon, Netflix, YouTube y un largo etcétera. El uso de algoritmos en las recomendaciones segmenta a los usuarios y provoca la fragmentación social, erosionando la cohesión comunitaria y la solidaridad (Yeung, 2019, p. 24).
Por su parte, los modelos de diagnóstico pueden proceder desde las detecciones en las fases de desarrollo del sistema hasta en los ajustes por el aprendizaje autónomo. Lamentablemente estos modelos operan una vez que el daño se ha causado (aunque se den en la fase inicial de desarrollo).
Como muestra de esto, los automóviles autodirigidos (driverless car) creados en Alemania por Ernst Dickmanns desde 1986, poseen un sistema con capacidad de entrada de datos lumínicos, cromáticos, audibles, táctiles, geoposicionados, cinemométricos, térmicos, etcétera, donde los datos de salida pueden ser incompatibles con los de entrada, por ejemplo, en una colisión inminente, el dato de entrada sobre el objeto a colisionar puede variar la salida si se trata de un objeto inanimado (chocar contra un poste o un árbol), o un objeto animado (un venado o un ciclista).
En este caso, en su programación el sistema tiene responsabilidad, autoaprendizaje y adaptación, características que pueden llevar a conflictos frente a ideas como la de no involucrar en riesgos a terceros ajenos, donde es una posibilidad que la autoconducción termine sacrificando a varios tripulantes por evitar arrollar a un ratón.
El modelo de evaluación por asignación de amenazas es parcialmente homologable al del riesgo y responsabilidades que se analizara adelante. En este punto, cabe cuestionar sobre quiénes asignan las amenazas y a quiénes les son asignadas. Sin duda hay una dialéctica entre los intereses de los agentes usuarios (por ejemplo, las compañías o instituciones gubernamentales que utilizan plataformas para realizar sus servicios) y los intereses de los consumidores finales o ciudadanos, que son más propensos a percibirse como víctimas. La asignación de la responsabilidad es debatible cuando solo se puede actuar con las plataformas algorítmicas y estas se respaldan con las innegociables declaraciones que terminan en la consabida coerción del “acepto los términos de uso”.
El Consejo de Europa, a través del estudio realizado por Yeung (2019), muestra cuatro modelos para evaluar la inteligencia artificial y sus algoritmos. El primero se basa en la intención y culpabilidad y se enfoca en la identificación y la personalidad jurídica de los operadores.
En este modelo pueden existir varias capas de responsabilidad: una primera la ocupan los clientes o financiadores que encargan la construcción de un sistema a diseñadores y desarrolladores; la segunda capa corresponde a estos últimos junto con los operadores y los programadores; una tercera capa podría asignarse a los sistemas mismos, por su capacidad autónoma de autoaprendizaje; y se suman las capas finales de los usuarios y los consumidores.
En contraste con el anterior, el segundo modelo se fundamenta en el riesgo. Este resulta preventivo, desea evitar la negligencia al indagar los posibles riesgos en usuarios y consumidores durante toda la vida del sistema. Sin embargo, la totalidad de los posibles peligros no son previsibles debido a la capacidad de autoaprendizaje y autonomía de programación de los sistemas avanzados.
Por lo tanto, se hacen necesarias las evaluaciones de impacto algorítmico con capacidad diferenciada a lo largo de la vida de un sistema, incluyendo las fases de errores, experimentación, entradas y salidas con información inusual, así como la capa de autoaprendizaje.
Este modelo basado en el riesgo pone en cuestión la responsabilidad de los diferentes actores. Financiadores, diseñadores y desarrolladores deberían quedar exentos de responsabilidad cuando los usuarios utilizan los sistemas para propósitos distintos a los ofrecidos o realizan acciones que van más allá de las intenciones originales. No pueden equipararse las responsabilidades adjudicadas al diseño con las del autoaprendizaje o del uso negligente o mal intencionado del consumidor final.
El tercer modelo corresponde a la responsabilidad legal, esta acontece por déficits y defectos de los sistemas. Por mencionar un ejemplo, cuando en las decisiones automatizadas del autoaprendizaje tardío un sistema pone en manos de humanos la decisión o ejecución final con dilación (el control de un vehículo autodirigido, el traslado a una prisión de baja seguridad de un preso de alta peligrosidad, etcétera).
La responsabilidad legal, como cualquier tipificación de delito, puede anticiparse a los daños y la transgresión a los derechos y, debido a la novedad de las aplicaciones de inteligencia artificial, requiere ser detectada con evaluaciones de impacto. Los casos arriba señalados sobre la discriminación laboral de Amazon, la marginación racial de Google, la arbitrariedad de los contratos personalizados con cadenas de bloques (blockchain) o los falsos positivos y negativos en muchos otros dominios, reiteran la necesidad de las evaluaciones de impacto algorítmico.
El cuarto modelo corresponde al seguro obligatorio y se enfoca en la compensación en vez de concentrarse en la previsión o la prevención. Instaurar los seguros obligatorios con cargo a los usuarios o consumidores finales de sistemas de inteligencia artificial no siempre podría resultar satisfactorio, ni por los costos de las pólizas ni por los montos de las compensaciones e indemnizaciones.
Los intereses económicos y de poder que presentan resistencias a los modelos de la responsabilidad legal y seguro obligatorio son notorios: oficialmente la Unión Europea y el gobierno de norteamericano tienen muy presente la mitigación de costos y regulaciones para evitar restricciones de competitividad en aras de proteger sus propios liderazgos.1
Por otra parte, la responsabilidad algorítmica se disuelve cuando desaparecen los corporativos que construyeron los programas de inteligencia artificial o cambian su identidad mercantil. Para evitar este vacío, y la impunidad que genera, en algunos países se promueve tener a un responsable al alcance fijado por medio de la asignación de personalidad jurídica a los programas de inteligencia artificial situados (esto en el caso de los robots) (Henz, 2021). El debate sobre la personalidad jurídica de los sistemas de inteligencia artificial posee muchas aristas, está inacabado y centra la atención solo en el aspecto del modelo de la legalidad.
Ante el modelo preventivo del riesgo, las propuestas enfocadas a fincar responsabilidades, hallar agentes culpables o negligentes y contar con seguros obligatorios son menos deseables. Por muy generosa que fuese la indemnización de un accidente aéreo debido a la culpa del algoritmo en la torre de control o en la aeronave, la pérdida evitable de vidas humanas será en muchos sentidos irreparable.
Puede afirmarse que el modelo evaluativo sobre el riesgo resulta óptimo por su capacidad preventiva y su amplitud a lo largo de la vida de los sistemas, así como por la evaluación de los procesos de autoaprendizaje y por evitar costos reparatorios gracias a las acciones de autocorrección e inclusive de prohibición. En síntesis, los entornos comerciales, jurídicos y técnicos en los que emergen la inteligencia artificial y los algoritmos han provocado la inoperancia de principios éticos como la transparencia, la explicabilidad, la exactitud, la auditabilidad, la rendición de cuentas y la co-construcción.
En consecuencia, se fortalecen las razones para establecer evaluaciones de impacto algorítmico que auxilien los fundamentos de los juicios éticos, las sentencias jurídicas y las resoluciones por responsabilidad. Como señala la directora responsable de PricewaterhouseCoopers International Limited (PwCIL) en los Estados Unidos de América, para la inteligencia artificial “académicos, organizaciones no gubernamentales (ONG) y algunos formuladores de políticas recomiendan la adopción de Evaluaciones de Impacto algorítmicas” (Golbin, 2021).
Buenas prácticas de evaluaciones de impacto algorítmico
Las evaluaciones de impacto algorítmico distan de ser homologables y uniformes. El Observatorio de Inteligencia Artificial de la Organización para la Cooperación y el Desarrollo Económicos (OCDE), en su misión de “realizar una evaluación de impacto y prospectiva tecnológica sobre la IA” (OECD.AI, (2019), (2021) constata variadas políticas públicas y la heterogeneidad de estrategias, instrumentos, normas, guías, pactos, códigos, enfoques, cánones de consideraciones sobre la aplicación y limitaciones de la inteligencia artificial.
Según los diversos observatorios y revisiones, destacan como buenas prácticas en la administración y gestión pública las de los gobiernos de Australia, Canadá, Estados Unidos de América, Japón, Nueva Zelanda, Reino Unido y Singapur (European Union, European Commission, 2021a, pp. 33-34; Andrade & Kontschieder, 2021; Ada Lovelace Institute & AI Now Institute and Open Government Partnership, 2021; OECD.AI, 2021).
Con la posible desventaja de marginar algún caso meritorio, en la Tabla 1 se muestra, por países y prácticas, las evaluaciones que se esfuerzan por cumplir con criterios éticos, jurídicos y culturales como la transparencia, la explicabilidad, la exactitud, la auditabilidad, la rendición de cuentas y la co-construcción.
País | Nombre del instrumento | Método | Nivel alcanzado sobre el criterio | Áreas o dominios |
---|---|---|---|---|
Australia | Automated Decision-Making: Better Practice Guide | Cualitativo | Medio: bienestar humano, social y ambiental, equidad, transparencia, explicabilidad | Uso de datos en servicios gubernamentales |
Canadá | Directive on Automated Decision Making | Cualitativo y Cuantitativo | Muy alto: transparencia, rendición de cuentas y responsabilidad | Decisiones administrativas de servicios gubernamentales en todas las áreas |
Estados Unidos de América (California) | California State Bill No. 10 | Cualitativo | Medio: custodia del Estado sobre criminales | Derechos humanos |
Japón | AI Utilization Guidelines | Cualitativo | Medio: humanismo, educación, privacidad, seguridad, equidad, transparencia, rendición de cuentas, innovación | Legalidad en decisiones gubernamentales |
Nueva Zelanda | Government algorithm transparency and accountability | Cualitativo | Alto: transparencia y rendición cuentas | Privacidad y uso eficiente de datos |
Reino Unido | Draft AI Auditing Framework and Guidelines For AI Procurement | Cualitativo | Alto: gobernanza y rendición de cuentas; precisión y seguridad | Ética y seguridad |
Singapur | Advisory Council on the Ethical Use of AI and Data | Cualitativo | Medio: gobernanza | Ética, comunicación, empresas |
Fuente: elaboración propia a partir de Ada Lovelace Institute & AI Now Institute and Open Government Partnership (2021), Expert Group on Architecture for AI Principles to be Practiced (2021), Andrade & Kontschieder (2021), OECD.AI (2021).
Con la pretensión de omitir sesgos, al analizar las prácticas de la Tabla 1 puede afirmarse que la evaluación canadiense destaca porque abarca el mayor número posible de dominios con una metodología parametrizada, considerando en lo individual y lo comunitario a los derechos, la salud, el bienestar y los intereses económicos, así como la sostenibilidad del ecosistema y la duración y reversibilidad de los impactos (Government of Canada, 2021).
Además, el instrumento canadiense obtiene puntuaciones de impacto bruto y de mitigación, es decir, es un instrumento que toma las opiniones cualitativas de expertos y del foro de involucrados en cada caso, a la vez que les asigna puntuaciones ponderadas para establecer con mayor objetividad el nivel alcanzado de intervención algorítmica según los criterios de evaluación.
En México, la Secretaría de la Función Pública desarrolló un instrumento derivado del canadiense que considera los siguientes dominios: derechos humanos, equidad y bienestar social, transparencia, responsabilidad y obligaciones (Gobierno de México, 2018). Se observa que los dominios coincidentes entre ambos instrumentos corresponden a los derechos humanos y al bienestar. Esta parametrización no solo concierne a los dominios, sino también a las dimensiones sobre las cuales habrá que establecer los niveles de impacto. El caso mexicano ilustra las dimensiones de uso y gestión de datos, procesos, nivel de autonomía y funcionalidad del sistema, alcance socioeconómico y de las operaciones del gobierno.
Tras el análisis de las mejores prácticas de evaluación de impacto algorítmico se deducen los elementos que toda evaluación debería poseer. En primer lugar, en congruencia con las observaciones realizadas a los modelos de evaluación, deben contener las fuentes de previsibilidad, riesgo y negligencia. En segundo lugar, han de considerar los ámbitos o dominios y sectores donde tienen efectos.
Metcalf et al. (2021) proponen los siguientes elementos en las evaluaciones de impacto: las fuentes de legitimidad, las opiniones y cualificaciones de los actores y del foro de involucrados, el evento catalizador que detona la necesidad de la evaluación, la temporalidad del sistema, el nivel de acceso público, el método, el conjunto de evaluadores, el impacto mismo y, por supuesto, la determinación de daños y su correspondiente compensación.
A estos es necesario añadir el nivel de autonomía (debido al autoaprendizaje de los sistemas), la metodología de recopilación de datos (por razones de la posible invasión a los datos privados) y la administración de los inventarios del sistema (porque estos pueden ser temporales o permanentes y, en consecuencia, dejar o no vestigios de responsabilidad).
Los autores han mostrado la variedad de áreas o dominios (principalmente el fiscal, el medioambiental, los derechos humanos, la protección de datos y la privacidad) junto con los diferentes grados de avance algorítmico y las variadas disposiciones geopolíticas (Metcalf et al., 2021). Por ende, la conmensuración metódica entre los distintos instrumentos no emerge por sí misma de manera congruente y alineada entre todos los actores debido a los vocabularios, las métricas, los criterios éticos y los cánones legales.
En un intento de incluir todas las dimensiones, se propone otorgarles un valor como factor multiplicador de ponderación, con la intención de acercarse a una versión incluyente pero diferenciada de las evaluaciones de impacto algorítmico, para establecer una correlación de acciones o reacciones a tomar en correspondencia a los niveles de impacto, riesgo y daño.
En la Tabla 2 se muestra el alcance de cada modelo de evaluación según los elementos mínimos indispensables de la enumeración de Metcalf et al. (2021) y expone la superioridad del modelo basado en el enfoque de riesgo.
Elementos | Modelos | Intención y culpabilidad | Riesgo | Responsabilidad legal | Seguro obligatorio |
---|---|---|---|---|---|
Fuente de legitimidad | x | x | x | - | |
Actores y foros | x | x | - | - | |
Evento detonante | - | x | x | x | |
Temporalidad | - | x | x | - | |
Acceso público | x | x | - | x | |
Método | x | x | x | ||
Conjunto de evaluadores | x | x | x | ||
Determinación de daño y compensación | x | x | x | x | |
Total | 5 | 8 | 5 | 5 |
Fuente: elaboración propia.
Conclusiones
El modelo del riesgo se mostró con capacidad previsoria, preventiva y abarcadora de eventos catalizadores perniciosos, por consiguiente, es innegable que está vinculado al de la responsabilidad, pues en la medida que resulta previsorio auxilia a la evolución de las disposiciones jurídicas y de las obligaciones de seguros. También se observa que ningún otro modelo alcanza todos los elementos que debe poseer una evaluación de impacto algorítmico. Con esta conclusión queda explícitamente respondida la primera pregunta eje de la indagatoria de este texto.
Al recabar las experiencias de las mejores prácticas y modelarlas al enfoque del riesgo, los elementos mínimos de las evaluaciones de impacto algorítmico deben considerar que:
Los efectos algorítmicos tienen impactos transversales aunque los algoritmos se apliquen como sectoriales, por lo tanto, deben contemplar la inclusión de cualquier dominio (fiscal, medioambiental, salud, laboral, movilidad, derechos humanos).
La inclusión de los dominios debe ser jerarquizada en función de la extensión de su presencia transversal, por esto, los dominios deben considerarse con ponderaciones parametrizadas.
Los actores y sujetos involucrados en los foros de opiniones, las cualificaciones y el conjunto de evaluadores expertos participarían en las calificaciones cualitativas de los efectos algorítmicos (sobre todo para distinguir entre un impacto y un riesgo), con total acceso a la documentación completa y con la capacitación previa para identificar y satisfacer los principios éticos, jurídicos y culturales de transparencia, explicabilidad, exactitud, auditabilidad, rendición de cuentas y co-construcción.
La metodología, al igual que la información, debe ser explicable y, sobre todo, abierta a incluir y adaptar las escalas de ponderación de los diversos dominios y efectos.
En consonancia con el modelo preventivo del riesgo, las evaluaciones deben continuarse a lo largo de toda la vida del sistema.
La evaluación de toda la vida del sistema ha de incluir el autoaprendizaje y aprendizaje profundo, aun cuando estos se ejerzan con autonomía y al margen de la intervención humana.
Estos seis elementos responden la segunda pregunta planteada al inicio de este texto. Es necesario tener en cuenta que, en la actualidad, las evaluaciones se presentan en distintos dominios, los sistemas tienen diferentes grados de avance, y existen variadas disposiciones geopolíticas. Esta heterogeneidad de enfoques, metodologías y marcos legales impide la estandarización de las evaluaciones.
Si bien la diversidad obstaculiza la construcción generalizada, es debatible la opción de homogeneizar las evaluaciones, pues quizá la pluralidad de enfoques y métodos resulte adecuada para impactos sectoriales novedosos o no imaginados gracias a la vertiginosidad con que la inteligencia artificial se hace presente en más dominios de la realidad. Por ende, las evaluaciones de impacto algorítmico requieren de un método abierto y dúctil para garantizar el cumplimiento de principios éticos y jurídicos mínimos y mantenerse ad hoc con tendencias culturales específicas de los usuarios y consumidores finales.
Propuestas
El sentido o finalidad última de los modelos evaluativos de los impactos algorítmicos apunta a vincular acciones proporcionales con sus resultados, en otras palabras, las evaluaciones no solo deben constatar el estado de impactos algorítmicos, sino orientar las intervenciones humanas consecuentes. De ahí que deba postularse la correlación entre cuatro categorizaciones de posibles resultados en las evaluaciones y las correspondientes acciones de protección.
Las categorías resultado de las evaluaciones son: daños definitivos y no definitivos, riesgos y simples impactos. La correspondencia propuesta sugiere ante los daños definitivos la prohibición, ante los no definitivos la reparación, ante los riesgos la mitigación y frente a los impactos la prevención.
Es cierto que la construcción de un modelo único presenta dificultades (Metcalf et al., 2021, p. 51) y que se han establecido métricas disimiles de niveles de impacto (Alemania tiene una regulación de cinco niveles mientras México registra la posibilidad de cuatro, siguiendo el instrumento canadiense), pero las discusiones y las tendencias culturales de la digitalización insisten en transitar hacia expresiones cuantitativas de los aspectos cualitativos (Gobierno de México, 2018, p. 4).
Con todo esto en consideración, cabe proponer una línea para futuras investigaciones con la intención de lograr las expresiones cuantitativas estandarizadas de conformidad a las acciones de protección simétricas con los niveles de daño o riesgo. La categorización cualitativa (punto de partida para asignar un daño, riesgo o simple impacto), que deberán llevar a cabo los sujetos involucrados en una evaluación, implica un ejercicio deliberativo y, en términos de políticas públicas (por los algoritmos utilizados en la administración gubernamental), un ejercicio de gobernanza.
Por su parte, las asignaciones cuantitativas requerirán de las previas ponderaciones entre los dominios donde incide la inteligencia artificial para vincularlas con las distintas categorizaciones evaluadas, es decir, debe saberse o consensuarse qué variables tendrán más peso que otras. Por ejemplo, para priorizar entre la educación y los servicios médicos se requiere de la ponderación diferenciada cuando la distancia entre marginar a una persona de una beca escolar es notoriamente menos grave que marginar del acceso a un servicio de salud vital.
Sin duda estas consideraciones requieren de consensos alcanzados deliberativamente en el marco de la gobernanza. Debe advertirse que no ocurre así con el citado instrumento canadiense pues, si bien arroja el resultado del nivel de impacto, su escore solo contempla la mitigación.
En resumen, las categorizaciones cualitativas y las ponderaciones cuantitativas deben cumplir con la deliberación del foro de involucrados y las directrices de gobernanza para alcanzar los principios éticos y legales de transparencia y explicabilidad suficientes para determinar, según sea el caso, la prohibición de un sistema de inteligencia artificial, la reparación de sus daños reversibles, la mitigación de sus riesgos o la prevención de sus impactos.
Antes de finalizar cabe una advertencia: en la actual era de las tecnologías digitales se ofrecen softwares y sistemas de inteligencia artificial para alcanzar consensos y llegar a acuerdos con el propósito de cumplir con dinámicas deliberativas y de gobernanza (por ejemplo AgoraVoting, Democracy Os, Liquidfeedback, Appgree, Adhocracy, Titanpad, Loomio, entre los más utilizados), asimismo existen sistemas de inteligencia artificial disponibles para las evaluaciones de impacto y la toma de decisiones ante dilemas éticos.
Por esta razón sería una paradoja que los interesados en establecer las evaluaciones algorítmicas y los juicios éticos sobre la inteligencia artificial utilizaran de manera acrítica, a su vez, tecnologías algorítmicas (De Cremer y Kasparov, 2022). Lamentablemente, esto podría ocurrir con instrumentos como el canadiense, que están a disposición de cualquier usuario en línea. Ante este escenario, es recomendable la capacitación crítica y constante de los humanos para evaluar la inteligencia artificial.