<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>0187-358X</journal-id>
<journal-title><![CDATA[Investigación bibliotecológica]]></journal-title>
<abbrev-journal-title><![CDATA[Investig. bibl]]></abbrev-journal-title>
<issn>0187-358X</issn>
<publisher>
<publisher-name><![CDATA[Universidad Nacional Autónoma de México, Instituto de Investigaciones Bibliotecológicas y de la Información]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S0187-358X2007000100002</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[Algoritmos para solventar la falta de normalización de nombres de autor en los estudios bibliométricos]]></article-title>
<article-title xml:lang="en"><![CDATA[Algorithms to solve the lack of normalization in author names in bibliometric studies]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Costas]]></surname>
<given-names><![CDATA[Rodrigo]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Bordons]]></surname>
<given-names><![CDATA[María]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Centro de Información y Documentación Científica  ]]></institution>
<addr-line><![CDATA[Madrid España]]></addr-line>
</aff>
<pub-date pub-type="pub">
<day>00</day>
<month>06</month>
<year>2007</year>
</pub-date>
<pub-date pub-type="epub">
<day>00</day>
<month>06</month>
<year>2007</year>
</pub-date>
<volume>21</volume>
<numero>42</numero>
<fpage>13</fpage>
<lpage>32</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://www.scielo.org.mx/scielo.php?script=sci_arttext&amp;pid=S0187-358X2007000100002&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://www.scielo.org.mx/scielo.php?script=sci_abstract&amp;pid=S0187-358X2007000100002&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://www.scielo.org.mx/scielo.php?script=sci_pdf&amp;pid=S0187-358X2007000100002&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[Se presentan dos algoritmos para detectar y solventar problemas de normalización de nombres de autores en datos procedentes de la base de datos Science Citation Index de Thomson ISI. El primer algoritmo permite detectar firmas diferentes que, por su parecido, podrían pertenecer a una misma persona. El segundo ayuda a determinar si dos firmas parecidas se corresponden o no con una misma persona en función del grado de similaridad existente entre los documentos de una y otra variante de firma. Para determinar la eficacia de los algoritmos se han utilizado como control los datos de autores normalizados de un estudio anterior. El algoritmo detecta un 67% de las variantes de firma existentes en la población objeto de estudio y tiene un 74% de acierto en la determinación de si esas firmas corresponden a una misma persona.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[Two algorithms to detect and solve normalization problems of author names in data originated in Thomson's ISI Science Citation Index are presented. The first algorithm allows detection of different names which could belong to the same person. The second one, based on the degree of similarity between two variants of the same name on a document, helps to determine whether two similar names correspond or not to the same person. In order to determine the efficacy of the algorithms, a control of normalized author data from a previous study has been used. The First algorithm detects 67% of name variants existing in the population under study, and the second one was successful in 74% of the cases.]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[Normalización de nombres de autores]]></kwd>
<kwd lng="es"><![CDATA[Bases de datos]]></kwd>
<kwd lng="es"><![CDATA[Science Citation Index]]></kwd>
<kwd lng="es"><![CDATA[Thomson ISI]]></kwd>
<kwd lng="es"><![CDATA[Algoritmos]]></kwd>
<kwd lng="es"><![CDATA[Variantes de firma]]></kwd>
<kwd lng="en"><![CDATA[Author name normalization]]></kwd>
<kwd lng="en"><![CDATA[Science Citation Index]]></kwd>
<kwd lng="en"><![CDATA[Thomson ISI]]></kwd>
<kwd lng="en"><![CDATA[Algorithms]]></kwd>
<kwd lng="en"><![CDATA[Name variations]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[ <p align="justify"><font face="verdana" size="4">Art&iacute;culos</font></p>       <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>       <p align="center"><font face="verdana" size="4"><b>Algoritmos para solventar la falta de normalizaci&oacute;n de nombres de autor en los estudios bibliom&eacute;tricos</b></font></p>       <p align="center"><font face="verdana" size="2">&nbsp;</font></p>       <p align="center"><font face="verdana" size="3"><b>Algorithms to solve the lack of normalization in author names in bibliometric studies</b></font></p>       <p align="center"><font face="verdana" size="2">&nbsp;</font></p>       <p align="center"><font face="verdana" size="2"><b>Rodrigo Costas y Mar&iacute;a Bordons *</b></font></p>       <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>       <p align="justify"><font face="verdana" size="2"><i>* Ambos autores pertenecen al Centro de Informaci&oacute;n y Documentaci&oacute;n Cient&iacute;fica (CINDOC), CSIC., Madrid, Espa&ntilde;a.</i> (<a href="mailto:rodrigo.costas@cindoc.csic.es">rodrigo.costas@cindoc.csic.es</a>); (<a href="mailto:mbordons@cindoc.csic.es">mbordons@cindoc.csic.es</a>).</font></p>       <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>       ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">Art&iacute;culo recibido:4 de noviembre de 2005    <br> Art&iacute;culo aceptado: 25 de septiembre de 2006</font></p>       <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>       <p align="justify"><font face="verdana" size="2"><b>Resumen</b></font></p>       <p align="justify"><font face="verdana" size="2">Se presentan dos algoritmos para detectar y solventar problemas de normalizaci&oacute;n de nombres de autores en datos procedentes de la base de datos <i>Science Citation Index</i> de Thomson ISI. El primer algoritmo permite detectar firmas diferentes que, por su parecido, podr&iacute;an pertenecer a una misma persona. El segundo ayuda a determinar si dos firmas parecidas se corresponden o no con una misma persona en funci&oacute;n del grado de similaridad existente entre los documentos de una y otra variante de firma. Para determinar la eficacia de los algoritmos se han utilizado como control los datos de autores normalizados de un estudio anterior. El algoritmo detecta un 67% de las variantes de firma existentes en la poblaci&oacute;n objeto de estudio y tiene un 74% de acierto en la determinaci&oacute;n de si esas firmas corresponden a una misma persona.</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>Palabras clave:</b> Normalizaci&oacute;n de nombres de autores; Bases de datos; <i>Science Citation Index</i>; Thomson ISI; Algoritmos; Variantes de firma.</font></p> 	    <p align="justify"><font face="verdana" size="2">&nbsp;</font></p> 	    <p align="justify"><font face="verdana" size="2"><b>Abstract</b></font></p> 	    <p align="justify"><font face="verdana" size="2">Two algorithms to detect and solve normalization problems of author names in data originated in Thomson's ISI <i>Science Citation Index</i> are presented. The first algorithm allows detection of different names which could belong to the same person. The second one, based on the degree of similarity between two variants of the same name on a document, helps to determine whether two similar names correspond or not to the same person. In order to determine the efficacy of the algorithms, a control of normalized author data from a previous study has been used. The First algorithm detects 67% of name variants existing in the population under study, and the second one was successful in 74% of the cases.</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>Keywords:</b> Author name normalization; <i>Science Citation Index</i>; Thomson ISI; Algorithms; Name variations.</font></p>  	    ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>1. INTRODUCCI&Oacute;N</b></font></p>  	    <p align="justify"><font face="verdana" size="2">Tradicionalmente las bases de datos bibliogr&aacute;ficas se han utilizado para almacenar y recuperar informaci&oacute;n y de este modo contribuir al proceso de transmisi&oacute;n del conocimiento cient&iacute;fico. No obstante, estas bases tambi&eacute;n representan una gran fuente de datos para los estudios bibliom&eacute;tricos, ya que en ellas se encuentra representada la producci&oacute;n cient&iacute;fica de pa&iacute;ses, regiones y &aacute;reas cient&iacute;ficas. Estas fuentes permiten generalmente descargar los datos que se han consultado para que puedan ser tratados y analizados posteriormente con otras herramientas inform&aacute;ticas.</font></p>  	    <p align="justify"><font face="verdana" size="2">La importancia que las bases de datos tienen para los estudios bibliom&eacute;tricos se pone de manifiesto en la definici&oacute;n de bibliometr&iacute;a propuesta por Katz y Hicks (1997), quienes la consideran: el arte de explorar las bases de datos en la b&uacute;squeda de indicadores que reflejen la actividad investigadora, as&iacute; como las interacciones entre individuos, grupos, instituciones, sectores, etc&eacute;tera.</font></p>  	    <p align="justify"><font face="verdana" size="2">Entre los datos procedentes de las bases de datos bibliogr&aacute;ficas existen tres que tienen una relevancia capital para los estudios bibliom&eacute;tricos: los autores, que permiten estudiar la productividad de los investigadores; la afiliaci&oacute;n institucional, importante para aprender sobre la actividad cient&iacute;fica de las instituciones; y los datos de car&aacute;cter tem&aacute;tico, que permiten analizar la actividad cient&iacute;fica por disciplinas. Sin embargo, estos campos no siempre presentan una correcta normalizaci&oacute;n, lo que dificulta la realizaci&oacute;n de c&aacute;lculos autom&aacute;ticos (Spinak, 1995) y constituye un importante inconveniente para su explotaci&oacute;n bibliom&eacute;trica (Lardy y Herzhaft, 1992; Fr&iacute;as y Romero G&oacute;mez, 1998).</font></p>  	    <p align="justify"><font face="verdana" size="2">El campo autor es uno de los campos m&aacute;s sensibles a la falta de normalizaci&oacute;n ya que las variaciones sobre la forma en que figura un autor en sus diferentes publicaciones pueden estorbar el c&aacute;lculo de su producci&oacute;n real, al dificultar el desarrollo de estudios bibliom&eacute;tricos a nivel micro.</font></p>  	    <p align="justify"><font face="verdana" size="2">Junto a las recomendaciones a los autores sobre la importancia de firmar las publicaciones de una forma normalizada y estable a lo largo del tiempo, surgen tambi&eacute;n hoy indicaciones dirigidas a las revistas y a las bases de datos (ver por ej. Ru&iacute;z&#45;P&eacute;rez <i>et al</i> 2002; Fern&aacute;ndez y Garc&iacute;a, 2003), principalmente a las internacionales, las cuales tienen que enfrentar el problema de las diferencias que existen entre los diferentes pa&iacute;ses al estructurar los nombres personales. As&iacute;, la estructura de nombre personal predominante en las bases de datos internacionales es la formada por una o dos iniciales de nombres, seguida de un solo apellido (por ej. J.H.Smith), pero con frecuencia son mal recogidos los nombres hispanos si los autores incluyen dos apellidos (por ejemplo, J. Garc&iacute;a S&aacute;nchez, puede ser recogido como J.G.S&aacute;nchez). Es indudable el inter&eacute;s de propuestas a priori, orientadas a dar recomendaciones a autores, revistas y bases de datos con la intenci&oacute;n de lograr una mayor normalizaci&oacute;n de los nombres de autores en las publicaciones y bases de datos. Sin embargo, tambi&eacute;n se han planteado soluciones a posteriori, una vez introducidos los datos en la base de datos (Costas&#45;Comesa&ntilde;a y Garc&iacute;a&#45;Zorita, 2003; Torvik <i>et al</i>, 2005). En este &aacute;mbito destacan los algoritmos inform&aacute;ticos para comparar nombres personales Personal Name Matching o Name Matching (Camps Par&eacute;, 2003; Patman y Thompson, 2003; Thompson y Dozier, 2003; Patman y Thompson, 2005), los cuales permiten comparar dos cadenas de nombres y determinar la probabilidad de que ambas designen a la misma persona. Normalmente estos algoritmos utilizan informaci&oacute;n adicional aparte del nombre, al emplear otros elementos tales como variantes de deletreos, informaci&oacute;n fon&eacute;tica, la distribuci&oacute;n de las teclas del ordenador, etc&eacute;tera. Sin embargo, debido a la complejidad propia de esta tarea, muchas veces es necesaria la intervenci&oacute;n humana para determinar si las cadenas de nombres similares detectadas corresponden o no a la misma persona. El software <i>Synoname</i> (Gross, 1991; Borgman y Siegfried, 1992) desarrollado por el Consorcio Getty, detecta nombres parecidos, candidatos a pertenecer al mismo investigador, pero que no se aceptan como correctos hasta que hay una autorizaci&oacute;n humana.</font></p>  	    <p align="justify"><font face="verdana" size="2">Actualmente no existen aplicaciones inform&aacute;ticas que empleen estos algoritmos y que sean flexibles para ser utilizados como una herramienta m&aacute;s en la investigaci&oacute;n bibliom&eacute;trica. En este trabajo se pretende profundizar en esta problem&aacute;tica y proponer soluciones que permitan facilitar la normalizaci&oacute;n de los datos procedentes de algunas de las bases de datos que tienen mayor inter&eacute;s bibliom&eacute;trico, como son las de Thomson ISI (SCI, SSCI y A&amp;HCI).</font></p> 	    <p align="justify"><font face="verdana" size="2">&nbsp;</font></p> 	    <p align="justify"><font face="verdana" size="2"><b>2. OBJETIVOS</b></font></p> 	    ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">1. Desarrollar y presentar algoritmos metodol&oacute;gicos para detectar variantes de firma de los investigadores en los registros bibliogr&aacute;ficos procedentes de las bases de datos de Thomson ISI.</font></p> 	    <p align="justify"><font face="verdana" size="2">2. Cuantificar el grado de similaridad entre los documentos asignados a cada variante de firma, con el fin de determinar si dichas firmas pertenecen efectivamente a una sola persona o a m&aacute;s de una.</font></p>  	    <p align="justify"><font face="verdana" size="2">3. Analizar la efectividad del funcionamiento tanto de la metodolog&iacute;a de detecci&oacute;n de variantes de firmas como de la cuantificaci&oacute;n de la similaridad entre ellas.</font></p> 	    <p align="justify"><font face="verdana" size="2">&nbsp;</font></p> 	    <p align="justify"><font face="verdana" size="2"><b>3. METODOLOG&Iacute;A</b></font></p> 	    <p align="justify"><font face="verdana" size="2"><b><i>3.1. Algoritmo de detecci&oacute;n de variantes de firma similares, </i></b><i><b>procedentes de las Bases de Datos de Thomson ISI</b></i></font></p>  	    <p align="justify"><font face="verdana" size="2">El algoritmo propuesto busca detectar firmas de autores "parecidas", partiendo de la estructura general de los nombres hisp&aacute;nicos que constan de dos apellidos y uno o dos nombres propios:</font></p>  	    <p align="justify"><font face="verdana" size="2">APE1 APE2, NOM1 &#91;NOM2&#93;&Dagger;GARC&Iacute;A RUIZ, JOSE MANUEL</font></p>  	    <p align="justify"><font face="verdana" size="2">Teniendo en cuenta las pr&aacute;cticas de indizaci&oacute;n de nombres seguidas por Thomson ISI (Ru&iacute;z&#45;P&eacute;rez <i>et al</i>, 2002), la parte final del nombre presente en el documento es tomada como apellido y las restantes cadenas son tomadas como nombres, recogi&eacute;ndose como iniciales, estableci&eacute;ndose as&iacute; que del ejemplo anterior se derivan 9 variantes potenciales de firma "l&oacute;gicas", que son las siguientes:</font></p>  	    <blockquote> 	      ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">1. GARC&Iacute;A J</font></p> 	      <p align="justify"><font face="verdana" size="2">2. GARC&Iacute;ARUIZ J</font></p> 	      <p align="justify"><font face="verdana" size="2">3. GARC&Iacute;A JM</font></p> 	      <p align="justify"><font face="verdana" size="2">4. GARC&Iacute;ARUIZ JM</font></p> 	      <p align="justify"><font face="verdana" size="2">5. RUIZ JG</font></p> 	      <p align="justify"><font face="verdana" size="2">6. RUIZ JMG</font></p> 	      <p align="justify"><font face="verdana" size="2">7. GARC&Iacute;A M</font></p> 	      <p align="justify"><font face="verdana" size="2">8. GARC&Iacute;ARUIZ M</font></p> 	      <p align="justify"><font face="verdana" size="2">9. RUIZ MG</font></p> </blockquote> 	    <p align="justify"><font face="verdana" size="2">El algoritmo que se presenta compara por parejas las variantes del ejemplo anterior y establece que tienen alguna posibilidad de corresponder a la misma persona. Hay que tener en cuenta que existen algunas combinaciones de variantes de firma que por s&iacute; mismas no se pueden asociar (p. ej. "GARC&Iacute;A J // RUIZ JG" o "GARC&Iacute;A JM // RUIZ JMG") dado que no tienen suficientes v&iacute;nculos textuales en com&uacute;n.</font></p>  	    ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">El algoritmo funciona comparando una firma (A1) con otra firma (A2). Incluye 13 sentencias que se ejecutan sucesivamente una detr&aacute;s de otra; si el algoritmo pasa por las 13 sin encontrar ninguna coincidencia se considerar&aacute; que las firmas comparadas no son "parecidas", mientras que si en alg&uacute;n caso se cumplen las condiciones se&ntilde;aladas, las dos firmas se considerar&aacute;n "sospechosas" de pertenecer a una misma persona.</font></p>  	    <p align="justify"><font face="verdana" size="2">Sentencia 1:</font></p>  	    <p align="justify"><font face="verdana" size="2">Resuelve las siguientes combinaciones:</font></p>  	    <blockquote> 	      <p align="justify"><font face="verdana" size="2">A1: GARC&Iacute;A J    <br>       A2: GARC&Iacute;ARUIZ J</font></p> 	      <p align="justify"><font face="verdana" size="2">A1. GARC&Iacute;A JM    <br>       A2. GARC&Iacute;ARUIZ JM</font></p> 	      <p align="justify"><font face="verdana" size="2">A1. GARC&Iacute;A M    <br>       A2. GARC&Iacute;ARUIZ M</font></p> </blockquote> 	    ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">Se identifican casos en que las iniciales de A1 y A2 son iguales y coinciden las cuatro primeras letras de los dos apellidos (la selecci&oacute;n de los cuatro caracteres iniciales de los apellidos es decidida por el usuario, y puede ser aumentada o reducida).</font></p>  	    <p align="justify"><font face="verdana" size="2">Sentencia 2:</font></p>  	    <blockquote> 	      <p align="justify"><font face="verdana" size="2">A1. GARC&Iacute;A J    <br>       A2. GARC&Iacute;A JM</font></p> 	      <p align="justify"><font face="verdana" size="2">A1. GARC&Iacute;ARUIZ J    <br>       A2. GARC&Iacute;ARUIZ JM</font></p> </blockquote> 	    <p align="justify"><font face="verdana" size="2">Identifica aquellos casos en que los apellidos coinciden, A1 tiene una inicial, A2 tiene dos iniciales, y los dos coinciden en la primera inicial.</font></p>  	    <p align="justify"><font face="verdana" size="2">Sentencia 3:</font></p>  	    <blockquote> 	      ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">A1. GARC&Iacute;A J    <br>       A2. GARC&Iacute;ARUIZ JM</font></p> 	      <p align="justify"><font face="verdana" size="2">A1. GARC&Iacute;A JM    <br>       A2. GARC&Iacute;ARUIZ J</font></p> </blockquote> 	    <p align="justify"><font face="verdana" size="2">Identifica aquellos casos donde el n&uacute;mero de iniciales de las firmas es de uno y dos respectivamente, y que coinciden en la primera inicial del nombre y en los cuatro primeros caracteres del apellido.</font></p>  	    <p align="justify"><font face="verdana" size="2">Sentencia 4:</font></p>  	    <blockquote> 	      <p align="justify"><font face="verdana" size="2">A1. RUIZ JG    <br>       A2. GARC&Iacute;ARUIZ J</font></p> 	      <p align="justify"><font face="verdana" size="2">A1. RUIZ JMG    ]]></body>
<body><![CDATA[<br>       A2. GARC&Iacute;ARUIZ J</font></p> 	      <p align="justify"><font face="verdana" size="2">A1. RUIZ MG    <br>       A2. GARC&Iacute;ARUIZ M</font></p> </blockquote> 	    <p align="justify"><font face="verdana" size="2">Identifica aquellos casos en los que el apellido de A1 est&aacute; contenido en A2, A1 tiene dos o tres iniciales, A2 tiene una inicial, A1 y A2 coinciden en la primera inicial del nombre, y la inicial final del A1 es igual que la primera letra del apellido de A2.</font></p>  	    <p align="justify"><font face="verdana" size="2">Sentencia 5:</font></p>  	    <blockquote> 	      <p align="justify"><font face="verdana" size="2">A1. GARC&Iacute;A M    <br>       A2. GARC&Iacute;A JM</font></p> 	      <p align="justify"><font face="verdana" size="2">A1. GARC&Iacute;ARUIZ M    <br>       A2. GARC&Iacute;ARUIZ JM</font></p> </blockquote> 	    ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">Identifica como "pareja parecida" aquellos casos en los que los apellidos coinciden, A1 tiene una inicial, A2 tiene dos iniciales y la primera inicial de A1 coincide con la inicial final de A2.</font></p>  	    <p align="justify"><font face="verdana" size="2">Sentencia 6:</font></p>  	    <blockquote> 	      <p align="justify"><font face="verdana" size="2">A1. GARC&Iacute;A JM    <br>       A2. GARC&Iacute;ARUIZ M</font></p> </blockquote> 	    <p align="justify"><font face="verdana" size="2">Esta sentencia identifica casos en los que coinciden los cuatro primeros caracteres de los apellidos, el n&uacute;mero de iniciales de A1 son dos y el de A2 es uno, y la inicial final de A1 es igual a la inicial de A2.</font></p>  	    <p align="justify"><font face="verdana" size="2">Sentencia 7:</font></p>  	    <blockquote> 	      <p align="justify"><font face="verdana" size="2">A1. RUIZ JG    <br>       A2. GARC&Iacute;ARUIZ JM</font></p> </blockquote> 	    ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">Identifican aquellos casos donde el apellido de A1 est&aacute; contenido en A2, las dos firmas tienen dos iniciales, coinciden en la primera inicial, y la inicial final de A1 es igual a la primera letra del apellido de A2.</font></p>  	    <p align="justify"><font face="verdana" size="2">Sentencia 8:</font></p>  	    <blockquote> 	      <p align="justify"><font face="verdana" size="2">A1. RUIZ JMG    <br>       A2. GARC&Iacute;ARUIZ JM</font></p> </blockquote> 	    <p align="justify"><font face="verdana" size="2">Identifica los casos en que el apellido de A1 est&aacute; contenido en A2, A1 tiene tres iniciales y A2 dos iniciales, coinciden en la primera inicial, y la inicial final de A1 es igual a la primera letra del apellido de A2.</font></p>  	    <p align="justify"><font face="verdana" size="2">Sentencia 9:</font></p>  	    <blockquote> 	      <p align="justify"><font face="verdana" size="2">A1. GARC&Iacute;A M    <br>       A2. GARC&Iacute;ARUIZ JM</font></p> </blockquote> 	    ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">Detecta los casos donde los cuatro primeros caracteres de los apellidos coinciden, A1 tiene una inicial y A2 tiene dos iniciales, y la primera inicial de A1 es igual que la inicial final de A2.</font></p>  	    <p align="justify"><font face="verdana" size="2">Sentencia 10:</font></p>  	    <blockquote> 	      <p align="justify"><font face="verdana" size="2">A1. RUIZ MG    <br>       A2. GARC&Iacute;ARUIZ JM</font></p> </blockquote> 	    <p align="justify"><font face="verdana" size="2">Identifica aquellas combinaciones en las que el apellido de A1 est&aacute; contenido en A2, las dos firmas tienen dos iniciales, la inicial final de A1 es igual a la primera letra del apellido del A2, y la primera inicial de A1 es igual a la inicial final de A2.</font></p>  	    <p align="justify"><font face="verdana" size="2">Sentencia 11:</font></p>  	    <blockquote> 	      <p align="justify"><font face="verdana" size="2">A1. RUIZ JG    <br>       A2. RUIZ JMG</font></p> </blockquote> 	    ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">Identifica los casos en los que coinciden los apellidos, el n&uacute;mero de iniciales de A1 es dos y el de A2 es tres, coinciden en la primera inicial, y la inicial final de A1 es igual a la inicial final de A2.</font></p>  	    <p align="justify"><font face="verdana" size="2">Sentencia 12:</font></p>  	    <blockquote> 	      <p align="justify"><font face="verdana" size="2">A1. RUIZ JG    <br>       A2. RUIZ MG</font></p> </blockquote> 	    <p align="justify"><font face="verdana" size="2">Identifica los casos en los que coinciden los apellidos de las firmas y el n&uacute;mero de iniciales es dos en ambos casos, y en los que coinciden las iniciales finales.</font></p>  	    <p align="justify"><font face="verdana" size="2">Sentencia 13:</font></p>  	    <blockquote> 	      <p align="justify"><font face="verdana" size="2">A1. RUIZ MG    <br>       A2. RUIZ JMG</font></p> </blockquote> 	    ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">Detecta los casos en los que coinciden los apellidos de las firmas y el n&uacute;mero de iniciales de A1 es dos y el de A2 es tres, coinciden las iniciales finales, y la primera inicial de A1 es igual a la segunda inicial de A2.</font></p>  	    <p align="justify"><font face="verdana" size="2">Si una vez ejecutadas las 13 sentencias no se han detectado "parejas parecidas", se considerar&aacute; que las firmas que se est&aacute;n comparando no son textualmente susceptibles de pertenecer a una misma persona.</font></p>  	    <p align="justify"><font face="verdana" size="2">El algoritmo contempla la mayor parte de los casos de variantes de firma que un autor puede presentar. Alguno de los casos m&aacute;s interesantes que detecta son aquellos en los que el segundo apellido del autor es el que indiza, mientras que el primero se incluye como inicial (GARC&Iacute;ARUIZ J &#150; RUIZ JG o GARC&Iacute;ARUIZ JM &#150; RUIZ JMG), dado que estas combinaciones son dif&iacute;ciles de detectar incluso en revisiones manuales.</font></p>  	    <p align="justify"><font face="verdana" size="2">Debe tenerse en cuenta que pueden darse casos en los que dos autores tengan firmas similares, y por tanto sean detectados como susceptibles de ser una misma persona, pero que en realidad no lo sean. Es aqu&iacute; donde se hace patente la necesidad de contar con alg&uacute;n mecanismo de an&aacute;lisis de los documentos firmados bajo cada variante para determinar si &eacute;stas pertenecen o no a la misma persona.</font></p>  	    <p align="justify"><font face="verdana" size="2"><b><i>3.2. Algoritmo para cuantificar la similaridad entre variantes de firmas</i></b></font></p>  	    <p align="justify"><font face="verdana" size="2">No basta con detectar firmas susceptibles de corresponder a una misma persona, tambi&eacute;n es necesario cuantificar este parecido y, en funci&oacute;n de su mayor o menor similaridad, aceptar o rechazar si una pareja de firmas pertenece a una misma persona. Para determinar el grado de similitud entre firmas, se ha partido, al igual que Torvik <i>et al</i> (2005), de la hip&oacute;tesis de que los documentos firmados por un determinado autor, con frecuencia presentan caracter&iacute;sticas comunes (coautores, revistas, palabras clave, lugares de trabajo, referencias, etc&eacute;tera).</font></p>  	    <p align="justify"><font face="verdana" size="2">De este modo, dado un par de firmas que pueden corresponder a una misma persona, se analizan los coautores, los lugares de trabajo y las revistas de publicaci&oacute;n de sus documentos, y se calcula el grado de coincidencia que hay entre los documentos de las dos firmas.</font></p>  	    <p align="justify"><font face="verdana" size="2">Para el c&aacute;lculo de la similaridad o parecido entre los documentos de cada variante de firma se ha realizado una adaptaci&oacute;n de la medida del coseno, utilizada en recuperaci&oacute;n de la informaci&oacute;n (Harman, 1992; Lee <i>et al</i>, 1997). La adaptaci&oacute;n consiste en considerar a cada autor como un vector de elementos (de coautores, de revistas o de centros de trabajo), donde cada elemento est&aacute; o es ponderado por el n&uacute;mero de documentos en los que aparece.</font></p>  	    <p align="justify"><font face="verdana" size="2">As&iacute; tenemos que la adaptaci&oacute;n de la medida del coseno quedar&iacute;a del siguiente modo:</font></p> 	    <p align="center"><font face="verdana" size="2"><img src="/img/revistas/ib/v21n42/a2e1.jpg"></font></p> 	    ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">D&oacute;nde:</font></p>  	    <blockquote> 	      <p align="justify"><font face="verdana" size="2">FA1= es el n&uacute;mero de veces que el elemento "i" aparece en los documentos de A1.</font></p> 	      <p align="justify"><font face="verdana" size="2">FA2= es el n&uacute;mero de veces que el elemento "i" aparece en los documentos de A2.</font></p> </blockquote> 	    <p align="justify"><font face="verdana" size="2">Por ejemplo, si se comparan los coautores de los documentos de las firmas "Casas V" y "Casas VJ" (firmas parecidas que podr&iacute;an pertenecer a una misma persona), se obtienen los vectores de la <a href="#t1">Tabla 1</a>:</font></p> 	    <p align="center"><font face="verdana" size="2"><a name="t1"></a></font></p> 	    <p align="center"><font face="verdana" size="2"><img src="/img/revistas/ib/v21n42/a2t1.jpg"></font></p> 	    <p align="justify"><font face="verdana" size="2">De este modo se calcular&iacute;a la similaridad por coautores de la siguiente manera:</font></p> 	    <p align="center"><font face="verdana" size="2"><img src="/img/revistas/ib/v21n42/a2e2.jpg"></font></p> 	    <p align="justify"><font face="verdana" size="2">En el algoritmo final propuesto, se obtienen 3 valores de similaridad para cada pareja de firmas comparadas: uno por los coautores, otro por los centros de trabajo y otro por las revistas de publicaci&oacute;n, y se obtiene un valor de similaridad final (VS) consistente en la media de estos tres valores que oscilar&aacute; entre 0 y 1:</font></p> 	    ]]></body>
<body><![CDATA[<p align="center"><font face="verdana" size="2"><img src="/img/revistas/ib/v21n42/a2e3.jpg"></font></p> 	    <p align="justify"><font face="verdana" size="2">El proceso presenta la posibilidad de trabajar iterativamente. Esto supone que cuando una pareja de firmas presenta un VS muy alto, la informaci&oacute;n de la nueva firma se le asigna autom&aacute;ticamente a su autor, y es utilizada a su vez para compararse con el resto de firmas pendientes de revisi&oacute;n, lo cual le da mayor fiabilidad a la comparaci&oacute;n. Sin embargo, esta caracter&iacute;stica debe utilizarse con precauci&oacute;n dado que una mala asignaci&oacute;n autom&aacute;tica podr&iacute;a provocar que firmas de personas diferentes se asimilaran como propias de una sola persona.</font></p> 	    <p align="justify"><font face="verdana" size="2">&nbsp;</font></p> 	    <p align="justify"><font face="verdana" size="2"><b><i>3.3. Metodolog&iacute;a para la evaluaci&oacute;n de los algoritmos propuestos</i></b></font></p>      <p align="justify"><font face="verdana" size="2">Para comprobar la efectividad de los algoritmos propuestos, &eacute;stos se han aplicado a datos previamente analizados en un estudio anterior (Costas Comesa&ntilde;a, 2003), en el cual se estudi&oacute; la producci&oacute;n cient&iacute;fica ISI (versi&oacute;n CD&#45;ROM) durante el periodo 1994&#45;2001 de 333 investigadores del &Aacute;rea de Recursos Naturales del Consejo Superior de Investigaciones Cient&iacute;ficas (CSIC), principal organismo dedicado a la investigaci&oacute;n en Espa&ntilde;a. Se cuenta, pues, con la relaci&oacute;n de investigadores del &aacute;rea y su lugar de trabajo. La producci&oacute;n final de dichos investigadores ascendi&oacute; a 3.302 documentos.</font></p>  	    <p align="justify"><font face="verdana" size="2">En este trabajo se desea comprobar que los algoritmos propuestos detectan las variantes de firma identificadas en el estudio anterior, y que los datos de la normalizaci&oacute;n de dicho estudio sirven como control de la eficacia de los algoritmos. Debe tenerse en cuenta tambi&eacute;n que la validez de los datos del estudio anterior est&aacute; refrendada por los expertos del &aacute;rea de recursos naturales que lo supervisaron.</font></p>  	    <p align="justify"><font face="verdana" size="2"><i>3.3.1. Descripci&oacute;n de los datos de control</i></font></p>  	    <p align="justify"><font face="verdana" size="2">Para el presente an&aacute;lisis se ha contado con la informaci&oacute;n correspondiente a las variantes de firma de los investigadores, identificadas en el estudio anterior, que se obtuvieron por un procedimiento semi&#45;autom&aacute;tico complementado con b&uacute;squedas manuales y revisi&oacute;n por expertos. La <a href="#f4">Figura 4</a> incluye una muestra de la tabla de autores con sus variantes de firma. As&iacute; por ejemplo, se observa que el autor "&Aacute;LVAREZ COBELAS, MIGUEL" aparece firmando sus documentos como "Cobelas MA" y como "&Aacute;lvarezcobelas M".</font></p> 	    <p align="center"><font face="verdana" size="2"><a name="f1"></a></font></p> 	    <p align="center"><font face="verdana" size="2"><img src="/img/revistas/ib/v21n42/a2f1.jpg"></font></p> 	    ]]></body>
<body><![CDATA[<p align="center"><font face="verdana" size="2"><a name="f2"></a></font></p> 	    <p align="center"><font face="verdana" size="2"><img src="/img/revistas/ib/v21n42/a2f2.jpg"></font></p> 	    <p align="center"><font face="verdana" size="2"><a name="f3"></a></font></p> 	    <p align="center"><font face="verdana" size="2"><img src="/img/revistas/ib/v21n42/a2f3.jpg"></font></p> 	    <p align="center"><font face="verdana" size="2"><a name="f4"></a></font></p> 	    <p align="center"><font face="verdana" size="2"><img src="/img/revistas/ib/v21n42/a2f4.jpg"></font></p> 	    <p align="justify"><font face="verdana" size="2">Hay que se&ntilde;alar que el 82% de los autores firmaban siempre de la misma manera, frente a un 18% de autores que firmaban con dos o m&aacute;s variantes (<a href="#t2">tabla 2</a>).</font></p> 	    <p align="center"><font face="verdana" size="2"><a name="t2"></a></font></p> 	    <p align="center"><font face="verdana" size="2"><img src="/img/revistas/ib/v21n42/a2t2.jpg"></font></p> 	    <p align="justify"><font face="verdana" size="2">A partir de la tabla que se muestra en la <a href="#f4">figura 4</a> se gener&oacute; una "Tabla control", cuya estructura se muestra en la <a href="#f5">figura 5</a>, que inclu&iacute;a todas las combinaciones de parejas de firmas reales de cada investigador; es decir, que s&oacute;lo recoge aquellos autores para los que se identificaron dos o m&aacute;s variantes de firma, y que incluyeron un total de 86 entradas distintas. Esta tabla de control se utilizar&aacute; para analizar la efectividad del algoritmo que detecta variantes de firmas similares.</font></p> 	    ]]></body>
<body><![CDATA[<p align="center"><font face="verdana" size="2"><a name="f5"></a></font></p> 	    <p align="center"><font face="verdana" size="2"><img src="/img/revistas/ib/v21n42/a2f5.jpg"></font></p> 	    <p align="justify"><font face="verdana" size="2">En la <a href="#f2">Figura 2</a> se observan las variantes de firmas con las que los investigadores han firmado sus documentos. En este ejemplo todos los autores tienen dos variantes, salvo "VALERO GARC&Eacute;S, BLAS LORENZO" que tiene tres ("Valerogarc&eacute;s BL", "Valerogarc&eacute;s B" y "Garc&eacute;s BLV"). Para evitar duplicados innecesarios las parejas se crean siempre de modo que la firma con m&aacute;s caracteres est&aacute; en "FIRMA1" y la m&aacute;s corta en "FIRMA2".</font></p> 	    <p align="justify"><font face="verdana" size="2"><i>3.3.2. Fiabilidad del algoritmo de similaridad</i></font></p> 	    <p align="justify"><font face="verdana" size="2">Para comprobar la fiabilidad del algoritmo de similaridad entre variantes de firma se ha seleccionado para cada autor una variante de referencia, que es aqu&eacute;lla ligada al lugar de trabajo correcto del autor.</font></p>  	    <p align="justify"><font face="verdana" size="2">Siguiendo las metodolog&iacute;as propuestas por Fern&aacute;ndez <i>et al</i> (1993), Bordons <i>et al</i> (1995) y Zulueta <i>et al</i> (1999), se gener&oacute; una tabla denominada <i>Autor&#45;Centro</i> (v&eacute;ase ejemplo <a href="#f3">Figura 3</a>), en la cual cada firma de autor le es asignada a un centro de trabajo normalizado. Este proceso se basa en asignarle a todos los firmantes de un documento con un solo lugar de trabajo dicha direcci&oacute;n, y a continuaci&oacute;n, identificar aquellos documentos en los que haya quedado un solo autor y una sola direcci&oacute;n sin asignar, que se a&ntilde;aden a la Tabla Autor&#45;Centro.</font></p>  	    <p align="justify"><font face="verdana" size="2">La <a href="#f1">Figura 1</a> muestra la tabla con la combinaci&oacute;n de firmas originales (AUTH) y los centros normalizados desglosados en 3 elementos diferentes: Provincia, Instituci&oacute;n y Organismo. Cada entrada de la Tabla Autor&#45;Centro est&aacute; ligada con todos los documentos en los que aparece la firma de AUTH y el centro normalizado. Hay que se&ntilde;alar que la mayor parte de las firmas de autores quedan asociadas a uno o varios centros, aunque pueden quedar algunos que no est&aacute;n asignados a ning&uacute;n centro (v&eacute;ase ejemplo <a href="#f4">Figura 4</a>).</font></p> 	    <p align="justify"><font face="verdana" size="2">En la Tabla Autor&#45;Centro existen entradas que hemos denominado "Ciertas", en las que el centro normalizado coincide con el centro de trabajo real del investigador asignado, y que se revisaron cuidadosamente para garantizar que los documentos de esas entradas pertenecen a los investigadores. Asimismo, las entradas en las que esta correspondencia del centro de trabajo no existe fueron marcadas como "Dudosas", y son las que ser&aacute;n comparadas a trav&eacute;s del algoritmo con las entradas "Ciertas" para determinar si pertenecen o no al investigador al que han sido asignadas (v&eacute;ase <a href="#f5">Figura 5</a>).</font></p> 	    <p align="justify"><font face="verdana" size="2">Se puede observar en la <a href="#f5">Figura 5</a> que el autor "AGUILAR&#45;AMAT FERN&Aacute;NDEZ, JUAN", tiene una entrada considerada "Cierta", dado que coincide con su centro de trabajo real (columna CENTRO AUTOR). Sin embargo, a continuaci&oacute;n el mismo autor presenta una entrada "Dudosa", en la que presenta un centro de trabajo diferente. Los documentos de una y otra entrada ser&aacute;n comparados por el algoritmo, y se obtendr&aacute; un valor de similaridad a partir del cual se decidir&aacute; si aceptar o rechazar que la segunda entrada pertenece al mismo investigador.</font></p> 	    <p align="justify"><font face="verdana" size="2">&nbsp;</font></p> 	    ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2"><b>4. Resultados</b></font></p> 	    <p align="justify"><font face="verdana" size="2"><b><i>4.1. Resultados del an&aacute;lisis del algoritmo de detecci&oacute;n </i></b><i><b>de variantes de firma similares</b></i></font></p>  	    <p align="justify"><font face="verdana" size="2">Para este an&aacute;lisis se utiliz&oacute; como comprobaci&oacute;n de las parejas de firmas que se obtienen con el algoritmo, la tabla de control mostrada en la <a href="#f2">Figura 2</a>, dado que si el algoritmo funciona apropiadamente deber&iacute;a ser capaz de detectar la mayor parte de las firmas identificadas en el estudio anterior.</font></p>  	    <p align="justify"><font face="verdana" size="2">Se han obtenido 1.176 firmas de autores sobre las cuales se ha ejecutado el algoritmo de identificaci&oacute;n de variantes y a partir de las cuales se han obtenido 220 parejas de firmas (v&eacute;ase ejemplo <a href="#f6">Figura 6</a>).</font></p> 	    <p align="center"><font face="verdana" size="2"><a name="f6"></a></font></p> 	    <p align="center"><font face="verdana" size="2"><img src="/img/revistas/ib/v21n42/a2f6.jpg"></font></p> 	    <p align="justify"><font face="verdana" size="2">Se analiz&oacute; si las 86 firmas de control se encuentran entre las 220 combinaciones obtenidas a trav&eacute;s del algoritmo, y result&oacute; que 58 cadenas de la Tabla de control coinciden con alguna de las combinaciones obtenidas a trav&eacute;s del algoritmo, de modo que el 67% de las parejas de firmas de control son detectadas por el algoritmo. El 33% restante se corresponde bien con errores tipogr&aacute;ficos, o bien con combinaciones de firmas que no son detectables por el algoritmo (v&eacute;ase ejemplo <a href="#f7">Figura 7</a>).</font></p> 	    <p align="center"><font face="verdana" size="2"><a name="f7"></a></font></p> 	    <p align="center"><font face="verdana" size="2"><img src="/img/revistas/ib/v21n42/a2f7.jpg"></font></p> 	    <p align="justify"><font face="verdana" size="2"><b><i>4.2. Resultados del an&aacute;lisis del algoritmo de cuantificaci&oacute;n </i></b><i><b>de la similaridad entre variantes de firma</b></i></font></p> 	    ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">Se obtuvo la tabla Autor&#45;centro, en la que un total de 141 autores presentan una entrada "Cierta" y, como m&iacute;nimo, una entrada "Dudosa" que hay que verificar. En total hay 748 entradas en la Tabla Autor&#45;Centro, de las cuales 153 son "Ciertas" (un autor puede tener m&aacute;s de una entrada "cierta") y 595 "Dudosas".</font></p>  	    <p align="justify"><font face="verdana" size="2">Las variantes de firma que aparecen ligadas al centro de trabajo real de un autor son las m&aacute;s f&aacute;ciles de detectar y validar. El mayor problema se refiere a identificar aquellas variantes asignadas a distintos centros, que en ocasiones corresponden a investigadores diferentes, pero que tambi&eacute;n pueden corresponder a un mismo investigador que ha cambiado su lugar de trabajo.</font></p>  	    <p align="justify"><font face="verdana" size="2">Se ejecut&oacute; el algoritmo, y se compararon sus entradas "ciertas" con las "dudosas" para cada autor, y se obtuvieron los VS de dichas comparaciones, para posteriormente decidir qu&eacute; entradas "Dudosas" pertenecen efectivamente a los investigadores del estudio.</font></p>  	    <p align="justify"><font face="verdana" size="2">En la <a href="#t3">Tabla 3</a> se puede observar que 461 entradas autor&#45;centro (62% del total) obtuvieron un VS=0, lo que sugiere que estas entradas no pertenecen al investigador asignado. Gracias a los resultados del estudio anterior se observa que el 97% de las entradas con un VS=0 efectivamente no pertenec&iacute;an al investigador analizado.</font></p> 	    <p align="center"><font face="verdana" size="2"><a name="t3"></a></font></p> 	    <p align="center"><font face="verdana" size="2"><img src="/img/revistas/ib/v21n42/a2t3.jpg"></font></p> 	    <p align="justify"><font face="verdana" size="2">Por otra parte existen 134 entradas con un VS&gt;0 (<a href="#t3">Tabla 3</a>). De ellas, 99 (74%) pertenec&iacute;an efectivamente a los investigadores en estudio, mientras que 35 (26%) no pertenec&iacute;an a &eacute;stos. Sin embargo se observa que todas las entradas con un VS&gt;=20 corresponden efectivamente a variantes de un mismo investigador.</font></p> 	    <p align="justify"><font face="verdana" size="2">&nbsp;</font></p> 	    <p align="justify"><font face="verdana" size="2"><b>5. Conclusiones</b></font></p> 	    <p align="justify"><font face="verdana" size="2">La normalizaci&oacute;n de los datos de las bases de datos bibliogr&aacute;ficas es esencial para mejorar su calidad y optimizar su uso en la recuperaci&oacute;n de informaci&oacute;n, y especialmente en la realizaci&oacute;n de estudios bibliom&eacute;tricos. Sin embargo, la mayor parte de las bases de datos presentan todav&iacute;a diversos problemas de normalizaci&oacute;n, y uno de los m&aacute;s importantes es el relativo al campo autor, que obliga a desarrollar metodolog&iacute;as de trabajo espec&iacute;ficas para superar estas limitaciones.</font></p>  	    ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">Este trabajo se ha propuesto una metodolog&iacute;a que permita identificar variantes de nombre y normalizar dichas variantes con apoyo en la informaci&oacute;n del campo lugar de trabajo. Tal metodolog&iacute;a presenta dos ventajas:</font></p>  	    <blockquote> 	      <p align="justify"><font face="verdana" size="2">&bull; permite detectar autom&aacute;ticamente posibles variantes de firma de una misma persona, que ser&iacute;an dif&iacute;ciles de identificar en una revisi&oacute;n manual;</font></p> 	      <p align="justify"><font face="verdana" size="2">&bull; permite cuantificar la similaridad de la producci&oacute;n de dos variantes de firma, a partir de lo cual ser&iacute;a posible realizar la normalizaci&oacute;n autom&aacute;tica de las entradas con un alto valor de similaridad.</font></p> </blockquote> 	    <p align="justify"><font face="verdana" size="2">Como se ha observado, el algoritmo de identificaci&oacute;n de variantes de firma presenta una eficacia notable. Detecta con acierto el 67% de las variantes de firma similares. La mayor parte de las firmas no detectadas corresponde a errores tipogr&aacute;ficos o a variantes que no tienen elementos textuales suficientes para ser identificadas autom&aacute;ticamente. En cuanto al an&aacute;lisis de similaridad, se establece que un VS&gt;=20 es un umbral adecuado para afirmar que dos firmas pertenecen efectivamente a una misma persona, mientras que un VS=0 se corresponde en el 98% de los casos con firmas de autores diferentes.</font></p>  	    <p align="justify"><font face="verdana" size="2">En cuanto a las limitaciones de los algoritmos se pueden se&ntilde;alar las siguientes:</font></p>  	    <blockquote> 	      <p align="justify"><font face="verdana" size="2">&bull; no se puede automatizar la normalizaci&oacute;n de nombres de autores cuyo lugar de trabajo no es conocido, ya que bajo un mismo nombre se podr&iacute;a mezclar la producci&oacute;n de m&aacute;s de un autor;</font></p> 	      <p align="justify"><font face="verdana" size="2">&bull; si se acepta como "Cierta" autom&aacute;ticamente una entrada de autor&#45;centro incorrecta, todo el proceso puede verse contaminado por esa entrada, por ello es necesario elegir un umbral alto de similaridad para la automatizaci&oacute;n iterativa (VS&gt;=30).</font></p> 	      <p align="justify"><font face="verdana" size="2">&bull; la no efectividad del algoritmo en el 100% de los casos hace necesaria una revisi&oacute;n manual en un peque&ntilde;o n&uacute;mero de casos con bajo VS, para lo cual se sugiere consultar el <i>curr&iacute;culum vitae</i> de los investigadores, obtener informaci&oacute;n en Internet o consultar a los propios autores.</font></p> </blockquote> 	    ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">Finalmente hay que se&ntilde;alar que el algoritmo de similaridad ser&iacute;a susceptible de algunas mejoras potenciales por medio de la inclusi&oacute;n de nuevos elementos que ayuden a medir el parecido entre documentos (palabras clave, palabras del resumen, materias ISI, referencias, etc&eacute;tera). Asimismo, tambi&eacute;n ser&iacute;a factible realizar una ponderaci&oacute;n de los diferentes elementos incluidos en el c&aacute;lculo del valor de similaridad, ya que teniendo en cuenta lo afirmado por Torvik <i>et al</i> (2005), y considerando los tres elementos incluidos en el presente an&aacute;lisis (coautores, centros y revistas), se puede afirmar que el n&uacute;mero de coautores en com&uacute;n tiene conceptualmente m&aacute;s importancia que los otros dos elementos, lo que hace posible darle un mayor peso a la coincidencia de coautores que a la coincidencia de revistas o centros de trabajo.</font></p>  	    <p align="justify"><font face="verdana" size="2">En definitiva, los algoritmos propuestos pueden ser de gran utilidad para normalizar los nombres de los autores incluidos en las bases de datos bibliogr&aacute;ficas, y ser&iacute;an de gran inter&eacute;s para realizar estudios bibliom&eacute;tricos. La metodolog&iacute;a tambi&eacute;n podr&iacute;a extenderse a otros campos como es el control de autoridades en bases de datos o la normalizaci&oacute;n de cat&aacute;logos. Los algoritmos aqu&iacute; presentados y otros descritos en la literatura son &uacute;tiles para enfrentarnos al problema de la falta de normalizaci&oacute;n de nombres vigente hoy en las bases de datos bibliogr&aacute;ficas, pero simult&aacute;neamente es importante establecer procedimientos que incrementen la normalizaci&oacute;n de los nombres de autores en los distintos medios que &eacute;stos utilizan para difundir sus avances cient&iacute;ficos.</font></p> 	    <p align="justify"><font face="verdana" size="2">&nbsp;</font></p> 	    <p align="justify"><font face="verdana" size="2"><b>6. BIBLIOGRAF&Iacute;A</b></font></p> 	    <!-- ref --><p align="justify"><font face="verdana" size="2">Bordons, M.; Zulueta, M.A.; Cabrero, A.; Barrig&oacute;n, S. (1995). "Identifying research teams with bibliometric tools", en <i>Proceedings of the fifth Biennial conference of the International Society for Scientometrics and Informetrics</i>. London: Learned Information, p. 83&#45;92, 1995.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4454923&pid=S0187-358X200700010000200001&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">Borgman, C.L.; Siegfried, S.L. (1992). "Getty's Synoname and its cousins: a survey of applications of Personal Name&#45;Matching Algorithms", en <i>Journal of the American Society for Information Science</i>, 43 (7), 459&#45;476, 1992.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4454925&pid=S0187-358X200700010000200002&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">Camps Par&eacute;, R. (2003). <i>B&uacute;squeda aproximada de antrop&oacute;nimos en las bases de datos de los Sistemas de Informaci&oacute;n, en presencia de errores</i>. &#91;Tesis Doctoral&#93;. Barcelona: Universitat Polit&eacute;cnica de Catalunya, 2003.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4454927&pid=S0187-358X200700010000200003&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    ]]></body>
<body><![CDATA[<!-- ref --><p align="justify"><font face="verdana" size="2">Costas Comesa&ntilde;a, R. (2003). <i>Desarrollo metodol&oacute;gico para la realizaci&oacute;n de estudios bibliom&eacute;tricos en el nivel micro: estudio de caso del &Aacute;rea de Recursos Naturales del CSIC.</i> &#91;Tesina de doctorado&#93;. Madrid: Universidad Carlos III, 2003.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4454929&pid=S0187-358X200700010000200004&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">Costas&#45;Comesa&ntilde;a, R. y Garc&iacute;a&#45;Zorita, J.C. (2003). "Indicadores de rendimiento en bases de datos bibliogr&aacute;ficas: la tasa de filtrado del campo autor. Una aplicaci&oacute;n al caso de los nombres de autores espa&ntilde;oles", en II <i>Jornadas de Tratamiento y Recuperaci&oacute;n de la Informaci&oacute;n (JOTRI)</i>, Getafe, Universidad Carlos III de Madrid.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4454931&pid=S0187-358X200700010000200005&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">Fern&aacute;ndez, E.; Garc&iacute;a, A.M. (2003). "Accuracy of referencing of Spanish names in Medline", en <i>The Lancet</i>, 361(9369), 351&#45;352, 2003.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4454933&pid=S0187-358X200700010000200006&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">Fern&aacute;ndez, M.T.; Cabrero, A.; Zulueta, M.A.; G&oacute;mez, I. (1993). "Constructing a relational database for bibliometric analysis", en <i>Research evaluation</i>, 3 (1), 55&#45;62, 1993.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4454935&pid=S0187-358X200700010000200007&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">Fr&iacute;as, J.A.; Romero G&oacute;mez, P. (1998). "&iquest;Qui&eacute;nes son y qu&eacute; citan los investigadores que publican en las revistas espa&ntilde;olas de biblioteconom&iacute;a y documentaci&oacute;n?", en <i>Anales de Documentaci&oacute;n</i>, 1, 29&#45;53, 1998.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4454937&pid=S0187-358X200700010000200008&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    ]]></body>
<body><![CDATA[<!-- ref --><p align="justify"><font face="verdana" size="2">Gross, A.D. (1991). "Getty Synoname: the development of software for Personal Name Pattern Matching", en <i>RIAO 91 conference proceedings</i>. Cond&eacute;&#45;sur&#45;Noireau: Centre des Hautes Estudes Internationales d'Informatique, p. 754&#45;63, 1991.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4454939&pid=S0187-358X200700010000200009&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">Harman, D. (1992). "Ranking algorithms", en Frakes, W.B. y Baeza&#45;Yates, R. Eds. <i>Information retrieval: data structures and algorithms.</i> New Jersey: Prentice Hall, p. 363&#45;392, 1992.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4454941&pid=S0187-358X200700010000200010&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">Katz, J.S.; Hicks, D. (1997). "Desktop scientometrics", en <i>Scientometrics</i>, 38 (1), 141&#45;153, 1997.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4454943&pid=S0187-358X200700010000200011&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">Lardy, J.P.; Herzhaft, L. (1992). "Bibliometric treatments according to bibliographic errors and data heterogeneity: the end&#45;user point of view", en <i>16th international online information meeting.</i> (London), Oxford, New Jersey: Learned Information.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4454945&pid=S0187-358X200700010000200012&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">Lee, D.L.; Chuang, H.; Seamons, K. (1997). "Document ranking and the Vector&#45;Space Model", en <i>IEEE software</i>, 14(2), 67&#45;75, 1997.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4454947&pid=S0187-358X200700010000200013&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    ]]></body>
<body><![CDATA[<!-- ref --><p align="justify"><font face="verdana" size="2">Patman, F.; Thompson, P. (2003). "Names: a new frontier in text mining", en <i>Intelligence and security informatics. Proceedings lecture notes in computer science</i>. (2665), 27&#45;38, 2003.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4454949&pid=S0187-358X200700010000200014&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">&#150;&#150;&#150;&#150;&#150;&#150;&#150;&#150;&#150;&#150;, (2005). "Text mining, names and security", en <i>Journal of Database Management</i>, 16 (1), 54&#45;59, 2005.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4454951&pid=S0187-358X200700010000200015&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">Ru&iacute;z&#45;P&eacute;rez, R.; Delgado L&oacute;pez&#45;C&oacute;zar, D. y Jim&eacute;nez Contreras, E. (2002). "Spanish personal name variations in national and international biomedical databases: implications for information retrieval and bibliometric studies", en <i>Journal of Medical Library Association</i>, 90 (4), 411&#45;30, 2002.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4454953&pid=S0187-358X200700010000200016&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">Spinak, E. (1995). "Errores ortogr&aacute;ficos en el ingreso en bases de datos", en <i>Revista espa&ntilde;ola de documentaci&oacute;n cient&iacute;fica</i>, 18, (3), 307&#45;319, 1995.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4454955&pid=S0187-358X200700010000200017&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">Thompson, P. y Dozier, C.C. (2003). "Name searching and information retrieval", en Arxiv.org, 13 p. Accesible en: <a href="http://arxiv.org/html/cmp-lg/9706017" target="_blank">http://arxiv.org/html/cmp&#150;lg/9706017</a>. &#91;Consulta 24&#45;6&#45;2005&#93;    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4454957&pid=S0187-358X200700010000200018&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    ]]></body>
<body><![CDATA[<!-- ref --><p align="justify"><font face="verdana" size="2">Torvik, V.I.; Weeber, M.; Swanson, D.R.; Smalheiser, N.R. (2005). "A probabilistic similarity metric for Medline records: a model for author name disambiguation", en <i>Journal of the American Society for Information Science and Technology</i>, 56(2), 140&#45;158, 2005.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4454959&pid=S0187-358X200700010000200019&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">Zulueta, M.A.; Cabrero, A.; Bordons, M. (1999). "Identificaci&oacute;n y estudio de grupos de investigaci&oacute;n a trav&eacute;s de indicadores bibliom&eacute;tricos", en <i>Revista Espa&ntilde;ola de Documentaci&oacute;n Cient&iacute;fica</i>. 23(3), 333&#45;348. 1999</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4454961&pid=S0187-358X200700010000200020&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --> ]]></body><back>
<ref-list>
<ref id="B1">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Bordons]]></surname>
<given-names><![CDATA[M.]]></given-names>
</name>
<name>
<surname><![CDATA[Zulueta]]></surname>
<given-names><![CDATA[M.A.]]></given-names>
</name>
<name>
<surname><![CDATA[Cabrero]]></surname>
<given-names><![CDATA[A.]]></given-names>
</name>
<name>
<surname><![CDATA[Barrigón]]></surname>
<given-names><![CDATA[S.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Identifying research teams with bibliometric tools]]></article-title>
<source><![CDATA[Proceedings of the fifth Biennial conference of the International Society for Scientometrics and Informetrics]]></source>
<year>1995</year>
<month>19</month>
<day>95</day>
<page-range>83-92</page-range><publisher-loc><![CDATA[London ]]></publisher-loc>
<publisher-name><![CDATA[Learned Information]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B2">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Borgman]]></surname>
<given-names><![CDATA[C.L.]]></given-names>
</name>
<name>
<surname><![CDATA[Siegfried]]></surname>
<given-names><![CDATA[S.L.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Getty's Synoname and its cousins: a survey of applications of Personal Name-Matching Algorithms]]></article-title>
<source><![CDATA[Journal of the American Society for Information Science]]></source>
<year>1992</year>
<month>19</month>
<day>92</day>
<volume>43</volume>
<numero>7</numero>
<issue>7</issue>
<page-range>459-476</page-range></nlm-citation>
</ref>
<ref id="B3">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Camps Paré]]></surname>
<given-names><![CDATA[R.]]></given-names>
</name>
</person-group>
<source><![CDATA[Búsqueda aproximada de antropónimos en las bases de datos de los Sistemas de Información, en presencia de errores]]></source>
<year>2003</year>
</nlm-citation>
</ref>
<ref id="B4">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Costas Comesaña]]></surname>
<given-names><![CDATA[R.]]></given-names>
</name>
</person-group>
<source><![CDATA[Desarrollo metodológico para la realización de estudios bibliométricos en el nivel micro: estudio de caso del Área de Recursos Naturales del CSIC]]></source>
<year>2003</year>
</nlm-citation>
</ref>
<ref id="B5">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Costas-Comesaña]]></surname>
<given-names><![CDATA[R.]]></given-names>
</name>
<name>
<surname><![CDATA[García-Zorita]]></surname>
<given-names><![CDATA[J.C.]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Indicadores de rendimiento en bases de datos bibliográficas: la tasa de filtrado del campo autor. Una aplicación al caso de los nombres de autores españoles]]></article-title>
<source><![CDATA[II Jornadas de Tratamiento y Recuperación de la Información (JOTRI)]]></source>
<year>2003</year>
<publisher-loc><![CDATA[Getafe ]]></publisher-loc>
<publisher-name><![CDATA[Universidad Carlos III de Madrid]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B6">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Fernández]]></surname>
<given-names><![CDATA[E.]]></given-names>
</name>
<name>
<surname><![CDATA[García]]></surname>
<given-names><![CDATA[A.M.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Accuracy of referencing of Spanish names in Medline]]></article-title>
<source><![CDATA[The Lancet]]></source>
<year>2003</year>
<month>20</month>
<day>03</day>
<volume>361</volume>
<numero>9369</numero>
<issue>9369</issue>
<page-range>351-352</page-range></nlm-citation>
</ref>
<ref id="B7">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Fernández]]></surname>
<given-names><![CDATA[M.T.]]></given-names>
</name>
<name>
<surname><![CDATA[Cabrero]]></surname>
<given-names><![CDATA[A.]]></given-names>
</name>
<name>
<surname><![CDATA[Zulueta]]></surname>
<given-names><![CDATA[M.A.]]></given-names>
</name>
<name>
<surname><![CDATA[Gómez]]></surname>
<given-names><![CDATA[I.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Constructing a relational database for bibliometric analysis]]></article-title>
<source><![CDATA[Research evaluation]]></source>
<year>1993</year>
<month>19</month>
<day>93</day>
<volume>3</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>55-62</page-range></nlm-citation>
</ref>
<ref id="B8">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Frías]]></surname>
<given-names><![CDATA[J.A.]]></given-names>
</name>
<name>
<surname><![CDATA[Romero Gómez]]></surname>
<given-names><![CDATA[P.]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[¿Quiénes son y qué citan los investigadores que publican en las revistas españolas de biblioteconomía y documentación?]]></article-title>
<source><![CDATA[Anales de Documentación]]></source>
<year>1998</year>
<month>19</month>
<day>98</day>
<numero>1</numero>
<issue>1</issue>
<page-range>29-53</page-range></nlm-citation>
</ref>
<ref id="B9">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Gross]]></surname>
<given-names><![CDATA[A.D.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Getty Synoname: the development of software for Personal Name Pattern Matching]]></article-title>
<source><![CDATA[RIAO 91 conference proceedings]]></source>
<year>1991</year>
<month>19</month>
<day>91</day>
<page-range>754-63</page-range><publisher-loc><![CDATA[Condé-sur-Noireau ]]></publisher-loc>
<publisher-name><![CDATA[Centre des Hautes Estudes Internationales d'Informatique]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B10">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Harman]]></surname>
<given-names><![CDATA[D.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Ranking algorithms]]></article-title>
<person-group person-group-type="editor">
<name>
<surname><![CDATA[Frakes]]></surname>
<given-names><![CDATA[W.B.]]></given-names>
</name>
<name>
<surname><![CDATA[Baeza-Yates]]></surname>
<given-names><![CDATA[R.]]></given-names>
</name>
</person-group>
<source><![CDATA[Information retrieval: data structures and algorithms]]></source>
<year>1992</year>
<month>19</month>
<day>92</day>
<page-range>363-392</page-range><publisher-loc><![CDATA[^eNew Jersey New Jersey]]></publisher-loc>
<publisher-name><![CDATA[Prentice Hall]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B11">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Katz]]></surname>
<given-names><![CDATA[J.S.]]></given-names>
</name>
<name>
<surname><![CDATA[Hicks]]></surname>
<given-names><![CDATA[D.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Desktop scientometrics]]></article-title>
<source><![CDATA[Scientometrics]]></source>
<year>1997</year>
<month>19</month>
<day>97</day>
<volume>38</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>141-153</page-range></nlm-citation>
</ref>
<ref id="B12">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Lardy]]></surname>
<given-names><![CDATA[J.P.]]></given-names>
</name>
<name>
<surname><![CDATA[Herzhaft]]></surname>
<given-names><![CDATA[L.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Bibliometric treatments according to bibliographic errors and data heterogeneity: the end-user point of view]]></article-title>
<source><![CDATA[16th international online information meeting]]></source>
<year>1992</year>
<publisher-loc><![CDATA[London^eNew JerseyOxford New Jersey]]></publisher-loc>
<publisher-name><![CDATA[Learned Information]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B13">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Lee]]></surname>
<given-names><![CDATA[D.L.]]></given-names>
</name>
<name>
<surname><![CDATA[Chuang]]></surname>
<given-names><![CDATA[H.]]></given-names>
</name>
<name>
<surname><![CDATA[Seamons]]></surname>
<given-names><![CDATA[K.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Document ranking and the Vector-Space Model]]></article-title>
<source><![CDATA[IEEE software]]></source>
<year>1997</year>
<month>19</month>
<day>97</day>
<volume>14</volume>
<numero>2</numero>
<issue>2</issue>
<page-range>67-75</page-range></nlm-citation>
</ref>
<ref id="B14">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Patman]]></surname>
<given-names><![CDATA[F.]]></given-names>
</name>
<name>
<surname><![CDATA[Thompson]]></surname>
<given-names><![CDATA[P.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Names: a new frontier in text mining]]></article-title>
<source><![CDATA[Intelligence and security informatics. Proceedings lecture notes in computer science]]></source>
<year>2003</year>
<month>20</month>
<day>03</day>
<page-range>27-38</page-range></nlm-citation>
</ref>
<ref id="B15">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Patman]]></surname>
<given-names><![CDATA[F.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Text mining, names and security]]></article-title>
<source><![CDATA[Journal of Database Management]]></source>
<year>2005</year>
<month>20</month>
<day>05</day>
<volume>16</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>54-59</page-range></nlm-citation>
</ref>
<ref id="B16">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Ruíz-Pérez]]></surname>
<given-names><![CDATA[R.]]></given-names>
</name>
<name>
<surname><![CDATA[Delgado López-Cózar]]></surname>
<given-names><![CDATA[D.]]></given-names>
</name>
<name>
<surname><![CDATA[Jiménez Contreras]]></surname>
<given-names><![CDATA[E.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Spanish personal name variations in national and international biomedical databases: implications for information retrieval and bibliometric studies]]></article-title>
<source><![CDATA[Journal of Medical Library Association]]></source>
<year>2002</year>
<month>20</month>
<day>02</day>
<volume>90</volume>
<numero>4</numero>
<issue>4</issue>
<page-range>411-30</page-range></nlm-citation>
</ref>
<ref id="B17">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Spinak]]></surname>
<given-names><![CDATA[E.]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Errores ortográficos en el ingreso en bases de datos]]></article-title>
<source><![CDATA[Revista española de documentación científica]]></source>
<year>1995</year>
<month>19</month>
<day>95</day>
<volume>18</volume>
<numero>3</numero>
<issue>3</issue>
<page-range>307-319</page-range></nlm-citation>
</ref>
<ref id="B18">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Thompson]]></surname>
<given-names><![CDATA[P.]]></given-names>
</name>
<name>
<surname><![CDATA[Dozier]]></surname>
<given-names><![CDATA[C.C.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Name searching and information retrieval]]></article-title>
<source><![CDATA[Arxiv.org]]></source>
<year>2003</year>
<page-range>13 p.</page-range></nlm-citation>
</ref>
<ref id="B19">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Torvik]]></surname>
<given-names><![CDATA[V.I.]]></given-names>
</name>
<name>
<surname><![CDATA[Weeber]]></surname>
<given-names><![CDATA[M.]]></given-names>
</name>
<name>
<surname><![CDATA[Swanson]]></surname>
<given-names><![CDATA[D.R.]]></given-names>
</name>
<name>
<surname><![CDATA[Smalheiser]]></surname>
<given-names><![CDATA[N.R.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A probabilistic similarity metric for Medline records: a model for author name disambiguation]]></article-title>
<source><![CDATA[Journal of the American Society for Information Science and Technology]]></source>
<year>2005</year>
<month>20</month>
<day>05</day>
<volume>56</volume>
<numero>2</numero>
<issue>2</issue>
<page-range>140-158</page-range></nlm-citation>
</ref>
<ref id="B20">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Zulueta]]></surname>
<given-names><![CDATA[M.A.]]></given-names>
</name>
<name>
<surname><![CDATA[Cabrero]]></surname>
<given-names><![CDATA[A.]]></given-names>
</name>
<name>
<surname><![CDATA[Bordons]]></surname>
<given-names><![CDATA[M.]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Identificación y estudio de grupos de investigación a través de indicadores bibliométricos]]></article-title>
<source><![CDATA[Revista Española de Documentación Científica]]></source>
<year>1999</year>
<month>19</month>
<day>99</day>
<volume>23</volume>
<numero>3</numero>
<issue>3</issue>
<page-range>333-348</page-range></nlm-citation>
</ref>
</ref-list>
</back>
</article>
