<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>1405-7743</journal-id>
<journal-title><![CDATA[Ingeniería, investigación y tecnología]]></journal-title>
<abbrev-journal-title><![CDATA[Ing. invest. y tecnol.]]></abbrev-journal-title>
<issn>1405-7743</issn>
<publisher>
<publisher-name><![CDATA[Universidad Nacional Autónoma de México, Facultad de Ingeniería]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S1405-77432020000100008</article-id>
<article-id pub-id-type="doi">10.22201/fi.25940732e.2020.21n1.008</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[Aplicación de metodología CRISP-DM para segmentación geográfica de una base de datos pública]]></article-title>
<article-title xml:lang="en"><![CDATA[Implementation of the CRISP-DM methodology for geographical segmentation using a public database]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Espinosa-Zúñiga]]></surname>
<given-names><![CDATA[Javier Jesús]]></given-names>
</name>
<xref ref-type="aff" rid="Aff"/>
</contrib>
</contrib-group>
<aff id="Af1">
<institution><![CDATA[,Grupo Financiero Ve por Más S.A. de C.V. Gerencia CRM ]]></institution>
<addr-line><![CDATA[ ]]></addr-line>
<country>México</country>
</aff>
<pub-date pub-type="pub">
<day>00</day>
<month>03</month>
<year>2020</year>
</pub-date>
<pub-date pub-type="epub">
<day>00</day>
<month>03</month>
<year>2020</year>
</pub-date>
<volume>21</volume>
<numero>1</numero>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://www.scielo.org.mx/scielo.php?script=sci_arttext&amp;pid=S1405-77432020000100008&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://www.scielo.org.mx/scielo.php?script=sci_abstract&amp;pid=S1405-77432020000100008&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://www.scielo.org.mx/scielo.php?script=sci_pdf&amp;pid=S1405-77432020000100008&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[Resumen El avance tecnológico ha permitido a las organizaciones en todos los niveles almacenar grandes volúmenes de datos. Sin embargo, un problema al cual se están enfrentando actualmente es el análisis de dichos datos a fin de extraer conocimiento útil para toma de decisiones en problemas reales. Actualmente existen varias metodologías que facilitan el análisis de datos para extraer información que se pueda convertir en conocimiento: una de ellas es la metodología CRISP-DM (Cross Industry Standard Process for Data Mining) que a pesar de ser la metodología más utilizada para proyectos de minería de datos, y de tener más de veinte años desde su creación, no es muy conocida en el ámbito laboral de muchas organizaciones de todo tipo en México. El presente artículo tiene como objetivo aplicar la metodología CRISP-DM en la obtención de un modelo de segmentación geográfica sobre la base pública de unidades económicas del Directorio Nacional de Unidades Económicas (DENUE). Para ello, se aplicaron los seis pasos de la metodología (comprensión del problema, comprensión de datos, preparación de datos, modelado, evaluación del modelo e implementación del mismo) para obtener un modelo de segmentación geográfica que clasificó las entidades de la República Mexicana de acuerdo con sus unidades económicas. Aunque se trata de un modelo sobre la base del DENUE susceptible de mejora, muestra el beneficio de aplicar la metodología CRISP-DM, lo cual sin duda es de utilidad para las organizaciones que aplican actualmente dichos proyectos en México, y también muestra la potencialidad de explotar una base pública con información valiosa como la base del DENUE en muchos sentidos (comercial, académico, etcétera) mediante minería de datos.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[Abstract Technological progress has allowed to the organizations to store big amounts of data. However, organizations are facing to the challenge of analyzing such data for getting useful knowledge for decision making in real situations. Nowadays there are several methodologies that allow organizations to analyze big amounts of data in order to get information and knowledge. One of them is CRISP-DM (Cross Industry Standard Process for Data Mining) that despite the fact of be the most widely used methodology for Data Mining projects and to have more than twenty years old, it is yet not well known for many organizations in Mexico. This article aims to illustrate how to apply CRISP-DM for getting a geographical segmentation model for a public database called DENUE which contains a directory of business units in Mexico. The six steps of the methodology (understanding problem, understanding data, preparation of data, modeling, evaluation and implementation) has been applied in order to get a geographical segmentation model that divides Mexican geographical entities according to their business units. Albit some observations were classified not properly (according to the evaluation that was applied to the model) in general the clusters are acceptable considering the variables used for getting them, and in order to improve the model we suggest to consider additional variables that are no disposable in DENUE database nowadays. Although it is a segmentation model over DENUE database which is susceptible of improvement, it shows the potential of applying CRISP-DM for Data Mining projects and also shows the potential of exploiting public databases in order to get knowledge useful for many purposes (business, scholars, etc.).]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[Segmentación]]></kwd>
<kwd lng="es"><![CDATA[metodología]]></kwd>
<kwd lng="es"><![CDATA[DENUE]]></kwd>
<kwd lng="es"><![CDATA[CRISP-DM]]></kwd>
<kwd lng="es"><![CDATA[minería de datos]]></kwd>
<kwd lng="en"><![CDATA[Segmentation]]></kwd>
<kwd lng="en"><![CDATA[methodology]]></kwd>
<kwd lng="en"><![CDATA[DENUE]]></kwd>
<kwd lng="en"><![CDATA[CRISP-DM]]></kwd>
<kwd lng="en"><![CDATA[datamining]]></kwd>
</kwd-group>
</article-meta>
</front><back>
<ref-list>
<ref id="B1">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Alba]]></surname>
<given-names><![CDATA[D.]]></given-names>
</name>
</person-group>
<source><![CDATA[Detección de registros duplicados entre dos archivos digitales. CIMAT]]></source>
<year>2011</year>
</nlm-citation>
</ref>
<ref id="B2">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Amat]]></surname>
<given-names><![CDATA[J.]]></given-names>
</name>
</person-group>
<source><![CDATA[Test estadísticos para variables cualitativas]]></source>
<year>2016</year>
</nlm-citation>
</ref>
<ref id="B3">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Amat]]></surname>
<given-names><![CDATA[J.]]></given-names>
</name>
</person-group>
<source><![CDATA[Clustering y heatmaps: Aprendizaje no supervisado]]></source>
<year>2017</year>
</nlm-citation>
</ref>
<ref id="B4">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Berzal]]></surname>
<given-names><![CDATA[F.]]></given-names>
</name>
</person-group>
<source><![CDATA[Clustering]]></source>
<year>2018</year>
</nlm-citation>
</ref>
<ref id="B5">
<nlm-citation citation-type="">
<collab>DENUE-INEGI</collab>
<source><![CDATA[Sitio oficial DENUE]]></source>
<year>2018</year>
</nlm-citation>
</ref>
<ref id="B6">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Gallardo]]></surname>
<given-names><![CDATA[J.A.]]></given-names>
</name>
</person-group>
<source><![CDATA[Metodología para el desarrollo de proyectos en Minería de Datos CRIPS-DM]]></source>
<year>2018</year>
</nlm-citation>
</ref>
<ref id="B7">
<nlm-citation citation-type="">
<collab>INEGI</collab>
<source><![CDATA[Directorio Estadístico Nacional de Unidades Económicas DENUE. Directorio Estadístico Nacional de Unidades Económicas DENUE]]></source>
<year>2011</year>
</nlm-citation>
</ref>
<ref id="B8">
<nlm-citation citation-type="">
<collab>INEGI</collab>
<source><![CDATA[Análisis de la demografía de los establecimientos]]></source>
<year>2012</year>
</nlm-citation>
</ref>
<ref id="B9">
<nlm-citation citation-type="">
<collab>INEGI</collab>
<source><![CDATA[DENUE Interactivo. Documento metodológico]]></source>
<year>2017</year>
</nlm-citation>
</ref>
<ref id="B10">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Kassambara]]></surname>
<given-names><![CDATA[A.]]></given-names>
</name>
</person-group>
<source><![CDATA[Partitional Clustering in R: the Essentials. Data Novia]]></source>
<year>2018</year>
</nlm-citation>
</ref>
<ref id="B11">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Marbán]]></surname>
<given-names><![CDATA[M.S.]]></given-names>
</name>
</person-group>
<source><![CDATA[A Data mining &amp; knowledge discovery process model]]></source>
<year>2018</year>
</nlm-citation>
</ref>
<ref id="B12">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Mathur]]></surname>
<given-names><![CDATA[K.]]></given-names>
</name>
</person-group>
<source><![CDATA[Comparative Study of K-Means and Hierarchical Clustering Techniques]]></source>
<year>2014</year>
</nlm-citation>
</ref>
<ref id="B13">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Piatetsky]]></surname>
<given-names><![CDATA[G.]]></given-names>
</name>
</person-group>
<source><![CDATA[What main methodology are you using for data mining? KD Nuggets]]></source>
<year>2002</year>
</nlm-citation>
</ref>
<ref id="B14">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Piatetsky]]></surname>
<given-names><![CDATA[G.]]></given-names>
</name>
</person-group>
<source><![CDATA[]]></source>
<year>2004</year>
</nlm-citation>
</ref>
<ref id="B15">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Piatetsky]]></surname>
<given-names><![CDATA[G.]]></given-names>
</name>
</person-group>
<source><![CDATA[]]></source>
<year>2007</year>
</nlm-citation>
</ref>
<ref id="B16">
<nlm-citation citation-type="">
<collab>R-CRAN</collab>
<source><![CDATA[Tutorial to prepare train and test set using Data Preparation]]></source>
<year>2019</year>
</nlm-citation>
</ref>
<ref id="B17">
<nlm-citation citation-type="">
<collab>Secretaría de Comunicaciones y Transportes</collab>
<source><![CDATA[Marco conceptual del Sistema de Clasificación Industrial de América del Norte]]></source>
<year>2016</year>
</nlm-citation>
</ref>
<ref id="B18">
<nlm-citation citation-type="">
<collab>Wikipedia</collab>
<source><![CDATA[Cross Industry Standrad Process for Data Mining]]></source>
<year>2018</year>
</nlm-citation>
</ref>
</ref-list>
</back>
</article>
