Introdução
Sistemas de Organização do Conhecimento (SOC) são desenvolvidos para estabelecer padrões que visam a adequação terminológica e a sistematização de conceitos para o estabelecimento relações semânticas, evitando ambiguidade tanto no âmbito da recuperação da informação, por usuários, quanto na indexação, ao orientar a escolha dos termos utilizados neste processo.
Desta maneira, seja para armazenamento e recuperação da informação em Unidades de Informação (biblioteca, arquivo, museu), criar terminologias para representação do conhecimento, ou ainda, descrever informações disponíveis na web e suas relações semânticas, os SOC objetivam, sobretudo, a organização da informação e do conhecimento, representando-os, de modo a facilitar a recuperação da informação.
A web semântica, ou web 3.0, vislumbra a geração de novos serviços para recuperação da informação. Assim, formas de busca implicaram em sua criação, pois o contexto informacional contemporâneo requer o estabelecimento das relações semânticas entre conceitos presentes em cada recurso informativo da web. Desse modo, as Tecnologias de Informação e Comunicação (TIC) alinham-se para a inovação na organização e representação dos conteúdos disponíveis na internet.
O meio acadêmico utiliza de recursos da web para a circulação e recuperação de informações científicas. Diversas possibilidades, bases de dados, repositórios institucionais, bibliotecas digitais, e mais recentemente, sites de redes sociais acadêmicos (SRSA), vêm ganhando espaço como fonte de informação informal, uma nova instância de comunicação científica entre a comunidade acadêmica. Potencializando a troca e compartilhamento de informações científicas de maneira rápida e dinâmica, favorecendo a agilidade na transmissão da informação.
Nesta perspectiva, tem-se um novo condicionante a incorporar este contexto que é a evolução e/ou obsolescência de conceitos característicos de um domínio do conhecimento e sua organização e representação no ambiente virtual. A multirreferencialidade1, existente nas abordagens teóricas e práticas na elaboração da pesquisa científica, requer representações que possibilitem perceber a interconexão entre os conceitos que convergem das áreas do saber, o que de certo modo, desconfigura a ideia estrutural de um conhecimento isolado, hierarquizado, dotado do "poder" que é oriundo de conceitos estritamente genuínos de um domínio específico.
Contudo, salienta-se que os problemas relacionados à organização da informação na web, que interferem na recuperação da informação, e que por sua vez, configura-se como um dos motivos que inibem o uso de sites de redes sociais para pesquisa científica, é pouco explorado na literatura da Ciência da Informação (CI). Nota-se, que no campo de estudos voltados para esta problemática, que envolve a representação e organização da informação na web, tem-se utilizado sistemas de organização do conhecimento (SOC), tais como taxonomias, ontologias, mapas conceituais, redes semânticas, folksonomias mas, no entanto, não se verificou até o momento de elaboração desta pesquisa, estudos que abordem esta temática em sites de redes sociais no âmbito de informações científicas.
Diante da transformação dos modos de como se faz, busca, organiza e dissemina a informação, em especial, a informação científica, este trabalho, apresenta a estrutura geral de aplicação da análise de conceitos emergentes no site de rede social acadêmico ResearchGate, representando a modelagem realizada para o processo de coleta, extração, análise e representação da informação científica em Ciência da Informação no Brasil, utilizando-se da abordagem de análise de redes sociais para criação de uma rede semântica a fim evidenciar as relações entre conceitos e interconexões temáticas com outros domínios do conhecimento.
A comunicação científica e o processo de organização, disseminação e uso do conhecimento científico
O termo "comunicação científica" foi cunhado pela primeira vez em 1939 por John Desmond Bernal, em seu livro The social function of science. Em 1976, Wilfred D. Garvey e S. D. Gottfredson, com ideias similares as de Bernal, propuseram um sistema integrado de periódicos para submissão de preprints. Na perspectiva de Garvey e Gottfredson (1976), cada área do conhecimento teria um único artigo que embasasse suas teorias e práticas, e vários preprints para complementar a publicação tradicional nos periódicos acadêmicos, permitindo a comunicação científica de forma mais rápida. Contudo, tais propostas não tiveram êxito devido à ausência de tecnologia disponível na época.
Para uma nova estruturação da comunicação científica, na década de 1990, Steven Harnad trouxe uma polêmica solução: skywritter - os pesquisadores difundiam suas publicações científicas na web com acesso aberto. A partir disso, novas instâncias de comunicação científica poderiam ser criadas em redes on-line, promovendo o livre acesso à informação científica, dinamizando o fluxo da informação e a produção científica. Com o caminho traçado para a reconstrução de um modelo para o sistema de comunicação científica, também se faz necessário pensar sobre o comportamento dos usuários e produtores da informação frente aos canais formais e informais de informação.
Neste contexto de inovações, surgem os sites de redes sociais acadêmicas, os quais se inserem na terceira evolução das redes sociais da internet - Redes 3.0 -, caracterizadas pela "[...] integração com múltiplas redes, plataformas e funcionalidades através do uso de aplicativos e de mídias móveis." (Santaella e Lemos, 2010: 59). Além dos sites de redes sociais, tais como Facebook, LinkedIn e Twitter, utilizados cada vez mais como recurso para disseminar a comunicação em pesquisa científica e, consequentemente, uma fonte informal de informação científica, sites especializados para a comunidade científica compartilhar suas pesquisas e desenvolver projetos compartilhados, por exemplo, ResearchGate, Academia.edu e Mendeley, já se configuram como fontes de pesquisa científica e espaço de interação e diálogo entre cientistas para colaboração aberta em pesquisa, mecanismo para classificação de pesquisadores e suas universidades de origem, construção de redes/grupos profissionais e de pesquisa, fornecimento, obtenção e divulgação de resultados de pesquisa, gerenciamento de documentos e citações, entre outros.
Evidencia-se, portanto, a transição dos modos e instrumentos para organização e recuperação da informação em espaços sociais semânticos, o que sustenta a elaboração desta pesquisa, uma vez que o trabalho coletivo em rede potencializa a adoção e classificação de vocabulários no contexto digital. O que acontece quando surge um novo conceito dentro de um domínio do conhecimento? Ao tratar sobre o futuro da investigação em redes sociais, Lévy (2010) adverte sobre o processo evolutivo da internet, voltado para o compartilhamento semântico, recomendando algumas etapas a considerar para a gestão do conhecimento nesse espaço virtual, dentre elas a categorização dos conteúdos em tags, classes ou ontologias, a síntese do conteúdo organizado, o compartilhamento informacional em mídias sociais.
Pensar sobre representação da informação e do conhecimento em ambientes colaborativos on-line, tais como os sites de redes sociais, torna-se imprescindível no momento em que avanços tecnológicos, no âmbito do armazenamento de dados têm sido experimentados, o que demanda mais uma etapa a ser compreendida e analisada pelos cientistas da informação no que tange à materialização ou, ainda, desmaterialização da informação e do conhecimento representados nas conexões estabelecidas em rede.
A representação da informação científica no Século XXI: o princípio da conexão e as relações funcionais entre conceitos
A necessidade de criar sistemas de classificação que permitissem combinar várias relações para representar exatamente o assunto dos documentos, levou Ranganathan à constatação de que as classificações bibliográficas não poderiam seguir somente os predicáveis representadas na árvore de Porfírio, tais como as que possuem estruturas enumerativas - Classificação Decimal de Dewey (CDD) e Classificação Decimal Universal (CDU), por exemplo, - elas deveriam originar-se de subdivisões em categorias, mais próximas das teorias de Aristóteles, sugerindo sua representação pela Árvore Baniana (Banyan Tree), quando os conceitos se relacionam a outros diversos conceitos, semelhantemente ao processo de ramificação.
Sob esta lógica, Ranganathan (1967: 372) apresentou a Espiral do Desenvolvimento de Assuntos para associar a atividade de organização do conhecimento ao crescimento e expansão da produção do conhecimento e, consequentemente, o desenvolvimento de novos assuntos, permitindo assim a dinâmica das constantes modificações no universo do conhecimento.
Esta analogia com a Árvore Baniana feita por Ranganathan, coaduna-se com o conceito de rizoma de Gilles Deleuze e Félix Guattari. Em Mil platôs: capitalismo e esquizofrenia, Deleuze e Guattari (2011) constroem (a partir de um pensamento orientado pela Filosofia Continental, largamente praticada na Alemanha e França) a noção da palavra de ordem como um conceito filosófico sobre a linguagem, explicando-a por meio do conceito de rizoma. Para os autores, não há início e nem fim para os rizomas, eles se conectam, estão em constante interconexão seguindo uma linha de evolução. Nessa linha evolutiva, os rizomas são estratificados, territorializados, organizados, cartografados, significados, alterando também sua natureza ao se conectar a outros rizomas, assumindo sua multiplicidade, sua heterogeneidade, desenvolvendo, assim, princípios que apontam para as características de um rizomorfo, dentre eles o princípio da conexão, no qual um rizoma pode ser conectado a qualquer outro.
Tais princípios norteiam o entendimento de que diferentemente da ideia de "árvore", que possui uma estrutura hierárquica, estrutural e filiativa, o rizoma em Deleuze e Guattari representa a região de platôs (zonas de intensidades contínuas), é a aliança, é cruzamento, o "inter-ser", o "entre". Nesse contexto, definem o conceito de agenciamento como "[...] precisamente este crescimento das dimensões numa multiplicidade que muda necessariamente de natureza à medida que ela aumenta suas conexões." (Deleuze e Guattari, 2011:17).
Conforme Deleuze e Guattari (2011: 67; vol. 2) a expressão mais real de um rizoma é, portanto, a multiplicidade, pois está sempre em movimento, variando sua distância em relação aos outros, em virtude das interpretações que são realizadas pelos sujeitos, ou ainda "interpretância". Há então um ciclo, uma espiral que representa o regime de signos, conteúdos e expressões específicas emitidas por meio dos agenciamentos, e assegura sua expansão "[...] para que novos círculos brotem ou para que os antigos sejam realimentados." (Figura 1).
Esta relação entre a concepção de Ranganathan sobre os conceitos e de Deleuze e Guattari acerca dos rizomas, potencializa a observação sobre as possíveis interconexões entre os conceitos de um determinado domínio do conhecimento a partir de suas multiplicidades, justificando-se, portanto, a evolução da organização do conhecimento, sobretudo das teorias da classificação, de uma estrutura arbórea, com início, meio e fim, para uma concepção rizomática, que parte do meio para todos os possíveis inícios e fins, em constante dispersão.
Nesse contexto, adaptamos então o que Deleuze e Guattari (2011) chamam de "plano de consistência" à tentativa de organizar os conceitos segundo suas relações/conexões em suas próprias multiplicidades, observando também a Teoria do Conceito de Dahlberg (1978), quando é possível fazer a leitura de que se um determinado conceito possui a mesma característica de um outro, é estabelecida relações entre conceitos. Esta relação conceitual é chamada por Dahlberg de relação funcional, quando as relações entre os conceitos são verificadas com base na valência semântica dos verbos, que considera questões complementares, tais como contexto, propriedades, formas, etc.
O método desenvolvido por Dahlberg para a formação de conceitos, baseado na tríade conceitual, pode ser compreendida também a partir do regime de signos de Deleuze e Guattari (2011), evidenciando a relevância da tradição semiótica pragmática e sua compreensão de conceitos como signos, especialmente quando Dahlberg inclui nas relações entre conceitos, as relações funcionais.
O encontro convergente entre tais autores para o desenvolvimento desta pesquisa está, portanto, nas relações conceituais que ocorrem em um mesmo domínio do conhecimento, e das relações existentes entre este domínio e tantos outros a partir de suas características, constituindo-se assim, categorias, que são o próprio conceito em sua mais ampla extensão, e daí sua forma verbal.
Com base nas teorias e bases epistemológicas aqui apresentadas, é que se pensou a estruturação das relações conceituais para o ResearchGate, site de rede social acadêmico voltado para o conhecimento de pesquisa científica. Criado em 2008, tem como objetivo o compartilhamento de artigos científicos e a socialização entre pesquisadores e cientistas. O ResearchGate permite fazer upload e download de trabalhos científicos, e possui interface acessível e atrativa, capaz de fornecer um resumo do perfil profissional e de pesquisa, o que enriquece a interação entre investigadores de todo o mundo.
Esse site tem como objetivo promover a conexão entre cientistas com a finalidade de potencializar a colaboração e o compartilhamento de pesquisas científicas, acelerando o processo de aquisição do conhecimento. Um dos serviços disponibilizados, permite que qualquer utilizador coloque questões de pesquisa, e qualquer outro possa respondê-las. A indexação é realizada a partir dos nomes dos autores, vinculando-os aos seus artigos. Possui ainda, uma área para anúncios de emprego científico, produzindo alertas de sugestões baseadas no perfil do usuário, o qual só pode fazer parte da rede se tiver vínculo com alguma instituição de pesquisa, sendo obrigatória a verificação dos dados.
Caminhos metodológicos
O caminho metodológico traçado nesta pesquisa se adequa ao campo da pesquisa exploratória no âmbito do ambiente de redes sociais acadêmicas. O planejamento teórico se baseia no fazer científico da organização e representação da informação, domínio da Ciência da Informação. Desse modo, a pesquisa estrutura o método de análise em duas dimensões: teórica e aplicada.
A dimensão aplicada, de acordo com Gil (2008), tem por objetivo o conhecimento produzido em aplicações práticas, a exemplo de redes semânticas, que ao serem exploradas, revelam sentidos das pesquisas por meio dos conceitos que emergem nessas redes. Quanto aos objetivos a pesquisa se configura como exploratória e descritiva, a fim de explicitar ideias e descrever determinada população ou fenômeno.
A abordagem foi hipotético-dedutiva, onde se partiu da percepção de uma lacuna em pesquisas sobre a representação da informação científica em ambientes on-line, no que concerne analisar o espaço de conhecimento traduzido através de conceitos extraídos dos títulos dos estudos publicados em novas instâncias de comunicação científica, tais como as redes sociais acadêmicas on-line.
Delineamento do corpus da pesquisa
Para criação da rede semântica de títulos de trabalhos acadêmicos do domínio da CI no ResearchGate, foram extraídos dados dos perfis de 324 docentes dos 18 Programas de Pós-Graduação (PPG) no domínio da CI com perfis ativos (entende-se como perfil ativo o docente que publicou mais de um trabalho acadêmico no site), sendo necessário a criação de um algoritmo que permitisse a coleta, com o auxílio da ferramenta Selenium Web Driver, utilizando a linguagem de programação Java, além das ferramentas ChromeDriver, responsável por toda navegação que será feita no site, e WebDriverWait, responsável por processar o tempo necessário, definido no código, para que os elementos da página fossem carregados.
Após esta etapa, os dados extraídos foram convertidos para uma planilha de arquivo .xlx e, onde foi armazenado todas as informações, já definidas anteriormente, de cada perfil identificado. A análise passou também por um tratamento manual, quando foi realizada a mineração de texto, em quatro etapas, nos títulos dos trabalhos acadêmicos localizados, adotando-se o método de eliminar palavras sem significado intrínseco e transformar as palavras restantes para sua forma canônica (Pereira et al., 2011) (Figura 2).
Na etapa de extração de conceitos, adotou-se como vocabulário controlado o Tesauro Brasileiro de Ciência da Informação (TBCI)2, bem como a análise feita pela pesquisadora baseada na literatura científica da CI e tendências em pesquisa neste domínio. Por exemplo, para o título "A adoção das árvores hiperbólicas como instrumentos de representação de conhecimento nos sistemas de informação multimodais", após remoção dos elementos definidos nas regras, foram selecionados os conceitos que representam o domínio em análise, com valor semântico, combinando-os em um único componente: "arvorehiperbolica" "instrumento" "representacaodeconhecimento" "sistemasdeinformacaomultimodais".
Para as etapas de clusterização e análise, as palavras foram submetidas ao tratamento computacional para classificar, modificar e eliminar palavras, caso necessário, evitando assim, ambiguidades e distinguindo palavras lexicais de palavras gramaticais, bem como a construção automática de taxonomia entre os conceitos, a partir das relações e similaridades semânticas definidas por meio de índices da Teoria de Redes, através do Netpal.exe3, programa para criar redes de palavras, que usa o Pacote UNITEX4 e o programa Ambisin.exe5, e para a visualização da rede, utilizou-se os softwares Gephi e Pajek.
Compõe o corpus da pesquisa 500 títulos de trabalhos acadêmicos publicados pelos docentes dos PPG no domínio da CI no ResearchGate, entre os anos 2013 e 2019, permitindo a representação e visualização da informação científica em sites de redes sociais a partir de rede semântica, proposta metodológica deste estudo.
Utiliza-se a abordagem de análise de redes sociais (ARS) para criação da rede semântica de títulos. Após exportação do corpus, utilizou-se o software Gephi para visualização da rede e interpretação de suas propriedades (Tabela 1).
Índices | Definição | Valores |
---|---|---|
Grau médio (<k>) | Representa o valor médio em que cada conceito/termo se conecta a outro | 6,19 |
Densidade (∆) | Define a quantidade entre um conceito/termo e outro (maior menor caminho), expressando o quão perto o grafo está de se tornar completo. | 0,006 |
Diâmetro (D) | Representa o caminho mais longo de todos os caminhos mais curtos calculados entre dois conceitos/termos. | 11 |
Caminho mínimo médio (L) | Distância média do caminho entre os conceitos/termos. | 3,789 |
Coeficiente de aglomeração (C) | Probabilidade de conexão entre conceitos/termos quando agrupados próximos de determinado conceito/termo. | 0,863 |
Modularidade | Identifica presença de comunidades entre os conceitos/termos. | 0,71 |
Assim, foram obtidos 1.287 conceitos, sendo a rede composta por 1.287 nós e 3.512 arestas.
Rede Semântica de títulos de trabalhos acadêmicos no domínio da Ciência da Informação publicados no ResearchGate
Nas redes semânticas os conceitos são modelados como nós em uma rede de relacionamentos variáveis. Na representação da informação e do conhecimento, as redes semânticas são bidimensionais, ou seja, a relação entre os objetos e/ou conceitos analisados podem ter mais de um tipo de relacionamento, estrutura básica para OC em redes. São mais ricas que os tesauros na definição de categorias ou relações semânticas e, "[...] representa o conhecimento na forma de nós (conceitos, atributos) ligados por arcos (relacionamentos)." (Sales, Campos e Gomes, 2008: 64). Elas surgem como uma adaptação ao tesauro conceitual, objetivando uma melhor visualização da relação entre os conceitos, possibilitando navegar através de grafos de conexão e, assim, representar o conhecimento.
Após análise dos índices das propriedades da rede semântica dos títulos dos trabalhos acadêmicos extraídos do ResearchGate (2013-2019) (Tabela 1), foi possível a identificação do (L) e (C) e comparação com rede aleatória (RA) do componente gigante da rede real, com os mesmos valores de n (número de vértices) e k (grau), da rede semântica de títulos de trabalhos acadêmicos, foi possível verificar comportamento característico de rede de mundo pequeno ou small word, pois há um valor alto de C (0,92 ( C ( 0,97) e, o valor de L semelhante a rede semântica de títulos de trabalhos acadêmicos correspondente (1,65 ( L ( 2,68), além das propriedades específicas de redes de mundo pequeno, tais como: não direcionada, não ponderada, simples, esparsa e conectada, delineadas por Watts e Strogatz (1998).
A caracterização topológica desta rede semântica indica uma convergência na interconexão entre os conceitos que a compõem, os quais estão representados e organizados em torno de um componente central "cienciadainformacao" - com 168 nós conectados, ou seja, o nó com maior grau da rede. A partir desse resultado, fez-se uma análise do nó "cienciadainformacao", aplicando o algoritmo Rede Ego do software Gephi, que indicou grau médio de aproximadamente dois nós (1,963). Isso significa que o caminho mínimo médio entre cada nó dessa rede é de dois conceitos, o que resulta na compreensão de outro índice, o diâmetro (D), o maior - mais longo - de todos os caminhos mais curtos calculados entre os conceitos (2), inferindo o quanto cada conceito está afastado na rede.
Esta análise demonstra que o estudo sobre Ciência da Informação é o que mais emerge nas publicações analisadas, indicando a constante busca pela consolidação do domínio enquanto Ciência, bem como seu caráter interdisciplinar ao relacionar-se com outros temas que não são necessariamente do seu campo teórico e epistemológico, a exemplo do conceito "educacao" (Figura 3), fato que sugere o porquê da necessidade do uso do conceito "cienciadainformacao" na maioria dos títulos de trabalhos acadêmicos analisados.
O conceito "educacao" possui conexão mais próxima ao conceito central da rede "cienciadainformacao" em relação aos demais, assumindo duas funções nesta sub-rede: "[...] gerar o significado básico da representação" e "[...] determinar a organização global de todos os elementos" (Sá, 1996: 22). Ao buscar o conceito "educacao" no TBCI, verificou-se que os outros conceitos relacionados ao conceito "educacao" na Figura 4 não fazem parte das relações hierárquicas - termo específico (TR) e das relações associativas - termo associado (TR) do TBCI (direitos humanos, competência em informação, ficção juvenil brasileira, arte, letramento informacional, mercado).
Tais exemplos indicam um continuun na relação entre conceitos no domínio da CI, quando a interdisciplinaridade e evolução das pesquisas científicas tem se encarregado de assegurar aos conceitos criados por uma comunidade científica, a expansão, inclusão de outras características e criação de novas formas verbais, onde os conteúdos dissolvem neles mesmos suas características próprias, tendo-se neste caso, sobretudo, uma relação funcional entre os conceitos, expressada nos títulos de trabalhos acadêmicos, os quais traduzem os discursos produzidos pelos pesquisadores ao sintetizar seus estudos.
Dessa maneira, apresenta-se a estrutura geral de aplicação da análise de conceitos emergentes no ResearchGate (Figura 4), o qual possibilitou representar as interconexões temáticas em Ciência da Informação, partindo-se do entendimento de que a construção do conhecimento é viabilizada pelas interações entre elementos numa rede. Assim, no âmbito dos estudos sobre a representação da informação, poderá ser aplicado como um modelo para análises da mesma natureza em outros sites de redes sociais acadêmicos e, consequentemente, identificar conceitos emergentes em um domínio do conhecimento e suas relações interdisciplinares.
Este modelo tem como objetivo tornar visível os conceitos emergentes de pesquisas interdisciplinares e multirreferenciais que se relacionam com a CI, sobretudo, no ambiente dos SRSA, potencializando a representação da informação científica nestas novas instâncias de comunicação da ciência.
Considerações finais
As redes semânticas foram utilizadas como um sistema para representação da interconexão temática no ResearchGate para o domínio da Ciência da Informação devido a possibilidade de uma organização em macroestrutura semântica e visualização das relações entre conceitos, considerando o contexto em que se expressam e de como são arranjados e sintetizados em um título de trabalho científico, por exemplo.
Salienta-se que, não se deve confundir a "transparência" das redes sociais acadêmicas com a falta de semântica nos produtos que ali são compartilhados. A narrativa presente nos assuntos em cada título de trabalho acadêmico carrega significados diversos que dependem do contexto do leitor, do pesquisador, ou ainda, do uso dos conceitos.
Como a representação se dá em tempo e espaço, convém ressaltar que o universo do conhecimento é um continuum, desse modo, novas formas de representação da informação e conhecimento se manifestarão acompanhando o desenvolvimento das TIC. Portanto, novos conceitos surgem para acompanhar a atualização e evolução das pesquisas desenvolvidas nos diferentes domínios de conhecimento.
Nesse sentido, utilizou-se neste estudo a fundamentação teórica baseada na TCF e TC, bem como as contribuições filosóficas trazidas por Deleuze e Guattari (2011) sobre o que é conceito e a noção de rizoma, associadas à abordagem de ARS, considerando o uso do TBCI para perceber a eminência de novos conceitos e suas relações com outros já consolidados. Teve como objetivo contribuir para a representação da informação em ambientes complexos e dinâmicos, tais como os SRSA, considerados aqui como novas instâncias de comunicação científica.
Desse modo, acredita-se que, no âmbito da análise conceitual de um domínio do conhecimento nesses ambientes, deve-se partir de uma concepção rizomática, para a qual não há início e nem fim para a relação entre conceitos. Acredita-se, portanto, que esta pesquisa contribui, como um modelo que poderá ser aplicado em outros sites de redes sociais acadêmicos para a representação da informação científica de um domínio do conhecimento, além de identificar conceitos emergentes e em evolução.