Proyecto de web semántica de autoridades en PARES: extracción y análisis inicial

Contenido principal del artículo

Manuel Blázquez-Ochando
María-Antonia Ovalle-Perandones

Resumen

La investigación se centra en describir los tipos de autoridades del Portal de Archivos Españoles, aportando su cuantificación, y ratio relacional, con el fin de delinear el grafo inicial de este sector en PARES. Para lograrlo se emplean métodos de webscraping que han permitido la compilación de todos los registros de autoridad, para su procesamiento y análisis. Los datos recopilados muestran mayor relevancia de las autoridades personales y familias, seguidas de instituciones y conceptos. Este enfoque refleja la importancia de los individuos y las relaciones familiares en el contexto histórico y archivístico. Además, se destacan las relaciones asociativas entre personas e instituciones, lo que sugiere la complejidad de las interacciones sociales y organizacionales en el pasado. También se comprueba una fuerte interconexión entre lugares y personas, así como entre lugares y otras entidades como instituciones y normas. Esto subraya la importancia de la geolocalización y el contexto geográfico en la comprensión del patrimonio histórico y cultural representado en PARES. Además, se identifica una proporción equitativa entre relaciones familiares, lo que indica una representación rica de la vida social y familiar. Por otro lado, se observa una baja proporción de relaciones asociativas con fuentes de información, lo que sugiere la necesidad de ampliar la documentación y las referencias utilizadas en las fichas descriptivas.

Detalles del artículo


Citas

Agrawal, N., & Johari, S. (2019). A survey on content-based crawling for deep and surface web. Fifth International Conference on Image Information Processing (ICIIP) (pp. 491-496). IEEE. https://doi.org/10.1109/ICIIP47207.2019.8985906

APEF (n.d.) Who we are. Archives Portal Europe. https://www.archivesportaleurope.net/about-us/who-we-are/

Bae, S. W., Lee, H. D. & Cho, D. (2018). Design and implementation of a web crawler system for collection of structured and unstructured data. Journal of Korea Multimedia Society, 21(2), 199-209. https://doi.org/10.9717/kmms.2018.21.2.199

Chang, Z. (2022). A survey of modern crawler methods. Proceedings of the 6th International Conference on Control Engineering and Artificial Intelligence (pp. 21-28). https://doi.org/10.1145/3522749.3523076

CRUE (2017). Guía Linked Open Data para archivos universitarios. Grupo de Trabajo Linked Open Data y Archivos Universitarios, CRUE. http://cau.crue.org/wp-content/uploads/GT_9_Gu%C3%ADa_Linked_Open_Data_para_Archivos_Universitarios_2017.pdf

Dombrowski, A., & Dombrowski, Q. (2010). A formal approach to XML semantics: Implications for archive standards. Proceedings of the International Symposium on XML for the Long Haul: Issues in the Long-Term Preservation of XML. https://doi.org/10.4242/BalisageVol6.Dombrowski01

Gracy, K. F. (2015). Archival description and linked data: a preliminary study of opportunities and implementation challenges. Archival Science, 15, 239-294. https://doi.org/10.1007/s10502-014-9216-2

Guernaccini, F., Mazzini, S., & Bruno, G. (2019). LOD publication in the archival domain: methods and practices. ODOCH@ CaiSE, (pp. 15-26). https://ceur-ws.org/Vol-2375/paper2.pdf

Gunawan, R., Rahmatulloh, A., Darmawan, I., & Firdaus, F. (2019). Comparison of web scraping techniques: regular expression, HTML DOM and Xpath. 2018 International Conference on Industrial Enterprise and System Engineering (ICoIESE 2018). Atlantis Press (pp. 283-287). https://doi.org/10.2991/icoiese-18.2019.50

Hogan, A., Blomqvist, E., Cochez, M., D’Amato, C., Melo, G. D., Gutierrez, C., Kirrane, S., Labra Gayo, J. E., Navigli, R., Neumaier, S., Ngonga Ngomo, A. C., Polleres, A., Rashid, S. M., Rula, A., Schmelzeisen, L., Sequeda, J. F., Staab, S., & Zimmermann, A. (2021). Knowledge graphs. ACM Computing Surveys, 54(4). https://doi.org/10.1145/3447772

Jacobs, C. T., Avdis, A., Mouradian, S. L., & Piggott, M. D. (2015). Integrating research data management into geographical information systems. Roceedings of the 5th International Workshop on Semantic Digital Archives (SDA 2015) (pp. 7–17). http://ceur-ws.org/Vol-1529/paper2.pdf

Koch, I., Freitas, N., Ribeiro, C., Lopes, C. T., & Da Silva, J. R. (2019). Knowledge graph implementation of archival descriptions through CIDOC-CRM. International conference on theory and practice of digital libraries (pp. 99-106). Cham: Springer International Publishing.

Llanes-Padrón, D., & Pastor-Sánchez, J.A. (2017). Records in contexts: the road of archives to semantic interoperability. Program, 2017, 51(4), 387-405. https://doi.org/10.1108/PROG-03-2017-0021

López Cuadrado, A. M., & Requejo Zalama, J. (2021). Estrategias y modelos de gestión de datos archivísticos. Tábula, 24, 97–111. https://publicaciones.acal.es/tabula/article/view/874

López Cuadrado, A. M. (2016). PARES 2.0: tecnología para mejorar el acceso de los ciudadanos a los documentos y a la información en los Archivos Estatales. En González Cachafeiro, J. (coord.). Actas de las jornadas 9ª Jornadas archivando: usuarios, retos y oportunidades. León, 10 y 11 de noviembre (pp. 36-59). ISBN 978-84-617-7452-4

Marciano, R., Lemieux, V., Hedges, M., Esteva, M., Underwood, W., Kurtz, M., & Conrad, M. (2018). Archival records and training in the age of Big Data. In: J. Percell, L. C. Sarin, P. T. Jaeger, & J. C. Bertot (Eds.) Re-envisioning the MLS: Perspectives on the Future of Library and Information Science Education (Advances in Librarianship, vol. 44B, pp. 179-199). Emerald Publishing Limited, Leeds. https://doi.org/10.1108/S0065-28302018000044B010

Maynard, D., & Greenwood, M. A. (2012). Large scale semantic annotation, indexing, and search at the national archives. Proceedings of the 8th International Conference on Language Resources and Evaluation, LREC 2012 (pp. 3487–3494). http://www.lrec-conf.org/proceedings/lrec2012/pdf/122_Paper.pdf

Miller, E. (2001). Semantic Web Layer Cake. https://www.w3.org/2001/09/06-ecdl/slide17-0.html

Niu, J. (2016). Linked data for archives. Archivaria, 82(1), 83-110. https://archivaria.ca/index.php/archivaria/article/view/13582

O’Reilly, T. (30 de septiembre de 2005). What is Web 2.0: Design patterns and business models for the next generation of software. O’Reilly. https://www.oreilly.com/pub/a/web2/archive/what-is-web-20.html

Portal de Archivos Españoles (n.d.). Estadísticas de PARES. https://pares.culturaydeporte.gob.es/estadisticas.html

Radilova, M., Kamencay, P., Hudec, R., Benco, M., & Radil, R. (2022). Tool for parsing important data from web pages. applied sciences, 12(23), 12031. https://doi.org/10.3390/app122312031

Society of American Archivists (2011). Encoded Archival Context - Corporate bodies, Persons, and Families (EAC-CPF). https://www2.archivists.org/node/23669

Vafaie, M., Bruns, O., Pilz, N., Dessí, D. & Sack, H. (2021). Modelling archival hierarchies in practice: Key aspects and lessons learned. CEUR Workshop Proceedings, 2981. https://doi.org/10.34657/8006

Zhang, S., Wu, J., & Yang, K. (2020). A webpage segmentation method based on node information entropy of DOM tree. Journal of Physics: Conference Series, 1624(3), 032023. https://doi.org/10.1088/1742-6596/1624/3/032023