바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: Preservation metadata, 검색결과: 2
1
박하람(중앙대학교 일반대학원 문헌정보학과 문헌정보학전공 박사과정) ; 김학래(중앙대학교 사회과학대학 문헌정보학과 교수) 2023, Vol.23, No.4, pp.159-178 https://doi.org/10.14404/JKSARM.2023.23.4.159
초록보기
초록

디지털 아카이브는 지속적으로 보존할 가치가 있는 디지털 기록을 보존하고 활용하기 위한 온라인 플랫폼이다. 그러나 국내에서 운영되고 있는 디지털 아카이브는 기능, 메타데이터, 데이터의 기술원칙과 관련된 공통 원칙이 존재하지 않는다. 이는 분산적으로 존재하는 디지털 기록을 연계하기 힘들게 만드는 요인이 된다. 본 연구는 디지털 기록의 상호운용을 개선하기 위한 방안으로 디지털 아카이브를 위한 공통 어휘를 제안하고, 공통 어휘로 구축된 디지털 아카이브의 상호운용성을 평가한다. 1997 외환위기 아카이브의 데이터를 수집·분석하여 지식그래프를 구축하고, RiC-O로 구축된 지식그래프와 상호운용성을 비교한다. FAIR 데이터 원칙의 평가 프레임워크는 1997 외환위기 아카이브와 지식그래프를 평가하는 데 활용된다. 구축된 지식그래프는 기록의 다양한 개체가 서로 연계되고, 기록의 이해에 도움이 되는 맥락 정보를 제공한다. 검증 결과는 공통 어휘로 구축된 지식그래프가 기존 아카이브에 비해 디지털 기록의 연계와 검색, 상호운용 관점에서 향상된 결과를 보인다.

Abstract

A digital archive is an online platform for preserving and utilizing digital records worthy of continued preservation. However, there are no shared standards for functionality, metadata, or data technical principles across digital archives in Korea. These issues create challenges in linking distributed digital records. This study proposes a common vocabulary for digital archives to enhance the interoperability of digital records and evaluates the interoperability of the digital archive built with the common vocabulary. We collect and analyze data from the digital archive on the Korean financial crisis of 1997 to construct a knowledge graph and compare its interoperability with the knowledge graph built with RiC-O. The archive and the knowledge graph underwent evaluation using the FAIR data principles evaluation framework. The constructed knowledge graph links various objects in the archive and provides contextual information to aid in understanding the archive. The results demonstrate that a knowledge graph built with a common vocabulary significantly improves the linkage, search, and interoperability of digital records compared to a traditional archive.

초록보기
초록

기록물은 과거와 현재를 포함하는 시간적 특성, 특정 언어에 제한되지 않는 언어적 특성, 기록물이 갖고 있는 다양한 유형을 복합적으로 갖고 있다. 기록물의 생성, 보존, 활용에 이르는 생애주기에서 텍스트, 영상, 음성으로 구성된 데이터의 처리는 많은 노력과 비용을 수반한다. 기계번역, 문서요약, 개체명 인식, 이미지 인식 등 자연어 처리 분야의 주요 기술은 전자기록과 아날로그 형태의 디지털화에 광범위하게 적용할 수 있다. 특히, 딥러닝 기술이 적용된 한국어 자연어 처리 분야는 다양한 형식의 기록물을 인식하고, 기록관리 메타데이터를 생성하는데 효과적이다. 본 논문은 한국어 자연어 처리를 기술을 소개하고, 기록 관리 분야에서 자연어 처리 기술을 적용하기 위한 고려사항을 논의한다. 기계번역, 광학문자인식과 같은 자연어 처리 기술이 기록물의 디지털 변환에 적용되는 과정은 파이썬 환경에서 구현한 사례로 소개한다. 한편, 자연어 처리 기술의 활용을 위해 기록관리 분야에서 자연어 처리 기술을 적용하기 위한 환경적 요소와 기록물의 디지털화 지침을 개선하기 위한 방안을 제안한다.

Abstract

Records have temporal characteristics, including the past and present; linguistic characteristics not limited to a specific language; and various types categorized in a complex way. Processing records such as text, video, and audio in the life cycle of records’ creation, preservation, and utilization entails exhaustive effort and cost. Primary natural language processing (NLP) technologies, such as machine translation, document summarization, named-entity recognition, and image recognition, can be widely applied to electronic records and analog digitization. In particular, Korean deep learning–based NLP technologies effectively recognize various record types and generate record management metadata. This paper provides an overview of Korean NLP technologies and discusses considerations for applying NLP technology in records management. The process of using NLP technologies, such as machine translation and optical character recognition for digital conversion of records, is introduced as an example implemented in the Python environment. In contrast, a plan to improve environmental factors and record digitization guidelines for applying NLP technology in the records management field is proposed for utilizing NLP technology.

한국기록관리학회지