바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

전자기록물의 메타데이터 추출 및 비교 검증 기술 연구

Extracting and Validating Metadata in Electronic Records

한국기록관리학회지 / Journal of Korean Society of Archives and Records Management, (P)1598-1487; (E)2671-7247
2012, v.12 no.1, pp.7-32
https://doi.org/10.14404/JKSARM.2012.12.1.007
최주호 ((주)세미콘네트웍스)
이재영 ((주)세미콘네트웍스)
  • 다운로드 수
  • 조회수

초록

전자기록물의 이관할 때, 전자기록물의 필수 메타데이터의 검증과 실제 문서에 있는 메타데이터를 이용한 검증도 중요하다. 본 연구에서는 전자기록물에 포함된 다양한 형식의 전자파일 중에서 본문파일에서 메타데이터를 추출하고 항목별로 분류한 후 이관되는 메타데이터 항목과 비교 검증을 위한 기술 개발을 연구하였다. 해외에서 개발된 추출 도구와 달리 국내 전자결재 형식을 감안하여 첨부된 본문파일에서 메타데이터를 추출하는 기술을 개발하였으며, 기록물 문서 메타항목에 저장된 원 메타데이터와 추출 메타데이터간 비교 검증을 수행하는 도구를 개발하였다.

keywords
메타데이터 추출, 메타데이터 검증, 형태소 분석, 파일 필터링, 기술정보은행, 추출 도구, 메타데이터 추출 알고리즘, extraction metadata, file filtering, metadata extraction tool, JHOVE, DFR(Digital Format Registry)

Abstract

When migrate electronic records, the validation of the required metadata in electronic records and verified with the metadata in the document are also important. This paper presents a method and implements a tool to extract data from files in various formats and use them to validate metadata associated with the files in electronic records. Compared to other metadata extraction tools, especially developed in foreign countries, the standard form of documents used in Korean government is taken into account and metadata is extracted from the content of files. The tool compares the extracted data to encapsulated metadata for validation.

keywords
메타데이터 추출, 메타데이터 검증, 형태소 분석, 파일 필터링, 기술정보은행, 추출 도구, 메타데이터 추출 알고리즘, extraction metadata, file filtering, metadata extraction tool, JHOVE, DFR(Digital Format Registry)

참고문헌

1.

강승식. (2004). 한글 문서의 색인어와 색인 기법. 정보과학회지, 22(4), 72-77.

2.

국가기록원. (2010). 전자기록물 검증 기술 및 차세대 그린 전자기록관리 체계 인프라 응용 기술 연구 완료보고서. .

3.

국가기록원. (2010). 차세대 전자기록관리 인프라 연구 개발 연구보고서. .

4.

권순만. (2004). 단어기반 웹문서 검색을 위한효과적인 단어 가중치의 계산 (169-171). 한국정보과학회 2004년도 가을 학술발표논문집.

5.

김남희. (2005). 국회도서관 시소러스 구축과 활용그리고 유지관리. 국회도서관보, 42(11), 36-49.

6.

김태중. (2003). 시소러스에 관한 일반적 고찰. 국회도서관보, 40(3), 40-49.

7.

류계자. (2001). 정보검색을 위한 형태소 분석기의 기능 확장에 관한 연구.

8.

이재윤. (2003). 역문헌빈도 가중치의 재검토 (253-261). 한국정보관리학회. 한국정보관리학회.

9.

최호철. (2004). 특수분야 및 띄어쓰기 오류 문서 분석을 개선한 형태소 분석기의 구현.

10.

한상길. (1994). 시소러스를 이용한 신문기사 데이터베이스 색인시스템에 관한 연구. 정보관리학회지, 11(1), 125-144.

11.

Johan van der Knijff. Evaluation of characterisation tools Part 1: Identification.

12.

https://bytebucket.org/jhove2/main/wiki/documents/JHOVE2-functional-requirements-v1_4.pdf. https://bytebucket.org/jhove2/main/wiki/documents/JHOVE2-functional-requirements-v1_4.pdf.

13.

이준호. (1996). Using n-Grams for Korean Text Retrieval (216-224).

14.

Larry Stone. (2008). BitstreamFormat Renovation: DSpace Gets Real Technical Metadata (-). Open Repositories Conference 2008.

15.

Medelyan, O.. (2005). Automatic Keyphrase Indexing with a Domain-Specific Thesaurus.

16.

Medelyan, O.. (2005). Thesaurus- based index term extraction for agricultural documents (-). Proc. of the 6th Agricultural Ontology Service (AOS) workshop at EFITA/WCCA 2005.

17.

Microsoft Office File Format Documents. http://msdn.microsoft.com/en-us/library/cc313105(office.12).aspx.

18.

P. M. Roget. (1852). Thesaurus of English Word and Phrase.

19.

SK C&C. (2010). 차세대 전자기록관리 인프라연구 개발. .

한국기록관리학회지