Domestic Conference

공민철, 노명일, 김기수, 김종오, 박호균, 김주성, "PDF 문서 내 변수 인식 및 가시화 프로그램 개발", 2022년도 대한조선학회 춘계학술발표회, 제주, p. 198, 2022.06.02-04

by SyDLab posted Mar 30, 2022
?

단축키

Prev이전 문서

Next다음 문서

ESC닫기

크게 작게 위로 아래로 댓글로 가기 인쇄
Extra Form
Abstract 선박 설계 규정에 대한 준수 여부를 검토하기 위하여, 선급은 해당 선종 및 선박의 규모에 따라 여러 규정집을 참고한다. 선박의 특성상, 검토해야 하는 규정은 복잡하며 방대하다. 또한, 규정들은 상호 연관된 경우가 많고, 다른 규정 혹은 규정 내의 다른 장을 참조하는 경우가 많기에 숙련된 전문가일지라도 검토 과정에 많은 시간이 소요된다. 이와 같은 어려움을 해소하기 위해, 본 연구에서는 PDF 문서 형식의 규정집에서 변수를 인식하고, 변수 간 연결 관계를 자동으로 파악하여 검토자에게 제공하는 프로그램을 개발하였다. 일반적으로 규정집은 높은 호환성을 지니고 있는 PDF 형식으로 변환되어 배포된다. 이 과정에서 변수나 수식의 구조 같은 원본 문서가 지닌 정보가 손실되기에 단순 열람 외의 응용 작업이 힘든 편이다. 본 연구에서는 PDF 내에서 문자열 등의 기본 요소를 추출할 수 있는 공개용 라이브러리를 활용하였다. 이후, 추출한 문자열과 페이지 내 각 문자의 위치 관계를 활용하여 변수를 인식하였으며, 수식의 영역을 색인하여 영역 내 변수들의 연결 관계를 규정하였다. 또한, 변수들의 목차에 맞게 색인하기 위해 Levenshtein-distance 알고리즘을 활용하여 각 목차 제목의 문서 내 위치를 특정하고, 목차 별 영역을 구분하였다. 이 과정에서 추출된 각 변수의 정의와 색인 위치를 트리 구조로 정렬하여 효과적으로 검토자에게 전달하기 위해, 사용자 응용 프로그램을 개발하였다. 본 연구에서 제안한 방법을 CSR (Common Structural Rules) 규정집에 적용하였고, 문서 내 변수를 높은 정확도로 인식하여 그 효용성을 확인하였다.
Publication Date 2022-06-02

공민철, 노명일, 김기수, 김종오, 박호균, 김주성, "PDF 문서 내 변수 인식 및 가시화 프로그램 개발", 2022년도 대한조선학회 춘계학술발표회, 제주, p. 198, 2022.06.02-04