Domestic Conference

공민철, 노명일, 김기수, 박호균, 김종오, "PDF 추출 성분을 활용한 문서 내 변수 색인 방법", 2021년도 한국CDE학회 하계학술발표회, 제주, pp. 124, 2021.08.25-28

by SyDLab posted Jun 28, 2021
?

단축키

Prev이전 문서

Next다음 문서

ESC닫기

크게 작게 위로 아래로 댓글로 가기 인쇄
Extra Form
Abstract 최근 선박들이 대형화됨에 따라 선박의 설계 규정도 더욱 방대하고 상세해지고 있다. 이러한 규정들은 지속적으로 재정 및 개정되기 때문에 숙련된 검사관이라 할지라도 변경 사항에 대한 누락이 발생할 수 있다. 또한, 규정 내에 서 사용되는 다양한 기호와 수식들은 서로 연결 관계를 가지고 있고, 방대한 분량으로 인해 검사관이 연관성을 검토하기는 쉽지 않다. 이와 같은 혼란을 방지하기 위해서 도면에 대한 승인 작업을 하는 선급에서는 규정의 검색 및 검토 기능을 자동화하고자 하는 시도를 꾸준히 하고 있다. 이에 본 연구에서는 설계 규정의 검색 및 검토 기능을 자동화하고 규정 요소간의 연결 관계를 표기하는 방법을 제안하였다. 해당 기능을 자동화하기 위해, 먼저 문서 내의 각각의 요소를 정확하게 파악하는 절차가 필요하다. 규정을 담은 문서들은 문자열 외에도 수식이나 그림 등 다양한 요소들이 포함되어 있다. 규정들은 주로 PDF (Portable Document Format) 형식으로 배포되고 이러한 요소들을 추출하기 위한 다양한 라이브러리들이 존재한다. 하지만, 문서에는 표, 그림, 수식 등 다양한 형태가 존재하기에 이를 완벽히 추출하는 라이브러리는 찾기 힘들다. 본 연구에서는 추출한 성분 사이의 위치 관계를 활용하여 수식 영역과 문자열 영역으로 구분을 세분화하였다. 두 문자열 사이의 차이를 비교하는 Levenshtein-distance 알고리즘을 적용하여 문서를 목차에 따라 구획화하였다. 또한, 추출된 세부 정보를 토대로 수식과 변수의 정의 및 연결 관계를 표현하기 위한 자료 구조를 제안하였다. 본 연구에서 제안한 방법을 조선 해양 분야에서 흔히 사용하는 CSR (Common Structural Rules) 문서에 적용하여 그 효용성을 확인하였다.
Publication Date 2021-08-25

공민철, 노명일, 김기수, 박호균, 김종오, "PDF 추출 성분을 활용한 문서 내 변수 색인 방법", 2021년도 한국CDE학회 하계학술발표회, 제주, pp. 124, 2021.08.25-28