Domestic Conference

공민철, 노명일, 김기수, 박호균, 김종오, "PDF 문서 내 추출 성분을 활용한 변수 인식 및 색인 방법", 2021년도 대한조선학회 추계학술발표회, 군산, pp. 659, 2021.11.04-05

by SyDLab posted Sep 03, 2021
?

단축키

Prev이전 문서

Next다음 문서

ESC닫기

크게 작게 위로 아래로 댓글로 가기 인쇄
Extra Form
Abstract 선박의 건조나 운용을 허가 받기 위하여 조선소는 선급에게 검사를 의뢰하며, 선급은 관련된 규정집을 참조하여 해당 선박이 모든 설계 규정을 준수하고 있는지를 검토한다. 조선 해양 산업 분야의 특성상, 설계의 규모와 범위가 타 산업보다 상대적으로 방대하기 때문에 관련된 설계 규정들도 상세하고 상호 연관되어 있으며 복잡하다. 따라서 전문적으로 검토 업무를 담당하는 실무자라도 관련된 모든 규정을 파악하는 것은 매우 까다로운 일이다. 이에 본 연구에서는 규정집을 자동으로 색인하고, 규정집 내의 변수를 인식하여 각 변수 간의 연결 관계와 색인된 위치를 가시화하는 방법을 제안하였다. 이를 위해 PDF (Portable Document Format) 형식으로 배포되는 규정집 내부의 성분들을 정확하게 추출하여 가공해야 한다. 따라서 본 연구에서는 PDF 성분 추출 라이브러리를 사용하여 규정집 내의 목차, 문자, 수식 등을 추출하였고, 각 성분이 위치한 페이지와 차지하는 크기, 페이지 내의 위치 정보를 함께 저장하였다. 추출한 목차와 문자 성분은 Levenshtein-distance 알고리즘으로 비슷한 성분끼리 매칭하였고, 규정집을 목차에 맞게 색인하였다. 또한, 추출한 문자의 위치 관계를 활용하여 일반 문자열과 첨자를 분리하였고, 이를 이용하여 변수를 인식하였다. 최종적으로, 색인한 규정집과 인식한 변수 결과를 활용하여 각 변수 간의 연결 관계와 색인 위치를 가시화했다. 본 연구에서 제안한 방법을 CSR (Common Structural Rules) 규정집에 적용하였고, 높은 변수 인식률과 색인 정확도를 보여 그 효용성을 확인하였다.
Publication Date 2021-11-04

공민철, 노명일, 김기수, 박호균, 김종오, "PDF 문서 내 추출 성분을 활용한 변수 인식 및 색인 방법", 2021년도 대한조선학회 추계학술발표회, 군산, pp. 659, 2021.11.04-05