공민철, 노명일, 김기수, 박호균, 김종오, "PDF 문서 내 추출 성분을 활용한 변수 인식 및 색인 방법", 2021년도 대한조선학회 추계학술발표회, 군산, pp. 659, 2021.11.04-05
Abstract | 선박의 건조나 운용을 허가 받기 위하여 조선소는 선급에게 검사를 의뢰하며, 선급은 관련된 규정집을 참조하여 해당 선박이 모든 설계 규정을 준수하고 있는지를 검토한다. 조선 해양 산업 분야의 특성상, 설계의 규모와 범위가 타 산업보다 상대적으로 방대하기 때문에 관련된 설계 규정들도 상세하고 상호 연관되어 있으며 복잡하다. 따라서 전문적으로 검토 업무를 담당하는 실무자라도 관련된 모든 규정을 파악하는 것은 매우 까다로운 일이다. 이에 본 연구에서는 규정집을 자동으로 색인하고, 규정집 내의 변수를 인식하여 각 변수 간의 연결 관계와 색인된 위치를 가시화하는 방법을 제안하였다. 이를 위해 PDF (Portable Document Format) 형식으로 배포되는 규정집 내부의 성분들을 정확하게 추출하여 가공해야 한다. 따라서 본 연구에서는 PDF 성분 추출 라이브러리를 사용하여 규정집 내의 목차, 문자, 수식 등을 추출하였고, 각 성분이 위치한 페이지와 차지하는 크기, 페이지 내의 위치 정보를 함께 저장하였다. 추출한 목차와 문자 성분은 Levenshtein-distance 알고리즘으로 비슷한 성분끼리 매칭하였고, 규정집을 목차에 맞게 색인하였다. 또한, 추출한 문자의 위치 관계를 활용하여 일반 문자열과 첨자를 분리하였고, 이를 이용하여 변수를 인식하였다. 최종적으로, 색인한 규정집과 인식한 변수 결과를 활용하여 각 변수 간의 연결 관계와 색인 위치를 가시화했다. 본 연구에서 제안한 방법을 CSR (Common Structural Rules) 규정집에 적용하였고, 높은 변수 인식률과 색인 정확도를 보여 그 효용성을 확인하였다. |
---|---|
Publication Date | 2021-11-04 |
공민철, 노명일, 김기수, 박호균, 김종오, "PDF 문서 내 추출 성분을 활용한 변수 인식 및 색인 방법", 2021년도 대한조선학회 추계학술발표회, 군산, pp. 659, 2021.11.04-05