공민철, 노명일, 김기수, 박호균, 김종오, "PDF 추출 성분을 활용한 문서 내 변수 색인 방법", 2021년도 한국CDE학회 하계학술발표회, 제주, pp. 124, 2021.08.25-28
Abstract | 최근 선박들이 대형화됨에 따라 선박의 설계 규정도 더욱 방대하고 상세해지고 있다. 이러한 규정들은 지속적으로 재정 및 개정되기 때문에 숙련된 검사관이라 할지라도 변경 사항에 대한 누락이 발생할 수 있다. 또한, 규정 내에 서 사용되는 다양한 기호와 수식들은 서로 연결 관계를 가지고 있고, 방대한 분량으로 인해 검사관이 연관성을 검토하기는 쉽지 않다. 이와 같은 혼란을 방지하기 위해서 도면에 대한 승인 작업을 하는 선급에서는 규정의 검색 및 검토 기능을 자동화하고자 하는 시도를 꾸준히 하고 있다. 이에 본 연구에서는 설계 규정의 검색 및 검토 기능을 자동화하고 규정 요소간의 연결 관계를 표기하는 방법을 제안하였다. 해당 기능을 자동화하기 위해, 먼저 문서 내의 각각의 요소를 정확하게 파악하는 절차가 필요하다. 규정을 담은 문서들은 문자열 외에도 수식이나 그림 등 다양한 요소들이 포함되어 있다. 규정들은 주로 PDF (Portable Document Format) 형식으로 배포되고 이러한 요소들을 추출하기 위한 다양한 라이브러리들이 존재한다. 하지만, 문서에는 표, 그림, 수식 등 다양한 형태가 존재하기에 이를 완벽히 추출하는 라이브러리는 찾기 힘들다. 본 연구에서는 추출한 성분 사이의 위치 관계를 활용하여 수식 영역과 문자열 영역으로 구분을 세분화하였다. 두 문자열 사이의 차이를 비교하는 Levenshtein-distance 알고리즘을 적용하여 문서를 목차에 따라 구획화하였다. 또한, 추출된 세부 정보를 토대로 수식과 변수의 정의 및 연결 관계를 표현하기 위한 자료 구조를 제안하였다. 본 연구에서 제안한 방법을 조선 해양 분야에서 흔히 사용하는 CSR (Common Structural Rules) 문서에 적용하여 그 효용성을 확인하였다. |
---|---|
Publication Date | 2021-08-25 |
공민철, 노명일, 김기수, 박호균, 김종오, "PDF 추출 성분을 활용한 문서 내 변수 색인 방법", 2021년도 한국CDE학회 하계학술발표회, 제주, pp. 124, 2021.08.25-28