한인수, 노명일, 공민철, 이정렬, 박서윤, "자연어 처리 기술을 활용한 선박 규정 검색 알고리즘", 대한조선학회 추계학술발표회, 울산, pp. 113, 2023.11.02-03
Domestic Conference
2023.11.06 19:53
한인수, 노명일, 공민철, 이정렬, 박서윤, "자연어 처리 기술을 활용한 선박 규정 검색 알고리즘", 대한조선학회 추계학술발표회, 울산, pp. 113, 2023.11.02-03
조회 수 1382
첨부 '1' |
---|
Abstract | 선박의 안전한 설계 및 건조를 위해 각국의 선급은 규정들을 마련하고 있고 이를 준수해야 한다. 최근 선박들이 대형화됨에 따라 다양한 부분에 대한 규정이 상세해지고 있다. 따라서 선급에서 검토해야 할 규정은 매우 다양하며, 문서화된 규정들 중에서 특정 내용을 찾기에는 그 분량이 방대하다. 이로 인해 단순히 검색 단어의 일치 여부만을 판단하는 기존 키워드 검색 방식은 수많은 문서에서 해당 키워드를 포함하는 모든 문장을 보여주기 때문에 검색의 효율성이 떨어지며 많은 시간이 소요된다. 또한, 사용자가 특정 키워드를 알고 있어야 검색을 수행할 수 있는 문제가 있다. 이와 같은 어려움을 해소하기 위해, 본 연구에서는 PDF 형식의 규정집에서 글머리 기호를 기준으로 문서를 분할 및 추출하고, 사용자의 검색 문장과 의미적 유사도를 계산하여 높은 유사도를 갖는 규정을 사용자에게 제공하는 알고리즘을 제안하였다. 일반적으로 규정집은 높은 호환성을 갖는 PDF 형식으로 변환되어 배포된다. 이 과정에서 단락 구조 등 원본 문서가 지닌 정보가 손실되기에 단순 열람 외의 응용 작업이 어려운 편이다. 본 연구에서는 먼저 PDF 내에서 문자열 등의 기본 요소를 추출하였다. 이후에 추출한 문자열을 문서 내 글머리 기호를 기준으로 분할하였고, 사용자의 검색 문장과 의미적 유사도를 비교할 수 있는 데이터셋을 생성하였다. 데이터셋과 검색 문장의 자연어 처리를 위해 사전 학습된 sentence-transformers 모델들을 비교 및 분석하여 최종 모델을 선정하였고, 이를 통해 의미적 유사도를 계산하였다. 본 연구에서 제안한 방법을 한국선급의 규정집 (KR-Rules)에 적용하였고, 검색 문장과 높은 의미적 유사도를 보이는 규정을 사용자에게 단시간에 제공하여 그 효용성을 확인하였다. |
---|---|
Publication Date | 2023-11-02 |