○ 기술명 : 문서 필터 (Document Filter)
○ 기술 개요
- 본 이전 기술은 문서 파일을 대상으로 파일 형식을 분석하여 삭제된 파일을 복구하고, 전용 뷰어를 사용하지 않고, 파일 내부 구조를 기반으로 문서 파일을 필터링하여 텍스트 데이터 및 메타 데이터를 추출하는 방법에 대한 것임
- 본 이전 기술은 MS Word/Excel/PowerPoint, HWP, PDF 파일을 대상으로 함
○ 기술 이전 목적 및 필요성
- 다형식의 텍스트 기반 파일은 특정 포멧으로 인코딩 되어 있거나, 압축하여 저장하므로 해당 응용 프로그램이나 전용 뷰어를 이용하지 않으면 문서의 내용을 확인하거나 검색하기 어려움
- 사건 현장에서 다형식의 문서들을 열람하기 위해 해당 전용 뷰어들을 설치할 필요 없이, 문서의 주요 텍스트를 확인할 수 있으며, 비할당 영역에서 문서 형식 구분을 통한 텍스트 추출이 가능함
- 본 이전 기술은 문서 파일이 비할당 영역에 연속적으로 완전하게 존재할 경우 이를 복구하여 텍스트 추출이 가능하다. 파일이 불완전하거나 비연속적으로 존재하여도 MS Word/ Excel/ PowerPoint, HWP, PDF 파일 형식을 분석하여 텍스트 추출을 지원함
○ 기술의 특징 및 장점
- 본 이전 기술은 디스크의 할당 영역에 정상적으로 존재하는 파일 뿐만 아니라 비할당 영역에 존재하는 삭제된 문서 파일이나 데이터 파편에 존재하는 텍스트를 추출함. 비할당 영역의 문서 파일 텍스트는 메타 데이터 참조 혹은 파일 카빙을 이용하여 파일 복구 후, 복구된 파일에서 텍스트를 추출함. 문서 파일이 온전하지 않은 비연속적인 형태로 존재할 경우, 각 파일의 내부 저장 구조를 파악하여 텍스트 저장의 특정 형식을 구분하여 텍스트 추출이 가능함
○ 활용방안 및 기대 성과
- 각 문서 파일의 전용 뷰어를 사용하지 않고, 문서 파일 내부에 존재하는 텍스트를 필터링 하여 추출하는 기술을 이용하여, 키워드 검색 및 패스워드 사전 구축 등 포렌식 조사 시간을 단축할 수 있음
○ 담당연구실 : 디지털포렌식연구실 (02-3290-4738, koreauniv.dfrc@gmail.com)