info-ideas4334 님의 블로그

디지털 포렌식 정보 블로그 입니다

  • 2025. 4. 14.

    by. info-ideas4334

    목차

      PDF 및 문서 파일 포렌식 – 메타데이터와 편집 흔적 분석

       

       

      PDF 및 문서 파일 포렌식 – 메타데이터와 편집 흔적 분석

       

       

       


      📌 1. 문서 파일 포렌식의 중요성과 대상

      키워드: 문서 파일 포렌식, PDF, DOCX, 전자문서 증거, 위조 탐지

      문서 파일 포렌식은 PDF, DOC(X), XLS(X), PPT(X) 등 다양한 디지털 문서 파일의 작성자, 생성 시점, 수정 내역, 숨겨진 정보, 위조 여부 등을 분석하여 사건의 진위를 규명하는 기법이다. 공문서, 계약서, 이력서, 진단서, 고소장 등 중요한 자료들이 디지털 형태로 작성되고 공유되는 현실에서, 문서 위조나 조작은 법적 분쟁과 형사 사건으로 이어질 수 있는 중요한 범죄 행위다.

      PDF와 워드 문서 등은 육안으로는 변경 여부를 식별하기 어렵지만, 내부에는 풍부한 메타데이터와 편집 이력이 남아 있다. 또한 문서 내부의 숨겨진 객체(예: 보이지 않는 이미지, 매크로, 링크), 삽입된 외부 콘텐츠, 파일 속성 변경 이력 등은 위조 정황이나 사용자의 활동 흔적을 드러내는 데 중요한 역할을 한다.

      디지털 문서는 종이문서와 달리 수정이 간단하고 흔적을 남기기 어렵게 설계된 경우도 많기 때문에, 포렌식 분석은 법적 분쟁에서 진실을 밝히는 결정적인 수단이 되며, 정밀한 시간 정보와 작성자 식별 등을 통해 조작 여부와 조작 시점을 과학적으로 입증할 수 있다.


      📌 2. PDF 포렌식 – 구조와 분석 포인트

      키워드: PDF 구조, 메타데이터, 개체 분석, 타임스탬프, 편집 이력

      PDF(Portable Document Format)는 Adobe Systems에서 개발한 포맷으로, 문서 레이아웃의 고정성과 다양한 멀티미디어 요소 포함이 가능해 광범위한 문서 저장 형식으로 사용된다. 포렌식 분석자는 PDF 내부 구조를 통해 다음과 같은 정보를 분석할 수 있다:

      • 문서 메타데이터: 작성자(author), 생성일(createDate), 수정일(modDate), 응용 프로그램(appName), 문서 버전(version) 등의 정보가 포함되어 있음
      • 객체(Object) 구조: PDF는 내부적으로 수백 개의 개별 객체로 구성되어 있으며, 이미지, 폰트, 링크, 주석 등이 독립적으로 존재함. 조작 시 새로운 객체가 추가되거나 삭제된 흔적이 남는다.
      • XMP 메타데이터: XML 기반 메타데이터가 삽입되어 있으며, 이를 통해 문서 생성 툴과 작성 환경 등을 역추적할 수 있음
      • 시간 정보 비교: 생성일과 수정일, 저장 툴의 타임스탬프 간 불일치 여부를 통해 위조 정황 확인 가능
      • 숨겨진 콘텐츠 탐지: 보이지 않는 이미지, 백색 글자, 레이어 위장 텍스트 등을 분석하여 실제와 다른 시각 효과 여부 판별

      PDF 포렌식에 사용되는 주요 도구로는 PDF Examiner, PDF-Parser, PDFStreamDumper 등이 있으며, 고급 분석에서는 Hex editor를 통한 직접 바이너리 분석도 수행된다. 일부 PDF는 악성 코드나 익스플로잇이 삽입되기도 하므로 보안 분석과 병행한 구조 분석이 필요하다.


      📌 3. 워드 및 오피스 문서 포렌식 – DOCX, XLSX, PPTX 분석

      키워드: 오피스 문서 분석, 수정 이력, 매크로, 문서 속성, 압축 구조

      Microsoft Office 기반 문서(DOCX, XLSX, PPTX 등)는 ZIP 압축 기반의 복합 파일 구조를 가지며, 내부에는 메타데이터, 문서 본문, 설정 정보, 수정 이력 등이 XML 파일 형태로 저장되어 있다. 포렌식 분석자는 이 구조를 해체하여 아래와 같은 요소를 확인한다:

      • docProps/core.xml: 작성자, 제목, 키워드, 생성일, 최종 수정일 등 핵심 메타데이터 저장
      • docProps/app.xml: 문서 작성에 사용된 애플리케이션, 총 페이지 수, 단어 수, 저장 횟수 등
      • word/document.xml: 문서의 실제 본문 내용 저장 영역
      • word/settings.xml / styles.xml: 문서 설정 및 서식 정보 분석
      • vbaProject.bin: 매크로가 포함된 경우 VBA 코드를 담고 있는 파일 (악성 행위 분석 가능)

      포렌식 분석에서는 문서의 생성자와 최종 수정자가 동일한지 여부, 타임스탬프 간의 불일치, 매크로 삽입 시점, 수정 이력의 유무 등을 종합적으로 검토하며, 경우에 따라 자동 저장된 임시 파일, 이전 버전의 백업 파일(.wbk), 이메일 첨부 기록 등을 병행 분석하여 조작 정황을 입증한다.

      도구로는 ExifTool, OpenXML SDK, olevba, OfficeMalScanner 등이 사용되며, XML 파일을 직접 분석하거나 자동 리포팅을 통해 문서 내 의심 지점을 시각화할 수 있다.


      📌 4. 문서 포렌식의 과제와 대응 전략

      키워드: 위조 탐지, 메타데이터 조작, 문서 인증, 증거 제출

      문서 포렌식의 과제는 고의적인 메타데이터 삭제 및 조작, 시간 정보 왜곡, 복사/붙여넣기와 같은 위장 작업, 디지털 서명 위조 등이다. 사용자가 일부러 메타데이터를 비우거나, 문서를 복사 후 재저장해 생성 시점을 조작하는 방식은 흔히 발생하며, 단순한 메타데이터만으로는 진위를 입증하기 어려운 경우도 많다.

      이에 대응하기 위해서는 다음과 같은 전략이 필요하다:

      • 원본 파일 확보: 메일 첨부 원본, 저장된 디바이스의 원본, 클라우드 백업 등을 통해 최초 생성 시점을 확보
      • 해시값 기록 및 비교: 동일한 문서라 주장하지만 해시값이 다를 경우, 위조 여부를 기술적으로 입증 가능
      • 타임라인 연계 분석: 문서 생성 시각과 시스템 로그, 이메일 전송 기록, 사용자의 로그인 세션을 연계하여 조작 정황 분석
      • 전자서명 및 인증서 확인: PDF 및 DOCX 문서에는 전자서명(디지털 서명)을 포함할 수 있으며, 서명이 위조되지 않았는지 인증서 유효성 검증 필요
      • 문서 내부 비교 분석: 동일 문서의 버전 차이, 숨겨진 매크로, 링크 구조 등을 기반으로 실제 작성자의 행위 흐름을 추론

      앞으로는 AI 기반 문서 위조 탐지 기술, 자동 문서 비교 시스템, 법적 증거화 시스템과 통합된 포렌식 솔루션이 도입될 것이며, 문서 포렌식 전문가는 기술적 분석과 함께 법적 문서 관리 기준, 전자문서법, 증거능력 기준에 대한 이해도 필요하다.