300만 개 PDF를 검색 가능하게 만든 개발자들

엡스타인 문서 공개 이후, 개발자들이 AI로 정부 문서의 접근성을 혁신하고 있다. 투명성과 민주주의에 미치는 영향을 살펴본다.

300만 개 PDF 속에서 바늘 찾기

작년 11월, 미 하원 감독위원회가 제프리 엡스타인 관련 문서 2만 페이지를 공개했을 때, 개발자 루크 이겔과 친구들은 좌절했다. PDF 뷰어는 "끔찍했고", 이메일 스레드는 뒤죽박죽이었다. 몇 달 뒤 법무부가 추가로 공개한 문서는 300만 개에 달했다. 모두 PDF였다.

문제는 단순히 양이 아니었다. 정부가 OCR(광학문자인식)을 돌렸지만 품질이 형편없어서 사실상 검색이 불가능했다. "인터페이스가 아예 없었어요." 이겔의 말이다.

그래서 그들은 직접 만들기로 했다.

시민이 만든 정부 문서 검색 엔진

이겔과 동료들이 개발한 도구는 단순하지만 강력했다. AI를 활용해 PDF 텍스트를 정확히 추출하고, 검색 가능한 형태로 변환했다. 사용자들은 이제 "비행 기록", "금융 거래", "특정 인물"과 같은 키워드로 수백만 개 문서를 순식간에 검색할 수 있다.

결과는 놀라웠다. 언론인들이 몇 달 걸릴 탐사보도 자료를 몇 시간 만에 찾아냈다. 시민 감시단체들이 정부 계약서의 숨겨진 조항들을 발견했다. 연구자들이 이전에는 불가능했던 패턴 분석을 시작했다.

광고주 모집

[email protected]

하지만 모든 반응이 긍정적이지는 않다.

투명성 vs 프라이버시, 어디까지가 적절할까

정부 투명성 옹호자들은 환호했다. "민주주의의 승리"라고 평가했다. 시민들이 세금으로 만들어진 정보에 쉽게 접근할 수 있게 됐다는 것이다.

반면 프라이버시 전문가들은 우려를 표했다. 문서에 포함된 개인정보나 민감한 수사 내용이 무분별하게 노출될 가능성을 지적했다. "검색이 쉬워진다는 것은 악용도 쉬워진다는 뜻"이라는 지적이다.

정부 기관들의 반응은 미묘하다. 공식적으로는 "투명성 증진"을 환영한다고 하지만, 실제로는 향후 문서 공개 방식을 재검토하고 있다는 후문이다.

한국에서도 가능할까

국내에서도 비슷한 시도들이 있었다. 정보공개청구로 받은 정부 문서들을 분석하는 시민 개발자들이 늘고 있다. 하지만 여전히 많은 문서가 이미지 형태로 제공되거나, 검색하기 어려운 형태로 공개된다.

네이버나 카카오 같은 국내 IT 기업들이 이런 기술을 시민사회에 제공한다면? 국정감사 자료부터 지방정부 예산서까지, 시민들의 정부 감시 능력이 획기적으로 향상될 수 있다.

물론 우려도 있다. 개인정보보호법이 엄격한 한국에서는 공개 범위와 방식을 더 신중히 검토해야 할 것이다.

300만 개 PDF 속에서 바늘 찾기

시민이 만든 정부 문서 검색 엔진

투명성 vs 프라이버시, 어디까지가 적절할까

한국에서도 가능할까

의견

기자

관련 기사