
혹시 옛날 문서나 고서를 보면서 "이게 도대체 뭐라고 쓴 건지..." 하며 답답해하신 적 있으신가요? 특히 한자와 일본어, 우리말이 뒤섞여 있고 세로로 쓰인 근대 문서들을 보면 정말 머리가 지끈거리죠.
그런데 이제 AI가 이런 복잡한 옛 문서들을 척척 읽어내는 시대가 오고 있어요! 지난 11월 6일, 국사편찬위원회에서 정말 흥미로운 프로젝트의 시작을 알리는 착수보고회가 열렸거든요.
바로 나라지식정보라는 회사가 주관하는 '한국 근대 다문자 자료 AI 솔루션 개발 및 실증' 프로젝트인데요. 이름만 들어도 뭔가 대단해 보이지 않나요? 이 프로젝트는 과학기술정보통신부 산하 정보통신산업진흥원(NIPA)에서 추진하는 공공AX 사업의 일환이에요.
그런데 이 프로젝트가 왜 이렇게 중요한지 아시나요? 우리나라 근대 시기 문서들은 정말 복잡해요. 한자, 일어, 국한문이 뒤섞여 있고, 여러 나라 언어가 함께 쓰이기도 하죠. 게다가 세로쓰기에 필기체까지... 심지어 시간이 지나면서 손상된 문서들도 많고요.
지금까지는 이런 자료들을 연구하려면 전문가들이 일일이 손으로 해독하고 번역해야 했어요. 시간도 엄청 오래 걸리고 비용도 만만치 않았죠. 그래서 일반 사람들은 접근하기가 정말 어려웠고요.
하지만 나라지식정보에서 개발한 'Ancient Document Cube'라는 AI OCR 엔진이 이 모든 걸 바꿔놓을 예정이에요. 이 기술은 복잡한 근대 문서를 AI가 자동으로 인식하고, 번역하고, 요약까지 해주거든요. 심지어 근거 자료까지 제시한다니 정말 놀랍지 않나요?
더 신기한 건 사용자가 AI의 결과를 확인하고 수정할 수 있다는 점이에요. 이런 피드백을 통해 AI의 정확도가 계속 향상된다고 하니, 사용하면 할수록 더 똑똑해지는 거죠!
이 프로젝트는 2년에 걸쳐 진행돼요. 2025년에는 데이터를 수집하고 AI 기초 모델을 개발하고, 2026년에는 국사편찬위원회 역사정보 서비스를 통해 실제로 현장에서 검증하고 더욱 발전시킬 계획이라고 해요.
프로젝트가 완료되면 정말 멋진 일들이 벌어질 것 같아요. 일단 연구자들은 훨씬 빠르고 효율적으로 근대 자료를 활용할 수 있게 되겠죠. 그리고 일반인들도 이전보다 훨씬 쉽게 우리 역사 자료에 접근할 수 있을 거예요.
더 나아가 이런 자료들을 활용한 다양한 콘텐츠 제작도 활발해질 텐데요. 드라마나 영화, 웹툰 같은 창작물에서도 더 풍부하고 정확한 역사적 배경을 활용할 수 있을 거예요. 심지어 K-드라마나 K-콘텐츠 같은 한류 산업에도 큰 도움이 될 것 같아요!
나라지식정보의 손영호 대표는 "축적된 경험과 기술을 바탕으로 이번 사업을 성공적으로 수행해 국민 누구나 근대 자료를 쉽게 활용할 수 있는 환경을 만들겠다"고 포부를 밝혔어요. 실제로 이 회사는 베이징 국제학술대회에서 우수 연구로 선정되기도 하고, AI 대회에서 상을 받는 등 기술력을 인정받고 있거든요.
특히 나라지식정보는 2008년부터 국립국어원, 국가유산청, 문화체육관광부 등 180여 개 기관과 600여 개의 데이터 사업을 수행해온 전문가들이에요. 그러니까 우리나라 언어와 역사, 문화 데이터에 대해서는 정말 베테랑이라고 할 수 있죠.
이런 프로젝트를 보면 정말 기술의 발전이 놀라워요. 예전에는 몇 달씩 걸리던 일을 AI가 순식간에 처리해주니까요. 하지만 더 중요한 건 이 기술이 우리 역사와 문화를 더 많은 사람들과 공유할 수 있게 해준다는 점인 것 같아요.
앞으로 누구나 쉽게 우리 근대 역사 자료를 접할 수 있게 되면, 우리가 몰랐던 새로운 이야기들을 많이 발견할 수 있을 거예요. 여러분도 이런 서비스가 완성되면 한번 사용해보시고 싶지 않나요?