반응형
extracting text from subtitle
-
[파이썬] 자막에서 텍스트만 뽑아내기코딩/파이썬 2021. 3. 1. 15:15
최근 외국어 공부를 위해서 자막을 활용한 자료를 만들 기회가 있어서 그때 공부한 파이썬 코드를 정리해 보았습니다. 소스코드는 구글 코랩(google colab)에서 작성하였습니다. 자막에서 텍스트만 뽑아내기(Extracting text from subtitle) 많이 사용되는 자막 파일 확장자는 srt, ass가 있지만 우리나라에서는 smi 확장자를 많이 사용합니다. srt, ass의 경우 간단히 처리할 수 있는 pysub2라는 모듈이 있어서 그것을 사용하였고 smi의 경우 line by line으로 읽어들여서 텍스트만 빼내는 코드를 작성하였습니다. 아래의 코드를 참고해 주세요. smi 파일의 경우 구조가 html 문서와 유사합니다. 그중에서 대사에 해당하는 부분의 구조를 보면 다음과 같습니다. ... ..