이 Python 스크립트는 tabula-py
및 pandas
라이브러리를 사용하여 PDF 파일을 Excel 파일로 변환합니다. PDF 파일의 각 테이블은 Excel 파일의 별도 시트에 기록됩니다.
이 리포지토리는 클라우드에서 완벽하고 구성 가능한 개발 환경을 제공하는 GitHub Codespaces를 사용하도록 구성됩니다. 사용 방법은 다음과 같습니다.
저장소 상단에 있는 Open in Codespaces 버튼을 클릭한 다음 녹색 Codespace 생성 버튼을 클릭합니다. 그러면 새 Codespace에 저장소가 열립니다.
Codespace가 생성될 때까지 기다립니다. GitHub는 이 리포지토리에 대한 새 Codespace를 생성하고 devcontainer.json
파일에 따라 설정합니다. 여기에는 지정된 Docker 이미지 가져오기, postCreateCommand
를 실행하여 tabula-py
및 pandas
설치, 지정된 VS Code 확장 설치가 포함됩니다. 이 프로세스는 몇 분 정도 걸릴 수 있습니다.
PDF 파일을 추가하세요. Codespace가 준비되면 PDF 파일을 저장소에 추가하십시오. 화면 왼쪽에 있는 파일 탐색기에 파일을 끌어다 놓으면 됩니다.
빈 Excel 파일을 추가하세요. 저장소에 빈 Excel 파일을 추가합니다. 파일 탐색기를 마우스 오른쪽 버튼으로 클릭하고 새 파일을 선택하면 됩니다. .xlsx
확장자를 사용하여 파일 이름을 지정합니다.
Python 스크립트를 실행합니다. Codespace가 준비되면 터미널에서 다음 명령을 실행합니다.
파이썬 pdf_to_excel.py
이 스크립트는 PDF 파일을 읽고 해당 테이블을 Excel 파일에 쓰는 pdf_to_excel(pdf_file_path, excel_file_path)
함수를 정의합니다.
이 기능을 사용하는 방법은 다음과 같습니다.
pdf_to_excel('path_to_pdf_file.pdf', 'path_to_excel_file.xlsx')
path_to_pdf_file.pdf
변환하려는 PDF 파일의 경로로 바꾸고 `path_to_excel_file.xlsx`를 Excel 파일을 저장하려는 경로로 바꾸세요.
tabula-py
: PDF의 테이블을 읽을 수 있는 Tabula의 간단한 래퍼입니다.
pandas
: 강력한 데이터 조작 라이브러리입니다.
pip를 사용하여 다음 종속성을 설치할 수 있습니다.
pip3 설치 tabula-py pandas
tabula.read_pdf
함수는 PDF 파일을 읽고 테이블 목록을 반환합니다. 각 테이블은 팬더 DataFrame입니다.
pd.ExcelWriter
컨텍스트 관리자는 Excel 파일에 쓰는 데 사용됩니다.
컨텍스트 관리자 내에서 for 루프는 테이블 목록을 반복합니다. 각 테이블은 pandas 라이브러리에서 제공하는 DataFrame.to_excel
메서드를 사용하여 Excel 파일의 별도 시트에 기록됩니다.