오늘은 Python에 make2d라는 기능을 통해서 표를 크롤링하는 방법을 알아보겠습니다.
파이썬으로 웹페이지 테이블 크롤링하기
파이썬으로 웹페이지의 테이블을 크롤링하기 위해서는 기존 패키지 이외에
html_table_parser라는 패키지를 설치하셔야 합니다.
2022.01.03 - [Tip & Tech/Python] - PIP 명령어 정리
파이선 패키지는 PIP로 설치할 수 있는데요. 명령어 정리를 참고하시면 좋습니다.
pip install html_table_parser로 설치해줍니다.
그리고 크롤링하는 것은 간단한데요.
저번에 웹페이지 크롤링 하는 것과 같이 먼저 개발자 도구를 열어서
먼저 크롤링하고자 하는 곳에서 테이블 명을 확인합니다.
제가 크롤링 하고자 하는 실제 웹페이지의 표의 모습은 아래와 같습니다.
테이블명을 확인하고 Beautifulsoup으로 table 함수를 find로 찾아온 다음
찾아온 파일을 make2d로 정리하면 됩니다.
크롤링에 사용되는 requests와 Beautifulsoup, 그리고 이번에 설치한 html_table_parser를 불러오고
파일 출력을 위해서 Pandas까지 불러왔습니다.
테이블을 크롤링하는 이런 편한 함수가 있는지 처음 알았네요.
그리고 마지막은 판다스를 통해서 해당 파일을 CSV로 추출해봤는데요.
아래와 같이 잘 긁어온 것을 확인할 수 있습니다.
파이썬에 함수를 통해서 테이블의 값을 간단하게 크롤링할 수 있는데요.
웹사이트에서 표에 값을 추출할때 사용하시면 좋습니다.
다양한 방법으로 사용할 수 있으니, 잘 사용하시기 바랍니다.
'Tip & Tech > Python' 카테고리의 다른 글
파이썬으로 엑셀하기 - sumif 함수 구현 (2) | 2022.05.31 |
---|---|
파이썬 워드 클라우드(Word cloud) 만들기 (6) | 2022.04.26 |
파이썬 텔레그램 챗봇 만들기 - 인포메시지 및 명령어 설정하기 (10) | 2022.02.23 |
파이썬 CSV 엑셀 한글 깨짐 해결하기 (16) | 2022.02.17 |
유튜브 채널 ID 추출하는 방법 (8) | 2022.01.26 |