반응형

오늘은 Python에 make2d라는 기능을 통해서 표를 크롤링하는 방법을 알아보겠습니다.

파이썬으로 웹페이지 테이블 크롤링하기 

파이썬으로 웹페이지의 테이블을 크롤링하기 위해서는 기존 패키지 이외에

html_table_parser라는 패키지를 설치하셔야 합니다.

2022.01.03 - [Tip & Tech/Python] - PIP 명령어 정리

 

PIP 명령어 정리

파이썬으로 코딩하다 보면 pip를 자주 만나게 됩니다. 오늘은 이 PIP에 대해서 알아보겠습니다. 파이썬 PIP란? pip는 파이썬의 패키지 인스톨러입니다. 윈도우에서 앱 및 기능에서 설치된 프로그램

dorudoru.tistory.com

파이선 패키지는 PIP로 설치할 수 있는데요. 명령어 정리를 참고하시면 좋습니다.

pip install html_table_parser로 설치해줍니다.

그리고 크롤링하는 것은 간단한데요.

저번에 웹페이지 크롤링 하는 것과 같이 먼저 개발자 도구를 열어서 

먼저 크롤링하고자 하는 곳에서 테이블 명을 확인합니다.

제가 크롤링 하고자 하는 실제 웹페이지의 표의 모습은 아래와 같습니다.

 

테이블명을 확인하고 Beautifulsoup으로 table 함수를 find로 찾아온 다음

찾아온 파일을 make2d로 정리하면 됩니다.

크롤링에 사용되는 requests와 Beautifulsoup, 그리고 이번에 설치한 html_table_parser를 불러오고

파일 출력을 위해서 Pandas까지 불러왔습니다.

테이블을 크롤링하는 이런 편한 함수가 있는지 처음 알았네요.

그리고 마지막은 판다스를 통해서 해당 파일을 CSV로 추출해봤는데요.

아래와 같이 잘 긁어온 것을 확인할 수 있습니다.

파이썬에 함수를 통해서 테이블의 값을 간단하게 크롤링할 수 있는데요. 

웹사이트에서 표에 값을 추출할때 사용하시면 좋습니다.

다양한 방법으로 사용할 수 있으니, 잘 사용하시기 바랍니다.

반응형

복사했습니다!