Dorulog
article thumbnail
파이썬으로 웹페이지 크롤링 후 글자수 세기
Tip & Tech/Python 2022. 7. 20. 18:45

오늘은 파이썬으로 특정 페이지를 크롤링 한 다음 글자 수를 세는 방법을 알아보겠습니다. 파이썬에서 웹페이지 글자수 세기 먼저 일반적인 크롤링처럼 BeautifulSoup와 request를 불러와야 하고 마지막으로 태그를 제거하기 위해서 re도 불러옵니다. 혹시 파일을 출력할려면 판다스를 통해서 csv나 엑셀로 파일을 내려받을 수 있습니다. from bs4 import BeautifulSoup import requests import re import pandas as pd 그리고 일반적으로 파싱하는 것처럼 파싱을 하면 됩니다. address = "크롤링페이지주소" request = requests.get(address) html = request.text soup = BeautifulSoup(html, ..