오늘은 파이썬으로 특정 페이지를 크롤링 한 다음 글자 수를 세는 방법을 알아보겠습니다. 파이썬에서 웹페이지 글자수 세기 먼저 일반적인 크롤링처럼 BeautifulSoup와 request를 불러와야 하고 마지막으로 태그를 제거하기 위해서 re도 불러옵니다. 혹시 파일을 출력할려면 판다스를 통해서 csv나 엑셀로 파일을 내려받을 수 있습니다. from bs4 import BeautifulSoup import requests import re import pandas as pd 그리고 일반적으로 파싱하는 것처럼 파싱을 하면 됩니다. address = "크롤링페이지주소" request = requests.get(address) html = request.text soup = BeautifulSoup(html, ..
파이썬에서 패키지를 설치하다 보면 아래처럼 pip의 버전을 업그레이드 하라는 Warning이 뜨는데요. 파이썬 pip Warning 메시지 아래와 같이 파이썬의 PIP버전이 최신이 아니라서 아래와 같이 PIP를 업그레이드 하라는 에러메시지가 나옵니다. WARNING: You are using pip version 21.2.4; however, version 22.1.2 is available. You should consider upgrading via the 'C:\python\python.exe -m pip install --upgrade pip' command. pip install --upgrade pip 하지만 업그레이드 명령어를 사용하는 경우 관리자 권한으로 사용하더라도 아래와 같은 액세스가 ..
업무 중에 RSS를 크롤링해야하는 건이 있어서 파이썬을 통해서 RSS를 크롤링하는 방법을 알아보겠습니다. 파이썬으로 RSS 크롤링하기 먼저 파이썬 패키지인 Feedparser를 깔아야 합니다. pip install feedparser 그리고 기본적인 패키지들을 불러왔습니다. 웹페이지를 위한 Requests와 분석을 위한 BeautifulSoup 불러왔고 출력을 위해서 Pandas도 불러왔습니다. import feedparser import pandas as pd from bs4 import BeautifulSoup import requests 그리고 제 블로그의 RSS를 불러와봤습니다. 기본 사용법은 feedparser 자습서 사이트에 나와있습니다. Common RSS Elements — feedpars..
오늘은 파이썬으로 공공데이터포털 API와 연동하는 방법을 알아보겠습니다. 오늘 이야기를 하기 전에 먼저 API가 무엇인지부터 알아보도록 하겠습니다. API(application programming interface)란? API는 말그대로 컴퓨터와 컴퓨터간을 연결해주는 인터페이스입니다. 즉 우리가 영수증을 보면 아래처럼 판매처, 날짜, 금액, 거래유형, 이용카드 등의 규격에 맞춰서 표현해주기 때문에 누구든지 이 영수증을 보고 동일한 것으로 이해하게 됩니다. 이러한 영수증 양식에 누군가는 달러로 쓰고, 또 일자를 단군력 등을 사용한다면 소통하기 어려울 것입니다. 그래서 서로 소통하기 편하게 다른 컴퓨터간 데이터를 송수신할때 정한 규격을 API라고 합니다. API(application programming ..
데이터 통신시 데이터 유출은 심각한 문제가 될 수 있습니다. 그래서 업무에서는 주요 데이터를 암호화해서 전송하는데요. 오늘은 이때 암호화를 하고 푸는 방법을 알아보겠습니다. AES 관련 패키지 설치 파이썬에서는 암호화 패키지를 제공하고 있습니다. pycryptodome입니다. Welcome to PyCryptodome’s documentation — PyCryptodome 3.14.1 documentation pycryptodome.readthedocs.io 예전부터 사용되던 PyCrypto와 호환성을 갖게 만든것이 pycryptodome이구요. 아예 새로운 라이브러리는 pycryptodomex입니다. pip3 install pycryptodome 원하시는 버전을 설치하시면 됩니다. 파이썬 AES암호화 ..
파이썬을 작업할 때 가상환경을 만들면 편리한데요. 파이썬 가상환경? 파이썬을 활용하다보면 각각의 앱, 프로그램 개발할때 패키지가 다른 것이 사용됩니다. 그래서 한곳에서 개발을 쭉하다보면 이 프로그램에만 필요한 패키지가 무엇인지 알수가 없게 됩니다. 이때 가상환경을 통해서 프로그램을 개발하면 실제 사용하는 패키지만 가지고 할수 있고, 특히 웹서버 등 제한된 리소스를 가지고 개발해야할 때에는 가상환경에서 작업이 필요합니다. 웹서버에서 다른 프로그램이 사용하고 있는 패키지가 있어서 해당 패키지만을 사용해야 하는 등 실제 개발환경에서는 개인용 PC와 다른 상황이기 때문입니다. 파이썬에서는 이때 가상환경을 venv를 통해서 지원하고 있는데요. https://docs.python.org/ko/3/library/ve..