업무 중에 RSS를 크롤링해야하는 건이 있어서 파이썬을 통해서 RSS를 크롤링하는 방법을 알아보겠습니다.
파이썬으로 RSS 크롤링하기
먼저 파이썬 패키지인 Feedparser를 깔아야 합니다.
pip install feedparser
그리고 기본적인 패키지들을 불러왔습니다.
웹페이지를 위한 Requests와 분석을 위한 BeautifulSoup 불러왔고
출력을 위해서 Pandas도 불러왔습니다.
import feedparser
import pandas as pd
from bs4 import BeautifulSoup
import requests
그리고 제 블로그의 RSS를 불러와봤습니다.
기본 사용법은 feedparser 자습서 사이트에 나와있습니다.
간단하게 feedparser.parse 명령어로 해당 rss의 내용을 긁어올 수 잇습니다.
그리고 해당 내용은 entries 아래에 다 저장되게 되는데요.
일반적인 RSS는 아래와 같은 구조로 이루어져있다고 합니다.
자습세어는 title과 description, link, pubdate정도로 이루어져 있다고 합니다.
실제 티스토리의 RSS를 사이트에 접속하여 확인해보면
유사하지만 일부 다른 것이 있습니다.
실제 티스토리의 Rss 구조는 아래와 같습니다.
그래서 원하는 정보의 태그를 확인하여 하나씩 가져오면 되는데요.
홈페이지의 예시를 참고하여 만들어보았습니다.
>>> import feedparser
>>> d = feedparser.parse('http://feedparser.org/docs/examples/rss20.xml')
>>> d.feed.title
u'Sample Feed'
>>> d.feed.link
u'http://example.org/'
>>> d.feed.description
u'For documentation <em>only</em>'
>>> d.feed.published
u'Sat, 07 Sep 2002 00:00:01 GMT'
>>> d.feed.published_parsed
(2002, 9, 7, 0, 0, 1, 5, 250, 0)
간단한 코드로 구현할 경우
아래와 같이 잘 동작함을 알 수 있습니다.
혹시 RSS를 크롤링해야할 일이 있으시다면 이런 방법으로 한번 해보시기 바랍니다.
자습서에 워낙 코드가 잘 만들어져 있기 때문에, 코드를 참고하시어 하나씩 만들어가시면 될것 같습니다.
그럼 잘 사용하시기 바랍니다.
'Tip & Tech > Python' 카테고리의 다른 글
파이썬으로 웹페이지 크롤링 후 글자수 세기 (2) | 2022.07.20 |
---|---|
파이썬 pip upgrade시 액세스가 거부되었습니다 에러 해결하기 (0) | 2022.07.20 |
파이썬 공공데이터포털 API 연동하기 - JSON 사용 (2) | 2022.06.16 |
파이썬 AES로 암호화하고 푸는 방법 (0) | 2022.06.16 |
파이썬 가상환경 만들기 (2) | 2022.06.02 |