파이썬(python)으로 RSS 크롤링하는 방법

파이썬으로 RSS 크롤링하기

업무 중에 RSS를 크롤링해야하는 건이 있어서 파이썬을 통해서 RSS를 크롤링하는 방법을 알아보겠습니다.

파이썬으로 RSS 크롤링하기

먼저 파이썬 패키지인 Feedparser를 깔아야 합니다.

pip install feedparser

그리고 기본적인 패키지들을 불러왔습니다.

웹페이지를 위한 Requests와 분석을 위한 BeautifulSoup 불러왔고

출력을 위해서 Pandas도 불러왔습니다.

import feedparser
import pandas as pd
from bs4 import BeautifulSoup
import requests

그리고 제 블로그의 RSS를 불러와봤습니다.

기본 사용법은 feedparser 자습서 사이트에 나와있습니다.

Common RSS Elements — feedparser 6.0.2 documentation

feedparser.readthedocs.io

간단하게 feedparser.parse 명령어로 해당 rss의 내용을 긁어올 수 잇습니다.

그리고 해당 내용은 entries 아래에 다 저장되게 되는데요.

일반적인 RSS는 아래와 같은 구조로 이루어져있다고 합니다.

자습세어는 title과 description, link, pubdate정도로 이루어져 있다고 합니다.

실제 티스토리의 RSS를 사이트에 접속하여 확인해보면

유사하지만 일부 다른 것이 있습니다.

실제 티스토리의 Rss 구조는 아래와 같습니다.

그래서 원하는 정보의 태그를 확인하여 하나씩 가져오면 되는데요.

홈페이지의 예시를 참고하여 만들어보았습니다.

>>> import feedparser
>>> d = feedparser.parse('http://feedparser.org/docs/examples/rss20.xml')
>>> d.feed.title
u'Sample Feed'
>>> d.feed.link
u'http://example.org/'
>>> d.feed.description
u'For documentation <em>only</em>'
>>> d.feed.published
u'Sat, 07 Sep 2002 00:00:01 GMT'
>>> d.feed.published_parsed
(2002, 9, 7, 0, 0, 1, 5, 250, 0)

간단한 코드로 구현할 경우

아래와 같이 잘 동작함을 알 수 있습니다.

혹시 RSS를 크롤링해야할 일이 있으시다면 이런 방법으로 한번 해보시기 바랍니다.

자습서에 워낙 코드가 잘 만들어져 있기 때문에, 코드를 참고하시어 하나씩 만들어가시면 될것 같습니다.

그럼 잘 사용하시기 바랍니다.

728x90

http://www.ktechedu.com/ansan광고

IT전문 한국직업능력교육원 비전공자 취업 전문 IOT,사물인터넷,스마트팜,정보보안 전문 교육기관/우주최강 스펙의 강사진 AI, IOT, DB, 정보보안, 파이썬, 자바, C언어, C++ 전문

https://edueroom.co.kr광고

IT 초보자 온라인 강의 IT 초보자 온라인+모바일 수강, 패키지 등록시 할인, 네트워크,파이썬,C언어

저작자표시

'Tip & Tech > Python' 카테고리의 다른 글

파이썬으로 웹페이지 크롤링 후 글자수 세기 (2)	2022.07.20
파이썬 pip upgrade시 액세스가 거부되었습니다 에러 해결하기 (0)	2022.07.20
파이썬 공공데이터포털 API 연동하기 - JSON 사용 (2)	2022.06.16
파이썬 AES로 암호화하고 푸는 방법 (0)	2022.06.16
파이썬 가상환경 만들기 (2)	2022.06.02

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

파이썬(python)으로 RSS 크롤링하는 방법

파이썬으로 RSS 크롤링하기

'Tip & Tech > Python' 카테고리의 다른 글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역