파이썬으로 구현하는 웹 크롤러 - 블로그 크롤링 예제

파이썬 기초문법

파이썬으로 구현하는 웹 크롤러 - 블로그 크롤링 예제

Family in August 2023. 4. 7. 09:38

파이썬으로 웹 크롤러를 구현하는 방법을 알아보겠습니다.
이번 포스팅에서는 실전 예제를 통해 웹 크롤링 기술을 배워보도록 하겠습니다.

1. 웹 크롤링 개요
웹 크롤링은 인터넷 상의 정보를 수집하기 위해 자동화된 방법으로 웹 사이트를 탐색하는 기술입니다.
웹 크롤링을 통해 수집된 데이터는 분석, 예측, 추천 등 다양한 분야에 활용될 수 있습니다.

웹 크롤러를 개발하기 위해서는 다음과 같은 단계를 거칩니다.

웹 페이지에 접속하여 HTML 소스코드를 가져온다.
HTML 소스코드에서 원하는 데이터를 추출한다.
추출된 데이터를 저장한다.
이제 위의 단계를 구체적으로 예제를 통해 살펴보겠습니다.

2. 웹 크롤러 예제
이번 예제에서는 네이버 금융의 환율 정보를 수집하는 웹 크롤러를 구현해보겠습니다.

2-1. 필요한 라이브러리 설치
우선 필요한 라이브러리를 설치합니다.
이 예제에서는 requests, bs4 라이브러리를 사용합니다.

!pip install requests
!pip install bs4

2-2. HTML 소스코드 가져오기
우리는 네이버 금융의 환율 정보를 가져와야 하므로, requests 라이브러리를 사용하여 해당 페이지에 접속하여 HTML 소스코드를 가져옵니다.

import requests

url = "https://finance.naver.com/marketindex/"
res = requests.get(url)

print(res.status_code)
print(res.text)

위 코드를 실행하면 200이 출력되며, 해당 페이지의 HTML 소스코드를 출력할 수 있습니다.

2-3. 원하는 데이터 추출하기
이제 HTML 소스코드에서 원하는 데이터를 추출합니다.
이 예제에서는 네이버 금융의 환율 정보 중, 미국 달러 환율 정보를 추출해보겠습니다.

from bs4 import BeautifulSoup

soup = BeautifulSoup(res.text, 'html.parser')
dollar = soup.select_one("#exchangeList > li.on > a.head.usd > div > span.value").text
print("미국 달러 환율: ", dollar)

위 코드를 실행하면, 미국 달러 환율 정보가 출력됩니다.

3. 네이버 블로그 크롤링 예제
네이버 블로그는 HTTP 요청 헤더(User-Agent)에 브라우저 정보를 추가하지 않으면 크롤링을 차단하는 경우가 있으므로, 이를 우회하기 위해 requests 모듈의 headers 인자에 User-Agent 정보를 추가해줍니다.

이번 예제에서는 네이버 블로그 검색 결과 중에서 "파이썬" 키워드가 포함된 포스트 제목과 링크를 추출해보겠습니다.

import requests
from bs4 import BeautifulSoup

query = "파이썬"
url = f"https://search.naver.com/search.naver?where=post&sm=tab_jum&query={query}"
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'}
res = requests.get(url, headers=headers)

soup = BeautifulSoup(res.text, 'html.parser')
posts = soup.select("li.sh_blog_top")

for post in posts:
    title = post.select_one("a.sh_blog_title").text
    link = post.select_one("a.sh_blog_title")['href']
    print(title, link)

위 코드를 실행하면, 검색 결과 중에서 "파이썬" 키워드가 포함된 네이버 블로그 포스트 제목과 링크가 출력됩니다.

이번 포스팅에서는 파이썬으로 네이버 블로그 크롤러를 구현하는 방법을 살펴보았습니다.
웹 크롤링은 다양한 분야에서 활용될 수 있으며, 이를 통해 데이터를 수집하고 분석하는 기술을 익힐 수 있습니다.
하지만, 웹 크롤링을 할 때는 반드시 로봇 배제 표준(robots.txt)을 확인하고, 법적으로 문제가 되는 경우가 있는지 확인하는 것이 중요합니다.

궁금하신 부분은 댓글로 남겨주세요.

'파이썬 기초문법' 카테고리의 다른 글

Pandas DataFrame에서 lambda 활용하기 (1)	2023.04.17
파이썬(Python) lambda 함수의 기초 활용법 (0)	2023.04.17
파이썬으로 시작하는 웹 스크래핑 크롤링: 기초부터 실무 응용까지 (1)	2023.04.07
파이썬 네트워크 프로그래밍 초보자를 위한 가이드(소켓 프로그래밍) (0)	2023.04.07
파이썬으로 날짜와 시간 다루기: datetime 모듈 활용 방법 (0)	2023.03.30

현재글파이썬으로 구현하는 웹 크롤러 - 블로그 크롤링 예제

한국장애인고용공단, 코딩 학습, 실업급여, 데이터 분석, Python, 머신러닝, 문제풀이, 빅데이터, 파이썬 게임, 게임 만들기, dataframe, 판다스, pandas, 기초문법, 연말정산, 파이썬, 게임 코딩, 코테, 코딩 테스트, 알고리즘,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Family in August