tmp
네이버 기사 크롤링 파이썬 코드(네이버 뉴스 특정 카테고리)
m_.9m
2022. 11. 23. 12:07
- 예시 그림
> 뉴스 카테고리 제목, date 추출
> 엑셀 파일로 저장
- 코드 전문
import requests
from bs4 import BeautifulSoup
import pyautogui
import openpyxl
import re
wb = openpyxl.Workbook()
ws = wb.active
col_Num = 1
row_Num = 2
count = 0
ws.title = "8월"
ws.append(['제목','date'])
date = 20221116
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}
for i in range(int(date), 20221118):
print(date)
response = requests.get(f"https://news.naver.com/main/list.naver?mode=LS2D&mid=shm&sid2=732&sid1=105&date={date}",headers=headers)
html = response.text
soup = BeautifulSoup(html, 'html.parser')
links = soup.select(".lede")
for link in links:
title = link.text
ws.cell(row=row_Num, column=col_Num).value = title
ws.cell(row=row_Num, column=col_Num + 1).value = date
row_Num += 1
print(title, date)
date += 1
wb.save("test06.xlsx")