본문 바로가기
tmp

네이버 기사 크롤링 파이썬 코드(네이버 뉴스 특정 카테고리)

by m_.9m 2022. 11. 23.

- 예시 그림

> 뉴스 카테고리 제목, date 추출

> 엑셀 파일로 저장

 

 

- 코드 전문

import requests
from bs4 import BeautifulSoup
import pyautogui
import openpyxl
import re

wb = openpyxl.Workbook()
ws = wb.active

col_Num = 1
row_Num = 2
count = 0

ws.title = "8월"
ws.append(['제목','date'])
date = 20221116
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}
for i in range(int(date), 20221118):
    print(date)
    response = requests.get(f"https://news.naver.com/main/list.naver?mode=LS2D&mid=shm&sid2=732&sid1=105&date={date}",headers=headers)
    html = response.text
    soup = BeautifulSoup(html, 'html.parser')
    links = soup.select(".lede")

    for link in links:
        title = link.text
        ws.cell(row=row_Num, column=col_Num).value = title
        ws.cell(row=row_Num, column=col_Num + 1).value = date
        row_Num += 1
        print(title, date)
    date += 1


wb.save("test06.xlsx")