- 예시 그림
> 뉴스 카테고리 제목, date 추출
> 엑셀 파일로 저장
- 코드 전문
import requests
from bs4 import BeautifulSoup
import pyautogui
import openpyxl
import re
wb = openpyxl.Workbook()
ws = wb.active
col_Num = 1
row_Num = 2
count = 0
ws.title = "8월"
ws.append(['제목','date'])
date = 20221116
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}
for i in range(int(date), 20221118):
print(date)
response = requests.get(f"https://news.naver.com/main/list.naver?mode=LS2D&mid=shm&sid2=732&sid1=105&date={date}",headers=headers)
html = response.text
soup = BeautifulSoup(html, 'html.parser')
links = soup.select(".lede")
for link in links:
title = link.text
ws.cell(row=row_Num, column=col_Num).value = title
ws.cell(row=row_Num, column=col_Num + 1).value = date
row_Num += 1
print(title, date)
date += 1
wb.save("test06.xlsx")
'tmp' 카테고리의 다른 글
직렬화(Serialization)와 역직렬화(Deserialization) (0) | 2023.01.20 |
---|---|
Type confusion vulnerabilities (0) | 2023.01.18 |
네이버 기사 크롤링 파이썬 코드(네이버 전체 창) (0) | 2022.11.18 |
Buffer Overflow Attack(달고나 문서) (0) | 2022.08.07 |
[GIT]깃 사용법 (0) | 2022.05.12 |