- 예시 그림
> 입력 키워드, 추출할 양 설정
> 뉴스 카테고리 제목, URL, date 추출
> 엑셀 파일로 저장
- 코드 전문
import requests
from bs4 import BeautifulSoup
import pyautogui
import openpyxl
wb = openpyxl.Workbook()
ws = wb.active
col_Num = 1
row_Num = 2
count = 0
keyword = pyautogui.prompt("검색어를 입력하세요.")
lastpage = pyautogui.prompt("마지막 페이지 번호를 입력하세요.")
ws.title = "naver"
ws.append(['제목','URL', '페이지'])
pageNum = 1
for i in range(1, int(lastpage)*10, 10):
response = requests.get(f"https://search.naver.com/search.naver?where=news&nso=so%3Add%2Cp%3A1y&sm=tab_jum&sort=1&query={keyword}&start={i}")
html = response.text
soup = BeautifulSoup(html, 'html.parser')
links = soup.select(".news_tit")
for link in links:
title = link.text
url = link.attrs['href']
print(title, url, i)
ws.cell(row=row_Num, column=col_Num).value = title
ws.cell(row=row_Num, column=col_Num + 1).value = url
ws.cell(row=row_Num, column=col_Num + 2).value = i
row_Num += 1
pageNum += 1
wb.save("스마트 팩토리.xlsx")
#50000
'tmp' 카테고리의 다른 글
Type confusion vulnerabilities (0) | 2023.01.18 |
---|---|
네이버 기사 크롤링 파이썬 코드(네이버 뉴스 특정 카테고리) (0) | 2022.11.23 |
Buffer Overflow Attack(달고나 문서) (0) | 2022.08.07 |
[GIT]깃 사용법 (0) | 2022.05.12 |
[ctf] OSINT 관련 링크 (0) | 2022.05.04 |