본문 바로가기
tmp

네이버 기사 크롤링 파이썬 코드(네이버 전체 창)

by m_.9m 2022. 11. 18.

- 예시 그림

 

> 입력 키워드, 추출할 양 설정

> 뉴스 카테고리 제목, URL, date 추출

> 엑셀 파일로 저장

 

- 코드 전문

import requests
from bs4 import BeautifulSoup
import pyautogui
import openpyxl

wb = openpyxl.Workbook()
ws = wb.active

col_Num = 1
row_Num = 2
count = 0

keyword = pyautogui.prompt("검색어를 입력하세요.")
lastpage = pyautogui.prompt("마지막 페이지 번호를 입력하세요.")
ws.title = "naver"
ws.append(['제목','URL', '페이지'])
pageNum = 1
for i in range(1, int(lastpage)*10, 10):
    response = requests.get(f"https://search.naver.com/search.naver?where=news&nso=so%3Add%2Cp%3A1y&sm=tab_jum&sort=1&query={keyword}&start={i}")
    html = response.text
    soup = BeautifulSoup(html, 'html.parser')
    links = soup.select(".news_tit")
    for link in links:
        title = link.text
        url = link.attrs['href']
        print(title, url, i)
        ws.cell(row=row_Num, column=col_Num).value = title
        ws.cell(row=row_Num, column=col_Num + 1).value = url
        ws.cell(row=row_Num, column=col_Num + 2).value = i
        row_Num += 1

    pageNum += 1

wb.save("스마트 팩토리.xlsx")
#50000