본문 바로가기

Python/웹크롤링 기초

(4)
pyautogui, for문을 이용해 원하는 페이지만큼 크롤링 하기 - 뉴스기사 가져오기 예제 2️⃣ 이번 예제는 검색어를 입력하고, 원하는 페이지까지 크롤링하는 것이다. 먼저 네이버에 이강인으로 검색하고, 뉴스탭에서 url이 어떻게 변화하는지 확인한다. https://search.naver.com/search.naver?where=news&sm=tab_jum&query=%EC%9D%B4%EA%B0%95%EC%9D%B8 https://search.naver.com/search.naver?where=news&sm=tab_pge&query=%EC%9D%B4%EA%B0%95%EC%9D%B8&start=11 https://search.naver.com/search.naver?where=news&sm=tab_pge&query=%EC%9D%B4%EA%B0%95%EC%9D%B8&start=21 여기서 보면 start..
pyautogui , fstring을 이용한 크롤링 - 뉴스기사 가져오기 예제 1️⃣ import requests from bs4 import BeautifulSoup import pyautogui #프롬프트창으로 입력받기 searchParam = pyautogui.prompt("검색어를 입력하세요 >>> ") #string 합치는 방법1 #requestUrl = "https://search.naver.com/search.naver?where=news&sm=tab_jum&query="+searchParam #fstring으로 합치는방법2 response = requests.get(f"https://search.naver.com/search.naver?where=news&sm=tab_jum&query={searchParam}") html = response.text soup = Beauti..
Beautifulsoup이란 Beautifulsoup 웹 크롤링 할 때 , 해당 페이지의 HTML에서 원하는 데이터를 가져와서 파싱하는 라이브러리이다. 이해하기 쉽게 간단한 예제를 진행해본다. 1. 설치 pip install beautifulsoup4 2. 사용법 soup = BeautifulSoup( html코드, html번역 ) requests 라이브러리와 함께 예제를 통해 쉽게 이해할 수 있다. import requests from bs4 import BeautifulSoup response = requests.get("https://www.naver.com") html = response.text soup = BeautifulSoup(html, 'html.parser') #html 번역역할 word = soup.select_..
python requests 라이브러리 * 라이브러리소개 requests는 HTTP 통신을 위한 파이썬 라이브러리이다. 이 라이브러리를 통해서 원하는 웹사이트나 API주소로 HTTP요청을 보내고 응답을 받을 수 있다. HTTP통신에는 4가지 방식이 있다. (자세한 설명은 추후 정리 예정) GET : requests.get() POST : requests.post() PUT : requests.put() DELETE : requests.delete() 크롤링을 할 때는 원하는 곳에 HTTP요청을 보내고, HTML을 String 형태로 받아올 수 있다. (만약, html 문서로 바꾸어 구현을 하려고 할 때는 beautifulsoup이라는 라이브러리를 이용하면 된다.) 아래의 기본적인 실습을 할 때는 웹사이트의 정보를 가져와야하기 때문에 GET방식..