본문 바로가기

Python/웹크롤링 기초

python requests 라이브러리

* 라이브러리소개

requests는 HTTP 통신을 위한 파이썬 라이브러리이다.
이 라이브러리를 통해서 원하는 웹사이트나 API주소로 HTTP요청을 보내고 응답을 받을 수 있다.

 

HTTP통신에는 4가지 방식이 있다. (자세한 설명은 추후 정리 예정)

  • GET : requests.get()
  • POST : requests.post()
  • PUT : requests.put()
  • DELETE : requests.delete()

 

크롤링을 할 때는 원하는 곳에 HTTP요청을 보내고, HTML을 String 형태로 받아올 수 있다. 
(만약, html 문서로 바꾸어 구현을 하려고 할 때는 beautifulsoup이라는 라이브러리를 이용하면 된다.)


아래의 기본적인 실습을 할 때는 웹사이트의 정보를 가져와야하기 때문에 GET방식으로 html을 가져오는 것을 해보려고 한다.


* 설치 및 실습 (vscode 환경)

requests는 외부 라이브러리이기 때문에 설치 후 import하여 사용해야한다.

vscode terminal에 명령어로 라이브러리를 설치하면 된다!

pip install requests

 

설치가 완료되면 .py파일에 다음과 같이 소스를 작성한다.

import requests

response = requests.get("https://www.naver.com")
html = response.text
print(html)

 

 

실행을 누르면 터미널에 현재 naver의 메인화면을 구성하는 html이 출력되는 것을 확인 할 수 있다.