프로그램언어+/┗Crawling 25

BeautifulSoup 기본 및 활용

[기본]import urllib.requestimport urllib.parse ○ GET요청시 3가지 포인트 1. 방식GET, POST, PUT, DELETE2. 대상http://www.naver.com => 호스트이름3. 추가 정보-경로 : /images/adb-데이터 : ?board=1&id=50 위를 코딩해보자. api = "http://www.naver.com"values = {"board" : "1","id" : "50",} import urllib.request #밑의 url 내용을 들고 올 수 있게 해주는 모듈from bs4 import BeautifulSoup # BeautifulSoup들고와서 밑에 객체 만들 url = ""response = urllib.request.urlopen(u..

웹 크롤러 - 파이썬(1일)

개발을 하는 과정을 즐기고 알아보자. ○ 파이썬 사용하는 이유1. 다양한 모듈2. 가독성3. 빠른 개발 ○ 목표 : 웹 크롤러 ○ 개요 ' 웹 크롤러란?' 방대한 웹을 돌아다니며 각종 정보를 수집하는 주체.혹은 스파이더링(spidering)라고 부르기도한다.검색 엔진과 같은 여러 사이트에서는 데이터의 최신 상태 유지를 위해 항상 웹 크롤링을 합고,웹 크롤러는 대체로 방문한 사이트의 모든 페이지의 복사본을 생성하는 데 사용된다.또한 크롤러는 링크체크나 HTML 코드 검증과 같은 웹 사이트의 자동 유지 관리 작업을 위해 사용되기도 하며, 자동 이메일 수집과 같은 웹 페이지의 특정 형태의 정보를 수집하는데도 사용한다.웹 크롤러는 봇이나 소프트웨어 에이전트의 한 형태로 대개 시드(seed)라고 불리는 URL리스..