본문 바로가기

웹크롤링

(4)

Selenium 모듈 !pip install selenium from selenium import webdriver as wb from selenium.webdriver.common.keys import Keys #driver.implicitly_wait(5) 최대지연 5초 #웹 브라우저 실행 driver = wb.Chrome() #해당 URL을 브라우저로 실행 url = 'https://www.naver.com' driver.get(url) #검색창 태그(요소) 검색 input_search = driver.find_element_by_id('query') #검색창에 검색어를 입력할 수 있음. input_search.send_keys('날씨') # 검색할 수 있는 2가지 방식 # 1. 버튼 클릭 #검색버튼 태그(요소) 검색 ..

iframe부분 크롤링 실습 # 웹 개발자도구에서 해당 iframe을 찾아 src주소를 입력해서 찾아들어가야함. import requests as req from bs4 import BeautifulSoup as bs import pandas as pd url = 'https://movie.naver.com' url_sub = '/movie/bi/mi/pointWriteFormList.nhn?code=181381&type=after&isActualPointWriteExecute=false&isMileageSubscriptionAlready=false&isMileageSubscriptionReject=false' url_final = url + url_sub res = req.get(url_final) soup = bs(res.con..

한달동안의 영화 평점 수집 import requests as req from bs4 import BeautifulSoup as bs import pandas as pd movie_date = [] movie_title = [] movie_rate = [] for day in range(20191201,20191226,1): url = "https://movie.naver.com/movie/sdb/rank/rmovie.nhn?sel=cur&tg=0&date="+str(day) res = req.get(url) soup = bs(res.content, 'lxml') title_list = soup.select('div.tit5 > a') rate_list = soup.find_all('td',class_='point') for ind..

음악 TOP50수집 import requests from bs4 import BeautifulSoup as bs url = 'https://music.naver.com/listen/top100.nhn?domain=TOTAL' res = req.get(url) soup = bs(res.text,'lxml') #select(CSS선택자) : 여러 요소를 검색한 후 리스트로 반환 # --> find_all()과 같음 #select_one(CSS선택자) : 하나의 요소만 반환 # --> find()와 같음 rank_list = soup.find_all('td',class_='ranking') name_list = soup.select('a._title > span') artist_list = soup.select('td.artis..

이전 1 다음

티스토리툴바