[예전에 프로그램 만들었던 것을 까먹지 않고 정리 하기위함 입니다.]
15년 12월쯤 파이썬에 대해 알게되고 프로그램 하나 만들어보자는 생각에
어떤 것을 만들면 재미있을까 싶었던 찰나에
유튜브에서 짧은 시간에 스크래피를 이용해 프로그램을 만드는것을 보고
'이거다!'라고 결심하게 되었다.
평소 웹툰을 많이 좋아하니 웹툰을 한번 저장 해보는건 어떨까. 라는 생각에
여기저기 정보를 찾기 시작
당시 한글로 된 scrapy관련 문서가 많지 않아서 힘들었다는...
[사용하는 라이브러리(python 2.7 기준)]
python의 버전에 따라서 사용되는 라이브러리 버전이 다를수 있다.
import requests from scrapy.selector import Selector |
selector를 이용하여 html중 원하는 값을 가져올수 있다.
import urllib2 from urllib2 import Request |
주어진 url에서 데이터를 뽑아온다
import httplib from urlparse import urljoin, urlunparse |
url끼리 합치고 조합한다.
마구잡이로 만들다보니 사용하지 않는것들이 있을수 있다.
[알고리즘]
요일 입력(디폴트 현재요일) -> 웹툰 제목 입력 -> 선택한 웹툰 1페이지의 몇개의 화가 있는지 목록 확인 (신작 아니면 보통 10개 )-> 최신화부터 차례대로 다운로드
[긁어오는 방법]
css selector를 이용한다 ex) 요일입력시 해당 요일의 웹툰 url 추출
[ links = sel.css('.img_list .thumb a::attr(href)').extract()#웹툰 url ]

이런식으로 사용하여 마지막엔 웹툰 화의 갯수, 선택한 화의 이미지 갯수 등을 변수로 주고
for문으로 전체적인 이미지를 다운로드 할수 있다.

[이 프로그램은 이렇게도 사용 할 수 있다라는것을 보여주는것 일 뿐 불법적인 용도로 사용하시면 안됩니다. 법적책임은 본인에게!]