[Python] 크롤링 예제. Lv3 자바스크립트 렌더링 크롤링 풀이

본 게시글은 nomade.kr의 문제를 보고 풀이한 게시글입니다.


문제주소

https://askdjango.github.io/lv3/



문제 화면

여기서 list 제목만 출력해 보겠습니다.



1. 페이지 살펴보기

[오른마우스 클릭] - [페이지소스보기]를 선택하여 확인한 결과 자바스크립트로 보내주고 있는 것을 확인하였습니다.

그렇다면 이 자바스크립트를 가지고 와서 출력하면 되겠네요.

주의사항

BeautifulSoup는 해당 자바스크립트 부분을 일반 문자열로 인식하기 때문에 따로 가져와서 출력해줘야 합니다.


1
2
3
4
5
6
import re #정규표현식
import requests
 
url = 'https://askdjango.github.io/lv3/'
html = requests.get(url).text
print(html)
cs

url을 html에 넣고 text로 출력해보았습니다.


나오긴 나왔지만 모든내용 전체가 나왔습니다.

당연한 결과죠. 이제 이부분을 제가 원하는 name부분만 잘라내 보려고 합니다.



자바스크립트 마지막엔 항상 세미콜론(;)이 있으므로 정규표현식을 사용하여 세미콜론 별로 잘라내 보겠습니다.



2. 단순 정규표현식의 이해

1
2
3
4
5
6
7
8
9
10
11
import re #정규표현식
import requests
 
url = 'https://askdjango.github.io/lv3/'
html = requests.get(url).text
 
#정규표현식에서 일부만 매칭되길 원하면 search
#정규표현식에서 전부를 매칭되길 원하면 match를 사용
#re.search(r'var courses = ();') # 끝에 있는 ()부분을 뽑아내겠다는 뜻
re.search(r'var courses = (.*);', html) # .: 모든 *:문자열 즉 .* :모든문자열

cs

re.search를 사용하여 html문자열 안에 var courses 의 모든문자열(.*) 을 뽑아내겠다는 뜻입니다.


하지만 None를 리턴했기 때문에 반응이 없습니다.


왜그럴까?

파이썬 re 공식문서 (클릭) 에 보시면


라고 나와있습니다.

이 내용이 무엇이냐면 스페셜 캐릭터가 전부 매칭이 되는데, ' . ' 옵션을 주면 newline까지 같이 포함하게 됩니다.

하지만 이 옵션(' . ')이 없으면 newline를 포함하지 않습니다.


지금 이 스크립트에는 한줄 끝날때마다 개행(newline)가 시작되기 때문에 (' , '때문에) 이 필요한 것입니다.

즉 re.S 옵션을 포함시켜줘야 값을 리턴할 수 있다는 말입니다. 


코드수정

1
2
3
4
5
6
7
import re #정규표현식
import requests
 
url = 'https://askdjango.github.io/lv3/'
html = requests.get(url).text
 
re.search(r'var courses = (.*);', html, re.S) # re.S를 사용하여 개행을 포함하여 인식한다
cs

re.S를 추가시킨 후 실행해 보겠습니다.



지저분하지만 "name": "개발환경 구축하기"라고 반갑게 맞이하고 있습니다.

디테일하게 깎아보겠습니다.



코드

1
2
3
4
5
6
7
8
9
10
11
12
import re #정규표현식
import requests
 
url = 'https://askdjango.github.io/lv3/'
html = requests.get(url).text
 
#matched 변수에 저장을 합니다
matched = re.search(r'var courses = (.*);', html, re.S)
 
#group으로 모두 출력하는데 1번째줄부터 출력합니다.
#만약 (0)을 주면 첫째줄인 var courses = [도 출력될것입니다.
print(matched.group(1))
cs

8번째줄부터 12번째줄 수정.

코드설명은 주석을 달았습니다.



group(1)을 사용하여 var courses안의 1번째줄부터 출력된 것을 확인할 수 있습니다.

보시면 모든 세미콜론(;)을 출력했네요.



그러므로 우린 첫번째 세미콜론만 잘라서 출력해보겠습니다.


? 를 사용한 최소매칭

1
2
3
4
5
6
7
8
9
10
import re #정규표현식
import requests
 
url = 'https://askdjango.github.io/lv3/'
html = requests.get(url).text
 
# ' ? '을 사용하여 최소 매칭을 해줍니다.
matched = re.search(r'var courses = (.*?);', html, re.S)
 
print(matched.group(1))
cs

8번째 줄만 수정


첫번째 세미콜론 까지만 최소매칭되어 출력되었네요!

그렇다면 이부분이 json문자열로 지정할수 있겠죠?



json 문자열로 지정

1
2
3
4
5
6
7
8
9
10
11
12
import re
import requests
import json #json
 
url = 'https://askdjango.github.io/lv3/'
html = requests.get(url).text
 
matched = re.search(r'var courses = (.*?);', html, re.S)
 
#print를 json_string으로 변경
json_string = matched.group(1)
json.loads(json_string)
cs


json형태로 잘 가져왔습니다.

이제 다왔습니다 이 목록들을 예쁘게 출력해 보겠습니다.


json 예쁘게 출력하기

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
import re
import requests
import json
 
url = 'https://askdjango.github.io/lv3/'
html = requests.get(url).text
matched = re.search(r'var courses = (.*?);', html, re.S)
json_string = matched.group(1)
 
#json을 output_list에 삽입
output_list = json.loads(json_string)
 
#json 차례대로 
for output in output_list:
    print('{name} {url}'.format(**output))
cs



예쁘게 성공했습니다!!




저작자 표시 비영리 변경 금지

댓글 없음:

댓글 쓰기