Notice
Recent Posts
Recent Comments
Link
«   2025/04   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
Tags
more
Archives
Today
Total
관리 메뉴

빅데이터는 어떻게 마케팅의 무기가 되는가

[참존마스크] 17385개의 리뷰 긁어오기 ctrl+c, ctrl+v ? 본문

마케팅 업무/데이터분석과 활용

[참존마스크] 17385개의 리뷰 긁어오기 ctrl+c, ctrl+v ?

분석과활용 2022. 5. 28. 18:46

상품을 분석할 때 가장 기본이 무엇일까요?

판매상품에 대한 구매자의 평가죠.

 

온라인에서 제품을 판매한다면

그 평가는 제품리뷰일 것입니다.

 

리뷰를 긁어온다음 분석하여

가장 많이 등장하는 단어가 무엇인지

구매자들의 공통관심사를 파악해볼 요량입니다.

 

오늘은 요즘 한참 인기있는 제품인

'참존마스크'의 리뷰를 살펴보려 합니다.

 

그런데 인기있는 만큼 리뷰의 개수도 많네요...

17385개의 리뷰가 있습니다.

리뷰를 긁어와야 하는데 ctrl+c, ctrl+v 17385번..

아니죠..ㅎㅎ

 

한번에 위에서 아래까지 드래그해서 복사하면 된다고요?

1페이지의 리뷰개수를 세어보니 총20개의 리뷰가 보입니다.

 

17385개를 20으로 나누면 869.25

저 끝없는 다음 뒤엔 최소 869페이지까지 있겠군요..

손으로 직접 869번의 복사를 하는 것은

시간적으로도 육체적으로도

무엇보다 정신적으로 비효율적일 것 같네요^^;

 

우리는 스마트하게 일을 해봅시다!

PYTHON이라는 언어를 사용하여

자동으로 리뷰를 긁어오겠습니다.

 

1. pandas 불러오기, selenium설치

먼저 JUPYTER노트북에서 코딩을 할 건데요

pandas를 불러오고 selenium은 설치가 돼있지 않아서

따로 설치해 보겠습니다.

설치방법은 코딩창에 ! 를 붙이고 pip install을 적어주면 됩니다.

저는 selenium 3.141버전을 설치하는 모습입니다.

 

그럼 이제 본격적으로 리뷰를 긁어오는 코딩을 시작하겠습니다.

 

2. webdriver를 이용해 chrome 제어하기

여러 인터넷 브라우저 가운데 webdriver 를 이용하면

손을 대지않고도 chrome을 제어할 수 있습니다.

 

크롬에서의 참존마스크 홈페이지 링크를 걸어준뒤

페이지가 전부 켜지는 속도는

다양한 컴퓨터 사양을 고려해 5초로 설정했습니다.

 

그리고 클릭하고자 하는 리뷰버튼이 있는 곳까지

스크롤을 내리기위해 2000으로 설정해줬습니다.

 

이제 리뷰버튼 찾았으면 클릭을 해야죠!

리뷰버튼의 위치는 xpath 값을 이용합니다.

해당 리뷰버튼 위치를 찾고 마우스 오른쪽 버튼을 누르면

copy에서 xpath 값으로 골라주면 됩니다.

 

 

3. DataFrame에 리뷰담기

 

다음 리뷰안에서 수집할 항목을 정해줍니다.

<평점>, <아이디>, <리뷰날짜>, <리뷰>

이렇게 4가지 항목을 만들어주고

만들어준 항목의 위치도 xpath 값을 이용하여 지정합니다.

이제 첫페이지 20개의 리뷰를 긁어오겠습니다.

긁어온 데이터의 형태를 봐보면

20개의 행(리뷰)과 4개의 열(항목)으로 구성돼있습니다.

 

한번 실제 페이지의 리뷰와 비교해볼까요?

긁어온 순서는 다르지만

같은 내용의 리뷰를 잘 긁어왔습니다.

 

다음 시간엔 다음페이지를 이어서 긁어오는 방법과

리뷰에 가장 많이 등장하는 단어가 무엇인지

구매자들의 공통관심사를 파악해 보겠습니다.

Comments