슬코생

오늘코드 '공공데이터를 활용한 python 기반의 스타벅스/이디야 분석' 박조은님 본문

Data/Project

오늘코드 '공공데이터를 활용한 python 기반의 스타벅스/이디야 분석' 박조은님

ashbeen 2020. 1. 29. 01:03

2019년 9월 21일 서울 창업허브로 데이터 분석 세미나를 다녀왔다.

강사님은 인프런, 오늘코드 에서 코딩 채널을 운영하시는 박조은 강사님!

육아와 회사 일을 같이 할 수 있는 방법을 찾아보다가 오늘코드라는 유투브 채널을 열게 되셨다고 했다. 

✔ 세미나에서 들은 내용을 간략하게 정리하자면

 R보다는 python을 추천해주셨는데, 그 이유는 python은 생태계가 다양해 django, flask, back -end game 등 다양한 서버를 만들 수 있고 다른 생태계에 있는걸 배워보자 할 때 좀 더 친근하게 다가갈 수 있기 때문이다. (주류 언어로 바뀌게 된 계기)

 뿐만 아니라, python은 package, library 굉장히 다양하다. community의 힘! / pycon 행사 한 번 알아보기

 참고로 컨퍼런스에서는 구글 colaboratory 로 노트환경에서 코딩을 했다.

구글 colab 같은 경우에는 주피터 노트북과 같은 환경이고 gmail login/ chrome browser에서 사용하기에 아주 아주 좋다. 하드웨어 가속기 GPU TPU 다 사용가능!

TPU: 알파고 이걸로 개발됨/ 구글의 클라우드 서비스. 무료로 구글의 클라우드 서비스 GPU를 사용할 수 있다는 점이 큰 장점이다.

Anaconda - python을 삼키고 있는 큰 뱀이라고 생각하면 쉽다. Anaconda는 별도의 라이브러리 설치없이 import만 해서 불러와도 된다. ​

Python 분석 핵심 package를 한 번 살펴보자!

numpy  : 수치계산 공학용 계산

scipy : 통계 package

pandas : 파이썬에서 쓸 수 있는 엑셀

dask : 완전 급 부상. pandas에서 많이 옮겨옴. 대용량 데이터 불러오면 pandas는 속도 겁나 느려지는 반면 dask는 되게 빠르다!

코드리뷰

time.sleep(30) #30초 뒤에 실행시켜라
!ls/bin //bin이라는 폴더에 뭐가 들어있는지 다 불러옴
$ls/bin //이것도 다 불러옴

%%html
<marguee //글씨 흘러가게 해줌 whee~
!pip show pandas //pandas가 잘 깔려있는지 확인하고 싶을 때 사용한다. pip show 사용
[![open in colab(이미지 주소)]] //[! 를 사용하면 이미지를 쓸 수 있다.

✔ 상황별 데이터 시각화 패키지 예시

line plots : 주식/비트코인 가격/traffic 양/서버 동접자 수 /매출량/시간대 별 재고량에 사용

bar plots : 막대 그래프로 특정 카테고리의 항목의 수를 세어서 볼 때, 특정 카테고리의 평균값을 구하는데 사용

histogram : 카테고리에 해당되는 수 count => count값이 나옴. 이를 막대그래프로 표현(도수 분포표를 시각화한게 히스토그램)

단, raw data로 했을 때 굉장히 보기 안좋음!

스타벅스/이디야 분석

ediya.robot.txt //크롤링해도 괜찮은 지의 여부를 알 수 있음.  

분석 결과

이디야가 새 점포를 낼 때 스타벅스 옆에 매장을 여는 것을 알 수 있음.

결측치가 너무 많으면 일단 컬럼을 제거하거나 또는 전처리 진행

pandas에서는 하나 이상의 데이터를 띄우려면 list 형태로 가져와야 한다.

.str.contains("커피") //커피라는 단어를 포함하면 True 아니면 False 를 띄움
.loc //행과 열을 같이 쓸 수 있다
.isnull().sum() //결측치가 총 몇 개 인지 알 수 있다

 

Comments