슬코생
오늘코드 '공공데이터를 활용한 python 기반의 스타벅스/이디야 분석' 박조은님 본문
2019년 9월 21일 서울 창업허브로 데이터 분석 세미나를 다녀왔다.
강사님은 인프런, 오늘코드 에서 코딩 채널을 운영하시는 박조은 강사님!
육아와 회사 일을 같이 할 수 있는 방법을 찾아보다가 오늘코드라는 유투브 채널을 열게 되셨다고 했다.
✔ 세미나에서 들은 내용을 간략하게 정리하자면
R보다는 python을 추천해주셨는데, 그 이유는 python은 생태계가 다양해 django, flask, back -end game 등 다양한 서버를 만들 수 있고 다른 생태계에 있는걸 배워보자 할 때 좀 더 친근하게 다가갈 수 있기 때문이다. (주류 언어로 바뀌게 된 계기)
뿐만 아니라, python은 package, library 굉장히 다양하다. community의 힘! / pycon 행사 한 번 알아보기
참고로 컨퍼런스에서는 구글 colaboratory 로 노트환경에서 코딩을 했다.
구글 colab 같은 경우에는 주피터 노트북과 같은 환경이고 gmail login/ chrome browser에서 사용하기에 아주 아주 좋다. 하드웨어 가속기 GPU TPU 다 사용가능!
TPU: 알파고 이걸로 개발됨/ 구글의 클라우드 서비스. 무료로 구글의 클라우드 서비스 GPU를 사용할 수 있다는 점이 큰 장점이다.
Anaconda - python을 삼키고 있는 큰 뱀이라고 생각하면 쉽다. Anaconda는 별도의 라이브러리 설치없이 import만 해서 불러와도 된다.
✔ Python 분석 핵심 package를 한 번 살펴보자!
numpy : 수치계산 공학용 계산
scipy : 통계 package
pandas : 파이썬에서 쓸 수 있는 엑셀
dask : 완전 급 부상. pandas에서 많이 옮겨옴. 대용량 데이터 불러오면 pandas는 속도 겁나 느려지는 반면 dask는 되게 빠르다!
✔ 코드리뷰
time.sleep(30) #30초 뒤에 실행시켜라
!ls/bin //bin이라는 폴더에 뭐가 들어있는지 다 불러옴
$ls/bin //이것도 다 불러옴
%%html
<marguee //글씨 흘러가게 해줌 whee~
!pip show pandas //pandas가 잘 깔려있는지 확인하고 싶을 때 사용한다. pip show 사용
[![open in colab(이미지 주소)]] //[! 를 사용하면 이미지를 쓸 수 있다.
✔ 상황별 데이터 시각화 패키지 예시
line plots : 주식/비트코인 가격/traffic 양/서버 동접자 수 /매출량/시간대 별 재고량에 사용
bar plots : 막대 그래프로 특정 카테고리의 항목의 수를 세어서 볼 때, 특정 카테고리의 평균값을 구하는데 사용
histogram : 카테고리에 해당되는 수 count => count값이 나옴. 이를 막대그래프로 표현(도수 분포표를 시각화한게 히스토그램)
단, raw data로 했을 때 굉장히 보기 안좋음!
✔ 스타벅스/이디야 분석
ediya.robot.txt //크롤링해도 괜찮은 지의 여부를 알 수 있음.
✔ 분석 결과
이디야가 새 점포를 낼 때 스타벅스 옆에 매장을 여는 것을 알 수 있음.
결측치가 너무 많으면 일단 컬럼을 제거하거나 또는 전처리 진행
pandas에서는 하나 이상의 데이터를 띄우려면 list 형태로 가져와야 한다.
.str.contains("커피") //커피라는 단어를 포함하면 True 아니면 False 를 띄움
.loc //행과 열을 같이 쓸 수 있다
.isnull().sum() //결측치가 총 몇 개 인지 알 수 있다
'Data > Project' 카테고리의 다른 글
[kaggle] Bike Sharing Demand 공공자전거 수요 예측 모델 #3 (0) | 2020.01.29 |
---|---|
[kaggle] Bike Sharing Demand 공공자전거 수요 예측 모델 #2 (0) | 2020.01.29 |
[kaggle] Bike Sharing Demand 공공자전거 수요 예측 모델 #1 (0) | 2020.01.29 |
[멋쟁이 사자처럼 7기] django 이용해 wordcount 해보기 (0) | 2020.01.29 |