Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[4주차 과제][최종과제 준비] 분석해보고 싶은 데이터 소스를 구해오세요! #14

Open
s5646s opened this issue Jul 28, 2024 · 3 comments

Comments

@s5646s
Copy link
Contributor

s5646s commented Jul 28, 2024

요구사항

  • 자신이 흥미/관심있는 분야에 대한 데이터
  • 분석하기에 충분히 의미있게 사이즈가 큰 데이터 ( >= 1GB)

우대사항

  • 데이터에 대한 추가 정제 작업이 필요한 경우
  • 데이터셋을 부가적인 작업을 통해 직접 뽑아내야 하는 경우 (ex. 크롤링)
@s5646s
Copy link
Contributor Author

s5646s commented Jul 28, 2024

데이터 구하기 좋은 사이트

Kaggle Datasets:
https://www.kaggle.com/datasets
머신러닝 및 데이터 과학 커뮤니티를 위한 플랫폼으로, 다양한 주제의 데이터셋을 제공합니다. 사용자들은 데이터셋을 탐색하고, 다운로드하고, 분석 및 학습 프로젝트에 사용할 수 있습니다.

King County Data (King County, WA, USA):
https://data.kingcounty.gov/
미국 워싱턴주의 킹 카운티에서 제공하는 공개 데이터 포털입니다. 지역 내 다양한 공공 서비스, 인구 통계, 지리 공간 데이터 등 다양한 데이터를 제공합니다.

공공데이터포털 (Data.go.kr):
https://www.data.go.kr/
대한민국 정부의 공공 데이터 포털로, 다양한 정부 기관에서 제공하는 공공 데이터셋을 한곳에서 검색하고 다운로드할 수 있습니다. 경제, 사회, 건강, 교통 등 여러 분야의 데이터를 포함하고 있습니다.

UCI Machine Learning Repository:
https://archive.ics.uci.edu/ml/index.php
다양한 연구 분야에서 사용 가능한 고품질의 데이터셋을 제공합니다.

Google Dataset Search:
https://datasetsearch.research.google.com/
구글의 데이터셋 검색 엔진으로, 전 세계의 다양한 공개 데이터셋을 찾을 수 있습니다.

Data.gov (미국 정부 데이터 포털):
https://www.data.gov/
미국 정부에서 제공하는 다양한 공개 데이터셋을 제공합니다.

Open Data Portal (유럽 데이터 포털):
https://data.europa.eu/euodp/en/data/
유럽연합의 데이터 포털로, 다양한 공공 데이터셋을 찾을 수 있습니다.

World Bank Open Data:
https://data.worldbank.org/
세계은행에서 제공하는 글로벌 경제, 인구 및 사회 통계 데이터를 제공합니다.

AWS Public Datasets:
https://registry.opendata.aws/
아마존 웹 서비스에서 제공하는 다양한 분야의 대용량 공개 데이터셋을 제공합니다.

FiveThirtyEight:
https://data.fivethirtyeight.com/
데이터 저널리즘 사이트로, 정치, 경제, 스포츠 등 다양한 주제의 데이터셋을 제공합니다.

Statista:
https://www.statista.com/
전 세계의 시장 통계와 소비자 데이터에 대한 데이터베이스입니다. 일부 데이터는 유료로 제공됩니다.

Quandl:
https://www.quandl.com/
금융, 경제, 사회 지표 등에 대한 다양한 데이터셋을 제공합니다. 일부 데이터는 유료입니다.

OpenWeatherMap:
https://openweathermap.org/api
기상 데이터 API를 통해 전 세계의 날씨 데이터를 제공합니다.

통계청 (KOSIS, 통계정보시스템):
http://kosis.kr/
대한민국 통계청에서 제공하는 통계 포털로, 경제, 사회, 인구, 산업 등 다양한 주제의 통계를 제공합니다. 사용자는 원하는 형태로 데이터를 시각화하거나 다운로드할 수 있습니다.

서울 열린 데이터 광장:
https://data.seoul.go.kr/
서울시에서 제공하는 공공 데이터 포털로, 교통, 환경, 복지 등 서울시와 관련된 다양한 데이터를 제공합니다. 실시간 데이터를 포함하여 다양한 형식으로 다운로드 가능합니다.

국토교통부 실거래가 공개시스템:
http://rt.molit.go.kr/
국토교통부에서 제공하는 부동산 실거래가 데이터를 제공합니다. 아파트, 오피스텔, 상가 등의 실거래 정보를 검색하고 다운로드할 수 있습니다.

교육부 교육통계서비스 (EDSS):
https://www.kedi.re.kr/khome/main/webhome/Home.do
교육부 및 한국교육개발원에서 제공하는 교육 관련 통계 데이터베이스입니다. 교육 인프라, 학생 및 교사 수, 학력 수준 등 교육 관련 다양한 데이터를 제공합니다.

한국은행 경제통계시스템 (ECOS):
http://ecos.bok.or.kr/
한국은행에서 제공하는 경제 및 금융 관련 통계 데이터 포털입니다. 국내외 경제 지표, 금융 시장, 환율, 물가 등 다양한 경제 데이터를 제공합니다.

Twitter API:
https://developer.twitter.com/en/docs
트위터의 공공 트윗, 사용자 프로필, 트렌드 데이터를 제공하는 API입니다. 소셜 미디어 분석, 감정 분석 등에 활용할 수 있습니다.

Google Maps API:
https://developers.google.com/maps
지도, 장소 검색, 거리 계산, 경로 안내 등을 위한 API입니다. 지리 공간 데이터 분석, 경로 최적화, 위치 기반 서비스 개발에 유용합니다.

YouTube Data API:
https://developers.google.com/youtube/v3
유튜브의 동영상, 채널, 플레이리스트 데이터에 접근할 수 있는 API입니다. 비디오 콘텐츠 분석, 채널 성장 추적, 인기 콘텐츠 파악 등에 사용할 수 있습니다.

Spotify Web API:
https://developer.spotify.com/documentation/web-api/
음악 스트리밍 서비스인 스포티파이의 곡, 아티스트, 플레이리스트 등의 데이터를 제공하는 API입니다. 음악 추천 시스템, 사용자 선호도 분석 등에 활용할 수 있습니다.

Flickr API:
https://www.flickr.com/services/api/
사진 공유 사이트인 Flickr의 사진, 앨범, 태그 등의 데이터를 제공하는 API입니다. 이미지 분석, 태그 분석, 사용자 활동 분석 등에 사용할 수 있습니다.

NASA API:
https://api.nasa.gov/
NASA에서 제공하는 다양한 천문학 데이터와 이미지를 제공하는 API입니다. 우주 과학 연구, 천문학 데이터 분석 등에 유용합니다.

Eventbrite API:
https://www.eventbrite.com/developer/v3/
이벤트 관리 및 티켓 판매 플랫폼인 Eventbrite의 이벤트, 티켓, 참석자 데이터에 접근할 수 있는 API입니다. 이벤트 분석, 사용자 행동 분석 등에 사용할 수 있습니다.

Facebook Graph API:
https://developers.facebook.com/docs/graph-api
페이스북의 사용자, 페이지, 그룹, 이벤트 데이터에 접근할 수 있는 API입니다. 소셜 네트워크 분석, 사용자 행동 분석, 마케팅 캠페인 효과 분석 등에 유용합니다.

@so3500
Copy link
Contributor

so3500 commented Jul 31, 2024

소스 후보

1.3M Linkedin Jobs & Skills (2024)

https://www.kaggle.com/datasets/asaniczka/1-3m-linkedin-jobs-and-skills-2024

job market analysis, skill mapping, job recommendation system

  • Explore the relationship between job title and required skills
  • Utilize a job recommendation system based on user profiles and job listing data
  • the most sought-after skills in different job categories

공유내용 정리 ⭐️

  • 어떤 특징을 가지고 있는 데이터인지?
    • 링크드인에 게시된 채용 공고 관련 테이터
    • 링크드인이란 비즈니스 중심 소셜 네트워크이다. 각종 채용공고와 비즈니스 관련 게시글이 올라옴
  • 어디에 활용할 수 있을지?
    • 만약 해외 기업에서 일하고 싶은데 IT 관련 직종이 어느 지역에 가장 많을지?
      • 캘리포니아주 > 샌프란시스코 > 실리콘밸리에 많을 거라 생각하는데 정말 그러한지?
    • 관련 직종에서 필요한 스킬셋은?
  • 활용하려면 어떤 데이터 처리가 필요한지?
    • 현재 채용중인 공고 여부도 중요..할까?
  • 필요한 컴퓨팅 리소스
    • 데이터 크기 : 6.19GB
    • EMR 기준 메모리 기준 최소 c5.xlarge 가 필요하지 않을지? 그런데 spark 등 애플리케이션이 올라가있는것을 감안하면 최소 16GiB 메모리는 필요하지 않을지?

데이터 크기

job_skills.csv 0.67GB

  • job_link
  • job_skills

job_summary.csv 5.1GB

  • job_link
  • job_summary

linkedin_job_postings.csv 0.41GB

액션 아이템

  • 특정 직업군에서 선호하는 기술셋
  • 지역별 직업군 규모
  • job title 유니크값이 58만으로 너무 큰 것 같음. 뽑아봐야겠지만 비슷하게 묶을 수 있는 직군도 지나치게 구분되어 있다면 그룹핑 해봐야할 듯
  • 가장 다양한 직업군을 필요로 하는 회사는? company
  • 가장 좁은 직업군을 필요하는 회사는? company
  • (추가) 크롤러로 job link 의 현재 게시 상태를 알아내기

데이터 특징

상태 : 채용공고 없음 / 채용마감 / 채용중

Action Item : 크롤러로 현재 게시 여부 알아내고, 현재 채용중인 공고만 추려보기

Stock Market Data (NASDAQ, NYSE, S&P500)

https://www.kaggle.com/datasets/paultimothymooney/stock-market-data

  • Context : Daily stock market prices
  • Content : Date, Volume, High, Low, and Closing Price (for all NASDAQ, S&P500, and NYSE listed companies). Updated weekly

공유내용 정리 ⭐️

  • 어떤 특징을 가지고 있는 데이터인지?
    • 주식 데이터
      • Date 날짜
      • Low : 저가, 당일 줄 가장 낮았던 가격
      • Open : 시가, 주식거래 장이 열리는 시간에 최초 결정된 가격
      • Volumn : 거래량, 일정기간 사이에 성립된 매매의 수
      • High : 고가, 해당 거래일동안 주식의 최고 가격
      • Close : 종가, 해당 거래일의 마지막 거래 가격
      • Adjusted Close : 수정 종가, 분할(splits)과 배당금(dividend) 또는 분배금을 고려한 가격
  • 어디에 활용할 수 있을지?
    • 투자를 해서 돈을 많이 벌고 싶다.
      • 나는 장기투자 안정지향형이다 → 오랫동안 꾸준히 성장한 종목으?
      • 나는 단기투자 high risk & high return 추구형이다 → 짧은 기간동안 많은 수익을 보여준 종목은?
  • 활용하려면 어떤 데이터 처리가 필요한지?
    • 컬럼에 티커가 없음. 파일명에서 티커를 얻어서 컬럼 추가 필요
    • 10년 단위로 잘라서 연도별로 윈도우를 나누어서 해봐도 좋을듯. 2000년대, 2010년대 등
    • 2021년이 마지막 데이터이다. 티커를 가지고 최신 데이터를 얻어서 채워도 좋을듯
    • 아니면 유의미한 결과를 뽑아낸 뒤 2024년 기준 해당 티커의 시가총액을 얻어내도 좋을듯.
  • 필요한 컴퓨팅 리소스
    • 데이터 크기 : 10.23GB

처리방법

  • 각 종목 별로 csv 파일이 있다.
  • 디렉토리 내 있는 csv 를 모두 읽어 한 dataframe 에 넣는다.
  • 그런데.. 컬럼 내 종목코드가 없다. 파일명으로부터 종목코드를 추출해서 컬럼에 추가해야 한다.
  • 유의미한 결과를 뽑아낸다.
    • 1980부터 2021년 까지 연평균 볼륨 상승률이 큰것
    • 10년 단위로 쪼개서 각 단위별 시가총액,
      • 1980, 1990, 2000, 2010, 2020
  • 유의미한 결과에서 티커를 키로 추가 정보를 크롤링해서 얻어내기
    • 2024년 현재 해당 티커의 시가총액 등

@lee021
Copy link
Contributor

lee021 commented Aug 4, 2024

선택 소스

1.3M Linkedin Jobs & Skills (2024)

- 어떤 특징을 갖고 있는 데이터인지?

링크드인의 채용공고를 분석한 데이터이다.
링크드인 : 채용공고와 비즈니스 관련 게시물 공유 사이트인 소셜 네트워크

• job_skills.csv (672.72 MB)
해당 직무의 요구 능력(skills)에 관한 데이터이다.

image

• job_summary.csv(5.1 GB)
링크드인에 게시된 직업 설명에 대한 데이터이다.
image

• linkedin_job_postings.csv(415.33 MB)
링크드인에 게시된 게시물의 모든 정보를 분석해놓은 데이터이다. 상세내용은 아래와 같다.

  • got_summary : 직무요약이 성공적으로 추출됐는가?
  • get_ner : NER기술이 잘 사용됐는가?
  • is_being_worked : 여전히 링크드인에 포스팅되어 있는가?
  • job_title : 직무명
  • company : 회사명
  • job_location : 직무 장소
  • search_city : 검색 시 제공되는 회사의 위치
    ect..

image
image

- 어디에 활용할 수 있을 것인지?

다양한 도시나 국가에서 가장 수요가 많은 직업 타이틀 또는 산업 분석
: linkedin_job_postings.csv의 job_location열 이용

특정 직책을 채용하는 주요 회사 분석
: linkedin_job_postings.csv의 company , job_title열 이용

다양한 직업 카테고리에서 가장 많이 요구되는 기술 파악
: (job_skills.csv와 linkedin_job_postings.csv을 job_link열을 기준으로 join해서 추출) job_title열과 job_skills열 이용

- 활용하려면 어떤 데이터 처리가 필요할지?

: csv로 잘 정제돼있는 형태라, 추가적인 데이터 처리가 필요하지 않아 보입니다.

- 결과를 뽑아내려면 어느 정도의 컴퓨팅 리소스가 필요할지?

데이터 총량 : 6GB

---요구사항---

RAM : 12GB 이상
=> Colab에서 12GB까지 제공

CPU : 다중코어(4코어 이상)
=> Colab 커버 가능

디스크 I/O 성능 : HDD보단 SSD 추천. (데이터 읽,쓰기 빠름), 디스크 여유 공간 필수
=> Colab은 데이터 처리에 유리, 디스크 용량 효율적 사용 가능

분산 처리 시스템 : PySpark 사용으로, 클러스터를 통해 데이터를 병렬로 처리 가능

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants