오픈 데이터셋 사이트 모음


오픈 데이터셋을 찾을 수 있는 사이트들을 모아보았습니다.


국내, 국외에서 찾아 볼 수 있는 오픈 데이터셋 사이트들을 모아보았습니다.

너무 유명한 kaggle 뺐습니다.(캐글이 최곱니다)


A. 오픈 데이터셋(국내)


1.공공 데이터 포털

파일 형식의 데이터가 대부분이고, 많은 종류의 데이터들을 찾을 수 있습니다.

대학생때 국내 관련된 공모전 준비를 하면서, 아이디어를 찾을 때

자주 둘러본 사이트인데, 일단 데이터 자체는 많습니다.

국내 관련 데이터를 찾아보려면 해당 사이트는 한 번쯤은 들러보시는걸 추천합니다.


2.서울 열린데이터 광장

서울 시의 데이터만 모아놓은 사이트입니다.

당연히 1번 보다는 서울 지역에만 해당되서 적을 수도 있다고 생각하실 수 있지만,

데이터 양은 어느 정도 있습니다.

공공 데이터 위주, 서울 위주로 보셔야되면 추천드립니다.


3.통합 데이터 지도

여기는 각종 기업들과 연계해서 데이터를 제공하는 사이트입니다.

메인 페이지에서, 데이터 지도 네트워크를 보시면

어떠한 기업이 참여중인지, 보실 수 있습니다.

그래서 기업 연계형 데이터면, 해당 사이트로 이동해서 데이터를 받게 합니다.

정확히는, 데이터 제공 사이트가 아닌, 데이터 모음 플랫폼 느낌.

데이터가 무료인 것도 있고 유료인 것도 있는데

아쉬운 점은, 다운로드수가 좀 적은 편이고, 댓글이나 평점 활성화가

거의 안 되어 있고, 해당 사이트의 데이터가 아니다 보니,

해당 페이지에서는 미리보기가 없습니다.(제공 사이트에 있기를 바래야되는게 좀…)


4.AI HUB

17년도부터 추진되서, 20년 정도에 AI쪽 비전이나 음성/자연어 데이터들을

모아놓은 데이터 사이트입니다.

정부에서 꾸준히 학습용 데이터 구축을 위해서 노력하는 중입니다.

메인 페이지의 데이터 종 갯수를 보면 위 3개 사이트보다는 작은게 당연하지만

이 사이트 데이터의 큰 장점은 해당 토픽에 대한 데이터의 양과

비디오/이미지 관련 데이터의 존재 여부라고 생각됩니다.

그리고 한국어 관련 음성/자연어를 전문적으로 모아놓았기 때문에

해당 사이트의 존재는 정말 중요하다고 생각됩니다.

관련 경진대회도 20년에는 좀 진행이 되었고,

같이 진행이 되었던 외부 데이터셋도 존재합니다.

개인적으로, 해당 사이트가 더 커지고 유명해질 수록 더 좋은 양질의 데이터가 생길 것으로

기대하고 있습니다.

AI HUB 2022년 예산안

찾아보니, 내년도 예산이 6732억입니다.

학습용 데이터 구축 확대에 이 정도 예산이라니, 놀랍다고 생각됩니다.


B. 오픈 데이터셋(국외)


1.통합 공공데이터 포털

각 나라의 모든 공공데이터 포털들을 모아놓은 사이트입니다.

데이터를 여기서 찾으시기 보다는, 그냥 이런 사이트가 있다 정도만 알아두면 좋습니다.

그냥 해당 나라의 공공 데이터 사이트로 이동 시켜줄 뿐입니다.


2.깃허브 데이터 모음

깃허브 내에 있는, 데이터 모음집입니다.

일단 star가 45.7K라는 것 부터가 많은 분들이 관심을 가지는 페이지라는 것을 의미합니다.

연결된 페이지가 멀쩡한지의 여부, 유명 데이터에 대한 제목등이 베이스이며

분류가 된 분야는 정말 많습니다.

단점은, 연결된 페이지가 멀쩡한지가 구분은 되어 있는데,

막상 못들어 가는 사이트들도 몇 개 있습니다.(이건 vpn이 필요한 건지도… 시도를 못해봐서…)


3.Google BigQuery 공개 데이터 세트

데이터 모음에 빠질 수 없는 기업, 구글입니다.

장점 : 구글 클라우드 플랫폼(GCP)와 연계가 가능하다, API 기반이다.

단점 : 구글 클라우드 플랫폼(GCP)를 써야한다.

  • 월 1TB 이면 유료 전환된다.(근데 이정도를 무료로 쓰는건 양심이…)

소개용으로 들고온 사이트이고, 실제 사용 경험은 없습니다.

왜냐면 단점 중에 하나가 GCP 사용인데, 이걸 사용하는 프로젝트는 아니라서…


4.유튜브 데이터 세트

유튜브 쪽 데이터를 제공하는 사이트입니다.

당연히 구글에서 만든 것이고, download 항목에 깃허브를 통해서 사용할 수 있는

방법이 있습니다.

해당 사이트 제작에 참여하신 분 중에, 한국분도 계신 것 같네요.


5.아마존 aws

데이터 쪽 하면 또 빼놓을 수 없는 아마존입니다.

해당 데이터에 대한 설명, 사용 예시를 메인으로 보여줍니다.

학생들의 연습용이라기 보다는 AWS를 사용하는 분들을 위한 데이터 셋으로 보입니다.


6.UCI Machine Learing Repository

머신러닝 데이터셋 중 유명한 데이터셋은 여기 있다고 보시면 됩니다.

새로운 베타 버전은 이 사이트입니다.

무조건 베타 버전으로 보시는걸 추천드립니다.

일단 UI가 훨씬 낫고, 변수 설명에 대한 가독성이 훨씬 나아졌습니다.

그리고 범용적인 머신러닝 모형에 대한 accuracy, precision이 제시가 되어 있습니다.