본문 바로가기

크롤링4

[공공데이터포털 크롤링] data.go.kr 공공데이터포털 크롤링하기 (4) 파일 다운로드하기 지금부터 공공데이터포털에서 파일을 다운받는 방법에 대해 알려드리겠습니다. 대표적으로 2가지의 방법이 있습니다. (사실 정확히 몇 가지인지 잘 모름ㅎㅎ) 바로 request와 wget을 이용하는 겁니다. 처음 request를 사용하다가 wget으로 변경하였습니다. 오늘은 이 2가지의 방법에 대해 설명을 하면서 왜 wget으로 변경하게 되었는지 알려드리겠습니다. 이 전 글에서 파일을 다운로드하는데 필요한 2가지 uddi, publicDataPk를 추출하는 방법에 대해 게시하였습니다. 사실 정확히 말하자면 파일을 다운로드 하기위해 필요한 atchFileId을 구하기 위해 uddi와 publicDataPk가 필요한겁니다. 공공데이터포털에서 파일데이터를 다운받고 dev tools로 확인하시면 아.. 2021. 3. 10.
[공공데이터포털 크롤링] data.go.kr 공공데이터포털 크롤링하기 (3) 지금까지 [공공데이터포털 크롤링] data.go.kr 공공데이터포털 크롤링하기(1), (2)를 통해 publicDataPk와 uddi가 있어야 파일을 다운받을 수 있다는 것을 알게되었고, (2) 게시물을 통해 publicDataPk를 구할 수 있었습니다. 그럼 이번에는 uddi를 구하면서 같이 찾을 수 있는 여러 정보에 대해 게시하겠습니다. publicDataPk를 이용하여 정보 추출하기 아래의 사진은 www.data.go.kr/data/15070713/fileData.do의 화면입니다. 공공데이터포털 파일데이터의 화면분류는 크게 3가지 입니다. 다운로드, 바로가기, 활용신청 (해당 내용은 공공데이터포털의 업데이트 시점에 따라 변경될 수 있음) 이 3가지 정보는 우측 상단의 버튼에 명시되어 있습니다. 다.. 2021. 1. 24.
[공공데이터포털 크롤링] data.go.kr 공공데이터포털 크롤링하기 (2) publicDataPk 구하기 그럼 먼저 url의 숫자 부분인 publicDataPk를 구하도록 하겠습니다. https://www.data.go.kr/tcs/dss/selectConditionSearch.do?dType=FILE&brm=교육&sort=updtDt&sort_order=desc&size=10000&currentPage=1&page=0 에 들어가면 교육 카테고리의 목록이 나온다는 것을 이미 (1) 글을 통해 확인하였습니다. chrome Dev tools를 이용하여 확인을 해보면 공공데이터 포털의 목록들은 li 태그의 집합으로 이루어져 있다는 것을 알 수 있습니다. 정확히는 class명이 result-list인 div 태그 -> ul -> li 태그의 순서로 이루어져 있습니다. 우리는 이 li .. 2021. 1. 24.
[공공데이터포털 크롤링] data.go.kr 공공데이터포털 크롤링하기 (1) https://www.data.go.kr/ 공공데이터 포털 국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Datase www.data.go.kr 크롤링 하기 먼저 크롤링을 하기 위해서는 chrome의 Dev tools 사용을 추천한다. 솔직히 Dev tools를 자세히 알 필요는 없고 network tab에서 어떤 url을 request 해야 되는지 그리고 해당 태그의 순서 정도만 보면 된다. 크롤링 범위 정하기 크롤링할 대상이 정해졌으면 크롤링할 범위 또한 정해야한다. 공공데이터포털을 기준으로 보면 크게 파일 데이터 표준 데이터셋 오픈 API가 있다. 1. 파일 데이터.. 2021. 1. 10.