본문 바로가기

pandas4

[공공데이터포털 크롤링] data.go.kr 공공데이터포털 크롤링하기 (4) 파일 다운로드하기 지금부터 공공데이터포털에서 파일을 다운받는 방법에 대해 알려드리겠습니다. 대표적으로 2가지의 방법이 있습니다. (사실 정확히 몇 가지인지 잘 모름ㅎㅎ) 바로 request와 wget을 이용하는 겁니다. 처음 request를 사용하다가 wget으로 변경하였습니다. 오늘은 이 2가지의 방법에 대해 설명을 하면서 왜 wget으로 변경하게 되었는지 알려드리겠습니다. 이 전 글에서 파일을 다운로드하는데 필요한 2가지 uddi, publicDataPk를 추출하는 방법에 대해 게시하였습니다. 사실 정확히 말하자면 파일을 다운로드 하기위해 필요한 atchFileId을 구하기 위해 uddi와 publicDataPk가 필요한겁니다. 공공데이터포털에서 파일데이터를 다운받고 dev tools로 확인하시면 아.. 2021. 3. 10.
[공공데이터포털 크롤링] data.go.kr 공공데이터포털 크롤링하기 (3) 지금까지 [공공데이터포털 크롤링] data.go.kr 공공데이터포털 크롤링하기(1), (2)를 통해 publicDataPk와 uddi가 있어야 파일을 다운받을 수 있다는 것을 알게되었고, (2) 게시물을 통해 publicDataPk를 구할 수 있었습니다. 그럼 이번에는 uddi를 구하면서 같이 찾을 수 있는 여러 정보에 대해 게시하겠습니다. publicDataPk를 이용하여 정보 추출하기 아래의 사진은 www.data.go.kr/data/15070713/fileData.do의 화면입니다. 공공데이터포털 파일데이터의 화면분류는 크게 3가지 입니다. 다운로드, 바로가기, 활용신청 (해당 내용은 공공데이터포털의 업데이트 시점에 따라 변경될 수 있음) 이 3가지 정보는 우측 상단의 버튼에 명시되어 있습니다. 다.. 2021. 1. 24.
[공공데이터포털 크롤링] data.go.kr 공공데이터포털 크롤링하기 (1) https://www.data.go.kr/ 공공데이터 포털 국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Datase www.data.go.kr 크롤링 하기 먼저 크롤링을 하기 위해서는 chrome의 Dev tools 사용을 추천한다. 솔직히 Dev tools를 자세히 알 필요는 없고 network tab에서 어떤 url을 request 해야 되는지 그리고 해당 태그의 순서 정도만 보면 된다. 크롤링 범위 정하기 크롤링할 대상이 정해졌으면 크롤링할 범위 또한 정해야한다. 공공데이터포털을 기준으로 보면 크게 파일 데이터 표준 데이터셋 오픈 API가 있다. 1. 파일 데이터.. 2021. 1. 10.
pandas를 이용하여 csv row 추출하기 공공데이터포털에서 크롤링하여 국토관리, 사회복지 관련 자료를 다운받아 엑셀작업을 하는 임무를 부여받았다. 국토관리는 1,694건, 사회복지는 2,210건으로 크롤링 할때 데이터를 다 받으면 좋겠지만 다운로드 형식이 각각 csv, xlsx 가끔씩 hwp, zip 파일이 업로드 되어있다. 또 링크를 접소하여 해당 홈페이지에서 다운을 받아야하는 자료도 있기 때문에 공공데이터포털에서 리스트만 추출하였다. 약 3,900개의 자료를 다운받아서 해당 파일의 데이터를 보고 엑셀작업을 해야하는데 문제는 여기서 발생하였다. 각 데이터의 항목과 데이터예시를 엑셀에 저장해야하는데 이 작업이 시간이 많이 걸렸다. 반드시 코딩으로 시간 단축이 필요한 상황이였다. 예전 python으로 데이터를 추출하는 방법을 들은적이 있었다. 그.. 2020. 6. 11.