본문 바로가기

python9

[공공데이터포털 크롤링] data.go.kr 공공데이터포털 크롤링하기 (1) https://www.data.go.kr/ 공공데이터 포털 국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Datase www.data.go.kr 크롤링 하기 먼저 크롤링을 하기 위해서는 chrome의 Dev tools 사용을 추천한다. 솔직히 Dev tools를 자세히 알 필요는 없고 network tab에서 어떤 url을 request 해야 되는지 그리고 해당 태그의 순서 정도만 보면 된다. 크롤링 범위 정하기 크롤링할 대상이 정해졌으면 크롤링할 범위 또한 정해야한다. 공공데이터포털을 기준으로 보면 크게 파일 데이터 표준 데이터셋 오픈 API가 있다. 1. 파일 데이터.. 2021. 1. 10.
python을 이용하여 디렉터리를 생성하고 파일 이동하기 공공데이터 분류 작업을 하면서 다음과 같은 작업이 필요하였다. 파일을 다운 받는다. 다운 받은 파일 이름으로 디렉터리를 만들고 이동시킨다. 디렉터리의 앞에는 분류명을 명시해야 한다. 처음에는 먼저 디렉터리를 만들기 위해 .bat 파일을 만들어서 작업하려고 했으나 파일을 일일이 이동시켜야 했다. 그래서 리눅스의 mv와 비슷한 python 코드가 있지 않을까? 싶어서 찾아봤다. python 내부 라이브러리 중 shutil이 있었다. shutil.move(file, dir) # file을 dir로 이동 그리고 os 라이브러리에 makedirs(path, exist_ok=True) 가 있었다. # exist_ok=True 옵션은 디렉터리 생성 경로에 디렉터리가 없을 경우 자동으로 생성해주는 옵션이다. 따라서 1.. 2020. 6. 17.
pandas를 이용하여 csv row 추출하기 공공데이터포털에서 크롤링하여 국토관리, 사회복지 관련 자료를 다운받아 엑셀작업을 하는 임무를 부여받았다. 국토관리는 1,694건, 사회복지는 2,210건으로 크롤링 할때 데이터를 다 받으면 좋겠지만 다운로드 형식이 각각 csv, xlsx 가끔씩 hwp, zip 파일이 업로드 되어있다. 또 링크를 접소하여 해당 홈페이지에서 다운을 받아야하는 자료도 있기 때문에 공공데이터포털에서 리스트만 추출하였다. 약 3,900개의 자료를 다운받아서 해당 파일의 데이터를 보고 엑셀작업을 해야하는데 문제는 여기서 발생하였다. 각 데이터의 항목과 데이터예시를 엑셀에 저장해야하는데 이 작업이 시간이 많이 걸렸다. 반드시 코딩으로 시간 단축이 필요한 상황이였다. 예전 python으로 데이터를 추출하는 방법을 들은적이 있었다. 그.. 2020. 6. 11.