본문 바로가기

python9

CentOS에서 python3를 이용하여 파일 encoding 방식 변경하기 안녕하세요 황인태입니다. 이번 게시글은 CentOS에서 python3를 이용하여 파일의 encoding 방식을 변경하는 방법에 대해 알려드리겠습니다. 개발을 하다보면 가끔씩 한글이 깨지는 현상이 나타납니다. 저는 주로 linux에서 python으로 한글을 사용해야할 때 자주 발생하였습니다. 이게 다 encoding 때문이였습니다. 저희 회사의 OS는 다음과 같습니다. 로컬 pc : windows10 개발서버 : CentOS 7 (맥북으로 바꿔주세요 대표님!) 1. encoding 한글이 깨지는 원인은 encoding에 있습니다. 글자를 표현하는 방법에 조합형과 완성형이 있고 아스키랑 ANSI는 뭐고... 사실 이런거는 잘 모르겠고 대부분이 utf-8과 euc-kr의 문제 입니다. "그렇다면 파일을 오픈할.. 2021. 12. 27.
python3와 selenium을 이용하여 javaScript 함수 호출하기 안녕하세요 황인태입니다. 오늘은 python3와 selenium을 이용하여 javaScript 함수 호출하는 방법에 대해 알려드리겠습니다. 1. selenium에서 javaScript를 실행하는 이유 bs4(Beautiful Soup4)를 이용해 크롤링을 하다보면 url를 통해 DOM을 파싱하기 때문에 js로 동적으로 생성된 테이블이나 func 결과를 크롤링하기 어려운 문제가 발생합니다. 그렇기 때문에 webDriver을 이용하여 크롤링이 가능한 selenium을 이용하게 됩니다. 온비드라는 사이트를 예를들면 table tag에 데이터가 있고 table 하단에 페이지 목록이 있는 형태입니다. 다음 페이지로 이동하기 위해 온비드는 fn_paging()이라는 javaScript 함수를 호출하여 table을 .. 2021. 12. 14.
python3으로 CSV 파일 만들기 안녕하세요 황인태입니다. 데이터를 적재하다 보면 DB에 데이터를 적재하거나 가져올 때 CSV 파일을 많이들 사용할텐데요. 이번 게시글은 python3를 이용하여 csv 파일을 만드는 방법에 대해 알려드리도록 하겠습니다. 1. CSV csv는 comma-separated values의 축약어 인데요. 이름에서 알 수 있듯 정보가 콤마로 분리된 파일을 말합니다. 즉 "가", "나", "다" 와 같이 콤마(,)로 텍스트가 분리된 파일을 말합니다. 이러한 파일을 엑셀에서는 보기 좋게 가 나 다 로 출력합니다. csv 파일을 이용하여 DBeaver와 같은 데이터베이스 관리도구에서는 table에 데이터를 내보내거나 가져올 수 있습니다. 2. code 제가 보여드릴 code는 csv파일을 이용하여 DB에 저장하는것을.. 2021. 12. 14.
[공공데이터포털 크롤링] data.go.kr 공공데이터포털 크롤링하기 (4) 파일 다운로드하기 지금부터 공공데이터포털에서 파일을 다운받는 방법에 대해 알려드리겠습니다. 대표적으로 2가지의 방법이 있습니다. (사실 정확히 몇 가지인지 잘 모름ㅎㅎ) 바로 request와 wget을 이용하는 겁니다. 처음 request를 사용하다가 wget으로 변경하였습니다. 오늘은 이 2가지의 방법에 대해 설명을 하면서 왜 wget으로 변경하게 되었는지 알려드리겠습니다. 이 전 글에서 파일을 다운로드하는데 필요한 2가지 uddi, publicDataPk를 추출하는 방법에 대해 게시하였습니다. 사실 정확히 말하자면 파일을 다운로드 하기위해 필요한 atchFileId을 구하기 위해 uddi와 publicDataPk가 필요한겁니다. 공공데이터포털에서 파일데이터를 다운받고 dev tools로 확인하시면 아.. 2021. 3. 10.
[공공데이터포털 크롤링] data.go.kr 공공데이터포털 크롤링하기 (3) 지금까지 [공공데이터포털 크롤링] data.go.kr 공공데이터포털 크롤링하기(1), (2)를 통해 publicDataPk와 uddi가 있어야 파일을 다운받을 수 있다는 것을 알게되었고, (2) 게시물을 통해 publicDataPk를 구할 수 있었습니다. 그럼 이번에는 uddi를 구하면서 같이 찾을 수 있는 여러 정보에 대해 게시하겠습니다. publicDataPk를 이용하여 정보 추출하기 아래의 사진은 www.data.go.kr/data/15070713/fileData.do의 화면입니다. 공공데이터포털 파일데이터의 화면분류는 크게 3가지 입니다. 다운로드, 바로가기, 활용신청 (해당 내용은 공공데이터포털의 업데이트 시점에 따라 변경될 수 있음) 이 3가지 정보는 우측 상단의 버튼에 명시되어 있습니다. 다.. 2021. 1. 24.
[공공데이터포털 크롤링] data.go.kr 공공데이터포털 크롤링하기 (2) publicDataPk 구하기 그럼 먼저 url의 숫자 부분인 publicDataPk를 구하도록 하겠습니다. https://www.data.go.kr/tcs/dss/selectConditionSearch.do?dType=FILE&brm=교육&sort=updtDt&sort_order=desc&size=10000&currentPage=1&page=0 에 들어가면 교육 카테고리의 목록이 나온다는 것을 이미 (1) 글을 통해 확인하였습니다. chrome Dev tools를 이용하여 확인을 해보면 공공데이터 포털의 목록들은 li 태그의 집합으로 이루어져 있다는 것을 알 수 있습니다. 정확히는 class명이 result-list인 div 태그 -> ul -> li 태그의 순서로 이루어져 있습니다. 우리는 이 li .. 2021. 1. 24.