본문 바로가기
취미/웹 크롤링 연습

크롤링 연습

by 배당금 2024. 6. 29.
반응형

안녕하세요

 

웹에서 데이터를 자동적으로 긁어 모으기 위해 연습하고 있습니다..

 

크롤링은

웹 크롤링은 웹사이트에서 데이터를 자동으로 수집하는 프로세스입니다. 

  1. 목표 정의 및 데이터 요구사항 확인:
    • 어떤 웹사이트에서 어떤 데이터를 수집할지 결정합니다.
    • 데이터를 사용할 목적을 명확히 합니다.
  2. 웹사이트 구조 분석:
    • 웹사이트의 HTML 구조를 분석합니다.
    • 데이터가 포함된 특정 HTML 태그나 속성을 식별합니다.
  3. 크롤러 개발:
    • Python의 selenium, requests, BeautifulSoup, Scrapy 등의 라이브러리를 사용하여 크롤러를 작성합니다.
    • 웹 페이지를 요청하고, HTML 응답을 파싱하여 데이터를 추출합니다.
  4. 데이터 저장:
    • 수집한 데이터를 데이터베이스나 파일 시스템에 저장합니다.
    • CSV, JSON, SQL 등 다양한 형식으로 저장할 수 있습니다.
  5. 크롤러 유지보수:
    • 웹사이트의 구조 변경에 대비하여 크롤러를 업데이트합니다.
    • 크롤링 빈도와 속도를 조절하여 웹 서버에 부하를 주지 않도록 합니다.

 

저는 주로 selenium과 BeautifulSoup을 사용해서 하고있습니다..

 

기존에 jupyter note북을 사용해서 했으나,

지금 visual studio를 통해서 연습하고 싶습니다.

반응형