크롤링 연습

안녕하세요

웹에서 데이터를 자동적으로 긁어 모으기 위해 연습하고 있습니다..

크롤링은

웹 크롤링은 웹사이트에서 데이터를 자동으로 수집하는 프로세스입니다.

목표 정의 및 데이터 요구사항 확인:
- 어떤 웹사이트에서 어떤 데이터를 수집할지 결정합니다.
- 데이터를 사용할 목적을 명확히 합니다.
웹사이트 구조 분석:
- 웹사이트의 HTML 구조를 분석합니다.
- 데이터가 포함된 특정 HTML 태그나 속성을 식별합니다.
크롤러 개발:
- Python의 selenium, requests, BeautifulSoup, Scrapy 등의 라이브러리를 사용하여 크롤러를 작성합니다.
- 웹 페이지를 요청하고, HTML 응답을 파싱하여 데이터를 추출합니다.
데이터 저장:
- 수집한 데이터를 데이터베이스나 파일 시스템에 저장합니다.
- CSV, JSON, SQL 등 다양한 형식으로 저장할 수 있습니다.
크롤러 유지보수:
- 웹사이트의 구조 변경에 대비하여 크롤러를 업데이트합니다.
- 크롤링 빈도와 속도를 조절하여 웹 서버에 부하를 주지 않도록 합니다.

저는 주로 selenium과 BeautifulSoup을 사용해서 하고있습니다..

기존에 jupyter note북을 사용해서 했으나,

지금 visual studio를 통해서 연습하고 싶습니다.

네이버 증권에서 상한가 크롤링하기 (2탄) (0)	2024.07.02
네이버 증권에서 상한가 크롤링하기 (1탄) (0)	2024.06.30