반응형
안녕하세요
웹에서 데이터를 자동적으로 긁어 모으기 위해 연습하고 있습니다..
크롤링은
웹 크롤링은 웹사이트에서 데이터를 자동으로 수집하는 프로세스입니다.
- 목표 정의 및 데이터 요구사항 확인:
- 어떤 웹사이트에서 어떤 데이터를 수집할지 결정합니다.
- 데이터를 사용할 목적을 명확히 합니다.
- 웹사이트 구조 분석:
- 웹사이트의 HTML 구조를 분석합니다.
- 데이터가 포함된 특정 HTML 태그나 속성을 식별합니다.
- 크롤러 개발:
- Python의 selenium, requests, BeautifulSoup, Scrapy 등의 라이브러리를 사용하여 크롤러를 작성합니다.
- 웹 페이지를 요청하고, HTML 응답을 파싱하여 데이터를 추출합니다.
- 데이터 저장:
- 수집한 데이터를 데이터베이스나 파일 시스템에 저장합니다.
- CSV, JSON, SQL 등 다양한 형식으로 저장할 수 있습니다.
- 크롤러 유지보수:
- 웹사이트의 구조 변경에 대비하여 크롤러를 업데이트합니다.
- 크롤링 빈도와 속도를 조절하여 웹 서버에 부하를 주지 않도록 합니다.
저는 주로 selenium과 BeautifulSoup을 사용해서 하고있습니다..
기존에 jupyter note북을 사용해서 했으나,
지금 visual studio를 통해서 연습하고 싶습니다.
반응형
'취미 > 웹 크롤링 연습' 카테고리의 다른 글
네이버 증권에서 상한가 크롤링하기 (2탄) (0) | 2024.07.02 |
---|---|
네이버 증권에서 상한가 크롤링하기 (1탄) (0) | 2024.06.30 |