스크래핑 어떤것인지 자세하게 알아보자

스크래핑 어떤것인지 자세하게 알아보자





안녕하세요. 오늘은 스크래핑이 무엇인지 어떻게 하는것인지 알아볼려고 합니다.

먼저 스크래핑 어디서 나온걸까요? 스크래핑은 Python언어 기반으로 하는 기술인데요. 한마디로 광대한 데이터에서 자신이 원하는 정보들로만 추출해서 갖고오는걸 스크래핑 이라고합니다.

그리고 이러한 기술이 웹에서 가능하기 때문에 웹 스크래핑이라고도 불려집니다.



스크래핑이란?

스크래핑이란

그럼 스크래핑 어떻게 하는건가요? 스크래핑은 우선 앞서말한것처럼 프로그래밍을 조금은 할줄알아야 합니다.

언어는 Python 기반으로 해서 HTML을 파싱을 하기 위해 파이썬 객체로 돌려주는 BeautifulSoup4 이라는것을 써야합니다. 먼저 자신이 사용하는 프레임워크에 pip install Beautifulsoup4를 다운을 하시고 웹클라이언트 모듈로 http 요청을 서버로 보내는 역할을 해주기 위해 import requests를 사용 합니다.

그리고 from bs4 imprt BeautifulSoup res = request.get(‘자신이 갖고오고싶은 사이트를 입력”) soup = BeautifulSoup(res.text, ‘lxml’)를 해주시고 자신이 원하는 HTML 태그를 입력해주시면 끝이나겠습니다.



스크래핑 단점

스크래핑 뜻

그렇다면 스크래핑의 단점이 있다면 광대한 데이터에서 자신이 원하는 정보를 갖고오는 도중에 다른 웹사이트의 저작권 및 서비스 이용약관에 위반을 하게 된다면 법적 문제가 있을수 있으니 꼭 체크가 필요하겠습니다.

스크래핑 방식

이렇게 오늘 스크래핑이 무엇인지 어떻게 하는것인지 알아보았는데요. 광대한 데이터들을 자신이 원하는 정보만 쏙쏙 빼낼수있는 엄청난 기술인 만큼 꼭 터득하셔서 좋은곳에 쓰셨으면 합니다.

이만 글을 마치도록 하겠습니다.



답글 남기기