반응형
Python에서 googlesearch 모듈을 활용하여 구글 검색 결과의 링크를 가져오고,
이후 크롤링 과정을 통하여 해당 링크 내의 텍스트를 추출하여 가져오는 예제를
간략하게 다루어보도록 하겠습니다.
구글 검색 결과 링크 가져오기
먼저, !pip install googlesearch-python 명령어로 googlesearch 모듈을 설치해준 뒤,
search 메서드를 이용하여 검색 결과 상위 링크를 가져와 보겠습니다.
'파이썬 예제'라는 검색어로 상위 5위까지의 검색 결과 링크를 출력하는 예시는
아래 코드와 같습니다.
from googlesearch import search
result = search("파이썬 예제", num_results = 5)
for url in result: # result는 generator로 for문 순회로 결과 출력
print(url)
반응형
검색 결과 링크 내 텍스트 추출하기
이제 위에서 얻은 url들 내의 텍스트를 requests 및 BeautifulSoup 모듈을 활용하면
해당 링크의 정보를 크롤링하여 추출할 수 있습니다.
특정 url 내 텍스트 크롤링을 시도하는 예제 코드는 다음과 같습니다.
from bs4 import BeautifulSoup
import requests
# 검색 결과 url에서 html 추출
url = 'https://jimmy-ai.tistory.com/225'
url_result = requests.get(url)
html = url_result.text
# html 내에서 텍스트 추출
soup = BeautifulSoup(html, 'html.parser')
text = soup.get_text()
print(text)
다만, 일부 사이트에서는 BeautifulSoup를 활용한 크롤링을 막아둔 관계로
위 방법으로 텍스트 추출이 어려울 수도 있습니다.
'Python > Utils' 카테고리의 다른 글
파이썬 한국어 로마자 표기 변환 방법(korean_romanizer, 네이버 API) (0) | 2023.12.12 |
---|---|
파이썬 pipenv 가상 환경 관리 기초(특징 및 명령어 정리) (0) | 2023.10.08 |
파이썬에서 종료 시에 특정 함수를 실행하는 방법(atexit 모듈) (2) | 2023.10.04 |