Python/Utils

파이썬으로 구글 검색 결과 링크 및 텍스트 추출하기 예제

jimmy_AI 2023. 10. 11. 00:35
반응형

Python에서 googlesearch 모듈을 활용하여 구글 검색 결과의 링크를 가져오고,

이후 크롤링 과정을 통하여 해당 링크 내의 텍스트를 추출하여 가져오는 예제를

간략하게 다루어보도록 하겠습니다.

 

 

구글 검색 결과 링크 가져오기

먼저, !pip install googlesearch-python 명령어로 googlesearch 모듈을 설치해준 뒤,

search 메서드를 이용하여 검색 결과 상위 링크를 가져와 보겠습니다.

 

'파이썬 예제'라는 검색어로 상위 5위까지의 검색 결과 링크를 출력하는 예시는
아래 코드와 같습니다.

from googlesearch import search

result = search("파이썬 예제", num_results = 5)

for url in result: # result는 generator로 for문 순회로 결과 출력
    print(url)

구글 검색 결과 링크 출력 예시

 

반응형

 

검색 결과 링크 내 텍스트 추출하기

이제 위에서 얻은 url들 내의 텍스트를 requests 및 BeautifulSoup 모듈을 활용하면
해당 링크의 정보를 크롤링하여 추출할 수 있습니다.


특정 url 내 텍스트 크롤링을 시도하는 예제 코드는 다음과 같습니다.

from bs4 import BeautifulSoup
import requests

# 검색 결과 url에서 html 추출
url = 'https://jimmy-ai.tistory.com/225'
url_result = requests.get(url)
html = url_result.text

# html 내에서 텍스트 추출
soup = BeautifulSoup(html, 'html.parser')
text = soup.get_text()
print(text)

추출된 텍스트의 일부분 예시

다만, 일부 사이트에서는 BeautifulSoup를 활용한 크롤링을 막아둔 관계

위 방법으로 텍스트 추출이 어려울 수도 있습니다.