박효주

Generalist를 꿈꾸는 개발자입니다 😄

데이터 수집 전처리하기 (태그, 특수문자 코드)

March 14, 2023 최대 1 분 소요

웹에 있는 데이터를 수집하다보면 보이는 텍스트와 달리 태그나 특수문자 코드 등이 그대로 함께 수집되는 경우가 있습니다. 예를 들면 아래와 같은 형태로 수집될 수 있습니다.

text = '&lt;p&gt;hi&lt;p&#47;&gt;'

이 부분을 전처리할 때는 특수문자 코드 전처리와 태그 전처리 2단계에 걸쳐 진행해야합니다.

1. 특수문자 코드 전처리

특수문자 코드를 전처리할 때는 html 모듈을 사용하면 됩니다. 사용 방법은 아래와 같습니다.

import html

text = '&lt;p&gt;hi&lt;p&#47;&gt;'
print(html.unescape(text))

# 출력
<p>hi<p/>

2. 태그 전처리

태그를 전처리할 때는 대표적으로 많이 사용되는 BeautifulSoup을 이용하면 됩니다. 최종적으로 아래와 같이 전처리됩니다.

import html

from bs4 import BeautifulSoup

text = '&lt;p&gt;hi&lt;p&#47;&gt;'
soup = BeautifulSoup(html.unescape(text), 'html.parser')
print(soup.get_text(strip=True))

# 출력
hi

공유하기

Twitter Facebook LinkedIn

댓글남기기

참고

ArgoCD의 App of Apps 패턴

March 3, 2024 2 분 소요

ArgoCD는 쿠버네티스를 위한 대표적인 선언적, GitOps 기반의 CD(Continuous Delivery) 도구입니다. 배포할 쿠버네티스 서비스의 deployment, service, ingress 등을 정의하고 서비스 Repository에서 GitOps 기반의 배포 파이프라...

Airflow에서 KubernetesPodOperator로 kubectl image 쉽게 사용하는 방법

February 22, 2024 최대 1 분 소요

Airflow 파이프라인에서 kubectl을 이용해서 deployment rollout을 해야할 상황이 생겼습니다. 여러 방법을 고민해보다 KubernetesPodOperator와 Secret을 이용하면 쉽게 할 수 있어서 그 방법을 정리합니다.

DataHub로 데이터를 한 곳에 정리하고 모아보기

January 6, 2024 5 분 소요

2024년 및 글또 9기를 잘 보내기 위한 목표 및 계획

December 10, 2023 4 분 소요

2023년도 간단한 회고