데이터 수집 전처리하기 (태그, 특수문자 코드)
웹에 있는 데이터를 수집하다보면 보이는 텍스트와 달리 태그나 특수문자 코드 등이 그대로 함께 수집되는 경우가 있습니다. 예를 들면 아래와 같은 형태로 수집될 수 있습니다.
웹에 있는 데이터를 수집하다보면 보이는 텍스트와 달리 태그나 특수문자 코드 등이 그대로 함께 수집되는 경우가 있습니다. 예를 들면 아래와 같은 형태로 수집될 수 있습니다.
Elasticsearch에서 특정 키워드로 검색할 때 조건에 따라 적절한 방법을 사용해야합니다. 아래에서 검색할 때 대표적으로 많이 사용되는 term, match, match_phrase, string_query을 설명하겠습니다.
금방 할 줄 알았던 Minikube 설치에서 삽질하는 과정이 너무 길어져서 기록으로 남깁니다.. 비슷한 이슈가 있는 분들에게 참고가 됐으면 좋겠습니다.
병렬처리 고려 대상 Airflow에서 병렬차리할 때 고려해야할 대상이 크게 5가지 있습니다.
K3s 설치 ```bash $ curl -sfL https://get.k3s.io | sh -
블로그를 약 1년 정도 운영하던 중 글또를 알게되면서 참여하게 되었습니다. 👏
1. GitHub Repository 생성 및 clone
Kubernetes에서 각 Service와 통신할 때 IP를 일일이 확인하고 입력하지 않습니다. 각 Service를 IP로 직접 연결하면 아래 단점이 있기 때문입니다.
Kubernetes에서 NodeAffinity를 적용하기 위해 반드시 필요한 내용이 바로 Node에 적용된 Label 목록 확인 혹은 추가입니다.
데이터 제공 Layer는 데이터 소스(Data Lake, Data Warehouse) 내부의 데이터를 가공해서 서비스 애플리케이션, 분석 애플리케이션, 각종 데이터 분석 도구 등에 제공하는 Layer입니다. 이 Layer에서 데이터를 제공하기 위해 사용하는 방법으로 크게 세 가지(...
2021년 12월. 새로운 회사로 이직하면서 2022년을 맞이했다. 때문에 2022년의 목표는 주로 새로운 회사에서의 목표와도 같았다. 목표와는 다르게 흘러간 부분이 있었지만, 오히려 달라진 부분에서 더 만족했던 해였다.
평소처럼 KubernetesPodOperator를 잘 활용하다 아래와 같은 오류 메세지가 발생했습니다.
S3에 있는 파일을 디스크에 저장 후 작업을 진행하면 파일을 삭제하기 전에 예외 상황이 발생할 수 있고, 이렇게 되면 파일이 삭제되지 않고 디스크에 남아버립니다. 때문에 특별한 경우가 아니라면 디스크에 저장하지 않고 바로 가져와서 사용하는 것이 좋습니다.