콘텐츠로 건너뛰기

공백을 언더스코어로 대체하는 Python 사용 방법

[

Python 튜토리얼: 모든 H2, H3 제목에서 공백을 밑줄로 대체하기

이 튜토리얼에서는 Python을 사용하여 HTML 문서의 모든 H2, H3 제목에서 공백을 밑줄(”_“)로 대체하는 방법을 자세하게 설명합니다. 아래에서는 각 단계에 대한 샘플 코드와 함께 실행 가능한 예시를 제공합니다.

필요한 패키지 가져오기

첫 번째로, 우리는 BeautifulSoup와 re 패키지를 사용하여 HTML 문서를 파싱하고 공백을 대체할 것입니다. 따라서 다음과 같이 필요한 패키지를 가져옵니다.

from bs4 import BeautifulSoup
import re

HTML 파일 읽기

다음으로, 우리는 HTML 파일을 읽어와서 BeautifulSoup를 사용하여 파싱합니다. 예를 들어, example.html 파일에서 HTML을 읽고 파싱하는 코드는 다음과 같습니다.

with open('example.html', 'r') as f:
html = f.read()
soup = BeautifulSoup(html, 'html.parser')

H2, H3 제목 찾기

이제 우리는 BeautifulSoup를 사용하여 HTML 문서에서 모든 H2, H3 제목을 찾습니다. 이를 위해 findAll 메소드를 사용하며, 정규 표현식을 활용하여 공백을 포함하는 제목을 찾습니다.

headings = soup.findAll(['h2', 'h3'])
for heading in headings:
if re.search(r'\s', heading.text):
# 공백을 밑줄로 대체
new_heading_text = re.sub(r'\s', '_', heading.text)
# 원래 제목을 새로운 제목으로 대체
heading.string.replace_with(new_heading_text)

변경된 HTML 저장

마지막으로, 우리는 변경된 HTML을 저장합니다. 예를 들어, modified.html 파일에 변경된 HTML을 저장하는 코드는 다음과 같습니다.

with open('modified.html', 'w') as f:
f.write(str(soup))

이제 우리는 Python을 사용하여 HTML 문서의 모든 H2, H3 제목에서 공백을 밑줄(”_“)로 대체하는 방법을 자세히 알아보았습니다.

참고: 이 예시는 example.html 파일을 기준으로 작성되었으며, 실제 프로젝트에 적용할 때에는 파일 경로 및 파일 읽기/쓰기 방법을 적절히 수정해야합니다.