파이썬으로 유튜브 자동화 4강 – 유튜브 댓글 자동 수집하기: 감성 분석용 데이터 만들기

유튜브 자동화 시리즈 4강!
이번 강의에서는 **유튜브 영상에 달린 댓글을 자동으로 수집**해보는 실습을 진행합니다.

수집한 댓글은 이후에 감성 분석, 키워드 분석, 댓글 반응 통계 등에 활용할 수 있는 아주 중요한 데이터가 됩니다.

1. 댓글을 크롤링하는 이유

유튜브 댓글은 시청자의 반응을 직접적으로 보여주는 데이터입니다. 이를 자동으로 수집하면:

  • 긍정/부정 감성 분석 가능
  • 트렌드 키워드 추출 가능
  • 마케팅 반응 예측 가능

2. 사용할 라이브러리: youtube-comment-downloader

유튜브 댓글은 일반 HTML로는 잘 보이지 않기 때문에, JavaScript로 로딩되는 내용을 다룰 수 있는 도구가 필요합니다.

✅ 설치:
“`bash
pip install youtube-comment-downloader
“`

※ 해당 라이브러리는 비공식이며, 댓글 구조가 변경되면 작동하지 않을 수 있습니다.

3. 기본 사용법

“`python
from youtube_comment_downloader import YoutubeCommentDownloader

video_url = “https://www.youtube.com/watch?v=영상ID”
downloader = YoutubeCommentDownloader()

comments = downloader.get_comments_from_url(video_url, sort_by=”top”)

for idx, comment in enumerate(comments):
print(f”{idx+1}: {comment[‘text’]}”)
“`

✅ 주요 파라미터:
– `video_url`: 크롤링할 영상 링크
– `sort_by`: “top” 또는 “new”

4. 댓글 저장하기 (CSV)

“`python
import csv

with open(“comments.csv”, “w”, newline=””, encoding=”utf-8-sig”) as f:
writer = csv.writer(f)
writer.writerow([“댓글 내용”])

for comment in comments:
writer.writerow([comment[‘text’]])
“`

5. 한글 댓글만 필터링하기

“`python
import re

def is_korean(text):
return bool(re.search(r”[가-힣]”, text))

korean_comments = [c for c in comments if is_korean(c[‘text’])]
“`

이제 감성 분석에 적합한 한글 댓글만 걸러낼 수 있습니다.

6. 감성 분석과의 연계

이제 수집한 댓글을 기반으로:
– `KoNLPy`, `transformers`, `OpenAI API` 등으로 감성 분류 가능
– 긍정/부정 비율 시각화 가능
– 워드클라우드, 키워드 빈도 분석 등도 가능

이 내용은 별도 데이터 분석 시리즈로도 확장할 수 있어요!

📌 오늘의 요약

  • 유튜브 댓글은 시청자 반응 데이터로서 가치가 높다
  • youtube-comment-downloader로 쉽게 댓글 수집 가능
  • 필터링, 저장, 분석을 연계하면 인사이트 도출 가능

📘 다음 강의 예고

5강: 썸네일 이미지 저장 + 오디오 추출(mp3) + 자동 분류 정리까지
다음 시간에는 영상의 썸네일 이미지를 자동 저장하고, 음성(mp3)을 추출해 폴더별로 자동 정리하는 방법을 배웁니다. 유튜브 데이터를 아카이빙하거나 콘텐츠로 재활용하는 데 유용한 기능들을 모아 실습해볼 거예요!

이 강의는 파이썬 유튜브 자동화 입문자를 위한 연재 시리즈입니다. 매주 새로운 강의로 업데이트됩니다.