데이터분석

1일 1개발공부˙Day 5

묘걍 2022. 9. 28. 23:02
chapter 02 :: 텍스트 마이닝 첫걸음

#웹_크롤링 #키워드_추출 #텍스트_분석_결과_시각화

 

01. 웹 크롤링으로 기초 데이터 수집하기

   - 웹 크롤링 / 웹 스크래핑

       : 인터넷에 있는 웹 페이지를 방문해서 페이지의 자료를 자동으로 수집하는 작업

01.1. 대상 페이지 구조 살펴보기

01.1.1. 개발자 도구

   - 점 세개 → 도구 더보기 → 개발자 도구

   - Ctrl + Shift + |

01.1.2. 리스트의 URL 정보 수집

티스토리는 화살표 같은 기본적인 스티커가 없네요😅

마우스 포인터 모양 아이콘 클릭

→ URL정보를 확인하고 싶은 페이지의 링크 위로 마우스 포인터 이동

  클릭

  <a href= > 태그 찾기 (여기가 URL 정보)

작년? 제작년?에 재밌게 봤던 뮤지컬 비틀쥬스가 생각나서

비틀쥬스 URL 정보를 확인해보기!

▶이 과정을 파이썬으로 자동화하여 웹 크롤러를 만든다

01.1.3. 웹 크롤링 라이브러리 사용하기

01.1.3.1. Requests

   - 특정 URL로부터 HTML 문서를 가져옴

01.1.3.2. BeautifulSoup

   - HTML 문서에서 데이터를 추출하는 작업을 수행

 

모듈 설치

뭐지.. 나 수업 제대로 안 들었나 처음 듣는 모듈인데 설치가 되어있다..?

reqests.get() 함수 : URL의 HTML 문서를 가져온 뒤

BeautifulSoup() 클래스의 soup 객체로 변환

find(), find_all() 함수 : 특정 HTML 태그/클래스를 가진 데이터를 가져옴

책에 있는 코드는 에러가 난다..

https://lovelydiary.tistory.com/16

 

파이썬 크롤러) AttributeError: 'NoneType' object has no attribute 'find_all'

#1. AttributeError는 무슨 에러인가?  웹페이지에 있는 테이블의 컨텐츠를 긁어오기 위한 크롤러를 만들고, 그 코드를 실행시키고, table 객체에 값을 열심히 쌓아놓고, 해당 table에서 특정 단어를 가

lovelydiary.tistory.com

https://davey.tistory.com/entry/AttributeError-NoneType-object-has-no-attribute-find-%EC%97%90%EB%9F%AC-%ED%95%B4%EA%B2%B0-%EB%B0%A9%EB%B2%95

 

AttributeError: 'NoneType' object has no attribute 'find' 에러 해결 방법

안녕하세요 이번 포스팅에서는 파이썬 수행 시 발생할 수 있는 오류 중에 하나인 "AttributeError: 'NoneType' object has no attribute 'find'"에 대해서 설명드리겠습니다. 쉬운 이해를 돕기 위해서 예제를 통

davey.tistory.com

개발자 도구로 열었을 때

table, tbody, tr, td, a태그 모두 확인 가능한데 왜 찾을 수 없다는건지...

사실 지금 당장 내일이 논문 최종원고 제출일이라

여기 시간을 많이 쏟을 수 없어서 일단 패스하고

내일 더 알아보기로,,,

0.1.1.4. 텍스트 정보 수집하기

이 아이콘 클릭

→ 문서의 HTML 구조 파악

 get()함수 대신 text() 함수를 사용해

     해당 태그의 텍스트 정보만 추출함

 

 

더이상 시간을 할애할 수 없어

오늘은 여기까지,,

내일 오늘 내용 보충하고 나머지 공부까지 하기!!

'데이터분석' 카테고리의 다른 글

1일 1개발공부˙Day 4  (0) 2022.09.27
1일 1개발공부˙Day 3  (0) 2022.09.26
1일 1개발공부˙Day 2  (0) 2022.09.25
1일 1개발공부˙Day 1  (0) 2022.09.24