chapter 02 :: 텍스트 마이닝 첫걸음
#웹_크롤링 #키워드_추출 #텍스트_분석_결과_시각화
01. 웹 크롤링으로 기초 데이터 수집하기
- 웹 크롤링 / 웹 스크래핑
: 인터넷에 있는 웹 페이지를 방문해서 페이지의 자료를 자동으로 수집하는 작업
01.1. 대상 페이지 구조 살펴보기
01.1.1. 개발자 도구
- 점 세개 → 도구 더보기 → 개발자 도구
- Ctrl + Shift + |
01.1.2. 리스트의 URL 정보 수집
마우스 포인터 모양 아이콘 클릭
→ URL정보를 확인하고 싶은 페이지의 링크 위로 마우스 포인터 이동
→ 클릭
→ <a href= > 태그 찾기 (여기가 URL 정보)
작년? 제작년?에 재밌게 봤던 뮤지컬 비틀쥬스가 생각나서
비틀쥬스 URL 정보를 확인해보기!
▶이 과정을 파이썬으로 자동화하여 웹 크롤러를 만든다
01.1.3. 웹 크롤링 라이브러리 사용하기
01.1.3.1. Requests
- 특정 URL로부터 HTML 문서를 가져옴
01.1.3.2. BeautifulSoup
- HTML 문서에서 데이터를 추출하는 작업을 수행
모듈 설치
reqests.get() 함수 : URL의 HTML 문서를 가져온 뒤
BeautifulSoup() 클래스의 soup 객체로 변환
find(), find_all() 함수 : 특정 HTML 태그/클래스를 가진 데이터를 가져옴
책에 있는 코드는 에러가 난다..
https://lovelydiary.tistory.com/16
파이썬 크롤러) AttributeError: 'NoneType' object has no attribute 'find_all'
#1. AttributeError는 무슨 에러인가? 웹페이지에 있는 테이블의 컨텐츠를 긁어오기 위한 크롤러를 만들고, 그 코드를 실행시키고, table 객체에 값을 열심히 쌓아놓고, 해당 table에서 특정 단어를 가
lovelydiary.tistory.com
AttributeError: 'NoneType' object has no attribute 'find' 에러 해결 방법
안녕하세요 이번 포스팅에서는 파이썬 수행 시 발생할 수 있는 오류 중에 하나인 "AttributeError: 'NoneType' object has no attribute 'find'"에 대해서 설명드리겠습니다. 쉬운 이해를 돕기 위해서 예제를 통
davey.tistory.com
개발자 도구로 열었을 때
table, tbody, tr, td, a태그 모두 확인 가능한데 왜 찾을 수 없다는건지...
사실 지금 당장 내일이 논문 최종원고 제출일이라
여기 시간을 많이 쏟을 수 없어서 일단 패스하고
내일 더 알아보기로,,,
0.1.1.4. 텍스트 정보 수집하기
이 아이콘 클릭
→ 문서의 HTML 구조 파악
→ get()함수 대신 text() 함수를 사용해
해당 태그의 텍스트 정보만 추출함
더이상 시간을 할애할 수 없어
오늘은 여기까지,,
내일 오늘 내용 보충하고 나머지 공부까지 하기!!
'데이터분석' 카테고리의 다른 글
1일 1개발공부˙Day 4 (0) | 2022.09.27 |
---|---|
1일 1개발공부˙Day 3 (0) | 2022.09.26 |
1일 1개발공부˙Day 2 (0) | 2022.09.25 |
1일 1개발공부˙Day 1 (0) | 2022.09.24 |