1일 1개발공부˙Day 5

데이터분석

1일 1개발공부˙Day 5

묘걍 2022. 9. 28. 23:02

chapter 02 :: 텍스트 마이닝 첫걸음

#웹_크롤링 #키워드_추출 #텍스트_분석_결과_시각화

01. 웹 크롤링으로 기초 데이터 수집하기

- 웹 크롤링 / 웹 스크래핑

: 인터넷에 있는 웹 페이지를 방문해서 페이지의 자료를 자동으로 수집하는 작업

01.1. 대상 페이지 구조 살펴보기

01.1.1. 개발자 도구

- 점 세개 → 도구 더보기 → 개발자 도구

- Ctrl + Shift + |

01.1.2. 리스트의 URL 정보 수집

마우스 포인터 모양 아이콘 클릭

→ URL정보를 확인하고 싶은 페이지의 링크 위로 마우스 포인터 이동

→ 클릭

→ <a href= > 태그 찾기 (여기가 URL 정보)

~~작년? 제작년?에 재밌게 봤던 뮤지컬 비틀쥬스가 생각나서~~

~~비틀쥬스 URL 정보를 확인해보기!~~

▶이 과정을 파이썬으로 자동화하여 웹 크롤러를 만든다

01.1.3. 웹 크롤링 라이브러리 사용하기

01.1.3.1. Requests

- 특정 URL로부터 HTML 문서를 가져옴

01.1.3.2. BeautifulSoup

- HTML 문서에서 데이터를 추출하는 작업을 수행

모듈 설치

뭐지.. 나 수업 제대로 안 들었나 처음 듣는 모듈인데 설치가 되어있다..?

reqests.get() 함수 : URL의 HTML 문서를 가져온 뒤

BeautifulSoup() 클래스의 soup 객체로 변환

find(), find_all() 함수 : 특정 HTML 태그/클래스를 가진 데이터를 가져옴

책에 있는 코드는 에러가 난다..

https://lovelydiary.tistory.com/16

파이썬 크롤러) AttributeError: 'NoneType' object has no attribute 'find_all'

#1. AttributeError는 무슨 에러인가? 웹페이지에 있는 테이블의 컨텐츠를 긁어오기 위한 크롤러를 만들고, 그 코드를 실행시키고, table 객체에 값을 열심히 쌓아놓고, 해당 table에서 특정 단어를 가

lovelydiary.tistory.com

https://davey.tistory.com/entry/AttributeError-NoneType-object-has-no-attribute-find-%EC%97%90%EB%9F%AC-%ED%95%B4%EA%B2%B0-%EB%B0%A9%EB%B2%95

AttributeError: 'NoneType' object has no attribute 'find' 에러 해결 방법

안녕하세요 이번 포스팅에서는 파이썬 수행 시 발생할 수 있는 오류 중에 하나인 "AttributeError: 'NoneType' object has no attribute 'find'"에 대해서 설명드리겠습니다. 쉬운 이해를 돕기 위해서 예제를 통

davey.tistory.com

개발자 도구로 열었을 때

table, tbody, tr, td, a태그 모두 확인 가능한데 왜 찾을 수 없다는건지...

~~사실 지금 당장 내일이 논문 최종원고 제출일이라~~

~~여기 시간을 많이 쏟을 수 없어서 일단 패스하고~~

~~내일 더 알아보기로,,,~~

0.1.1.4. 텍스트 정보 수집하기

이 아이콘 클릭

→ 문서의 HTML 구조 파악

→ get()함수 대신 text() 함수를 사용해

해당 태그의 텍스트 정보만 추출함

더이상 시간을 할애할 수 없어

오늘은 여기까지,,

내일 오늘 내용 보충하고 나머지 공부까지 하기!!

'데이터분석' 카테고리의 다른 글

1일 1개발공부˙Day 4 (0)	2022.09.27
1일 1개발공부˙Day 3 (0)	2022.09.26
1일 1개발공부˙Day 2 (0)	2022.09.25
1일 1개발공부˙Day 1 (0)	2022.09.24

현재글1일 1개발공부˙Day 5

머신러닝, 데이터 분석, 딥러닝, GenomeAnalysis, dataanalysis, 깃허브, genome, dataanalytics, 데이터분석, 딥러닝수학, 데이콘, 펭귄몸무게, 데이터사이언스, 기초수학, 테이블, 폭포수모델, dacon, 파이썬, 데이터베이스, 머신러닝수학,

Today :
Yesterday :

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

한걸음씩 천천히