개인 프로젝트 A
-
첫 번째 과제: Crawling(2)개인 프로젝트 A 2023. 12. 10. 22:00
오늘은 데이터 크롤링을 하다가 마주친 몇몇 문제들에 대해 포스팅하고자 한다. 매일 개인 프로젝트에 시간을 조금씩 내보려 했지만 취업준비가 생각보다 녹록지 않아서 시간을 거의 내지 못했다. 그래도 멈추는 것보다는 움직이는 게 낫지 않은가? 첫 번째 어려움은 깔끔하게 원하는 텍스트를 가져올 수 없다는 점이었다. soup.text를 통해 내용을 가져오면 등 특수하게 적용되어야 할 기능들이 누락된 채로 텍스트가 반환되었다. 그렇다면 원하는 부분을 찾아서 가져온 후 후처리를 해줘야 하는데, 부모자식 관계가 복잡하게 얽혀있어서 원하는 부분을 찾기 위한 탐색 최솟값을 찾는데 애를 먹었다. 다행히 논리적인 연산 과정을 찾아 해결했다. 두 번째 어려움은 Bot Detection이었다. 최적화를 하고 난 뒤 일정 시간이 ..
-
첫 번째 과제: Crawling개인 프로젝트 A 2023. 10. 11. 22:44
나만의 Life-Study 질의응답 모델을 만들기 위한 첫 번째 과제는 바로 데이터 크롤링이다. 무료로 풀려있는 라이프 스터디 영어판을 데이터 형태로 가공할 필요가 있다. Beautiful Soup 아래 사이트에서 Beautiful Soup을 실습해보고 나에게 맞게 변형해서 사용하고자 했다. Real Python - Beautiful Soup: Build a Web Scraper With Python 먼저 필요한 모든 링크를 크롤링한 뒤 원문을 추출할 생각이었다. 그런데....... Beautiful Soup을 통해 추출한 링크로는 접속할 수가 없었다. 크롤링 라이브러리를 통해 접속하려고 하면 에러가 났고, 인터넷에서 직접 주소를 입력하면 로그인 페이지로 전환되었다. 계속해서 링크 추출 및 입력을 반복한..