Data Sources – Web Scraping with python (Data Science Bootcamp)

안녕하세요 여러분,이 동영상에서는 웹 사이트에서 데이터를 가져 오는 방법을 알려 드리겠습니다 기본적으로 데이터 분석에서 귀중한 통찰력을 추출하라는 명령을 내립니다

데이터가있는 경우 데이터를 알고 있거나 일부 기계 학습 모델을 작성합니다 거대한 그래서 근본적으로 데이터를 얻으려고 노력하거나 이러한 웹 사이트의 데이터를 스크랩하여 사용자가 알거나 구축하는 데 사용할 수 있습니다 해당 데이터 위에 모델을 학습하는 기계가 있으므로이 방법 중 하나입니다 데이터를 추출하고 관련 데이터 소스가 웹 사이트 인 경우 이전 동영상에서 데이터를 얻는 데 사용할 수있는 방법 중 하나 MongoDB 데이터베이스 권한이 낮은 데이터를 추출하는 것을 알고 있습니다 속편 데이터베이스하지만 이번에는 웹 사이트에서 데이터를 긁어 낼 것입니다

당신에게 파이썬이나 데이터 프레임을 만들 것입니다 그 데이터 프레임의 데이터를 긁어서 실제로 우리는 아직 데이터 과학 또는 Rossum 프레임 워크를 사용하여 새로운 주석 분석 그리고 당신의 위상을 얻기 위해 계속 전진했다 Rossum 프레임 워크 그래서 사람들은 인공을 민주화하려는 사명을 맡고있는 Nitin입니다 인텔리전스 우리의 큰 데이터는 클라우드 컴퓨팅 및 블록 체인 전체를 조장합니다 이 목표로 나는 관련 콘텐츠를 만들고 그것을 게시하고 있습니다

게시자가 정기적으로 게시하여 이것들을 배우고 자하는 전체 공동체는 당신이 할 수있는 현대 기술입니다 내 채널을 구독하거나 벨 아이콘을 계속 눌러 21 세기의 가장 뜨거운 기술에 관한 최신 업데이트 및 또한 그 설명 섹션에서 주어진 링크에서 트위터에 나를 따르라 사실 몇 가지 물질에 자막이 추가 된 사실을 알고 계실까요? 귀하의 편의를 위해 힌디어 영어 및 프랑스어와 같은 언어를 사용하십시오 당신의 필요에 따라 그 (것)들 그래서 만약에 당신이 알고있는 경우에 당신이 당신의 자신 또는 일하는 경우에 당신 알고있다 전자 상거래 회사를 알고 있다면 온라인 데이터가 귀하의 전자 상거래 회사에게 중요한 중요성 귀하의 웹 사이트 나 회사 웹 사이트 또는 귀하의 웹 사이트에서 귀하가 알고있는 데이터 경쟁자 웹 사이트 또는 경쟁자 웹 사이트 권리 그래서 이렇게 질문은 어떻게이다 사용할 수있는 형태로 다운로드 하시겠습니까? 사용할 수있는 형식으로 웹 사이트 데이터의 종류와 대부분의 사람들이 당신에게 수있을 것입니다 수동으로 복사하여 붙여 넣기 만하면되므로 이상적으로는 전통적으로 이상적이지 않다는 것을 의미합니다 사람들은 이런 종류의 활동을하지만 웹 사이트에서 데이터를 얻습니다

너를 위해 그것을 위해 가능하지 않다 페이지의 수백을 가진 큰 웹 사이트를 이렇게 우리는 웹 스크 레이 핑 (web scraping)에서 웹 풍경 (web scape)이라는 방법을 사용하여 당신을 저장합니다 수동으로 다운로드하거나 복사하는 방법 알아보기 데이터 및 그 종류의 우리의 전체 프로세스를 자동화 알고 있으므로 도움이 될 웹 긁기는 아무리 큰 웹 사이트라도 데이터를 추출 할 수 있습니다 데이터 및 웹 사이트를 열어서 사용하기 시작하십시오 웹 사이트에서 우리가 파이썬 라이브러리라는 라이브러리를 사용하여 데이터를 긁어 beautifulsoup 맞아 그래서 우리는 아름다운 수프를 설치해야합니다 패키지를 사용하여 쉼표와 XML에 대한 아름다운 스프를 설치하므로 새 기능을 사용하게 될 것입니다

우리의 튜토리얼을위한 York Times 웹 사이트 그리고 나중에 나는 ESP를 사용할 것입니다 웹 사이트에서 그 테이블 데이터를 추출하기위한 스포츠 데이터가 뉴욕에 있으므로 내가 말하고있는 Times 웹 사이트가 여기에 있으므로 New York Times입니다 웹 사이트에서 데이터를 스크랩하면 데이터가 있음을 알 수 있습니다 거기에 관련된 단락이 있다는 것을 다른 방법으로 알 수 있습니다 당신은 앵커 태그를 알고 있거나 링크를 잘 알고 있으므로 모든 종류의 태그를 사용할 수 있습니다

이 웹 사이트에서 데이터를 사용할 수 있으므로이 사이트에서 웹 스크랩을 긁습니다 데이터를 더 이상 지체하지 않고 목성 노트를 열어 보도록하겠습니다 내 목성 노트북입니다 그리고 나는 무엇보다 중요한 몇 가지를 포함시켜야합니다 여기에 도서관이 있으니 바로 그렇게하겠습니다

좋아요 그래서 처음에는 라이브러리가 있습니다 그래서 이미 실제로이 라이브러리를 설치했습니다 도서관에서 이야기 할 필요는 없지만 만약 당신이 그것을 갖고 있지 않다면 이런 실험실을 가져와야 하네 그가 수입 한 BS 4는 아름다운 수프이다

나 SBS는 좋아 그리고 나는 수입 할 것이다 매우 중요한 자연스럽게 노예 제도라고 불리는이 요청 도서관 아무것도 아니지만 그것은 상호 작용하는 것을 알고 있기 때문에 일종의 것입니다 네가 알고있는 동료들과 상호 작용한다 당신이 알고있는 게시물과 같은 방법을 사용하면 모든 종류의 게시물을 알게됩니다

우리가 사용할 수있는 일러스트레이션 관련 방법은 해당 게시물에있는 데이터에 게시하는 것입니다 웹 사이트 및 고양이는 서버에서 데이터를 수신하여 라이브 도트에 있습니다 괜찮은 요청을 요청한 다음에는 이걸 실행하고 강제로 이제 내가 할 일은 기본적으로 URL을 가져갈 것입니다 웹 사이트에서 URL이나 입술과 같은 코드를 타이핑 할 것입니다 점은 열어 도트 URL을 요청할 것이고 여기에 링크를 포함 할 것입니다

웹 사이트는 뉴욕 타임즈이므로 뉴욕 타임즈에 붙여 넣으십시오 웹 사이트 링크를 클릭 한 다음, 여기를 입력하십시오 SRC의이 링크에는이 웹 사이트의 데이터가 포함되어 있으므로 기본적으로 이 특정 코드를 통해 뉴욕 타임스 링크를 열 수 있습니다 좋아, 그럼 당신이 열려있는이 링크를 열어이 특정 링크 괜찮아 읽고 괜찮아요 그리고 그 값은이 특별한 것에 저장되고 있습니다

SRC 변수가 괜찮아요 코드가 본질적으로 돌려주는 것입니다 HTML 소스 오케이 그러면이 웹 사이트를 알 수 있습니다 보기 페이지 원본을 클릭하면이 전체가 표시됩니다

소스 불 괜찮아 그래서이 웹 사이트에 대한이 특정 소스 코드를 볼 수 있습니다 이 뉴욕 타임스 웹 사이트는 알았어이게 바로 소스 포트 야 그래서이 특정 코드는이 웹 사이트의 소스 코드를 반환하고 소스 코드는이 변수에 저장됩니다 그래요,이 특정 코드는이 전체입니다 웹 사이트의 소스 코드가이 변수와이 특정 변수에 저장됩니다

코드는 기본적으로 소스 코드를 추출하므로 다음 단계는 다음 단계입니다 기본적으로이 코드 조각을 아름다운 수프로 변환하는 것입니다 object okay 그리고 우리가 입력 할 수있는 아름다운 수프 객체를 어떻게 만들 수 있습니까? 같은 콩 수프와 같은 것 2 Bs 점 tau t pi 아름다운 su 그런 다음이 변수 인 SRC와 파서를 포함합니다 좋아요, 파서가 xml입니다 그래서 여기서는이 두 개의 매개 변수 중 하나를 갖습니다

변수는 웹 사이트의 소스 코드에 전달되고 그 다음에 파서 괜찮아 그래서 당신은 기본적으로 HTML과 같은 다른 부분 단어를 사용할 수 있습니다 확인 html5 그래서 당신은 다른 종류의 소포를 사용할 수 있습니다 그래서이 셀을 실행합시다 이제 다음 단계는이 특정 변수의 내용을 인쇄 해 보겠습니다 수프가된다 이걸 잘 인쇄해라

그래서 여기에 전체 소스 코드가 포함되어 있음을 볼 수 있습니다 여기서 확인할 수있는 웹 사이트의 전체 소스 코드이므로 doctype HTML 바로 여기에서 HTML HTML 텍스트와 소스 코드를 볼 수 있습니다 특정 변수는 괜찮아요 그리고이 특정 코드는 기본적으로 지금 당장 기본적으로이 특정 웹 사이트의 제목도 인쇄 할 수 있습니다 인쇄 완두콩 수프 도트 제목 괜찮아 그는이 웹 사이트의 제목을 여기에 볼 것입니다 그것을 볼 수 있지만 당신은 거기에 몇 가지 형식의 제목 태그가 잘 볼 수 있습니다 여기에서는 제목 태그를 볼 수 있으므로 텍스트 버전 만 인쇄하려는 경우 이 조각은이 조각이 텍스트 버전을 누른 다음 당신이 할 수있는 일은 무엇입니까? 단지 T 접미사를 입력하십시오

X X 이제는 텍스트 버전 만 볼 수 있습니다 제목 괜찮아 이렇게하면 네가 할 수있는 방법이야 네가 모든 걸 얻고 싶다면 당신이 얻을 수있는이 특정 웹 사이트에 주어진 의미의 URL 링크를 아십시오

그 URL 링크뿐만 아니라 사실 모든 URL 링크와 우리가 쓰는 방법 코드는 링크를 위해 이와 같은 것입니다 우리가 목적으로하는 수프에서 말하게하십시오 아름다운 수프 개체를 누른 다음 메서드를 모두 괜찮아 찾기라는 이후 URL은 a 또는 앵커 태그로 표시되거나 a 앵커를 나타냅니다 여기에 태그를 붙이십시오 그리고 나서 다음은 기본적으로 링크 get과 then을 인쇄하는 것입니다

특정 링크 인 schref에서 원하는 분노 탭 좋습니다 그래서 우리는 그 권리를 인쇄하고 싶습니다 내가 말했듯이 여기는 앵커 탱크 다 좋아 링크 또는 URL과 기린을 포함하는 링크에 대한 참조입니다 좋아 기린은 내가 반복하는 링크에 대한 참조가 잘못되었습니다 해당 URL의 해당 링크에 대한 URL을 포함하고 HF는 당신이 링크에 괜찮다는 것을 참고하면, 그것을 인쇄하고 완벽하게 할 수 있습니다

모든 URL 또는 링크가 여기 오른쪽에 오는지 확인하십시오 그러면 이것이 우리가 모든 것을 얻는 방법입니다 URL 링크 이제 우리가 인쇄하고 싶다면 첫 번째 단락을 말해 보겠습니다 이 특정 코드를 사용하여 첫 번째 문단을 인쇄 할 수도 있습니다 pea-soup dot TP로 단락을 나타냅니다

첫 단락을 보여주고이 단락은 여기에서 볼 수 있습니다 그리고 모든 단락을 인쇄하고 싶다면 다시 사용할 수 있습니다 모든 방법을 찾으십시오 그래서 B를 인쇄하십시오 모든 밑줄을 모두 찾지 말고 모든 것을 찾으십시오

문단을 인쇄하면 모든 문단이 여기에 온 것을 볼 수 있습니다 그 뉴욕 타임스에 그 페이지에 선물해 그럼 다음번 엔 괜찮아 우리가 실제로 여기 단락을 인쇄 했으니 까 이 단락 안에있는 텍스트는 바로 이것을 사용하여 같은 것을 얻을 수 있습니다

특정 코드 조각을 인쇄하고 나서 인쇄하십시오 분명히 세금을 내야합니다 괜찮 았을 때 포함시키고 텍스트를 받아야합니다 괜 찮 아 요 그래서 괜 찮 아 요 싸움을하지 괜 찮 아 요 그리고 이걸 입력해라 오, 세상에

나는 부인이야 베티 괜찮아 그럼 괜찮아 그 모든 단락에서 텍스트를 원한다면 그 단락의 텍스트 만 있으면됩니다 여기에 주어진 단락은 볼 수있는 것처럼 텍스트 부분에 불과합니다

이 태그들은 바로 여기에 있습니다 그래서 우리는 이런 종류의 태그를 사용하지 않습니다 우리의 분석 목적을 위해이 태그를 없애고 그 단락에서 X를 빼내서 필드 ax B와 같으므로 점 점은 모두 밑줄을 긋고 P는 오케이 한 다음 한 번 이 코드를 사용하여 모든 단락을 가져온다 그 다음에는 단락을 모두 찾으면 실제로 개별적으로 개인을 얻는 for 루프를 기본적으로 모든 개별 단락 그래서 우리는 여기서 P와 P 태그를 위해서 괜찮습니다 print P dot txt 우리는 텍스트 버전의 텍스트를 인쇄하기를 원하기 때문에 당신은 모든 단락 문이 여기에 태그가 없다는 것을 볼 수 있습니다

여기에 주어진 P 태그는 여기에 없습니다 낮은 단락 태그는 여기서 모든 단락에 대한 텍스트 만 제공되므로 여기에서 분석을 위해 활용할 수 있습니다 기본적으로 우리는 이런 종류의 분석을 알고 있습니다 자연 언어 처리와 관련하여 알고있는 일을하기위한 데이터 종류 이런 모든 데이터를 가져 오는 것이 좋습니다 우리 웹 사이트에는 몇 가지 리뷰가 있습니다

Amazon이 사용자가 제공 한 리뷰를 제공하므로 모든 항목을 가져올 수 있습니다 이러한 단락의 형태로 리뷰를 작성한 다음 모든 종류의 작업을 수행 할 수 있습니다 자연어 처리와 관련하여 자연과 관련된 몇 가지 모델을 만듭니다 주제 모델링 감정 분석과 같은 언어 처리 처리 모두 자연어 처리와 관련된 종류의 텍스트는 다른 텍스트를 알고 있습니다 그래서이 텍스트 기반 데이터를 사용하여 할 수 있습니다

마지막으로 우리는 기본적으로 볼 수 있습니다 다음 섹션에서 특정 웹에 주어진 테이블 값을 긁어 낸다 페이지 좋아요, 그래서 웹 페이지의 테이블은 테이블 태그로 표현됩니다 행 값을 나타내는 테이블 태그 사이에 TR 탭이 있습니다 오른쪽 및 TR 태그 내에서 실제로 헤더를 나타내는 th 태그가 있습니다

테이블 데이터 또는 개별 셀 값을 나타내는 TD 태그가 있습니다 좋아요, 우리는 기본적으로 TD 탭에 주어진 데이터를 가져 오는 데 관심이 있습니다 개별 셀 값은 그것이 사용할 수있는 데이터이기 때문에 몇 가지 통찰력을 이끌어 낼 수있는 분석이 필요합니다 먼저 코드를 작성하여 테이블을 정의하십시오 기본적으로 NBA 선수의 espn

com 통계 데이터를 활용하는 이전 코드 괜찮아 보여서 그 링크를 활용할게 좋아, 너에게 보여 줄게 그 사기성은 내가 말하고있는 링크이다 알았어 알았어 그럼 이걸 내가 가져올 테이블이고, 네가 검사하면

이 특정 웹 페이지는 검사를 해봅시다 순간 Patti를 의미합니다 이 특별한 테이블의 일부는 괜찮아요 다른 종류의 태그를 볼 수 있도록 여기에 테이블 태그가 있음을 볼 수 있습니다 그래서이 테이블 태그는 가장 높은 레벨의 탱크를 나타냅니다

아래로 스크롤하면 전체 테이블이 TR 태그가 표시되므로 peabody 태그는이 테이블의 본문을 포함하고 TR 태그가 있습니다 나는 테이블 태그에 다양한 선생님 TR 태그가 포함되어 있다고 말했어 그래서 TR이라면 태그를 삽입하고이 TR 태그 내부에서 TD 태그를 볼 수 있습니다 그래야 TD가 있습니다 실제로이 RK 열을 나타내는 태그입니다

그러면 플레이어 팀이 있습니다 오른쪽과 유사하게 우리는 다른 TD 태그를 가지고있다 여기에서는 GP가있다 TD에 의해 표현되는 개별 셀 값이 맞다 TR은 행이므로 TR은 전체 행을 나타내고 TD는 각각을 나타냅니다

개별 셀 값은 괜찮습니다 이전에 말했던 것처럼 이전 코드는이 데이터를 가져 오니이 코드를 활용하겠습니다 그리고 이것도 좋아, 뉴욕 타임즈 대신이 특별한 링크를 개선하자 이걸 포함 시켜라 그러면 네가 그 테이블을 원한다면 뭘 원하는거야? B 수프 같은 것을 입력 할 것입니다

죄송합니다 TPL은 수프 도트와 똑같은 표를 찾아서 좋아요 TBL이 좋아 졌으면 좋겠다 그래서 알아 내면 좋다 테이블 Rose는 TBL dot 검색을 입력하고 TR 태그를 찾습니다 TR 태그가 각 행을 나타낼 때 행이므로 TR 태그는 오른쪽에 있으므로이 특정 변수 TBL 행에는 TR 태그가 포함되어 있습니다

이 특별한 TR 태그에서 우리가 개인적으로 원하는 바로 지금 셀 값 또는 TD 값은 각 셀을 나타냅니다 우리가 너를 이용하고있을 것 인 것처럼 은밀한 타이핑은 지금까지 TR을 안다 TBL 행 다음 원하는 모든 셀 값 개별 셀 volution TD 추적 TR dot는 모두 밑줄을 긋고 TD는 괜찮아요 Rho가 텍스트를 점으로 찍을 때까지 그 특정 셀의 텍스트 값이 같을 때까지 Rho가 같다고 말합니다 나는 TD에 대해 알았어

그러면 네가 보자 네가 보자 이제는 개별 행 값을 바로 볼 수 있으므로 이 입증 된 교차 검증 할 수 또는 러셀 웨스트 브룩 괜찮아 두 세 참조하십시오 37 점 5 점 오른쪽 러셀 브룩 괜찮아 7 포인트 5 그래서 당신은 여기 전체 테이블 데이터를 모두 가지고 있지만 이것은 이 변수의 데이터 유형을 입력하면 모든 권리가 있으므로 입력하면됩니다 하지만 행은 목록이므로 이제이 목록을 변환해야한다는 것을 알게 될 것입니다

데이터를 데이터 프레임에 저장하면 매우 잘 활용 된 팬더를 활용할 수 있습니다 데이터 프레임이므로 숙제입니다이 목록 데이터를 변환하려고합니다 데이터 프레임에 삽입하면 숙제가 될 것입니다 잘 해봐

근본적으로 다른 방법이 있다는 것을 보여줄 수있어 이 테이블에서 데이터 프레임을 만들 수 있습니다 pandas dataframe을 직접 활용하면 직접 추출 할 수 있습니다 우리는 당신이 데이터를 긁어 모으는 것을 안다 pandas 데이터 프레임을 사용하는 데이터이므로이 목록 데이터를 M의 날짜가 아니라 판다를 사용하여 데이터를 추출 할 것입니다

데이터 프레임 괜찮아요 그리고 내가 그렇게 할 방법은 우선 저입니다 가져 오기 도구로 데이터를 가져 오면 PD로, 다음으로는 다음으로 가져옵니다 데이터를 저장하는 변수를 초기화하십시오 테이블 데이터 이것은이 데이터에 대해 이야기하고 있습니다

아, 우리의 데이터 필름 형식의이 전체 테이블 데이터 좋아요 판다 데이터 프레임 형식이므로 우리가 보여주는 가장 짧은 방법입니다 여기에서 우리는 read HTML이라는 메소드를 사용할 것이므로 여기에서 HTML을 읽으십시오 읽기 CSV 읽기 밑줄 CSV와 비슷합니다 CSV 데이터를 이와 비슷한 방법으로 이렇게하면 HTML 데이터를 읽을 수 있습니다

이 밑줄 HTML 메서드는 이제이 링크를 포함합니다 그래서 당신은이 링크를 포함 할 수 있습니다 당신은 하나의 양식을 포함시킬 수 있습니다 DF in 또는 data ok print DF 무엇이 보이는지 봅시다 데이터 프레임에이 표 형식의 데이터가 포함되어 있음을 알 수 있도록 완벽하게 괜찮아요 또는 데이터 프레임 양식 괜찮아요 그래서 당신은 아주 잘 말할 수있는 각각의 거기에 개별 칼럼 RK 선수 / 팀 GPM PG 여기에 해당 데이터가 표시됨 맞습니다

그래서 이것이 우리가 실제로하는 방식입니다 이를 통해 웹 사이트 데이터를 긁어 낼 수 있으며 특정 거대한 크기가있을 수 있습니다 테이블 그래서 당신은 아주 잘 웹 사이트에 존재하는 그 테이블을 긁을 수 있습니다 여기에 두 가지 방법이 있습니다 하나는 기본적으로 개인 데이터를 긁는 것입니다

셀 값 및 행 값을 목록으로 추출하여 이제는 다음을 수행해야합니다 이 목록을 다른 하나의 데이터 프레임으로 변환하면 팬더를 사용하여 데이터를 읽으면이 HTML 메소드가 밑줄 친다 이 데이터 프레임을 활용하여 추가 분석을 할 수 있습니다 그녀는이 비디오가 우리가 웹에 대해 알게되었다고 결론 내리고있는 것을 잊었다 자료를 긁어 모으는 방법에 대해서도 알게되었습니다

앵커 단락 및 표와 같은 다양한 요소 또는 태그와 관련이 있습니다 그러한 데이터를 사용하여 기계 학습 모델을 구축하거나 일부 작업을 수행하십시오 데이터 분석은 여기에서 오늘의 질문은 괜찮습니다 질문은 그렇습니다 웹 사이트 데이터를 사용하고자하는 상황에 직면 해 있습니까? 분석 목적 및 추출한 기술은 무엇입니까? 그러한 데이터는 아래의 주석 섹션에서 의견을 공유하고 if 너는이 비디오를보고 있는데 너는 이미 우리 채널 구독자가 아니야

작은 가입 버튼을 클릭하는 것을 고려해보십시오 이미 가입 한 다음 배너 항목을 클릭하여 알림을받습니다 새 비디오를 공개 할 때마다 우리 랑 같이 놀아 줘서 고마워 다가올 비디오에서 다음 주제를 다룰 예정입니다 감사합니다