PythonによるWebスクレイピング

Ryan Mitchell 著 ; 黒川利明 訳 ; 嶋田健志 技術監修

「Webスクレイピング」とは、インターネットからデータを機械的に集め、必要な情報を抽出するプロセスのこと。検索エンジンだけでは限られた情報しか集められませんが、この技術を使えば、インターネット上の膨大な情報の中から本当に必要な情報を入手できます。小売業、金融業をはじめ多くの業界で情報収集に活用され、アカデミックでも広い分野で使われ注目されています。本書は、前半でWebスクレイパーとクローラの基礎をていねいに解説し、後半でOCRを使った情報抽出や、JavaScript実行、Seleniumによるインタフェース使用やテスト自動化、自然言語処理などの高度なトピックに加えて法律面の解説など、Webスクレイピングを実際に行うために必要なプログラミングテクニックとテクノロジー全般を紹介します。Python3.x対応。

「BOOKデータベース」より

[目次]

  • 第1部 スクレイパーを作る(最初のWebスクレイパー
  • 高度なHTMLパーシング
  • クローリングを開始する
  • APIを使う
  • データを格納する
  • 文章を読む)
  • 第2部 高度なスクレイピング(汚れたデータをクリーニング
  • 自然言語の読み書き
  • フォームとログインでクロール
  • JavaScriptのスクレイピング
  • 画像処理とテキスト認識
  • スクレイピングの落とし穴を避ける
  • Webサイトをスクレイパーでテストする
  • リモートでスクレイピング
  • Python入門
  • インターネット入門
  • Webスクレイピングの適法性と倫理)

「BOOKデータベース」より

この本の情報

書名 PythonによるWebスクレイピング
著作者等 Mitchell, Ryan E
嶋田 健志
黒川 利明
Mitchell Ryan
ミッチェル ライアン
書名ヨミ パイソン ニ ヨル ウェブ スクレイピング
書名別名 Web Scraping with Python
出版元 オライリー・ジャパン : オーム社
刊行年月 2016.3
ページ数 253p
大きさ 24cm
ISBN 978-4-87311-761-4
NCID BB20929608
※クリックでCiNii Booksを表示
全国書誌番号
22713846
※クリックで国立国会図書館サーチを表示
言語 日本語
原文言語 英語
出版国 日本
この本を: 
このエントリーをはてなブックマークに追加

このページを印刷

外部サイトで検索

この本と繋がる本を検索

ウィキペディアから連想