PythonによるWebスクレイピング

Name: PythonによるWebスクレイピング
ISBN: 9784873117614

豆瓣

ISBN: 9784873117614

作者: Ryan Mitchell

譯者: 嶋田健志 / 黒川利明

出版社: オライリージャパン

發行時間: 2016 -3

裝訂: 平装

價格: 3,240

頁數: 272

/ 10

0 個評分

評分人數不足

借閱或購買

WorldCat

Open Library

OAPEN

Bookshop.org

Amazon DE JP UK

Kobo JP TW US

多抓鱼孔夫子旧书

博客来 Readmoo 讀墨

Web Scraping with Python

Ryan Mitchell 譯者: 嶋田健志 / 黒川利明

簡介

「Webスクレイピング」とは、インターネットからデータを機械的に集め、必要な情報を抽出するプロセスのこと。
検索エンジンだけでは限られた情報しか集められませんが、この技術を使えば、インターネット上の膨大な情報の中から本当に必要な情報を入手できます。
小売業、金融業をはじめ多くの業界で情報収集に活用され、アカデミックでも広い分野で使われ注目されています。
本書は、前半でWebスクレイパーとクローラの基礎をていねいに解説し、後半でOCRを使った情報抽出や、JavaScript実行、Seleniumによるインタフェース使用やテスト自動化、自然言語処理などの高度なトピックに加えて法律面の解説など、Webスクレイピングを実際に行うために必要なプログラミングテクニックとテクノロジー全般を紹介します。Python 3.x対応。

まえがき
第I部スクレイパーを作る
1章最初のWebスクレイパー
1.1 つなげる
1.2 はじめてのBeautifulSoup
2章高度なHTMLパーシング
2.1 いつもハンマーが必要なわけではない
2.2 BeautifulSoupの別の使い方
2.3 正規表現
2.4 正規表現とBeautifulSoup
2.5 属性へのアクセス
2.6 ラムダ式
2.7 BeautifulSoupを超えて
3章クローリングを開始する
3.1 単一ドメインを走査する
3.2 サイト全体をクローリング
3.3 インターネットをクローリング
3.4 Scrapyでクローリング
4章 APIを使う
4.1 APIはどう働くか
4.2 共通表記
4.3 レスポンス
4.4 Echo Nest
4.5 Twitter
4.6 Google API
4.7 JSONをパースする
4.8 すべてをホームに集める
4.9 APIについてさらに学ぶ
5章データを格納する
5.1 メディアファイル
5.2 データをCSVに格納する
5.3 MySQL
5.4 メール
6章文書を読む
6.1 文書エンコーディング
6.2 テキスト
6.3 CSV
6.4 PDF
6.5 Microsoft Wordと.docx
第II部高度なスクレイピング
7章汚れたデータをクリーニング
7.1 コードでのクリーニング
7.2 事実の後でクリーニング
8章自然言語の読み書き
9章フォームとログインでクロール
10章 JavaScriptのスクレイピング
11章画像処理とテキスト認識
12章スクレイピングの落とし穴を避ける
13章 Webサイトをスクレイパーでテストする
14章リモートでスクレイピング
付録A Python入門
付録B インターネット入門
付録C Webスクレイピングの適法性と倫理
訳者あとがき
索引

PythonによるWebスクレイピング

/ 10

簡介

contents

其它版本

短評

評論

笔记