新着記事一覧

IT・プログラミング Python

2024/7/22

【Python】Pythonでの自然言語処理(日本語)

こちらの記事では、自然言語処理についてまとめています。 Contents1 自然言語処理とは?2 自然言語処理の実装 自然言語処理とは? 自然言語とは、日本語や英語のような自然発生的に生まれた言語です。日常的に使用している自然言語について、言葉が持つ意味を解析し処理します。活用事例としては、チャットボット、音声認識AI、文字認識(手書き文字をカメラが認識し文字データへと変換する技術)、検索エンジン、翻訳、感情分析、文章要約などがあります。 文章の意味を機械に理解させるには、単語分割を行う必要があります。手 ...

続きを読む

IT・プログラミング Python

2024/4/8

【Python】統計学的モデル 時系列分析の実装

こちらの記事では、時系列分析の実装についてまとめています。 Contents1 時系列分析とは?2 定常性とは?3 時系列データの分析方法4 SARIMAモデルの実装 時系列分析とは? 時系列分析では、時間経過とともに変化する時系列データを扱います。時系列データの例としては、毎時間の気温、株価の推移等がこれにあたります。売上予測、来店者予測等、ビジネスにおいて重要な分析技術です。 時系列データには以下3種類があります。 1.トレンドデータの長期的な傾向。時間の経過とともに値が上昇・下降している時系列データ ...

続きを読む

IT・プログラミング Python

2024/4/1

【Python】主成分分析の実装

こちらの記事では、主成分分析を実装していきます。 Contents1 主成分分析とは2 主成分分析の手順について 主成分分析とは 主成分分析とは、次元削減を行う時によく使う手法です。例えば、いくつかの特徴量があるデータを2次元データに変換すると、できるだけ情報を保ったまま2軸での描画が可能になり、全てのデータを見やすく示すことができます。 主成分分析の実用例として、製品やサービスのスコアリングや比較(1次元に圧縮)、データの可視化(2,3次元に圧縮)、回帰分析の前処理などが挙げられます。 主成分分析の手順 ...

続きを読む

IT・プログラミング Python

2024/4/1

【Python】カーネル主成分分析の実装

こちらの記事では、カーネル主成分分析の手順についてまとめています。 Contents1 カーネル主成分分析とは2 カーネル主成分分析の実装 カーネル主成分分析とは 回帰分析等、機械学習の多くのアルゴリズムは線形分離できるデータが与えられることを前提としていますが、現実的には線形分離できないデータ、つまり非線形分離する必要があるデータがほとんどです。非線形分離する必要があるデータに対処できるのが、カーネル主成分分析(kernel PCA)です。 カーネル主成分分析ではN×M(データの数×特徴の種類)のデータ ...

続きを読む

IT・プログラミング Python

2024/3/29

【Python】機械学習(教師なし) クラスタリング DBSCANの実装

こちらの記事では、機械学習(教師なし)の非階層的クラスタリング DBSCAN法についてまとめていきます。 Contents1 クラスタリングとは2 DBSCANでの実装 クラスタリングとは データをクラスター(塊)に分割する操作のことです。クラスタリングの中でも階層的クラスタリングと、非階層的クラスタリングの2種に分けられています。 1.階層的クラスタリングデータの中から最も似ている組み合わせを探し出して、順番にクラスターにしていく方法です。最終的に全データをまとめるクラスターに行くつけば終了です。 2. ...

続きを読む

IT・プログラミング Python

2024/3/28

【Python】機械学習(教師なし) クラスタリング k-meansの実装

こちらの記事では、機械学習(教師なし)の非階層的クラスタリング k-means法についてまとめていきます。 Contents1 クラスタリングとは2 k-means法での実装 クラスタリングとは データをクラスター(塊)に分割する操作のことです。クラスタリングの中でも階層的クラスタリングと、非階層的クラスタリングの2種に分けられています。 1.階層的クラスタリングデータの中から最も似ている組み合わせを探し出して、順番にクラスターにしていく方法です。最終的に全データをまとめるクラスターに行くつけば終了です。 ...

続きを読む

IT・プログラミング Python

2024/3/28

【Python】機械学習のデータ前処理 外れ値の扱いについて

外れ値の処理についてまとめています。 Contents1 外れ値とは?2 外れ値の検知方法について 外れ値とは? 外れ値とは、他のデータと著しく乖離したデータのことを指します。データ内に外れ値が混在していると、分析結果に影響を及ぼしたり、機械学習モデルの学習過程で影響がでてしまい学習が進みにくくなる、などの影響が出てしまいます。 外れ値の検知方法について 外れ値の検知方法について、可視化、LOF(Local Outlier Factor )、Isolation Forestの3つの手法について紹 ...

続きを読む

Python 育休の過ごし方

【Python】保活で活用してみた

こんにちは、Haruです! 育休中にPythonというプログラミング言語を勉強中です。

元々は仕事の業務効率化で使いたく(時短なので残業せずに帰りたいため)Pythonを勉強し始めたのですが、日常生活のちょっとした情報収集にも使えました。

今回は保活での活用法を紹介したいと思います。

Haru

そろそろ保活の時期。上の子の転園も検討しようかな。
私の住んでる◯区にけっこう保育園とこども園あるけど、市のHPからリンク全部クリックしてページ遷移して情報確認するのめんどくさーい!!

こういう時こそスクレイピングですよ。
私でコードを書いて実行しなさい。1発でCSVファイルにして出力してあげますよ。

Python先生
Haru

まじですか!!あなたは神ですか!!

というわけでいってみましょう!

スクレイピングとは?

スクレイピングは「こする」「かき集める」といった意味を持つ「Scrape」に由来する用語で、Webやデータベースを広く探って「データを抽出する手法」のことです。

HaruはPythonというプログラミング言語の「Beautiful Soup」というライブラリを使って今回スクレイピングをして保活情報収集を効率的に行いました。

Beautiful SoupとはHTMLファイルやXMLファイルからデータを抽出するためのPythonライブラリです。

robots.txtの確認

スクレイピングをするにあたって必ずやらなければいけないのが、スクレイピングするサイトのrobots.txtの確認です。
robots.txtとは、サイトを巡回するクローラーの動作をコントロールするために記述されたテキストファイルのことで、スクレイピングをしたいサイトのURLの後ろに/robots.txtをつけると確認することができます。

例えば以前仕事で担当していたフィリピン、某サイトはこんな感じになっています。

Disallowがたくさんです。このサイト内のこのURLではスクレイピングはしてくれるな!!という指定がずらっと記載されています。

そしてHaruが今回スクレイピングしたいサイトのrobots.txtを見てみると、以下のようでした。

ふぬ、特に記載はなくスクレイピングを拒否されているURLはなさそう。では有難く情報収集させて頂きましょう。

書いたコード

#必要なライブラリのインポート
import requests
from bs4 import BeautifulSoup
import urllib
import time
import pandas as pd

# webページを取得して解析する
load_url = "ここに解析したいURLを入れました"
html = requests.get(load_url)
soup = BeautifulSoup(html.text, "html.parser")

#取得したい要素の空リストを作成する
links = []
names = []
divisions = []
categories = []
places = []
tels = []

# 全部の区のclassで検索し、その中の全ての"a"タグを検索して表示する
# 施設名、リンクを絶対URLで表示する
for facilities in soup.find_all(class_="facilities"):
    for title in facilities.find_all("a"):
        names.append(title.string)
        links.append(urllib.parse.urljoin(load_url, title.get("href")))

# 地域, 分類, 所在地, 電話情報をtdタグ、class名より検索し、空リストに格納していく
    for division, category, place, tel in zip(facilities.find_all('td', class_="division"),
                                              facilities.find_all('td', class_="category"),
                                              facilities.find_all('td', class_="place"),
                                              facilities.find_all('td', class_="tel")):
        divisions.append(division.string)
        categories.append(category.string)
        places.append(place.string)
        tels.append(tel.string)

# DataFrameに保存
df = pd.DataFrame({"Name":names, "Division":divisions, "Category":categories, "Place":places, "Tel":tels, "Link":links})

# テーブルを指定
find_conditions = [
    {"class":"basicInfo wide"},
    {"class":"basicInfo narrow"},
    {"class":"detailedInfo"}
]

for ix, link_url in enumerate(df["Link"]):
    html = requests.get(link_url)
    soup = BeautifulSoup(html.text, "html.parser")

# 1回アクセスしたので1秒待つ
    time.sleep(1)

# テーブル内の要素を取得する
    for condition in find_conditions:
        table = soup.find("table", condition)
        try:
            for column, value in zip(table.find_all("th"), table.find_all("td")):
                if not column.text in df.columns:
                    df[column.text] = ''
                df.at[ix, column.text] = value.text
        except AttributeError:
                pass

# 整形する
for column in df.columns:
    df[column] = df[column].str.replace(" ", "")
    df[column] = df[column].str.replace("\t", "")
    df[column] = df[column].str.replace("\n", "")

# CSVファイルに出力する
df.to_csv("kindergartens.csv", encoding="utf-8-sig")

出力結果

上のコードを書いて実行すると、あら素敵!一覧リストになって出力されました!(個人情報保護のため青でマスキングしています)
私はこのファイルで区・地域及び保育標準時間欄でソートをして、候補園を絞り込みました。

まとめ

本当にPython便利です!
一回コードを書いてしまえば、大体パターンは一緒なので少し修正するだけで使いまわすことができます。

せっかく勉強したPython。仕事だけでなく日常生活にもドンドン使っていきたいと思います。

  • この記事を書いた人

Haru

会社員。2回目の育休から仕事復帰。
職種は海外営業。
育休の過ごし方、育児、家事、プログラミング勉強について発信しています。

-Python, 育休の過ごし方
-, ,