Skip to content
This repository has been archived by the owner on May 9, 2023. It is now read-only.

WIP:beatifulsoupを使用して新しい構造のスクレイピングを行う #1548

Open
wants to merge 1 commit into
base: main
Choose a base branch
from

Conversation

euledge
Copy link
Collaborator

@euledge euledge commented Aug 7, 2022

念のためWIPにしておきます。サイト運用側で新しい構造になったこと確認してから採用にしてください

👏 解決する issue / Resolved Issues

📝 関連する issue / Related Issues

⛏ 変更内容 / Details of Changes

  • スクレイピングにbeatifulsoupを使用するようにする
  • 新しいサイトの構造に合わせたスクレイピングを行う

📸 スクリーンショット / Screenshots

現在のサイトのDOMツリー

<div class="box_info_cnt">
  <ul>
    <li>8月7日</li>
  </ul>
  <ul style="margin-left: 40px;">
    <li><a href="/koho2/emergency/20220807_2.html" style="letter-spacing: 0.1em;">新型コロナウイルス感染症による患者確認について(8月7日公表)</a></li>
    <li>新型コロナウイルスに関するPCR検査実施状況(8月6日現在) <strong>令和2年2月14日~令和4年8月6日 34,563件</strong></li>
  </ul>
  <ul>
    <li>8月6日</li>
  </ul>
  <ul style="margin-left: 40px;">
    <li><a href="/koho2/emergency/20220806_2.html" style="letter-spacing: 0.1em;">新型コロナウイルス感染症による患者確認について(8月6日公表)</a></li>
  </ul>
  <ul>
    <li>8月5日</li>
  </ul>
  <ul style="margin-left: 40px;">
    <li><a href="/koho2/emergency/20220805_2.html">新型コロナウイルス感染症による患者確認について(8月5日公表)</a></li>
    <li><a href="/koho2/emergency/20220805_3.html" style="letter-spacing: 0.1em;">新型コロナウイルス感染症(変異株)による患者確認について(8月5日公表)</a></li>
    <li><a href="/koho2/emergency/covid-19/index.html">新型コロナウイルス感染症患者動向</a></li>
  </ul>
</div>

上記をBeatifulSoupでスクレイピングした結果

{
  "newsItems": [
    {
      "date": "2022/08/07",
      "url": "https://www.city.hamamatsu.shizuoka.jp/koho2/emergency/20220807_2.html",
      "text": "新型コロナウイルス感染症による患者確認について(8月7日公表)"
    },
    {
      "date": "2022/08/07",
      "url": "",
      "text": "新型コロナウイルスに関するPCR検査実施状況(8月6日現在) 令和2年2月14日~令和4年8月6日 34,563件"
    },
    {
      "date": "2022/08/06",
      "url": "https://www.city.hamamatsu.shizuoka.jp/koho2/emergency/20220806_2.html",
      "text": "新型コロナウイルス感染症による患者確認について(8月6日公表)"
    },
    {
      "date": "2022/08/05",
      "url": "https://www.city.hamamatsu.shizuoka.jp/koho2/emergency/20220805_2.html",
      "text": "新型コロナウイルス感染症による患者確認について(8月5日公表)"
    },
    {
      "date": "2022/08/05",
      "url": "https://www.city.hamamatsu.shizuoka.jp/koho2/emergency/20220805_3.html",
      "text": "新型コロナウイルス感染症(変異株)による患者確認について(8月5日公表)"
    },
    {
      "date": "2022/08/05",
      "url": "https://www.city.hamamatsu.shizuoka.jp/koho2/emergency/covid-19/index.html",
      "text": "新型コロナウイルス感染症患者動向"
    }
  ]
}

プレビューサイトのスクショ

image

Sign up for free to subscribe to this conversation on GitHub. Already have an account? Sign in.
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

浜松市のニュースのサイトの構造が変わったのでスクレイピングを変更する
1 participant