python勉強、実践備忘録。 今日は子供が早く寝てくれたからざっと2時間程度勉強する時間が確保できた。
目標
SEOにおける、自社サイトのページ・競合サイトのページの見出しを抽出したい時に使うものを自分で作るとしたら。
こんなの拡張機能くさるほどあるからあれだけど、自分で作ると機能を拡張していけるから、使いにくい、もっとこうしたいができるようになるにはとてもいい訓練だ。
もっとコードは短くキレイになるだろうが、今の私の力量ではこれが限界。
import requests from bs4 import BeautifulSoup url = input('見出しを抽出したいURLを入力 -->') res = requests.get(url) soup = BeautifulSoup(res.text,'html.parser') print("Result") print("H1:",len(soup.find_all('h1'))) print("H2:",len(soup.find_all('h2'))) print("H3:",len(soup.find_all('h3'))) print("H4:",len(soup.find_all('h4'))) print("H5:",len(soup.find_all('h5'))) print() for h1txt in soup.find_all('h1'): print("H1","\n",h1txt.text.strip()) print() print() for h2txt in soup.find_all('h2'): print("H2","\n",h2txt.text.strip()) print() print() for h3txt in soup.find_all('h3'): print("H3","\n",h3txt.text.strip()) print() print() for h4txt in soup.find_all('h4'): print("H4","\n",h4txt.text.strip()) print() print() for h5txt in soup.find_all('h5'): print("H5","\n",h5txt.text.strip()) print() print() print("end")
出力した結果はこうなる
見出しを抽出したいURLを入力 --> https://gamepicks.tokyo/entry/deruderusagi Result H1: 2 H2: 9 H3: 16 H4: 0 H5: 0 H1 GamePicks H1 2次情報の受け売りMac新商品発売情報に流されないために H2 何事も数字で判断をしろ H2 今必要な人が新型を待つのは頭が悪い H2 私は何を天秤にかけて選んだのか? H2 Airで●●はできますか?というバカみたいなコメント H2 ほとんどの人がMacを持ちたいだけ H2 所詮は自分が満足するかどうか、周りがどう言っているかどうかではない H2 お前はMacが欲しいだけなのか?それとも目的があるのか? H2 じゃあ私なりの仕事別で選ぶならを紹介する H2 最後に H3 ライティング、ライター H3 広告運用 H3 アクセス解析 H3 PMとしてasanaなどWEBツール使うことが多い H3 adobeを使う H3 動画編集 H3 写真編集,raw現像 H3 フロントエンド H3 開発者 H3 ネットサーフィン H3 動画視聴 H3 iPadと迷っている H3 バッテリー重視 H3 軽さ重視 H3 子供にPCを与えたい H3 iPhoneとの連携をしやすくしたい end
はてなブログのせいなのか、テーマのせいなのか知らんが、H1が2つ存在していることにこれをやって気が付いた。 サービスを過信しすぎるのはダメだな。