【実例公開】AIでHTMLから情報を抽出しExcelに整理する方法
業務効率化
競合サイトに掲載されている訴求やアピールポイントを、自社の競合分析資料用にExcelで一覧化する作業に時間を取られていませんか?
競合ページからのコピペ、テキストの整形、訴求カテゴリの分類、見出しの作成…と、地味な手作業を積み重ねて1日が終わってしまうケースは少なくありません。
実は、AIに競合ページのHTMLを渡すだけで、訴求カテゴリ別に整理された見出し付きの競合分析シートを数分で作成できます。
本記事では、ある求人サイトの企業紹介ページのHTMLから各社のアピールポイントを抽出し、見出し付きの競合分析用Excelに整える実例を、実際に使ったプロンプト付きで解説します。
目次
AIでHTMLから情報を抽出するメリット
まず、競合サイトのHTMLからExcel整理する作業をAIに任せるメリットを、手作業の場合と比較しながら整理します。

競合からの転記・整形作業が不要になる
競合分析でWebページから訴求情報をExcelに転記する場合、通常は競合サイトを1社ずつ開き、対象箇所をコピーし、Excelに貼り付け、改行や余計な記号を削除する、という作業を繰り返します。
AIにHTMLをそのまま渡せば、このコピペ・整形作業をまとめて任せることができます。
20社・30社といった単位でも、1回の指示で整った状態の競合分析シートに変換できます。
訴求カテゴリの分類・色分けまで自動でできる
競合ページ上で訴求軸ごとにセクション分けされている情報であれば、AIはその構造を読み取り、Excel側でもカテゴリ列を作成して色分けすることまで対応できます。
「カテゴリ別に色分けして」と一言添えるだけで、競合各社の訴求傾向をひと目で把握できるフォーマットの一覧表が出来上がります。
長い訴求文を見出し付きで端的にまとめ直せる
競合の訴求は文章として書かれているケースが多く、そのままExcelに入れても比較しづらい一覧になります。
AIに「見出し付きで端的にまとめて」と指示すれば、各社の訴求の要点を抽出した見出し(例:「安定性・将来性」「制度・働き方」)と、端的な本文に整え直してくれます。
各社の訴求軸が揃うため、自社との差分が浮き彫りになります。

【STEP1】HTMLを渡してアピールポイントを原文のまま抽出する
最初のステップは、HTMLからアピールポイントを「原文のまま」抽出してExcel化することです。
いきなり要約や整形まで指示すると、AIが情報を勝手に膨らませたり省略したりすることがあります。
まずは原文そのままを構造化することに集中させるのが、精度を上げるコツです。

使用したプロンプト
実際に使ったプロンプトは、シンプルにこれだけです。
| 各企業のアピールポイントをスプレッドシートに原文のまままとめて。 (HTMLを添付) |
出力されたExcelの構成
AIから出力されたExcelは、以下の3列構成になりました。
・カテゴリ
・企業名
・アピールポイント(原文のまま)
加えて、カテゴリごとに行の背景色が自動で塗り分けられた状態で出力されています。
HTML上で「安定性重視」「成長性重視」などのカテゴリでセクション分けされていた構造を、AIが正しく読み取った結果です。
「原文のまま」と指示する理由
プロンプトでは「原文のまま」という言葉を必ず入れるようにします。
この一言を抜くと、AIが気を利かせて表現をマイルドに言い換えたり、似た文意の文を補ったりすることがあります。
元の情報を正確に残したい場合は、「原文のまま」「変更しないで」と明示するのが安全です。
プレースホルダー(仮の文字列)は除外される
今回のHTMLには、「企業名がはいります」「アピールポイントがはいります」といったプレースホルダーが含まれていました。
AIはこれを実データと区別して認識し、出力対象から除外していました。
「全24社のうち、プレースホルダー部分は除外しました」と理由とともにレポートしてくれるので、抜け漏れの確認もしやすくなります。
【STEP2】抽出したアピールポイントを見出し付きで整える
STEP1で出力されたExcelは、原文ベースのため1セルあたりの文章が長く、一覧で見渡したときに情報が頭に入りづらい状態でした。
そこで2段階目のプロンプトとして、「見出し付きで端的にまとめる」指示を出します。

使用したプロンプト
画像のサンプル(参考にしたい一覧表のフォーマット)を添付したうえで、以下のように指示しました。
| このアピールポイントを添付の画像のように見出し付きで端的にまとめて。 このアピールポイント以外から勝手に情報を持ってこないでね。 このExcelの文章をベースに作成して。 最後スプレッドシートで出力してほしい。 |
出力結果のフォーマット
出力されたExcelは、4列構成に整理されました。
・カテゴリ
・企業名
・見出し(例:「安定性・将来性」「事業・強み」「制度・働き方」など)
・端的なアピールポイント
見出しは、各企業のアピールポイントの内容に応じてAIが自動で振り分けています。
アピールポイントの観点が複数に分かれている企業は、1企業あたり2行に分けて記載される形になりました。
出力例
実際の出力例は以下のようなイメージです。
| ある警備会社の場合・安定性・将来性:大手グループのパートナー企業として、関連する施設のセキュリティを多数展開 ・制度・働き方:福利厚生も充実。各種サービスの割引や、無料で動画配信サービスも視聴可能 |
元の文章では1セルに混ざっていた「安定性の話」と「福利厚生の話」が、見出しごとに分かれて整理されているのが分かります。
「他の情報を持ってこないで」と明示する重要性
見出し付きで整える指示を出すと、AIは元の情報を要約しようとして、つい「一般的にはこういう傾向がある」「業界としては…」といった補足情報を加えがちです。
正確性が求められる業務資料では、この補足が混入することが致命的になります。
そのため「このアピールポイント以外から勝手に情報を持ってこないで」「このExcelの文章をベースに作成して」と明示しておくことで、AIは元データの範囲内でのみ整形作業を行うようになります。
AIでHTML→Excel整理をうまく進める3つのコツ
ここまでの実例から、HTMLからExcel整理をAIに任せるときの実践的なコツをまとめます。
「原文のまま」「ベース情報以外は使わないで」と明示する
業務で使う一覧表では、情報の正確性が最優先です。
AIに対して「原文のまま」「持っている情報以外は使わない」と明示しておくと、勝手な言い換えや情報の追加を防げます。
特に企業情報・商品情報・採用情報など、対外的に使う可能性のあるデータでは必須の指示と考えてよいでしょう。
1回で完璧を求めず、抽出 → 整形の2段階に分ける
「HTMLから抽出して見出し付きで端的にまとめて、色分けもして」と1回のプロンプトで全部指示するより、まずは原文のまま抽出 → 次に整形・要約、と2段階に分けるほうが精度が安定します。
途中の出力を確認できるため、「原文の段階で抜けている情報がないか」「整形段階で意味が変わっていないか」を順に検証できるためです。
出力形式(列構成・色分け・行分け)を具体的に指定する
AIに「Excelで出してください」とだけ伝えると、列構成は毎回バラつきます。
「カテゴリ・企業名・見出し・本文の4列で」「カテゴリごとに色分けして」「観点が複数ある企業は行を分けて」のように、列の数と並び、見た目の指定まで具体的に伝えると、再現性のある一覧表が安定して出力されます。
まとめ
今回は、Webページ上のHTMLからAIに情報を抽出させ、見出し付きのExcelに整える実例を紹介しました。重要なポイントを改めて振り返ります。
・HTMLを渡せば、AIは構造を読み取り、カテゴリ別・色分けまで含めたExcel化に対応できる
・STEP1で「原文のまま」抽出し、STEP2で「見出し付きで端的に」整える2段階に分けると精度が安定する
・「ベース情報以外を使わない」「列構成を具体的に指定する」と指示することで、業務に使える品質の出力になる
Web上の情報をExcel化する作業は、これまで担当者が地道にこなしてきた業務の代表格です。
AIに任せられる部分を切り出すことで、実質的な分析や判断にこそ時間を使えるようになります。
まずは身近にあるWebページを1つ選び、本記事のプロンプトをそのまま試してみてください。