Webスクレイピング(Web scraping)は、自動化された方法を使用してWebサイトからデータ、情報、または画像を抽出する行為です。全自動でコピーアンドペースト(copy and paste)することと考えてください。(Think)
アプリを作成または使用して、目的のWebサイトにアクセスし、それらのWebサイトから必要な特定のもののコピーを作成します。Webサイト全体をダウンロードするよりもはるかに正確です。
他のツールと同様に、Webスクレイピングは善悪に使用できます。ウェブサイトをスクレイピングするより良い理由のいくつかは、
そのコンテンツ、価格比較ショッピング、または(price comparison shopping)株式市場情報(stock market information)の監視
に基づいて検索エンジン(search engine)でウェブサイトをランク付けすることです。あなたはある種の研究ツール(research tool)としてそれを使うかもしれません。
ExcelでWebサイトをスクレイプするにはどうすればよいですか?
信じられないかもしれませんが、Excelには、少なくともExcel 2003以降、長い間Webサイトからデータを抽出する機能がありました。Webスクレイピングは、ほとんどの人が考えていないことであり、(t think)スプレッドシートプログラム(spreadsheet program)を使用
して仕事をすることは言うまでもありません。しかし、それは驚くほど簡単で強力です。Microsoft Officeのキーボード(Microsoft Office keyboard)
ショートカットのコレクションを作成して、それがどのように行われるかを学びましょう。
スクレープしたいサイトを探す
最初に行うことは、情報を取得したい特定のWebページを見つけることです。https://support.office.com/で検索(source and search)してみましょう。「よく使うショートカット」という検索用語(search term)を使用します。Outlook、Excel、Wordなどの特定のアプリの名前を使用して、より具体的にすることができます。結果ページをブックマークして、簡単に戻ることができるようにすることをお勧めします。
(Click)検索結果「 (search result)ExcelforWindows(Excel)のキーボードショートカット」をクリックします。そのページが表示されたら、Excelのバージョンのリストを見つけて、[(Excel)新しいバージョン(Newer Versions)]をクリックします。今、私たちは最新かつ最高のものを扱っています。
検索結果ページに戻って、他のすべてのOfficeアプリ(Office apps)の結果をそれぞれのタブで開き、ブックマークすることができます。この演習でも、それは良い考えです。これは、ほとんどの人がOffice(Office)ショートカットの収集をやめる場所ですが、私たちではありません。それらをExcelに配置して、いつでも好きなときに好きなことを実行できるようにします。
ExcelとScrapeを開く
Excelを開き、新しいブックを開始します。ブックをOfficeショートカット(Office Shortcuts)として保存します。OneDriveをお持ちの場合は、そこに保存して、自動(AutoSave )保存機能が機能するようにします。
ブックが保存されたら、[データ(Data)]タブをクリックします。
[データ]タブ(Data tab)のリボンで、 [ Webから(From Web)]をクリックします。
FromWebウィザードウィンドウが開きます。(From Web )ここに、データを取得するWebサイトのWebアドレスまたはURL(web address or URL)を入力します。Webブラウザーに切り替えて、URLをコピー(copy)します。
FromWebウィザードの(From Web wizard)URL
フィールドにURLを貼り付けます。これを基本(Basic)モードまたは詳細(Advanced)モードで使用することを選択できます。詳細モード(Advanced mode)では、Webサイトからデータにアクセスする方法についてさらに多くのオプションが提供されます。この演習では、基本モードのみが必要です。[ (Click)OK]をクリックします。
ExcelはWebサイトへの接続を試みます。これには数秒かかる場合があります。進行状況ウィンドウが表示(progress window)されます(表示されている場合)。
ナビゲータ(Navigator)
ウィンドウが開き、左側のWebサイトのテーブルのリストが表示されます。いずれかを選択すると、右側にテーブルプレビューが表示されます。よく使うショートカット(Frequently used shortcuts )の表を選んでみましょう。
必要なテーブルを探す必要がある場合は、[ Webビュー(Web
View)]タブをクリックして実際のWebサイトを表示できます。見つかったら、クリックするとインポート用に選択されます。
次に、このウィンドウの下部にある[ロード(Load)]ボタンをクリックします。私たちが選択できる他のオプションがありますが、それらはより複雑で、最初のスクレイプを行う範囲を超えています。彼らがそこにいることに注意してください。ExcelのWebスクレイピング機能は非常に強力です。
Webテーブル(web table)は数秒後にExcelにロードされます。左側にデータが表示されます。下の写真の1番です。(1)2番目は
、Webサイトからデータを取得するために使用されるクエリ(Query)を強調しています。ブックに複数のクエリがある場合、ここで使用する必要のあるクエリを選択します。
(Notice)データがExcelテーブルとしてスプレッドシートに入力されることに注意してください。データをフィルタリングまたは並べ替えることができるように、すでに設定されています。
Outlook、Word、Access、PowerPoint、およびその他のOfficeアプリに必要な(Office app)Officeショートカットを持つ他のすべてのWebページに対して、このプロセスを繰り返すことができます。
Excelで(Excel)スクレイピングされたデータを最新の状態(Scraped Data Current)に保つ
ボーナスとして、 Excel(Excel)でスクレイピングされたデータを最新の状態に保つ方法を学習します。これは、 Excel(Excel)がデータスクレイピングにどれほど強力であるかを説明するための優れた方法です。これでも、 Excel(Excel)で実行できる最も基本的なスクレイピングのみを実行しています。
この例では、https://www.cnbc.com/stocks/株式情報(stock information)のWebページを使用してみましょう。
以前に行ったことを確認し、アドレスバー(address bar)から新しいURLを(URL)コピーして貼り付け(copy and paste)ます。
ナビゲータウィンドウ(Navigator window)が表示され、利用可能なテーブルが表示されます。米国(Major U.S. Stock Indices)の主要株価指数を選択しましょう。
データがスクレイプされると、次のスプレッドシートが表示されます。
右側に、主要な米国株価指数(Major U.S. Stock Indexes)のクエリが表示されます。
強調表示されるように選択(Select)します。[テーブルツール(Table Tools)]タブと[デザイン(Design)]領域にいることを確認してください(Make)
。次に、[更新(Refresh)]の下にある下矢印をクリックします。次に、[接続のプロパティ(Connection Properties)]をクリックします。
[クエリのプロパティ(Query
Properties )]ウィンドウの[使用状況(Usage)
]タブで、この情報の更新方法を制御できます。更新する特定の期間を設定したり、次回ブックを開いたときに更新したり、バックグラウンドで更新したり、あるいはこれらの任意の組み合わせを設定したりできます。必要なものを選択したら、[ OK ]をクリックしてウィンドウを閉じて続行します。
それでおしまい!これで、株価、スポーツスコア、またはExcelスプレッドシート(Excel spreadsheet)から頻繁に変更されるその他のデータを追跡できます。Excelの方程式と関数に精通している場合は、データを使用してほぼすべてのことを実行できます。
たぶん、株の傾向を特定したり、職場でファンタジースポーツプールを運営したり、あるいは単に天気を追跡したりしてみてください。知るか?あなたの想像力とインターネット上(Internet)で利用可能なデータが唯一の制限です。
Use Excel as a Tool to Copy Data from the Web
Web scraping is the act of extracting data, information, or images from a website using an automatеd method. Think of it аs copy and рaste on full aυtomatіc.
We either write or use an app to go to the websites we want it to and make a copy of the specific things we want from those websites. It’s much more precise than downloading an entire website.
Like any tool, web scraping can be used for good or evil.
Some of the better reasons for scraping websites would be ranking it in a
search engine based on its content, price comparison shopping, or monitoring
stock market information. You might even use it as a research tool of sorts.
How Can I Scrape Websites with Excel?
Believe it or not, Excel has had the ability to extract data
from websites for a long time, at least since Excel 2003. It’s just that web
scraping is something most people don’t think of, let alone think of using a
spreadsheet program to do the job. But it’s surprisingly easy, and powerful.
Let’s learn how it’s done by making a collection of Microsoft Office keyboard
shortcuts.
Find the Sites You Want to Scrape
The first thing we’re going to do is find the specific web pages from which we want to get information. Let’s go to the source and search at https://support.office.com/. We’re going to use the search term “frequently used shortcuts”. We can make it more specific by using the name of the specific app, like Outlook, Excel, Word, and so on. It may be a good idea to bookmark the results page so we can easily get back there.
Click on the search result, “Keyboard shortcuts in Excel for
Windows”. Once on that page, find the list of Excel versions and click on Newer Versions. Now we’re working with
the latest and greatest.
We could go back to our search results page and open the
results for all the other Office apps in their own tabs and bookmark them. It’s
a good idea, even for this exercise. This is where most people would stop in
collecting Office shortcuts, but not us. We’re going to put them in Excel so we
can do whatever we want with them, whenever we want.
Open Excel and Scrape
Open Excel and start a new workbook. Save the workbook as Office Shortcuts. If you have OneDrive,
save it there so the AutoSave feature
will work.
Once the workbook is saved, click on the Data tab.
In the ribbon of the Data tab, click on From Web.
The From Web wizard
window will open. This is where we put the web address or URL of the website
from which we want to scrape data. Switch to your web browser and copy the URL.
Paste the URL in to the URL
field of the From Web wizard. We could choose to use this in Basic or Advanced mode. The Advanced mode gives us a lot more options on how
to access the data from the website. For this exercise, we only need Basic
mode. Click OK.
Excel will now attempt to connect to the website. This may
take a few seconds. We’ll see a progress window, if it does.
The Navigator
window will open, and we’ll see a list of tables from the website on the left.
When we select one, we’ll see a table preview on the right. Let’s select the Frequently used shortcuts table.
We can click on the Web
View tab to see the actual website, if we need to look around for the table
we want. When we find it, we can click on it and it will be selected for
import.
Now, we click on the Load
button at the bottom of this window. There are other options we could choose,
which are more complex and beyond the scope of doing our first scrape. Just be
aware that they are there. Excel’s web scraping capabilities are very powerful.
The web table will be loaded in Excel after a few seconds.
We’ll see the data on the left, where the number 1 is in the picture below. Number 2 highlights the Query
used to get the data from the website. When we have multiple queries in a work
book, this is where we select the one we need to use.
Notice that the data comes into the spreadsheet as an Excel
table. It’s already set up for us to be able to filter or sort the data.
We can repeat this process for all the other web pages that
have the Office shortcuts that we want for Outlook, Word, Access, PowerPoint,
and any other Office app.
Keeping Scraped Data Current in Excel
As a bonus for you, we’re going to learn how to keep our
scraped data fresh in Excel. This is a great way to illustrate just how
powerful Excel is for data scraping. Even with this, we’re only doing the most
basic scraping that Excel can do.
For this example, let’s use a stock information web page like https://www.cnbc.com/stocks/.
Go through what we did before and copy and paste the new URL from the address bar.
You’ll get to the Navigator window and see the tables available. Let’s select the Major U.S. Stock Indices.
Once the data is scraped we’ll see the following
spreadsheet.
On the right, we see the query for Major U.S. Stock Indexes.
Select that so it is highlighted. Make sure we’re in the Table Tools tab and in the Design
area. Then click on the down arrow under Refresh.
Then click on Connection Properties.
In the Query
Properties window, under the Usage
tab, we can control how this information refreshes. We can set a specific time
period to refresh, or to refresh when we open the workbook the next time, or to
refresh in the background, or any combination of these. Once we choose what we
need, click on OK to close the
window and continue.
That’s it! Now you can track stock prices, sports scores, or any other data that changes frequently from an Excel spreadsheet. If you’re good with Excel equations and functions, you can do almost anything you want with the data.
Maybe try to identify stock trends, run a fantasy sports pool at work, or maybe just keep track of the weather. Who knows? Your imagination and the data available on the Internet, are the only limits.