RSSはXMLを用いたデータ形式
もちろん、これらの情報は、実際にサイトにアクセスすれば見られるものです。しかし、ウェブページを構成するHTMLは、機械的に情報を取得するには向かないものです。HTMLは「見出し」や「表組み」といった文章そのものの構造を表現するためのものだからです。
なので、そのデータを読めば、どこが見出しで、どこが表組みであり、データをブラウザでどう表示すればいいのかはわかります。ただし、それはあくまで「構造」を表す情報であって、そのページの情報の表題はどれで、本文はどれか、それ以外の情報(広告やブログのサイドバーに表示される情報など)はどれなのか、ということが具体的に記述されているわけではありません。ブラウザによってページとして組み立てられたものを、我々人間が見れば、そういったことはすぐにわかります。しかし、人間の言語を解さないコンピュータにはそうした情報を解析することはなかなか困難です。
そこでRSSの出番です。RSSはXMLを用いたデータ形式で、HTMLとは異なり、ページの構造についての情報は持ちませんが、その代わりに「タイトル」やそのページのURL、内容、著者や日付などの情報を、プログラムが解析しやすい形で、持っています。たとえばRSSのデータの一部を抜き出すと、以下のようになっています。
<item>
<title>楽しいひととき</title>
<link>http://blog.example.com/20071201</link>
<description>
今日は大学時代の仲間と飲み会。みんな全然変っていなかった。
</description>
<dc:creator>mizuno_takaaki</dc:creator>
<pubDate>Sat, 01 Dec 2007 04:58:51 GMT</pubDate>
<category>日記</category>
</item>
これを見ると、一つの記事を表す「item」というタグの中に、タイトルを表すtitleや、書かれた時間を表すpubDate、カテゴリを表すcategoryなど、データの「意味」を表すタグとともにデータが記述されています。このため、プログラムを使って、簡単にその内容を取り出すことができるのです。
このおかげで、RSSを使えば、ブログやニュースサイトの最新記事の一覧や、更新日付、内容などを簡単に取り出し、加工、表示させることができます。