ゲストさんログイン

統合検索

ソーシャルブックマーク

[PR]興奮vs感動 どちらが勝つか!

Ads by Google

ページ詳細

23
users

HTMLのドキュメントから繰り返し部分をみつける - bits and bytes

RSSを生成していないページからRSSを生成するなんでもRSS 0.1bは、公開されているJSAI2005: なんでもRSS - HTML文書からのRSS自動生成によると、日付情報を目印にしてそのHTMLドキュメントの構造を推測して、各エントリ(item要素)のタイトルと本文を単語の統計的に処理して決定し、フィードを生成していると書かれています。 ウェブ上にあるHTMLドキュメントは Ask.jp : "xml" Search results. のように、RSSのitem要素に相当する部分に日付が含まれて...


コメント

Quoted: RSSを生成していないページからRSSを生成するなんでもRSS 0.1bは、公開されているJSAI

差分を取る,って点が面白い

>>大量のデータを複数のページにわけて表示しているHTMLドキュメントを対象に、ドキュメント中に含まれる繰り返し部分のXPathを生成するブログラムをjavascriptで作りました。

差分要素に「ad」「tag」「menu」がurlやclassやidに含まれるDOMは本文ではないと見なすとかどうか

Ads by Google


クリップ(21+2)
HTMLのドキュメントから繰り返し部分をみつける - bits and bytes
livedoor クリップのトップに戻る