ゲストさんログイン
ソーシャルブックマーク
[PR]興奮vs感動 どちらが勝つか!
自宅のTVを旅行や出張先で視聴!
インターネットでTV映像を転送する商品ボルカノフローが¥10,800
バ イ ク 売ろうかな…
でも何もしてない…≪→バイク王なら、超 カ ン タ ン!≫
Webページの自動カテゴライズ の続き。 前回書いたとおり、パストラックで行っている Web ページのカテゴライズでは、Web ページの本文抽出がひとつの鍵になっています。今回はその本文抽出モジュールを公開しつつ、使っている技法をざっくり解説などしてみます。 本モジュールの利用は至極簡単。require して analyse メソッドに解析したい html を与えるだけ。文字コードは UTF-8 です。 【追記】大事なこと書き忘れ。本モジュールは Ruby1.8.5 で動作確認していますが、特別なこ...
コメントのみ表示する
はてなブックマークでコメントを見る
Buzzurlでコメントを見る
Web ページには(略)、とにかく本文以外の「ゴミ」がわんさかついているので、本文を抽出するというより「いかにゴミを取り除くか」に注力しています / セクションターゲット対応重要 ← お金の力は偉大
Extract body
Web ページには(略)、とにかく本文以外の「ゴミ」がわんさかついているので、本文を抽出するというより「いかにゴミを取り除くか」に注力しています / セクションターゲット対応重要 ← お金の力は偉大