2011-11-14から1日間の記事一覧

HTMLからの本文自動抽出

今日のテーマは、「HTMLファイルから「本文」だけを抽出するアルゴリズム」です。 (本格的な数理というよりは、アドホックな計算式を使ったテクニックになります)では早速。 動機:Webサイトから本文を抜き出したい ニュースサイトや、ブログ、など「テキ…