asanhtmlparser
クラス HtmlParser

java.lang.Object
  上位を拡張 asanhtmlparser.HtmlParser

public class HtmlParser
extends java.lang.Object

HTMLの構文解析をおこないます.

作成者:
a-san

コンストラクタの概要
HtmlParser()
           
 
メソッドの概要
static void main(java.lang.String[] args)
          テストプログラム.
 java.util.ArrayList parse(java.lang.String source, java.net.URL url)
          指定されたHTMLのソースの構文解析を行います。
 java.util.ArrayList parse(java.net.URL url)
          指定されたURLのHTMLを解析し、タグのリストを返します。
 java.lang.String parseCharset(byte[] bytes)
          指定されたHTMLのコンテンツの文字セットを判断します。
 
クラス java.lang.Object から継承されたメソッド
clone, equals, finalize, getClass, hashCode, notify, notifyAll, toString, wait, wait, wait
 

コンストラクタの詳細

HtmlParser

public HtmlParser()
メソッドの詳細

parse

public java.util.ArrayList parse(java.net.URL url)
                          throws java.io.IOException,
                                 HtmlParserException
指定されたURLのHTMLを解析し、タグのリストを返します。

パラメータ:
url - HTMLのURL。null不可.
戻り値:
HtmlNodeのリストを返します。
例外:
java.io.IOException - HTMLの取得に失敗したときにスローされる。
HtmlParserException - HTMLの解析に失敗したときにスローされる。

parse

public java.util.ArrayList parse(java.lang.String source,
                                 java.net.URL url)
                          throws HtmlParserException
指定されたHTMLのソースの構文解析を行います。 URLが指定されるとソース位置情報(ScannerPosition)に格納されます。

パラメータ:
source - HTMLのソース。null不可
url - URL。null可
戻り値:
IHtmlNodeのリストを返します。
例外:
HtmlParserException - HTMLの解析に失敗したときにスローされます。

parseCharset

public java.lang.String parseCharset(byte[] bytes)
                              throws java.io.UnsupportedEncodingException
指定されたHTMLのコンテンツの文字セットを判断します。 字句解析を途中まで行い、metaタグで、contentがあればそのcharsetを返します。

パラメータ:
bytes - HTMLのコンテンツ。
戻り値:
文字セット名."utf-8"など.わからない場合はnullを返します。
例外:
java.io.UnsupportedEncodingException

main

public static void main(java.lang.String[] args)
                 throws java.lang.Exception
テストプログラム.

例外:
java.lang.Exception