パーサジェネレータについて調べた - なんとな～くしあわせ？の日記

パーサジェネレータの位置づけ

パーサジェネレータの位置づけ

少しだけパーサジェネレータについて書く。パーサジェネレータとはパーサを生成できるソフトウェアのことである。

そもそもパーサとはなんだったか確認しよう。

パーサ（＝構文解析器）

XMLを読み取るパーサの例としては Document Object Model - Wikipedia や Simple API for XML - Wikipedia。要はDOMやSaxである。Javaを書いたことがあればちょっとは使ったことがあるはず。最近はXMLからJavaに変換する時は Java Architecture for XML Binding - Wikipedia を使うかもしれない。

構造を持った入力テキストの処理をおこなうものはすべてパーサだと言える。

なぜテキストに構造を持たせなければいけないのか？それはデータ記述言語 - Wikipedia に書かれている以下のような理由による：

データ記述言語は、以下の点に主眼を置いて作られた。
　　１．複雑なデータ構造をもつデータを格納する。
　　２．データの記述方法や個々のデータ要素へのアクセス方法の共通化をはかる。
　　３．データをテキスト形式で格納する。

ただのテキストファイルだと、日付や誰によって更新されたか、どの部分が列でどの部分が行か？わからない。そういったデータの格納の仕方を定めたXML, JSON, HTML, そしてCSVやTSVすべてデータ記述言語と言える。XMLがまどろっこしいのは別にプログラマーがマゾだからではなく、付与したい情報が多いからである。