perl HTML::TreeBuilder の使い方等の覚え書き

はじめに

　perl のモジュールの１つに HTML::TreeBulider というものがあります。これは何かというとHTML形式で書かれたファイルから class や id を探してその中身を抜き出して出力してくれるモジュールです。私が認識してるのはそんなところ。詳しくは以下参照ください。上手くいかなかった所や解決策について記述してます。

参照元
HTML::TableExtract - search.cpan.org
ちょいマシなCPAN機械翻訳〜HTML::TreeBuilder

基本的な使い方？

　基本的な使い方なのかどうかわかりませんが、HTML、perlと出力結果を載せます。

HTML(ファイル名:11.html)

perl(ファイル名:url200.pl)

出力結果

$ ./url200.pl
AAAAAAAAAA
CCCVSDDD
EEEVSFFF
GGGVSHHH

参考にしたのは以下２つのサイト。ベースは１つ目のものを参考にしました。

perlでHTMLを解析して欲しい情報を抽出するためのコードをメモ

簡単！たった１３行のコードでHTML取得＆解析をするPerlスクリプト · DQNEO起業日記

上手く行かなかったところ、解決策

　前節に参考にしたページを載せてますが、基本的に１つめの参照元を参考にしてました。ほぼコピペでやってました。そうすると、HTMLソースの１２行から２１行の部分の抜き出しができず、「CCCVSDDD」のみとなってしまうのです。少なくとも class 名が異なればどうにかなったのですが。

出力結果

$ ./url200.pl
AAAAAAAAAA
CCCVSDDD

その時の perl ソースは

いろいろ調べたのですが、なかなか良策にありつけず、そこで２０行目の

-> as_text

の部分を削除してみたのです。すると

HTML::Element=HASH(.......)HTML::Element=HASH(............)HTML::Element=HASH(...........)

こんな感じで、３つ同じようなものがでてきました。ということは、以下２つのことがなんとなく分かってきました。

as_text によって文字にしている。
$Bの中には３つ文字列が入ってる。

そしたら、＄Bのスカラー変数をリストにしたらいいじゃん！ってことで、＄Bを＠Bに変えてやってみましたけど、なんかエラー出てる…。そこで、参考となったのが２つ目の参照元です。ここでは、print するときに as_text を入れていて、同じように真似をしてみたら上手くいきました。

結局

のところを

としました。

以上

今日の１日振り返ります。

ジャンルは不特定多数で、主にメモ書きですね。

perl HTML::TreeBuilder の使い方等の覚え書き

はじめに

基本的な使い方？

上手く行かなかったところ、解決策