Pythonで相対URLとかうさんくさいのを綺麗にする
urlnormというライブラリを使うと良いっぽい。
以下公式サイトからそのままですけど、相対参照とかうさんくさいドメインとかを適宜綺麗にパースしてくれるみたいです。素敵。
>>> import urlnorm >>> urlnorm.norm("http://xn--q-bga.com./u/u/../%72/l/") u'http://q\xe9.com/u/r/l/'
でも僕の出くわしたトップレベル以上の相対参照("http://www.dom.com/../img/hoge.gif → http://www.dom.com/img/hoge.gif)には無力でした。Webデザイナさんのフリーダムさ加減には勝てない。
patchとか送ってみるかなー。
追伸: 送ってみた。
https://github.com/jehiah/urlnorm/pull/6