いっぽんの猟銃のむこうに (DAIZOじいさんとGun)

ヌルめの技術メモとか。フリーランスやってます (http://acez.jp/)

Pythonで相対URLとかうさんくさいのを綺麗にする

urlnormというライブラリを使うと良いっぽい。

以下公式サイトからそのままですけど、相対参照とかうさんくさいドメインとかを適宜綺麗にパースしてくれるみたいです。素敵。

>>> import urlnorm
>>> urlnorm.norm("http://xn--q-bga.com./u/u/../%72/l/")
u'http://q\xe9.com/u/r/l/'

でも僕の出くわしたトップレベル以上の相対参照("http://www.dom.com/../img/hoge.gif → http://www.dom.com/img/hoge.gif)には無力でした。Webデザイナさんのフリーダムさ加減には勝てない。

patchとか送ってみるかなー。

追伸: 送ってみた。
https://github.com/jehiah/urlnorm/pull/6