A lap 2012. szeptember 20., 11:22-kori változata

Bevezetés

from lxml import etree

import sys
reload(sys)
sys.setdefaultencoding("iso-8859-2")

require urllib

def get_html(uri):
    u = urllib.urlopen(uri)
    return u.read()

html_str = get_html("http://www.google.com")

import StringIO

html = etree.parse(StringIO.StringIO(html_str),parser)

html.xpath("/html/body/p")

ahol a /html/body/p az útvonal a html-fában.

Az xpath függvény egy listát fog visszaadni, így vagy [0], [1] stb.-vel kérdezzétek le az elemeit, vagy egy for ciklussal menjetek végig rajta.
Ha már lekértétek valamelyik elemét, akkor a text adattagjában van a benne tárolt szöveg, pl:

h.xpath("/html/body/p")[1].text

ez lekéri a második html/body-n belüli p-nek a szövegét

Az xpath-ban a következõket használhatjátok még:
- /html//p - a html-en belül bármilyen útvonalon elérhetõ p-k
- /html/body/* - a közvetlenül /html/body alatti összes csúcs
- /*/*/ul - a 2 hosszú úton elérhetõ ul-ek
- //a[@href='http://math.bme.hu'] - bármilyen útvonalon elérhetõ 'a'-k amiknek a href attribútuma a 'http://math.bme.hu'
- az elõzõt tagadhatjátok is, hogy olyanokat keressen ami nem rendelkezik valamilyen attribútummal: //hr[not(@noshade)]
Ha valamelyik csúcs attribútumának meg szeretnétek tudni az értéket, a következõképpen tudjátok ezt megtenni:

html.xpath("//hr")[0].get('size')

ez lekéri az elsõ hr-nek a size attribútumát

def inner_html(xpath):

return etree.tostring(xpath, pretty_print=True, method="html", encoding='iso-8859-2')

Ez nem csak a megadott csúcsban található szöveget írja ki, hanem az egész részfát, pl:

inner_html(h.xpath('/html/body/p')[1])

Kiírná a teljes html kódot ami a /html/body-n belül a második 'p'-ben van.

Példákat ezekre találhattok Simon András eredeti elõadásanyagában itt

@@ 41. sor: / 41. sor: @@
 ** /html/body/*  -  a közvetlenül /html/body alatti összes csúcs
 ** /*/*/ul  -  a 2 hosszú úton elérhetõ ul-ek
-** "//a[@href='http://math.bme.hu']"  -  bármilyen útvonalon elérhetõ 'a'-k amiknek a href attribútuma a 'http://math.bme.hu'
+** //a[@href='http://math.bme.hu']  -  bármilyen útvonalon elérhetõ 'a'-k amiknek a href attribútuma a 'http://math.bme.hu'
-**
+** az elõzõt tagadhatjátok is, hogy olyanokat keressen ami nem rendelkezik valamilyen attribútummal: //hr[not(@noshade)]
+* Ha valamelyik csúcs attribútumának meg szeretnétek tudni az értéket, a következõképpen tudjátok ezt megtenni:
+ html.xpath("//hr")[0].get('size')
+: ez lekéri az elsõ hr-nek a size attribútumát
+* Ez a függvény még nagyon hasznos lehet:
+ def inner_html(xpath):
+	return etree.tostring(xpath, pretty_print=True, method="html", encoding='iso-8859-2')
+: Ez nem csak a megadott csúcsban található szöveget írja ki, hanem az egész részfát, pl:
+ inner_html(h.xpath('/html/body/p')[1])
+: Kiírná a teljes html kódot ami a /html/body-n belül a második 'p'-ben van.
+Példákat ezekre találhattok Simon András eredeti elõadásanyagában [http://math.bme.hu/~asimon/wp/2011/ea2/ itt]
+== Feladatok ==
+===