Обработка html таблиц с Python и Selenium

Ноя 23, 2022

Здравствуйте! В сегодняшней статье мы рассмотрим как распарсить HTML таблицу при помощи Python и Selenium webdriver. И прежде всего создадим html файл с примером таблицы.

<!DOCTYPE html> <html> <style> table, th, td { border:1px solid black; } </style> <body>


<h2>A basic HTML table</h2>
<table style="width:100%">

  <tr>

    <td>Язык</td>

    <td>Рейтинг</td>

  </tr>

  <tr>

    <td>Python</td>

    <td>10</td>

  </tr>

  <tr>

    <td>JavaScript</td>

    <td>6</td>

  </tr>

</table>
</body>

</html>

Если все сделано правильно, то в браузере должна появиться таблица.

Далее скачиваем selenium web driver для Firefox. По адресу https://github.com/mozilla/geckodriver/releases/. Называется он geckodriver. Необходимо скачать архив и распаковать его.

# Импортируем модули драйвера import sys from selenium import webdriver from selenium.webdriver.common.by import By import time


# В экземпляре класса передаем путь к exe файлу  вебдрайвера 
driver = webdriver.Firefox(executable_path=r'путь_к_драйверу/geckodriver.exe')

# ссылка на html таблицу,

# впереди обязательно прописываем file:///

link2 = "file:///C:/Users/УЗИ/Desktop/Таблица.html"
print(link2)
try:

  # открываем ссылку в браузере

  driver.get(link2)
  # находим количество строк в таблице

  rows = len(driver.find_elements(by=By.XPATH, value = '/html/body/table/tbody/tr'))

  # подсчет количества столбцов 

  cols = len(driver.find_elements(by=By.XPATH, value = '/html/body/table/tbody/tr[1]/td'))

  print(rows)

  print(cols)
  # итерация по строкам и столбцам таблицы

  for r in range(2, rows+1):

    for c in range(1, cols+1):

        value = driver.find_element(by=By.XPATH, value = '/html/body/table/tbody/tr['+str(r)+']/td['+str(c)+']').text

        print(value, end = '           n')

finally:  

  time.sleep(30)

  # обязательно  прописываем выход из вебдрайвера

  driver.quit()
# вывод
/*

Python

10

JavaScript

6

*/

В нашем примере используются локаторы типа /html/body/table/tbody/tr. Для его получения, необходимо сперва зайти в инструменты разработчика, выбрать элемент из ячейки таблицы и правой кнопкой мыши скопировать XPATH.

По ним вебдрайвер находит искомые элементы.
Метод find_elements находит все элементы с данным локатором и возвращает список. Далее при помощи метода len вычисляется длина списка.

Для парсинга таблицы, вычисленные значения , передаются в цикл for, где они подставляются в локатор следующим образом tr['+str(r)+']/td['+str(c)+']. Методом text получаем текст содержащийся по данной ячейке таблицы.

Таким образом, последовательно, можно пройтись по достаточно крупной таблице с какого-либо сайта.

Источник

Археологи нашли древнейшее доказательство использования обезьян в качестве дипломатического подарка

Дзен изменил главную страницу Студии

Обработка html таблиц с Python и Selenium

Виктор