Популярные вопросы по тегу BEAUTIFULSOUP

BeautifulSoup как скребок для nodejs

... чик на Python и пару лет 4 использую BS4. Сейчас я разрабатываю node, и 3 да, ...

Эквивалент Python querySelector в Javascript

... gt; copy > copy js path и вы получите красивый 7 фрагмент кода, подобный следующему: document.querySelector("#left-container > div.left-content > div > div > ul"), который 6 легко дает вам «путь» к выбранному элементу 5 в Javascript. У меня ...

Проверьте, существует ли дочерний тег в beautifulsoup

... ;id>2</id> </subDoc> </document> Теперь 8 я хочу проверить, завершается ли тег myId. Итак, я 7 сделал следующее: data = open("file1.xml",'r').read() xml = BeautifulSoup(data) hasAttrBs = xml.document.subdoc.has_attr('myID') hasAttrPy = hasattr(xml.document.subdoc,'myID') hasType = type(xml.document.subdoc.myid) Результат ...

Веб-парсинг - как получить доступ к содержимому, отображаемому в JavaScript, через Angular.js?

... rllib2.urlopen(url).read() soup = BeautifulSoup(page, "html.parser") contentDiv = soup.find("div", {"class": "view-content"}) print(contentDiv) # the results is an empty div: # <div class="view-content" ui-view=""></div> Можно ли программно 4 получить доступ к содержимому этого div? Изменить: согласно 3 комментарию кажется, что контент отображ ...

Как удалить пробелы в BeautifulSoup

... ; Есть много 9 лишних пробелов, от которых я бы хотел избавиться, но 8 они не обязательно удаляются с помощью strip(), и 7 я не могу явно удалить все пробелы, потому 6 что мне нужно сохранить текст. Как я могу 5 это сделать? Кажется достаточно распространенной 4 проблемой, что регулярное выражение было 3 бы излишним, но разве это единственный выход? У 2 меня нет тегов <pre>, поэтому я могу быть ...

Selenium против BeautifulSoup для парсинга веб-страниц

... ощью Selenium с помощью таких методов, как 7 driver.find_element_by_xpath, зачем использовать BeautifulSoup, если я мог бы просто 6 использовать Selenium для всего? И в этом 5 конкретном случае мне нужно использовать 4 Selenium, чтобы нажать кнопку JavaScript, поэтому 3 лучше ли использовать Selenium для синтакси ...

BeautifulSoup AttributeError 'collections' не имеет атрибута 'Callable'

... ке beautifulsoup, но 3 по-прежнему выдает следующую ошибку: AttributeError: модуль 2 'collections' н ...

BeautifulSoup - найти таблицу с указанным классом на странице Википедии

... не я не получаю ее. Кто-нибудь может 1 сказать, почему я не получаю стол? мой код: import BeautifulSoup import requests url='https://en.wikipedia.org/wiki/List_of_National_Historic_Landmarks_in_Louisiana' r=requests.get(url) url=r.content soup ...

HTTPError: ошибка HTTP 403: запрещено

... e) print soup Это 1 не работает: import urllib2, sys from bs4 import BeautifulSoup site= "http://en.wikipedia.org/wiki/StackOverflow" page = urllib2.urlopen(site) soup = BeautifulSoup(page) print soup Это ошибка: Traceback (most recent call last): File "C:\Python27\wiki.py", line 5, in <module> page = urllib2.urlopen(site) File "C:\Python27\lib\urllib2.py", line 126, in urlopen return _opener.open(url, data, ...

Получать ссылки с веб-страницы с помощью python и BeautifulSoup

... 2 и скопировать URL-адрес ссылок с помощ ...

BeautifulSoup и ASP.NET/C#

... IronPython 4 или иначе)? Есть ли альтернатива BeautifulSoup 3 или порт, который хорошо работает с ASP.NET/C# Цель 2 планирования использования библи ...

Не удается установить BeautifulSoup для python 3.6

... весь stackoverflow, youtube, я 7 схожу с ума, пытаясь понять это. Я понятия 6 не имею, что делать, пожалуйста, помогите 5 мне. Когда я пытаюсь запустить свою программу 4 main.py со следующим кодом: from bs4 import BeautifulSoup С py -3 main.py 3 я получаю сообщение об ошибке: ModuleNotFoundError: No module named 'bs4' Пожалуйста, п ...

Как я могу вставить новый тег в объект BeautifulSoup?

... г: self.new_soup.body.insert(3, """<div id="file_history"></div>""") когда 5 я проверяю результат, я получаю: &lt;div id="file_histor"y ...

Напишите xml с красивым супом

... мне записать его обратно в файл? код: workbook = open("C:\\Users\\rabdel.WINCMPT\\Documents\\Retail Footwear.twb") soup = BeautifulSoup(workbook) for dashboard in soup.findAll("dashboard"): ...

BeautifulSoup: не удается преобразовать NavigableString в строку

... in soup.find_all("span"): for child in tag.children: if "name" in tag.string: #triggers error, can't compare string to NavigableString/bytes return child #things i've tried: #if "name" in str(tag.string) #if "name" in unicode(tag.string) #not in 3.5? #if "name" in strring(tag.string, "utf-8") #tried regex, didn't work. Again, doesn ...

Запросы Python: requests.exceptions.TooManyRedirects: превышено 30 перенаправлений

... e но я получил ошибку 7 выше. (TooManyRedirects) Я попытался использовать 6 параметр allow_redirects, но с той же ошибкой r = requests.get(url, allow_redirects=True) Я даже пытался 5 отправлять заголовки и данные вместе с URL-адресом, но 4 не уверен, что это правильный способ сделать 3 это. headers = {'content-type': 'text/html'} payload = {'ie':'UTF8','node':'976419031'} r = requests.p ...

BeautifulSoup, чтобы найти ссылку, содержащую определенное слово

... 3fc145585090">Santa Clara, California</a> Как я могу использовать 2 BeautifulSoup, чтобы найти именно эту ссылку, которая 1 ...

Парсинг: SSL: ошибка CERTIFICATE_VERIFY_FAILED для http://en.wikipedia.org

... pages.add(newPage) getLinks(newPage) getLinks("") Ошибка: File "/Library/Frameworks/Python.framework/Versions/3.7/lib/python3.7/urllib/request.py", line 1319, in do_open raise URLError(err) urllib.error.URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:1049)> Между ...

Python - Юникод и двойная обратная косая черта

... образом: list = [u'that\\u2019s', u'it\\u2019ll', u'It\\u2019s', u'don\\u2019t', u'That\\u2019s', u'we\\u2019re', u'\\u2013'] У меня теперь 9 вопрос, как избавиться от этих двойных обратных 8 косых черт или заменить их специальными 7 символами, которыми они являются. Если я 6 напечатаю первый первый элемент списка примеров, результат 5 будет выглядеть как print list[0] that\u2019s Я уж ...

Правильная кодировка веб-сайта Python (Beautiful Soup)

... requests from BeautifulSoup import BeautifulSoup url = "http://www.columbia.edu/~fdc/utf8/" r = requests.get(url) encodedText = r.text.encode("utf-8") soup = BeautifulSoup(encodedText) text = str(soup.findAll(text=True)) print text.decode("utf-8") Вывод отрывка: ...Odenw\xc3\xa4lderisch... это 1 дол ...

Что мне следует использовать для открытия URL-адреса вместо urlopen в urllib3

... да: from bs4 import BeautifulSoup import urllib2 url = 'http://www.thefamouspeople.com/singers.php' html = urllib2.urlopen(url) soup = BeautifulSoup(html) Но 6 я обнаружил, что мне нужно установить пакет 5 urllib3 сейчас. Более того, я не смог найти никако ...

Разбор определенных значений из объекта JSON в BeautifulSoup

... l:CDK2&species:human&fields=name,symbol,entrezgene' html = request.urlopen(url).read() soup = BeautifulSoup(html) Вывод: <html><body><p>{ "max_score": 88.84169, "took": 6, "total": 244, "hits": [ { "_id": "1017", "_score": 88.84169, "entrezgene": "1017", "name": "cyclin dependen ...

Получите свойство содержимого метатега с помощью BeautifulSoup и Python

... п для извлечения содержимого тегов ниже: <meta property="og:title" content="Super Fun Event 1" /> <meta property="og:url" content="http://superfunevents.com/events/super-fun-event-1/" /> Я 11 получаю BeautifulSoup для нормальной загрузки 10 страницы и поиска других материалов (это 9 также захватывает идентификатор статьи из 8 тега id, скрытого в источнике), но я не 7 знаю, как правильно иск ...

Найти предыдущее вхождение элемента

... gt;Test</h3> <h3>Test2</h3> <h4>Testing2</h4> Если у меня есть 3 ссылка на элемент <h3>Test2</h3> в переменной, как я могу 2 найти <h4&g ...

Удалите все стили, скрипты и теги HTML со страницы HTML.

... ;!DOCTYPE HTML>\n<head>\n<title>THIS IS AN EXAMPLE </title><style>.call {font-family:Arial;}</style><script>getit</script><body>I need this text captured<h1>And this</h1></body>" cleaned = cleanme(testhtm ...

Родственная структура Beautifulsoup с тегами br

... интерпретируемый BeautifulSoup: <div> some text <br> <span> some more text </span> <br> <span> and more text </span> </br> </br> </div> В 10 источнике промежутки могут считаться одноуровневыми. После 9 синтаксического анализа (с использованием 8 синтаксического анализатора по умолчанию) промежутки 7 внезапно перестают быть родственными, поскольк ...

Получение значения после нажатия кнопки с BeautifulSoup Python

... , эта кнопка имеет номер, который 5 появляется после щелчка. Мой текущий сценарий 4 открывает браузер и получает значение, но 3 я получаю значение со страницы до щелчка, поэтому 2 значение пустое. Я хотел бы знать, можно 1 ли получить значение после нажатия на кнопку. from selenium import webdriver from bs4 import BeautifulSoup from requests import get url = "https://www.4devs.com.br/gerador_de_cpf" def open_browser(): ...

Как я могу разобрать веб-сайт с помощью Selenium и Beautifulsoup в Python?

... чать. Может 3 ли кто-нибудь подержать меня за руку на 2 секунду и указать в правильном направлении? Люб ...

Использование BeautifulSoup для поиска HTML-тега, содержащего определенный текст

... oup('h2',text=re.compile(r' #\S{11}')) И 8 результат будет примерно таким: [u'blahblah #223409823523', u'thisisinteresting #293845023984'] Я могу получить 7 весь соответствующий текст (см. строку выше). Но 6 я хочу, чтобы родительский элемент текста 5 совпадал, поэтому я могу испо ...

Селен: перебор групп элементов

... ть словарь, в котором запись для каждого 16 человека будет выглядеть так: dict = {'name' : 'John Smith', 'company' : 'SalesForce'} Я могу легко 15 заставить Selenium создать список содержимого 14 каждого элемента верхнего уровня, выполнив 13 следующие действия: driver.find_elements_by_class_name('person') Но тогда я не могу перебирать 12 список, потому что вышеу ...

Нужно найти текст с помощью RegEx и BeautifulSoup

... Group Sites: No Station: No <b>Details</b> Ramp: Yes </body> Я хотел бы использовать BeautifulSoup4 5 и RegEx для извлечения значений для подключений, групповых 4 сайтов и т. д., но я новичок как в bs4, так 3 и в RegEx. Я пробовал следующее, чтобы получить 2 значение ...

Использование beautifulsoup для извлечения текста между разрывами строки (например, теги <br />)

... > Not Important Text <br /> Important Text 2 <br /> Important Text 3 <br /> <br /> Non Important Text <br /> Important Text 4 <br /> В настоящее время я использую BeautifulSoup 6 для получения других элементов в HTML, но 5 мне ...

UnicodeEncodeError: кодек ascii не может кодировать символ по специальному имени

... 1, in <module> flog.write("\nCompany Name: "+str(pCompanyName)) UnicodeEncodeError: 'ascii' codec can't encode character u'\xfc' in position 9: ordinal not in range(128) В этой строке кода выдается ошибка: if companyAlreadyKnown == 0: for hit in soup2.findAll("h1"): print "Company Name: "+hit.text pCompanyName = hit.text flog.write("\nCompany Name: "+str(pCompanyName)) companyOb ...

Переход по ссылке с помощью beautifulsoup в Python

... ем на ссылки с помощью 3 follow_link или click_link. Есть ли что-то 2 подобное в краси ...

Получение всех ссылок со страницы Beautiful Soup

... од: import requests from bs4 import BeautifulSoup url = 'http://www.acontecaeventos.com.br/marketing-promocional-sao-paulo' r = requests.get(url) html_content = r.text soup = BeautifulSoup(html_content, ...

Очистка защищенной электронной почты

... а с помощью запросов \ BeautifulSoup? Может, для 2 работы с js нужны какие-то библиотеки. Тег 1 электронной почты: <span id="signature_email"><a class="__cf_email__" href="/cdn-cgi/l/email-protection" data-cfemail="30425f5e70584346515c5c531e535f5d">[email&#160;protected]</a><script data-cfhash='f9e31' type="text/javascript">/* <![CDATA[ */!function(t,e,r,n,c,a,p){try{t=document.cur ...

Beautifulsoup разложить()

... TWP.Features.Page.PostRecommends.trackUrl="https://recommendation-hybrid.wpdigital.net/hybrid/hybrid-filter/tracker.json?callback\x3d?"; TWP.Features.Page.PostRecommends.profileUrl="https://usersegment.wpdigital.net/usersegments"; TWP.Features.Page.PostRecommends.canonicalUrl="" })(jQuery); & ...

Метод BeautifulSoup .text возвращает текст без разделителей (\ n, \ r и т. Д.)

... owner_id': 173505924} url = 'http://amalgama.mobi/songs/' for i in audios: print i['artist'] if i['artist'].startswith('The '): url += i['artist'][4:5] + '/' + i['artist'][4:].replace(' ', '_') + '/' +i['title'].replace(' ', '_') + '.html' else: url += i['artist'][:1] + '/' + i['artist'].replace(' ', '_') + '/' +i['title'].replace(' ', '_') + '.html' url = ...

Как я могу анализировать переменные Javascript с помощью Python?

... начать. Например, данные 18 могут быть следующими: var line1= [["Wed, 12 Jun 2013 01:00:00 +0000",22.4916114807,"2 sold"], ["Fri, 14 Jun 2013 01:00:00 +0000",27.4950008392,"2 sold"], ["Sun, 16 Jun 2013 01:00:00 +0000",19.5499992371,"1 sold"], ["Tue, 18 Jun 2013 01:00:00 +0000",17.25,"1 sold"], ["Sun, 23 Jun 2013 01:00:00 +0000&qu ...

Python BeautifulSoup дает несколько тегов для поиска всех

... ndAll('hr' and 'strong') for each in get_tags: print each Если я использую это на странице 5 только с 'em' или 'strong', тогда он получит 4 мне все эти теги, если я использую на одном 3 с обоими, он получит 'strong' теги. Как это 2 сделать? Моя главная забота - сохранить ...

Как записать вывод в HTML-файл с помощью Python BeautifulSoup

... .extract() for x in soup.find_all('meta')] [x.extract() for x in soup.find_all('noscript')] [x.extract() for x in soup.find_all(text=lambda text:isinstance(text, Comment))] html =soup.contents for i in html: print i html = soup.prettify("utf-8") with open("output1.html", "wb") as file: file.write(html) Поскольку я 5 использовал soup.prettify, он генерирует 4 HTML следующим образом: <p> <strong&gt ...

Разница между .string и .text BeautifulSoup

... Data</td> <td></td> Способ извлечения данных official documented - soup.string. Однако 11 это извлекло NoneType для второго тега <td>. Поэтому 10 я попробовал soup.text (почему бы и нет?), И он извлек 9 пустую строку именно так, как я хотел. Однако 8 я не смог найти упоминания об этом в документации 7 и опасаюсь, что что-то упущено. Может ли 6 кто-нибудь сообщить мне, приемлемо ли это 5 для использования или это ...

Как получить все заголовки с веб-сайта с помощью BeautifulSoup?

... lSoup, SoupStrainer import requests url = "http://nypost.com/business" page = requests.get(url) data = page.text soup = BeautifulSoup(data) soup.find_all('h') soup.find_all('h') возвращает [], но 3 ...

Знакомство с функцией Find() в Beautiful Soup

... ="percentage good"> 69% </div> <h6>Audit score</h6> Мне нужны 5 значения 73599 из data-value=73599, 32352 из data-value=32452 и 69% из percentage good. Используя прошлый 4 код и онлайн-примеры, вот что у меня есть 3 на данный момент: RealVa ...

Селен - XPATH - поиск элемента по innerHTML

... :...}} </code> Я ищу поиск в innerHTML, чтобы найти 7 уникальную строку с использованием XPATH, но 6 я не могу найти никаких хороших ресурсов. Я 5 пробовал driver.find_element_by_xpath("//*[contains(@innerHTML='someUniqueString')]") но получаю сообщение об ошибке selenium.common.exceptions.NoSuchElementException: Message: Unable to locate element: //*[contains(@innerHTML='someUniqueString')] РЕДАКТИРОВАТЬ: ниже ...

Beautifulsoup не возвращает полный HTML-код страницы

... t(soup) На самом базовом уровне все, что 14 я пытаюсь сделать, это получить доступ к 13 определенному тегу на веб-сайте. Остальное 12 я могу решить для себя, но часть, с которой 11 я борюсь, заключается в том, что тега, который 10 я ищу, нет на выходе. Например: используя 9 встроенный find(), я могу получить следующий 8 тег класса div: class = "l__grid js-page-layout" Однако 7 на самом деле я ищу содерж ...

BS4 select_one vs найти

... сно, в чем разница между 4 выполнением bs.find('div') и bs.select_one('div'). То же самое касает ...

Получение формы "действие" из результата BeautifulSoup

... Error, e: print "Error while reading data. Are you connected to the interwebz?!", e soup = BeautifulSoup.BeautifulSoup(html) form = soup.find('form', id='form_product_page') pret = form.prettify() print pret Результат: <form id="form_product_page" name="form_1362737440" action="/download/791055/164084/" method="get"> <input id="nojssubmit" type="subm ...

Python BeautifulSoup - очистка веб-содержимого внутри iframe

... tive (4-5 Stars) 154 562 1,550 Neutral (3 Stars) 8 19 65 Negative (1-2 Stars) 8 20 57 Positive feedback ra ...

Не могу войти в Instagram с помощью запросов

... ;XMLHttpRequest", "referer": "https://www.instagram.com/accounts/login/", "x-csrftoken":csrf }) print(r.status_code) print(r.url) С 2 помощью инструментов разработчика я обнаружил: username: someusername enc_password: #PWD_INSTAGRAM_BROWSER:10:1592421027:ARpQAAm7pp/etjy2dMjVtPRdJFRPu8FAGILBRyupINxLckJ3QO0u0RLmU5NaON ...