Я новичок в программировании на Python и пытаюсь научиться очищать веб-страницы. Я пытаюсь извлечь данные из этого веб-страница
Я пытаюсь очистить ISSUE DATE
со страницы выше (вы можете увидеть ISSUE DATE
, если откроете веб-страницу). Я столкнулся с некоторой проблемой с этим.
Это код, который я написал для этого.
import BeautifulSoup
import urllib2
url = "https://patft.uspto.gov/netacgi/nph-Parser?Sect1=PTO1&Sect2=HITOFF&d=PALL&p=1&u=%2Fnetahtml%2FPTO%2Fsrchnum.htm&r=1&f=G&l=50&s1=0000149.PN.&OS=PN/0000149&RS=PN/0000149"
data = urllib2.urlopen(url).read()
soup = BeautifulSoup.BeautifulSoup(data)
value1 = soup.findAll('TABLE')
for value in value1:
date1 = value.find('B').text
print date1