Я пытаюсь составить список списков в виде [[(the, cat), (cat, with), (with, fur)] [(the, dog), (dog, with), (with, мяч).......и т.д.] из текстового файла с предложениями в таких строках, как:
кот с мехом\nсобака с мячом\n
Проблема, с которой я столкнулся, заключается в том, что каким-то образом, когда я читаю строки в файле, слово за словом, создавая кортежи (метка переменной) и создавая окончательный список (переменное соединение), есть пустые экземпляры, когда соединение переходит в 0 , Ну, на самом деле не 0, но список отображается как [[], [], []]
Это код для той части программы: с open('corpus.txt', 'r') как f:
with open('corpus.txt', 'r') as f:
for line in f:
cnt = 0
sa = nltk.word_tokenize(line)
label[:] = []
for i in sa:
words.append(i)
if cnt>0:
try: label +=[(prev , i)]
except: NameError
prev = i
cnt = cnt + 1
if label != []:
connection += [label]
print connection
Я надеюсь, что кто-то понимает мою проблему, потому что это сводит меня с ума, и у меня мало времени. Я просто хочу знать, что я здесь делаю неправильно, чтобы я мог обновлять свой список подключений в каждом цикле, не теряя то, что я сохранил раньше.
Спасибо за вашу помощь