Популярные вопросы по тегу NLP

SpaCy OSError: не удается найти модель "ru"

... ver version 10.0.1 is available. You should consider upgrading via the 'pip install --upgrade pip' command. Error: Couldn't link model to 'en' Creating a symlink in spacy/data failed. Make sure you have the required permissions and try re-running the command as admin, or use a virtualenv. ...

Python - вычислить матрицу совместной встречаемости

... что означает количество раз, когда контекстное 10 слово c появляется в контексте w. Пример можно 9 найти здесь. How to calculate the co-occurrence between two words in a window of text? Я знаю, что это можно вычислить, складывая 8 циклы, но я хочу знать, существует ли простой 7 способ или простая функция? Я нашел некоторые 6 ответы, но они не могут рабо ...

Как получить доступ / использовать предварительно обученную модель Word2Vec от Google без загрузки модели вручную?

... ель Word2Vec. Однако 7 несжатая модель word2vec из https://mccormickml.com/2016/04/12/googles-pretrained-word2vec-model-in-python/ имеет размер 6 более 3,5 ГБ, и потребуется время, чтобы 5 загрузить ее вручную и загрузить в экземпляр 4 облака. Есть ли способ получить доступ к 3 э ...

В чем разница между бот-фреймворком Dialogflow и бот-фреймворком Rasa nlu?

... мворком Rasa nlu? Любые другие 2 фреймворки с открыт ...

Реализован ли в NLTK TF-IDF?

... зации Simple implementation of N-Gram, tf-idf and Cosine similarity in Python Чтобы не изобретать велосипед, Неужели в NLTK нет TF-IDF? Есть ли подпакеты, которыми мы можем управлять для реализации TF-IDF в NLTK? Если есть как? В 2 э ...

Разъяснение реализации глупой задержки

... off (стр. 2, уравнение 5) для проекта, над 27 которым я работаю, и у меня есть вопрос 26 по его реализации. Это алгоритм сглаживания, используемый 25 в НЛП. Думаю, это наиболее известный аналогичный 24 алгоритм Гуд-Тьюринга. Краткое описание алгоритма: При 23 попытке найти вероятность появления слова 22 в предложении он сначала будет искать контекст 21 для слова на уровне n-грамм, и если n-грамм 20 такого размера не существует, он будет реку ...

Можно ли использовать Google BERT для вычисления сходства между двумя текстовыми документами?

... ами? Насколько 7 я понимаю, ввод BERT должен быть предложениями 6 ограниченного размера. В некоторых работах 5 используется BERT для вычисления подобия 4 таких предложений, как: https://github.com/AndriyMulyar/semantic-text-similarity https://github.com/beekbin/bert-co ...

Как разбить строку на слова. Пример: «строка в словах» -> «Строка в слова»?

... зовать? ! Обновление: для 6 тех, кто думает, что этот вопрос просто 5 из любопытства. Этот алгоритм можно использовать 4 для исключения доменных имен ("sportandfishing 3 .com" -> "SportAndFishing .com"), и этот 2 алгоритм в настоящее время используется 1 abou ...

Расширение сокращений английского языка в Python

... На английском языке есть a couple of contractions. Например: you've -> you have he's -> he is Иногда 3 это может вызв ...

Использование токенизатора keras для новых слов, не входящих в обучающий набор

... f = open(glove_data) for line in f: values = line.split() word = values[0] value = np.asarray(values[1:], dtype='float32') embeddings_index[word] = value f.close() #create embedding matrix embedding_matrix = np.zeros((len(word_index) + 1, dims)) for word, i in word_index.items(): embedding_vector = embeddings_index.get(word) if embedding_vector is not None: # words not f ...

Как сделать Python split() на языках (например, китайском), которые не используют пробелы в качестве разделителя слов?

... а и что границы слов в китайском языке 12 неоднозначны. Я не уверен, что понимаю почему. Границы 11 слов в китайском кажутся мне очень определенными. Каждому 10 китайскому слову / символу соответствует 9 код Юникода, и они отображаются на экране 8 как отдельное слово / символ. Так откуда 7 взялась двусмысленность. Как вы можете видеть 6 в моем выводе консоли Python, Python без 5 проблем сообщает, что мое п ...

Преобразование слов между формами глагола / существительного / прилагательного

... 'writer'] print adjectivate('write') # => ['written'] Меня больше интересуют 12 глаголы <=> существительные, потому 11 что я хочу написать программу для заметок. то 10 есть я могу написать «кофеин противостоит 9 А1» или «кофеин является антагонистом А1», и 8 с некоторым НЛП можно понять, что они означают 7 одно и то же. (я знаю, что это непросто, и 6 что п ...

Преобразование категориальных данных в числовые в Python

... ых. Один из его столбцов 7 - «Ключевое слово» - содержит категориальные 6 данные. Алгоритм машинного обучения, который 5 я пытаюсь использовать, принимает только 4 числовые данные. Я хочу преобразовать столбец 3 «Ключевое слово» в числовые значения. Как 2 я могу это сделать? Используете НЛП? Мешок 1 слов? Я пробовал следующее, но получил ValueError: Expected 2D array, got 1D array inst ...

Получить имена выбранных функций TFIDF Vectorizer

... cument-frequency reweighting smooth_idf=True, # prevents zero division for unseen words sublinear_tf=False) tfidf_df = tfidf_vectorizer.fit_transform(df['text']) Здесь я передаю параметр 9 max_features. Векторизатор выберет лучшие функции и 8 вернет скудную разреженную матрицу. Проблема 7 в том, что я не знаю, какие функции выбираются, и 6 как мне сопоставить эти имена функций с 5 полученной scipy матрицей? В осн ...

Нет такого файла или каталога 'nltk_data / corpora / stopwords / English' при использовании colab

... ка со следующим: nltk.download('stopwords') Загрузка прошла успешно [nltk_data] Downloading package stopwords to /root ...

Как сгруппировать похожие предложения с помощью BERT

... ий. Хороший пример реализации 10 можно увидеть в этой короткой статье: http://ai.intelligentonlinetools.com/ml/text-clustering-word-embedding-machine-learning/ Я 9 хотел бы сделать то же самое с помощью BERT 8 (используя пакет python BERT из обнимающего 7 лица), однако я довольно не знаком с тем, как 6 извлекать необработанные векторы слов / предложений, чтобы 5 ввести их в алгоритм кластеризации. Я знаю, что 4 BERT может выводить п ...

Сравнение нечетких строк

... ложение, которое 27 идеально соответствует оригиналу, получит 26 оценку 1, а предложение, которое является 25 полностью противоположным, получит оценку 24 0. Все остальные нечеткие предложения получат 23 оценку от 1 до 0. Я не уверен, какую операцию 22 использовать, чтобы я смог выполнить это 21 в Python 3. Я включил образец текста, в котором 20 текст 1 является исходным, а другие предшествующие 19 строки являются сравнениями. Т ...

Просторный настраиваемый токенизатор для включения только дефисных слов в качестве токенов с использованием регулярного выражения Infix

... te: Since the fourteenth century the practice of “medicine” has become a profession; and more importantly, it\'s a male-dominated profession.') [token.text for token in doc] Итак, для 4 этого предложения: 'Примечание: с четырнадцатого века практика «медицины» стала профессией; и, что более важно, в этой профессии преоблада ...

TypeError: длина разреженной матрицы неоднозначна; использовать getnnz() или shape [0] при использовании RF-классификатора?

... to convert to a dense numpy array. затем я использовал .toarray() для X_train и получил 7 следующее: TypeError: sparse matrix length is ambiguous; use getnnz() or shape[0] Из предыдущего question, как я понял, мне 6 нужно уменьшить размерность массива numpy, поэтому 5 я делаю то же самое: from sklearn.decomposition.truncated_svd import T ...

WordNetLemmatizer не возвращает правильную лемму, если POS не указан явно - Python NLTK

... ерминале python я получаю правильный результат, но 2 не в моем code: >>> from nltk.stem import WordNetLemmatizer >>> from nltk.corpus import wordnet >>> lem = WordNetLemmatizer() >>> lem.lemmatize('involved','v') u'involve' >>> lem.lemmatize('horsing','v') u'horse' Соответствующий раздел кода следующий: for l in LDA ...

Python - создание существительного единственного числа во множественном числе

... или запретить ему 4 различать единственное и множественное число 3 при поиске слова в текстовом файле? Могу 2 ли я и ...

SpaCy не может найти таблицы lexeme_norm для языка 'en' в spacy-lookups-data

... lookups are available for your language. Запуск python3 -m spacy validate возвращает ✔ Loaded compatibility table ================= Installed pipeline packages (spaCy v3.0.3) ================= ℹ spaCy installation: /xxx/xxx/xxx/env/lib/python3.8/site-packages/spacy NAME SPACY VERSION en_core_web_lg >=3.0.0,<3.1.0 3.0.0 ✔ en_core_web_sm >=3.0.0,<3.1.0 3 ...

Библиотека Java для извлечения ключевых слов из входящего текста

... есть, если слово встречается 4 в тексте больше раз, чем на английском языке 3 с точки зрения вероятности, чем оно является 2 кандидатом ключевого слова. Есть ...

Python (NLTK) - более эффективный способ извлечения словосочетаний?

... \w?>}" chunkr = nltk.RegexpParser(NP) tokens = [nltk.word_tokenize(i) for i in texts] tag_list = [nltk.pos_tag(w) for w in tokens] phrases = [chunkr.parse(sublist) for sublist in tag_list] leaves = [[subtree.leaves() for subtree in tree.subtrees(filter = lambda t: t.label == 'NP')] for tree in phrases] свести список списков списков 3 кортежей, с которыми мы закончили, в просто 2 список списков ко ...

SpaCy: как загрузить векторы word2vec новостей Google?

... я загрузить их с помощью: en_nlp.vocab.load_vectors('googlenews2.txt') но возвращает 10 "0". Как правильно это сделать? Обновление: Я 9 могу загрузить свой собственный созданный 8 файл в spacy. Я использую файл test.txt 7 со строкой 0.0 0.0 .... в каждой строке. Затем 6 заархивируйте этот txt с помощью .bzip2 5 в test.txt.bz2. Затем я создаю двоичный 4 файл, совместимый с пространством: spacy.vocab.write_binary_vectors('tes ...

Просторное, странное сходство между двумя предложениями

... core_web_lg и пытаюсь найти сходство 7 между двумя предложениями: nlp = spacy.load('en_core_web_lg') search_doc = nlp("This was very strange argument between american and british person") main_doc = nlp("He was from Japan, but a true English gentleman in my eyes, and another one of the reasons as to why I liked going to school.") print(main_doc.similarity(search_doc)) Что возвраща ...

Scikit Learn TfidfVectorizer: как получить n лучших терминов с наивысшим баллом tf-idf

... shade of a widespreading tree to rest. As they lay looking up among the pleasant leaves, they saw that it was a Plane Tree. "How useless is the Plane!" said one of them. "It bears no fruit whatever, and only serves to litter the ground with leaves." "Ungrateful creatures!" said a voice from the Plane Tree. "You lie here in my cooling shade, and yet you say I am useless! Thus ungratefully, O Jupite ...

Как определить, что два предложения похожи?

... вычислить, насколько два произвольных 4 предложения похожи друг на друга. Например: Математик нашел решение проблемы. Задачу решил молодой математик. ...

Команда согласования Python в NLTK

... чу 4 найти слово «CNA», поэтому я ввожу команду textList.concordance('CNA') Тем 3 не менее, я получил ошибку AttributeError: 'list' object has no attribute 'concordance'. В этом примере 2 text1 НЕ является списком? Интересно, что 1 здесь п ...

Невозможно импортировать bert.tokenization

... импорт 3 почему-то не работает: from bert.tokenization import FullTokenizer Я получаю эту ошибку: ModuleNotFoundError: ...

Python - RegEx для разделения текста на предложения (токенизация предложений)

... port re text = """\ Mr. Smith bought cheapsite.com for 1.5 million dollars, i.e. he paid a lot for it. Did he mind? Adam Jones Jr. thinks he didn't. In any case, this isn't true... Well, with a probability of .9 it isn't. """ sentences = re.split(r' *[\.\?!][\'"\)\]]* *', text) for stuff in sentences: print(stuff) ...

В чем разница между извлечением признаков текста биграммы и юниграммы

... Интернете функции извлечения текста 7 в виде биграмм и униграмм, но все еще не 6 нашел полезной информации. Может кто-нибудь 5 сказать мне, в чем разница между ними? Например, если ...

NLTK: ошибки пакета? пункт и рассол?

... ng) 832 833 # Load the resource. --> 834 opened_resource = _open(resource_url) 835 836 if format == 'raw': /usr/local/lib/python3.7/dist-packages/nltk/data.py in _open(resource_url) 950 951 if protocol is None or protocol.lower() ...

Как делать лемматизацию по немецкому тексту?

... -forge spacy python -m spacy 5 загрузить de_core_news_md import spacy from spacy.lemmatizer import Lemmatizer lemmatizer = Lemmatizer() [lemmatizer.lookup(word) for word in mails] Я вижу следующие 4 проблемы. Мои данные структурированы предложениями, а 3 не отдельными словами В моем случае пространственная 2 лемматизация не работает даже для отдельных 1 слов. Подск ...

Понимание DictVectorizer в scikit-learn?

... ctVectorizer для классификации текста? Т.е. как 4 этот класс помогает обрабатывать помеченные 3 текстовые данные? Может ли кто-нибудь предоставить 2 короткий приме ...

AttributeError: объект Word2Vec не имеет атрибута most_similar (Word2Vec)

... sim ВЫХОД: Требование 8 уже выполнено: gensim в ./opt/anaconda3/lib/python3.8/site-packages 7 (4.0.1) Требование уже выполнено: numpy> = 1.11.3 6 в ./opt/anaconda3/lib/python3.8/site-packages 5 (от gensim) (1.20.1) Требование уже выполнено: smart-open> = 1.8.1 4 в ./opt/anaconda3/lib/python3.8/site-packages 3 (от gensim) (5.1.0) Требование уже выполнено: scipy> = 0,18,1 2 дюйма ./opt/anaconda3/li ...

Смущает результат возврата TfidfVectorizer.fit_transform

... pen(save_file_name, 'r') as temp_output_file: reader = csv.reader(temp_output_file) for row in reader: text_data.append(row) else: zip_url = 'http://archive.ics.uci.edu/ml/machine-learning-databases/00228/smsspamcollection.zip' r = requests.get(zip_url) z = ZipFile(io.BytesIO(r.content)) file = z.read('SMSSpamCollection') # Format data text_data = file.de ...

Лучший способ идентифицировать и извлекать даты из текста Python?

... ак модуль 7 dateutil.parser и parsedatetime, но они, похоже, предназначены для после того, что 6 вы изолировали дату. Из-за этого есть какой-нибудь 5 хороший способ извлечь дату и посторонний 4 текст input: Th 9/19 LAB: Serial encoding (Section 2.2) output: ['Th 9/19', 'LAB: Serial encoding (Section 2.2)'] или что-то подобное? Кажется, что такая 3 обработка выполняется такими приложениями, как 2 Gmail и Apple Mail, но в ...

Как вычислить точность, отзыв, точность и оценку f1 для мультиклассового случая с помощью scikit learn?

... acy_score(y_test, prediction) print 'F1 score:', f1_score(y_test, prediction) print 'Recall:', recall_score(y_test, prediction) print 'Precision:', precision_score(y_test, prediction) print '\n clasification report:\n', classification_report(y_test,prediction) print '\n confussion matrix:\n',confusion_matrix(y_test, prediction) F1 score:/usr/local/lib/python2.7/site-packages/sklearn/metrics/classification.py:676: DeprecationWarning: The default ...

Извлечение имен людей при распознавании именованных сущностей в NLP с использованием Python

... У меня есть предложение, для которого мне 8 нужно определить только имена людей: Например: sentence = "Larry Page is an American business magnate and computer scientist who is the co-founder of Google, alongside Sergey Brin" Я 7 использовал приведенный ниже код для определения 6 NER. from nltk import word_tokenize, pos_tag, ne_chunk print(ne_chunk(pos_tag(word_tokenize(sentence)))) Я получил следующий результат: (S ...

NameError: имя 'стоп-слов' не определено

... ствуется, спасибо! Блок 1 1 import re import nltk nltk.download('stopwords') Вывод 1 > [nltk_data] Downloading package stopwords to > [nltk_data] /Users/user/nltk_data... > [nltk_data] Package stopwords is already up-to-date! > Out[14]: True Блок 2 dataset['Review'][0] review = re.sub('[^a-zA-Z]',' ' ,dataset['Review'][0]) review = review.lower() review = review.split() review = [word for word in ...

Как придать большее значение определенным функциям машинного обучения?

... акую библиотеку, как 5 scikit-learn, как мне присвоить больший 4 вес определенным ф ...

Невозможно загрузить просторную модель en_core_web_lg в Google colab

... odel via spacy.load('en_core_web_lg') Однако, когда я пытаюсь загрузить 2 модель nlp = spacy.load('en_core_web_lg') выводится следующая ошибка: OSError: [E050] Can't find model 'en_core_web_lg'. It doesn't seem to ...

Эффективный контекстно-свободный синтаксический анализатор грамматики, предпочтительно совместимый с Python

... 30 выдает правильный вывод, но работает очень 29 медленно. Для моей грамматики из ~ 450 довольно 28 неоднозначных правил, не связанных с лексикой, и 27 полумиллиона лексических статей анализ простых 26 предложений может занять от 2 до 30 секунд ...

gensim word2vec: найти количество слов в словаре

... модели word2vec с использованием 2 python gensim, как определить ко ...

Удаление стоп-слова при использовании word2vec

... model.most_similar('someword') ..? Но я нигде не встречал упоминания 6 о необходимости удаления стоп-слова с помощью 5 word2vec? Должно ли word2vec обрабатывать 4 стоп-слова, даже если вы их не удалите? Что 3 необходимо сделать перед обработкой (например, при 2 модели ...

Удаление стоп-слов с помощью NLTK

... ераторами, которые необходимы для последующей 4 обработки текста как запроса. Я не знаю, какие 3 слова могут быть операторами в текстовом 2 запросе, и я также хочу удалить ненужные 1 слова из ...

Как вернуть историю потери валидации в Керасе

... ---- Generating with seed: "' + sentence + '"') sys.stdout.write(generated) for i in range(400): x = np.zeros((1, maxlen, len(chars))) for t, char in enumerate(sentence): x[0, t, char_indices[char]] = 1. p ...

Spacy nlp = spacy.load ("en_core_web_lg")

... sn't seem to be a shortcut link, a Python package or a valid path to a data directory. Я уже пробовал >>> import spacy >>> nlp = spacy.load("en_core_web_sm") , и это работает 5 не так, как на моем персональном компьютере. У 4 меня вопрос: как решить эту проблему? В 3 какой конкретно каталог мне нужно поместить 2 модель ...

Как обучить алгоритм GloVe на моем собственном корпусе

... 8 без изменений?) вывод был: cooccurrence.bin cooccurrence.shuf.bin text8 corpus.txt vectors.txt Как 2 я могу использовать эти файлы для загрузки 1 в качестве модели GloVe на Pyth ...