4n70w4/php-text-words-parser
Composer 安装命令:
composer require 4n70w4/php-text-words-parser
包简介
Parse html text into sentences and words on PHP.
关键字:
README 文档
README
Purpose
Анализ слов в тесте для реализации каких-либо алгоритмов (например, похожести текстов) Использование индексатором для полнотекстового поиска, отображение фрагментов текста и подсветка найденных слов в результатах поиска
Features
- Получение всех слов в тексте в порядке их следования
- Получение всех предложений и слов в тексте в порядке их следования
- Получение уникальных слов в тексте с весами их появления в тексте
- Нормализация текста (описание см. ниже)
- Распределение абсолютных позиций слов к абсолютным байтовым позициям в нормализованном тексте
- Поддержка нескольких языков одновременно
- Работает с любыми языками мира, используемая кодировка — UTF-8.
Terminology
- Нормализованный текст — текст с сохранением регистра, с параграфами и переносами строк, но без html тэгов и сущностей, без знака табуляции, ударения, мягкого переноса строк
- Слово — последовательность букв или цифр (мешанина не допускается!)
- Абсолютная позиция слова — порядковый номер слова в нормализованном тексте
- Относительная позиция слова — порядковый номер слова относительно предложения в нормализованном тексте
- Байтовая позиция слова — смещение слова в байтах в нормализованном тексте
Example
$wp = new Text_WordsParser(array('Latin', 'Cyrillic'));
$html = file_get_contents('test.html');
$text = $wp->parse($html, $words, $sentences, $uniques, $offset_map);
var_dump($text, $words, $sentences, $uniques, $offset_map);
Useful links
- http://www.evertype.com/alphabets/index.html The Alphabets of Europe
- http://ru.wikipedia.org/wiki/TF-IDF Оценка важности слова в контексте текста
- http://morpher.ru/Description.aspx Технология автоматического склонения
- http://phpmorphy.sourceforge.net/dokuwiki/demo Библиотека морфологического анализа на PHP, демонстрация работы phpMorphy (введи, например, слово "родной" или "раздела")
- http://packages.python.org/pymorphy/ Морфологический анализатор
Project was exported from http://code.google.com/p/php-text-words-parser
统计信息
- 总下载量: 11
- 月度下载量: 0
- 日度下载量: 0
- 收藏数: 2
- 点击次数: 0
- 依赖项目数: 0
- 推荐数: 0
其他信息
- 授权协议: Unknown
- 更新时间: 2019-09-20