4n70w4/php-text-words-parser 问题修复 & 功能扩展

解决BUG、新增功能、兼容多环境部署,快速响应你的开发需求

邮箱:yvsm@zunyunkeji.com | QQ:316430983 | 微信:yvsm316

4n70w4/php-text-words-parser

Composer 安装命令:

composer require 4n70w4/php-text-words-parser

包简介

Parse html text into sentences and words on PHP.

关键字:

README 文档

README

Purpose

Анализ слов в тесте для реализации каких-либо алгоритмов (например, похожести текстов) Использование индексатором для полнотекстового поиска, отображение фрагментов текста и подсветка найденных слов в результатах поиска

Features

  1. Получение всех слов в тексте в порядке их следования
  2. Получение всех предложений и слов в тексте в порядке их следования
  3. Получение уникальных слов в тексте с весами их появления в тексте
  4. Нормализация текста (описание см. ниже)
  5. Распределение абсолютных позиций слов к абсолютным байтовым позициям в нормализованном тексте
  6. Поддержка нескольких языков одновременно
  7. Работает с любыми языками мира, используемая кодировка — UTF-8.

Terminology

  1. Нормализованный текст — текст с сохранением регистра, с параграфами и переносами строк, но без html тэгов и сущностей, без знака табуляции, ударения, мягкого переноса строк
  2. Слово — последовательность букв или цифр (мешанина не допускается!)
  3. Абсолютная позиция слова — порядковый номер слова в нормализованном тексте
  4. Относительная позиция слова — порядковый номер слова относительно предложения в нормализованном тексте
  5. Байтовая позиция слова — смещение слова в байтах в нормализованном тексте

Example

$wp = new Text_WordsParser(array('Latin', 'Cyrillic'));
$html = file_get_contents('test.html');
$text = $wp->parse($html, $words, $sentences, $uniques, $offset_map);
var_dump($text, $words, $sentences, $uniques, $offset_map);

Useful links

  1. http://www.evertype.com/alphabets/index.html The Alphabets of Europe
  2. http://ru.wikipedia.org/wiki/TF-IDF Оценка важности слова в контексте текста
  3. http://morpher.ru/Description.aspx Технология автоматического склонения
  4. http://phpmorphy.sourceforge.net/dokuwiki/demo Библиотека морфологического анализа на PHP, демонстрация работы phpMorphy (введи, например, слово "родной" или "раздела")
  5. http://packages.python.org/pymorphy/ Морфологический анализатор

Project was exported from http://code.google.com/p/php-text-words-parser

统计信息

  • 总下载量: 11
  • 月度下载量: 0
  • 日度下载量: 0
  • 收藏数: 2
  • 点击次数: 0
  • 依赖项目数: 0
  • 推荐数: 0

GitHub 信息

  • Stars: 2
  • Watchers: 0
  • Forks: 4
  • 开发语言: PHP

其他信息

  • 授权协议: Unknown
  • 更新时间: 2019-09-20

承接程序开发

PHP开发

VUE

Vue开发

前端开发

小程序开发

公众号开发

系统定制

数据库设计

云部署

网站建设

安全加固