RCO Deduplicator SDK

   Москва

Перейти на сайт производителя

Выявление дублей загружаемого документа среди имеющихся в базе данных (БД) необходимо для очистки результатов поиска от лишней информации и, следовательно, упрощения аналитической работы с базой.
Процедура избавления от дубликатов двухэтапная. Первый этап – выявление важных для обнаружения дубликатов характеристик поступившего в систему документа. Второй – поиск дубликатов.
Процедура выявления дубликатов двухэтапная. Первый этап – выявление важных для обнаружения дубликатов характеристик поступившего в систему документа. Второй – собственно поиск дубликатов.
Дубликаты выявляются с использованием следующих условий:
- Хотя бы одна контрольная сумма предложений совпадает (необходимое условие);
- Разница в числе слов документов не превышает заданного значения или отношение длин документов не превосходит определенного значения (необходимое условие);
- Все контрольные суммы предложений совпадают (достаточное условие);
- Контрольные суммы частых слов совпадают (достаточное условие.
! Использование библиотеки RCO Deduplicator возможно лишь при наличии работающей версии программы RCO Fact Extractor !

Отзывы

Чтобы оставить отзыв, авторизуйтесь на ScienceID