Компания Hitachi разработала новую технологию поиска информации,
которая способна найти те или иные данные из миллионов документов
буквально за считанные секунды, причем документы могут быть как
текстовыми, так и графическими. Как пишет японское издание Nikkei
Business, на сегодня разработка оптимизирована для графического поиска,
но в будущем она может быть использована и в универсальных системах.
Разработка
оценивает схожесть графических изображений на базе повторяющихся
цепочек двоичных данных. В качестве ключевых данных, которые система
берет для основы поиска, выступает самый широкий диапазон информации -
текстовые последовательности, переходы цветов или распределение
информации.
В Hitachi говорят, что в будущем система будет
заниматься поиском видеоданных по заданным критериям, причем система
будет анализировать контент файла для поиска, а не его название, как
это происходит в поисковых системах в настоящее время.
С
технической точки зрения, для создания феноменальной скорости поиска
технология включает в себя высокоскоростную систему распознавания
визуальных образов и специальную систему расположения файлов на жестких
дисках.
По словам представителей Hitachi, представленная
разработка является усовершенствованием представленного ранее
алгоритма, который использовал данные на жестких дискам и в ОЗУ ПК.
Однако новая технология способна регистрировать изображения или
документы и разбивать похожие по содержанию на кластеры. Каждый кластер
представляет собой выборку по той или иной характеристике. Кластеров
может быть сколь угодно много, поэтому реализуется технология
многомерного поиска, сравнимая с работой нейронов головного мозга людей.
При
поступлении запроса технология сначала производит поиск по кластерам,
затем, обнаружив несколько кластеров с подходящими данными, сужает
поиск до групп документов, из которых состоят кластеры.
Инженеры
компании говорят, что новая разработка способна практически мгновенно
находить нужные данные из массы информации, а кроме того, заметно
экономить память и процессорные ресурсы компьютера, когда поиск
производится по "тяжелым" файлам, например фотографиям с высоким
разрешением или видеофайлам.
В Hitachi говорят, что технология
визуального обнаружения похожих фрагментов уже не только реализована,
но коммерциализована в различных системах видеообнаружения. Инновация
же Hitachi заключается в адаптации этой системы к поиску данных на
компьютерах.
Однако разработчики говорят и об одном недостатки
системы. Дело в том, что при добавлении новых файлов приходится
производить большой объем повторных вычислений и перестраивать массу кластеров.
Тем не менее в будущем в Hitachi планируют реализовать систему создания
кластеров с сотнями изменений, а такая система уже не потребует
активной переиндексации.
|