Компания Hitachi разработала новую технологию поиска информации, которая способна найти те или иные данные из миллионов документов буквально за считанные секунды, причем документы могут быть как текстовыми, так и графическими. Как пишет японское издание Nikkei Business, на сегодня разработка оптимизирована для графического поиска, но в будущем она может быть использована и в универсальных системах.

Разработка оценивает схожесть графических изображений на базе повторяющихся цепочек двоичных данных. В качестве ключевых данных, которые система берет для основы поиска, выступает самый широкий диапазон информации - текстовые последовательности, переходы цветов или распределение информации.

В Hitachi говорят, что в будущем система будет заниматься поиском видеоданных по заданным критериям, причем система будет анализировать контент файла для поиска, а не его название, как это происходит в поисковых системах в настоящее время.

С технической точки зрения, для создания феноменальной скорости поиска технология включает в себя высокоскоростную систему распознавания визуальных образов и специальную систему расположения файлов на жестких дисках.

По словам представителей Hitachi, представленная разработка является усовершенствованием представленного ранее алгоритма, который использовал данные на жестких дискам и в ОЗУ ПК. Однако новая технология способна регистрировать изображения или документы и разбивать похожие по содержанию на кластеры. Каждый кластер представляет собой выборку по той или иной характеристике. Кластеров может быть сколь угодно много, поэтому реализуется технология многомерного поиска, сравнимая с работой нейронов головного мозга людей.

При поступлении запроса технология сначала производит поиск по кластерам, затем, обнаружив несколько кластеров с подходящими данными, сужает поиск до групп документов, из которых состоят кластеры.

Инженеры компании говорят, что новая разработка способна практически мгновенно находить нужные данные из массы информации, а кроме того, заметно экономить память и процессорные ресурсы компьютера, когда поиск производится по "тяжелым" файлам, например фотографиям с высоким разрешением или видеофайлам.

В Hitachi говорят, что технология визуального обнаружения похожих фрагментов уже не только реализована, но коммерциализована в различных системах видеообнаружения. Инновация же Hitachi заключается в адаптации этой системы к поиску данных на компьютерах.

Однако разработчики говорят и об одном недостатки системы. Дело в том, что при добавлении новых файлов приходится производить большой объем повторных вычислений и перестраивать массу кластеров. Тем не менее в будущем в Hitachi планируют реализовать систему создания кластеров с сотнями изменений, а такая система уже не потребует активной переиндексации.

30.07.2007