Излагаются принципы подготовки данных для внесения их в  адресную базу данных
 
ДИРЕКТ МАРКЕТИНГ


АДРЕСНАЯ БАЗА ДАННЫХ


ПОЧТОВАЯ РАССЫЛКА И
УПАКОВКА



РАСПРОСТРАНЕНИЕ ЛИСТОВОК, ГАЗЕТ


ПУБЛИКАЦИИ


КОНТАКТЫ

  Публикации>>Лингвистический анализ контента адресных баз данных>
 

Лингвистический анализ контента АДРЕСНЫХ БАЗ ДАННЫХ



    Черепанов Вадим,








    Не стреляйте в программиста,
    он пишет, как умеет

    (из речи на IT-форуме)

            Уважаемый читатель, современный директ маркетинг невозможен без использования разнообразных баз данных. Сложность их разработки и функционирования достаточно высока. Однако большинству DM-специалистов адресные базы данных представляются в виде некоего "черного ящика". Достаточно "покрутить ручку" и появятся необходимые данные. Чтобы развеять это заблуждение и приоткрыть проблемы сотрудников информационных отделов (см. эпиграф), предлагаю Вашему вниманию изложение принципов работы наиболее интересного и сложного механизма подготовки данных для внесения их в адресную базу данных.
    Рис.1
            Создание и поддержание адресной базы данных всегда предполагает решение вопросов дублирования, актуализации и верификации информации. Решение кроется в стандартизации информации в рамках адресной базы данных. В противном случае сама идея адресной базы данных бессмысленна. При внесении данных из разрозненных источников в базу, даже при соблюдении технологии, заложенной в каждую из них, трудоемкость отслеживания повторов достаточно высока. При увеличении объема базы свыше 100 000 записей эта проблема существенно тормозит дальнейшее развитие такой базы данных.
            Для адресных баз данных (АБД), то есть любых баз, включающих в себя почтовый адрес, содержание адреса (в дальнейшем контент адреса или просто - контент), наряду с названием фирмы или ФИО частного лица, представляет собой универсальный критерий уникальности записей адресной базы данных. Располагая автоматическими средствами стандартизации адреса АБД можно решить проблемы актуализации информации, обеспечить отслеживание дублей при внесении новых данных, получить новое качество информации за счет пересечения информации из различных источников и снизить общий объем адресной базы данных за счет представления почтового адреса в кодированном виде.
            Проблем становится меньше, если в соответствии со стандартами вводится информация, скажем, опытным оператором или база постоянно обновляется из одного источника. Если источников больше чем один - тогда основой стандартизации будет технология распознавания (аутентификации) адреса.
            Чтобы построить алгоритм аутентификации, давайте рассмотрим, что представляет собой русскоязычный почтовый адрес.

            Например: РФ, Московская обл., Домодедовский р-н, пгт. Белые Столбы, ул. Геологов, д. 1, корп. 2

            Почтовый адрес отражает принципы построения региональной структуры государства. Он состоит из отдельных смысловых элементов - локальных сущностей (разделенных в нашем примере запятыми). Государство имеет региональное деление на республики, края, области. В свою очередь, регионы состоят из районов и автономных образований. Последние включают в себя населенные пункты, массивы застройки, микрорайоны, улицы, переулки и т.д. - создается естественная иерархия подчинения нижестоящих локальных сущностей высшим и формируется нормализованная структура почтового адреса. По своему виду она напоминает дерево (Рис. 1), где "стволом" является государство, а периферией - "ветки" улиц (о дальнейшей структуре адреса разговор намеренно не ведется).
    далее>>
    Наш адрес: Москва, Остаповский проезд, д.3, стр.24, к.102
    Телефон/факс:8-495-665-45-62
    E-mail для деловых контактов: info@argoline.ru<br><br>