Долго преследовала мысль о возможности написания программы по управлению и продвижению своих сайтов используя давно забытый опыт программирования. Была даже попытка составить краткое техническое задание на разработку, прикинуть, сколько может потребоваться времени на реализацию. Был перечитан ворох литературы по данному направлению. На первый взгляд составление самой программы на языке Java с использованием различных компонентов, кажется достаточно простой, именно составление, а не написание, т.к. практически вся функциональность отдельных компонент уже реализована и выложена в сети, остается только набраться смелости и соединить все воедино. Есть, конечно, и трудности с реализацией отдельной функциональности, и это в первую очередь связано с языком реализации Java, – некоторые компоненты удалось найти только в реализации на других языках программирования.
Для начала, соберем выдачу с основных поисковых машин. Анализ показал, что строка запроса достаточно проста, для ее составления скорее всего не потребуется дополнительных модулей:
http://www.google.com/search? hl=en&as_q=russian+women&as_epq=mywomen&as_oq=ukrainian+lady+ladies&as_eq=
donotold&num=100&lr=lang_en&as_filetype=&ft=i&as_sitesearch=&as_qdr=all&as_righ
ts=&as_occt=any&cr=&as_nlo=&as_nhi=&safe=images
hl=en – язык
&as_q=russian+women – набор слов для поиска
&as_epq=mywomen – точная фраза для поиска.
&as_oq=ukrainian+lady+ladies – одно из перечисленных слов
&as_eq=donotold – слова которого не должно быть в выдаче
&num=100 – количество результатов на странице
&lr=lang_en – язык сайта в выдаче
&as_filetype= – тип файла : doc,pdf, и.т.д
&ft=i
&start=0 – с какой позиции стартуем(если 100 в выдаче то 2-ая страница с 100, третья с 200 и.т.д)
&as_sitesearch=
&as_qdr=all
&as_rights=
&as_occt=any
&cr=
&as_nlo=
&as_nhi=
&safe=images
YANDEX
http://yandex.ru/yandsearch?
date=&text=russian+brides&site=&rstr=&zone=all&wordforms=exact&lang=ru&within=0
&from_day=&from_month=&from_year=&to_day=11&to_month=9&to_year=2009&mime
=all
?date=
&text=russian+brides – текст для поиска.
&site=
&rstr=
&zone=all – зона поиска, может быть задан регион
&wordforms=exact
&lang=ru – язык на странице.
&within=0
&from_day= с какой даты
&from_month=
&from_year=
&to_day=11 по какую дату.
&to_month=9
&to_year=2009
&mime=all
http://yandex.ru/yandsearch?text=%21%28russian+brides%29&stpar2=%2Fh0%2Ftm0%2Fs1&stpar4=%2Fs1
строка запроса – !(russian brides)
http://yandex.ru/yandsearch?
text=%21%28russian+brides%29
&stpar2=%2Fh0%2Ftm0%2Fs1
&stpar4=%2Fs1
http://yandex.ru/yandsearch?
p=1 – номер страницы в поиске, соответственно когда первая, то не ставиться
вторая p=1, вторая p=2
&text=!(russian%20brides)
YAHOO
http://search.yahoo.com/search?p=russian+women&vc=&fr=yfp-t-
152&toggle=1&cop=mss&ei=UTF-8&fp_ip=RU
?p=russian+women
&vc=
&fr=yfp-t-152
&toggle=1
&cop=mss
&ei=UTF-8
&fp_ip=RU
http://search.yahoo.com/search?n=100&ei=UTF-8
&va_vt=any&vo_vt=any&ve_vt=any&vp_vt=any&vd=m3&vst=0&vf=all&vm=p&fl=1&vl
=lang_en&fr=yfp-t-152&fp_ip=US&p=moscow+women+%22women+from+women%
22+-old+-bad&vs=
?n=100 – количество результатов в выдаче.
&ei=UTF-8 – кодировка
&va_vt=any
&vo_vt=any
&ve_vt=any
&vp_vt=any
&vd=m3
&vst=0
&vs=.com – искать только на определенном домене.
&vf=all
&vm=p
&fl=1
&vl=lang_en – язык страниц для поиска.
&fr=yfp-t-152
&fp_ip=US – Для какого IP выдача.
&p=moscow+women+%22women+from+women%22+-old+-bad – одно из moscow+women, точное совпадение:%22women+from+women%22
_ исключение слов: +-old+-bad
&vs=
RAMBLER
http://nova.rambler.ru/srch?
query=russian+women&and=1&dlang=1&mimex=0&st_date=&end_date=&news=0&limit
context=0&exclude=old&filter=&sort=3&pagelen=50&gopic=%D0%9D%D0%B0%D0%
B9%D1%82%D0%B8
?query=russian+women – строка запроса
&and=1 -
&dlang=1 – язык страницы 1- русский
&mimex=0 – тип документа 80- html, 1- doc, 0- любой
&st_date= – дата начала
&end_date= – дата конца
&news=0 – где находится на странице 0-все равно,3-в заголовке,2-в гиперссылке.
&limitcontext=0 – расстояние между словами 0-не ограничивать, 2-ограничивать.
&exclude=old – слова исключения
&filter=
&sort=3 – тип сортировки
&pagelen=50 – количество результатов на странице
&gopic=%D0%9D%D0%B0%D0%B9%D1%82%D0%B8
http://nova.rambler.ru/srch?
query=russian+women&and=1&dlang=1&mimex=80&st_date=&end_date=&news=3&limi
tcontext=2&exclude=old+adult&filter=&sort=0&pagelen=50&gopic=%D0%9D%D0%
B0%D0%B9%D1%82%D0%B8
?query=russian+women
&and=1
&dlang=1
&mimex=80 – тип документа 80- html, 1- doc, 0- любой
&st_date=
&end_date=
&news=3
&limitcontext=2
&exclude=old+adult
&filter=
&sort=0
&pagelen=50
&gopic=%D0%9D%D0%B0%D0%B9%D1%82%D0%B8
После получения результата это легко парсится и вываливается в текстовый файл с простым списком URL или анкоров, данную информацию можно использовать для последующей обработки. Получился простенький Hrefer от Хрумера.
Продолжаем наблюдать за развитием событий в Конкурсе “сладкий сеопультенок“, после последнего апа яандекса, количество видимых участников значительно увеличилось. Google – показывает, что первая нагрузка от конкурса легла на социальные закладки. Скорее всего некоторые участники выжидают, чтобы сделать финишный рывок, и это произойдет непосредственно перед первой контрольной датой, подведения итогов по “сладкому сеопультенку”