catpad

Статья из предыдущего поста напомнила мне одну мою старую мысль о том, как можно организовать поисковую машину.

Возьмём какое-нибудь слово, например dog. Сделаем по нему поиск, который вернёт примерно 36,500,000 страниц. Соберём все слова с этих страниц и отсортируем их так, чтобы выявить наиболее часто встречающиеся слова. Из этого списка выкинем 1000 наиболее распространённых английских (в данном случае) слов, таких как: I, who, where, the, a, and, or и так далее. Эти слова не представляют никакого интереса. Из оставшегося списка выберем, например, 100 слов, которые встретились на этих страницах наибольшее количество раз, не являясь при этом самыми распространёнными словами языка. Этими словами скорее всего будут breed, diet, terrier, appearance, hound, skill, pet, animal, owner и тому подобное.
Назовём этот список контекстом слова dog.

Ту же самую процедуру проделаем со всеми словами языка. После всего этого мы получим словарь контекстов всех слов языка, то есть множество списков слов, в окружении которых каждое из слов языка встречается наиболее часто.

Такой словарь может быть интересен уже сам по себе, ведь контексты слов будут пересекаться. Можно, таким образом, находить наиболее контекстно-близкие слова, и наиболее контекстно-далёкие.
Очевидо, что должны организоваться кластеры слов, то есть множества слов, чьи контексты наиболее близки.

На основе такого словаря можно сделать две вещи: каталог и поисковую машину.
Каталог делается так. Берётся страница и определяется объединённый контекст всех её слов, то есть объединение всех контекстов всех слов на данной странице. То же самое проделывается со всеми страницами, которые есть в поисковой системе, и теперь у нас уже есть не просто словарь контекстов слов, а словарь контекстов страниц (или даже сайтов). Теперь эти страницы (или сайты) уже можно организовать в каталог, строя кластеры наиболее контекстно-близких страниц. После этого можно провести обратный поиск, то есть для каждого кластера (или раздела в получившемся каталоге) определить слова, контексты которых наиболее близки (то есть имеют наибольшее количество пересечений) с контекстом кластера. Эти слова и станут ключевыми словами данного кластера (то есть раздела) каталога.

Как организовать поиск. Пользователь набирает в обычной поисковой машине какое-то слово. Машина выдаёт множество страниц. Прежде всего мы находим в нашем словаре контекстов контекст набранного слова или объединённый контекст искомого словосочетания. Теперь осталось только отсортировать все найденные страницы по принципу близости их объединённых контекстов с контекстом запроса. В первых строчках отсортированного списка должны появиться наиболее близкие по смыслу страницы.

Улучшение 1: Для построения словаря контекстов поиск по словами делать не просто по всей сети (набрав слово dog в Гугле), а в тематических каталогах, таких как Yahoo, то есть внутри раздела, имеющего отношение к собакам. Это позволит исключить случайные страницы, как например Dogpile, который Google выдаёт в качестве первого результата поиска.
Улучшение 2: Искать не только отдельные слова, но и всевозможные словосочетания или даже фразы и каждой из них присваивать контекст. Словарь получится гораздо больше, но он будет гораздо более полезен.

Нужно добавить, что я как-то даже проводил такие эксперименты, используя web service, который даёт Google. Данных, конечно, было очень мало, но мне удавалось чётко разделять художественные и технические тексты.

Threaded | Top-Level Comments Only

From:

greenadine.livejournal.com

А тебе Наденька не рассказывала, что примерно так работает их продукт? Только связи (то, что ты называешь "контекстной близостью") могут быть сложнее, практически те же, что в обычном ООП: наследование, уточнение, использование, ассоциации и т.п.
Они (ее контора - да и вся наука, наверное), в частности, говорят, что контексты одного и того же слова могут быть совершенно разные в зависимости от. Поэтому каждому клиенту ставится некая общая база (с некими общечеловеческими ценностями), а потом добивают конкретикой их дела. Т.е. как разделение синонимов ("коса" - "коса" - "коса"), так и разных смыслов "кот в сапогах" от "кот" и "сапог".
После чего, действительно, делается каталог, в котором определяются узлы, правила "прохождения" узлов, и документы автоматом классифицируются.

Так что, резюмируя, похоже, что универсальная такая машинка - утопия. Но под себя подстроить можно.

catpad.livejournal.com

Я знаю, что она поиском занимается, но не знал, как именно. Очень рад, что сам пришёл почти к тем же выводам. Конечно, идея не разработана: именно вот эти сложные взаимосвязи - это то, что нужно для развития идеи.
А универсальности, конечно, добиться нельзя, это верно.

Поиск - это у них почти побочный продукт. Основное - классификация.
А поиск реализован примерно так: если некая страница "проходит" корневую точку, то она классифицируется, а все ссылки с нее анализируются, учитывая ссылочный текст и содержимое документа. Повторить рекурсивно :-)
Отправной точкой берется google, специализированный портал, юзерская страничка со ссылками и т.п.

А у сложных взаимосвязей есть один минус по сравнению с твоей первоначальной идеей: это не автоматизируется. необходим человек, который скажет, что "пудель" - это подмножество "собака", а не наоборот.
Можно, кстати, подумать над алгоритмом, способным анализировать документы, чтобы прийти к такому выводу. Содержание (table of content): Часть 1 "Собаки", глава первая "Пуделя". Списки, дающие "однородные" элементы и т.п.
Но чем сложнее алгоритм, тем проще будет им манипулировать, по-моему :-) Не в смысле "подгонки под заданный результат", а для создания хаоса, бардака. Что-то в духе нынешних blog-атак на google, только с более смешными результатами.

cema.livejournal.com

Teoma не делает ли что-нибудь подобное?

Почитал про их технологию. Много хвастовства, но не очень понятно, в чём же она заключается.
Может, и похоже, хотя, мне кажется, моя идея больше low-level: на уровне слов.

У меня вообще есть сильнейшее убеждение: чем проще алгоритм, тем он эффективнее. Чем проще теория, тем она "правильнее".
У того же Гугла технология простейшая - её описание умещается на полстраницы. А работает!
Я подозреваю, что мой примитивный алгоритм может сработать, даже учитывая, что слова имеют несколько смыслов. Но ведь мы имеем дело с необъятным количеством информации! Тут уже может сработать статистика.

Помнишь Нильса Бора (?) с "красотой и внутренней непротиворечивостью" как критерием истины?
А по поводу: простота google на том и стоит, что ищет он едва ли не посимвольно. Поэтому, когда ты даешь ему "кот в сапогах" в кавычках, ты не получишь ни "кошачьи сапоги", ни "пирожок-сапожок с котятами" ни т.п.
А когда ты тот же самый запрос даешь в "контекстном" поиске, ты ведь можешь искать как первое, так второе, так и третье. Это _принципиально_ не делается автоматом. На это и нужны персональные настройки, базы концептов и пр.

thedimka.livejournal.com

это не самая новая идея.
гугл и аск дживс имеют похожие алгоритмы и себе
но тут конечно идея дальше и глубже
просто видимо сейчас её трудно воплотить с имеющимися техническими возможностями

Я-то как раз думаю, что ничего сложного тут нет. Тех. возможности давно уже это позволяют, слов-то не так уж и много, да и 4 миллиарда страниц - это ерунда по сути дела.
Просто, мне кажется, никто не думает, что такая идея может эффективно работать.
Это скорее неплохая тема для кандидатской или доктората.

From: (Anonymous)

Кстати, vivisimo.com что-то похожее делает, и с этой машиной гораздо быстрее работать, чем с Гуглем.

S	M	T	W	T	F	S
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

Как нам перегуглить Гугл

Как нам перегуглить Гугл

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

Profile

February 2026

Links

Most Popular Tags

Page Summary

Style Credit

Expand Cut Tags