Pull to refresh

RSS отлично себя чувствует

Level of difficultyMedium
Reading time6 min
Views12K


RSS и Atom — простые и понятные форматы для публикации контента. Кто-то считает, что золотое время RSS осталось в прошлом, но это не так. На самом деле этап хайпа остался в прошлом, а сейчас синдикация вышла на плато продуктивного использования в своих нишах. Например, подкасты (MP3 по RSS) живут и процветают.

Но корпорациям использовать RSS не выгодно. Например, компания Google удалила RSS откуда могла и позакрывала сервисы. Но это не помогло. RSS отлично себя чувствует. Хабр и многие другие сайты получают существенную часть трафика со своих фидов.
Читать дальше →
Total votes 79: ↑92 and ↓-13+105
Comments78

Semantic MediaWiki

Reading time6 min
Views42K

Semantic MediaWiki — это расширение, ради которого стоит ставить MediaWiki: оно помогает бороться с бардаком и хаосом, который рано или поздно воцаряется в любой вики-системе.

  • Оно позволяет поддерживать согласованность данных на вики.
  • С его помощью можно обращаться с вики как с базой данных.
  • С его помощью можно генерировать красивые графики, диаграммы и графы на основе вики-данных.
  • Оно позволяет пользователям возможность вводить данные с помощью форм, а не вики-разметки, понижая тем самым порог вхождения для пользователей.

SMW позволяет использовать вики как составную часть системы управления знаниями, с его помощью можно создавать коммерческие системы, которые сочетают простоту вики, четкость коллаборативных баз данных, и лучшее из мира Semantic Web. В общем, это вещь, более чем достойная пристального внимания и подробного обзора.
Читать дальше →
Total votes 70: ↑67 and ↓3+64
Comments26

ConceptNet 5 — настоящий ИИ не за горами

Reading time3 min
Views33K
ConceptNet

ConceptNet — семантическая нейро-сеть, содержащая много вещей, которые компьютеры должны знать о мире, особенно при понимании текста написанного людьми.
Сеть построена из узлов, представляющих определенные слои и концепции, в виде слов или коротких фраз естественного языка и знаков отношений между ними. Это могут быть любые вещи, которые компьютерам нужно знать, чтобы искать информацию лучше, отвечать на вопросы и понимать цели людей. Если вы хотите построить свой собственный Watson вместе с ConceptNet, то это должно быть отличной целью для начала!
Подробности об ConceptNet под катом
Total votes 55: ↑50 and ↓5+45
Comments46

Директор Google сомневается в Семантической сети

Reading time2 min
Views883
Тим Бернерс-Ли считается одним из отцов-основателей Всемирной паутины и является действующим директором Консорциума W3C. Он выступил со вступительным словом о Семантической сети во вторник на открытии XXI Национальной конференции по искусственному интеллекту.

Тим Бернерс-Ли сказал, что следующим этапом эволюции Всемирной сети станет создание среды, в которой все данные будут доступны для обнаружения и анализа программами искусственного интеллекта. Семантическая сеть — это интернет, где вся информация специально отформатирована не только для удобства человека, но также для удобства машин, которые тоже будут с ней активно работать. Благодаря этому появятся новые возможности по обработке информации и новые приложения.

Как обычно, директор W3C призвал разработчиков более активно использовать семантические языки, вдобавок к HTML. Он обратил внимание на важность использования идентификаторов URI (Uniform Resource Identifiers) и стандарта RDF (Resource Description Framework) для идентификации информации. Если создание Семантической сети пойдет в намеченном направлении, то скоро интернет превратится в интерактивную среду для совместного творчества и работы, как и было задумано изначально.

Сразу после окончания выступления было предусмотрено время для вопросов из зала, и первым к микрофону подошел директор Google по поиску и член Американской ассоциации по искусственному интеллекту Питер Норвиг (Peter Norvig). Он использовал возможность публичного выступления на полную катушку и даже поспорил с оратором, сообщают журналисты, ставшие свидетелями спора.

Питер Норвиг выступил от имени компании Google и заявил, что на пути к Семантической сети стоит несколько препятствий. Главное из них — некомпетентность веб-мастеров: «Мы имеем дело с миллионами веб-мастеров, которые не могут настроить веб-сервер и не способны написать HTML-код». Этим горе-специалистам будет очень тяжело перейти к стандартам Семантической сети. Другие проблемы — конкуренция коммерческих провайдеров, которые не желают принимать единые стандарты, и жульничество, которое является естественной частью человеческой натуры. «Каждый день мы имеем дело с людьми, которые пытаются поднять свой сайт в результатах поиска и продать виагру кому-нибудь, кто ее совсем не ищет», — сказал Питер Норвиг.

Тим Бернерс-Ли согласился, что жульничество в интернете — это проблема, но он объяснил, что Семантическая сеть подразумевает главным образом идентификацию источника информации, а не описание контента. Вообще, компания Google должна быть как никто другой заинтересована во внедрении стандартов Семантической сети.
Rating0
Comments8

Тим Бернерс-Ли не понимает, что такое Веб 2.0

Reading time2 min
Views770
Отец-основатель Всемирной сети и директор консорциума W3C сэр Тим Бернерс-Ли дал интервью сайту разработчиков IBM developerWorks, в котором он рассуждает о развитии интернета.
Читать дальше →
Rating0
Comments15

Изучаем граф-ориентированную СУБД Neo4j на примере лексической базы Wordnet

Reading time8 min
Views23K
СУБД Neo4j — это NoSQL база данных, ориентированная на хранение графов. Изюминкой продукта является декларативный язык запросов Cypher.

Cypher позаимствовал ключевые слова типа WHERE, ORDER BY из SQL; синтаксис из таких разных языков как Python, Haskell, SPARQL; и в результате появился язык, позволяющий делать запросы к графам в визуальной форме наподобие ASCII art. Например, заголовок данной статьи я бы представил в виде графа (Neo4j) — [изучаем] -> (Wordnet). И это почти готовый запрос к базе данных!


Читать дальше →
Total votes 9: ↑8 and ↓1+7
Comments0

Разработка сильного ИИ, путем копирования структур и процессов психики человека

Reading time9 min
Views16K


В данной обзорной статье я рассказываю о своем опыте разработки искусственного интеллекта (воссоздание психики человека), какие результаты достигнуты (базовые когнитивные процессы человека, понимает текст и может задавать уточняющие вопросы), и в каких решениях применима технология на данном этапе развития (ИИ уже готов заменить живых онлайн консультантов и может быть виртуальным ассистентом для программистов).
Читать дальше →
Total votes 14: ↑13 and ↓1+12
Comments110

Решение проблемы понимания контекста искусственным интеллектом. Часть 1

Reading time5 min
Views12K


Понимание естественного языка является AI полной задачей. Одним из аспектов такого понимания является понимание контекста. В данной статье я объясню, какие виды контекста выделяет наша психика, как она работает с одним из видов контекста, и как мы этот процесс воссоздаем в нашей технологии искусственного интеллекта.

The trophy doesn't fit into the brown suitcase because it's too [small/large].
What is too [small/large]?
Answers:The suitcase/the trophy.
The Winograd Schema Challenge

В предыдущей статье описан наш подход к разработке ИИ и то, что нами уже сделано на настоящий момент. Напомню, что мы создаем ИИ путем прямого копирования структур и процессов психики человека.
Читать дальше →
Total votes 16: ↑16 and ↓0+16
Comments109

Radar Networks выпускает социальный сервис на Семантической сети

Reading time2 min
Views630
Журнал Businessweek опубликовал статью об одном из стартапов, разрабатывающем системы на базе технологий Семантической сети. Речь идёт о калифорнийском стартапе Radar Networks.

Этим летом Radar Networks планирует начать закрытое бета-тестирование своей системы, а открытая бета появится осенью. По мнению специалистов, это событие должно привлечь внимание техноэлиты, потому что таких разработок в интернете ещё нет. Компания не раскрывает всех деталей, но известно, что веб-сервис будет использовать технологии Семантической сети для извлечения и классификации информации с веб-сайтов, блогов и социальных сервисов вроде Youtube. Встроенный движок искусственного интеллекта будет постоянно изучать поведение пользователей и подстраивать систему под их нужды, то есть самообучаться.
Читать дальше →
Total votes 8: ↑7 and ↓1+6
Comments1

RDF for dummies

Reading time4 min
Views13K
С этой статьи я начинаю совй цикл постов «для новичков» где максимально популярно растолкую понятия веб 3.0. В последствии все статьи перекочуют в вики и будут «изданы» мною в виде PDF книги.

Начнем со средств, и сегодня у нас основа основ — RDF.
Читать дальше →
Total votes 42: ↑37 and ↓5+32
Comments71

Тим Бернерс-Ли опять рассказывает о Семантической сети

Reading time1 min
Views544
Изобретатель веба и директор W3C, как известно, уже много лет работает над созданием Семантической сети. И хотя разработки пока далеки от завершения, Тим Бернерс-Ли рисует потрясающие картины будущего, в котором компьютеры смогут общаться друг с другом и с людьми на одном языке.

Очередное интервью патриарха опубликовано в журнале BusinessWeek. Там вышел целый номер, посвящённый будущему интернета и Семантической сети, в том числе и подкаст об этом (mp3).

Тим Бернерс-Ли рассказывает, что цель их работы в консорциуме W3C — сделать Сеть гораздо умнее, чем она есть сейчас. Он также выразил сожаление, что в своё время выбрал для новой технологии название «Семантическая сеть» (Semantic Web), потому что более точным и простым стал бы термин «Сеть данных» (Data Web). Это уже не первый раз, когда Тим обжигается на терминах. Многие до сих пор не могут простить ему непроизносимой аббревиатуры «даблвэдаблвэдаблвэ».
Total votes 31: ↑29 and ↓2+27
Comments6

Взгляд в будущее

Reading time1 min
Views696
Представлю блог, в котором я в популярной форме рассказываю о том интернете, который нас ждет. Главными темами являются Семантическая сеть, её проблемы, возможные области применения, работающие примеры и конкретные идеи использования возможных технологий.
Я публикую обзоры зарубежной блогосферы на тему веб 3.0. В частности создателей технологии, таких как Джон Бреслин, Данни Эйрс и других. Осуществлю адаптации спецификации для большого круга читателей, пишу о семантизации популярной CMS — Wordpress.

Буду рад конструктивной критике. И прошу не придираться к слову «веб 3.0», по поводу того, что я понимаю под этим я уже сказал.
Total votes 31: ↑18 and ↓13+5
Comments12

Будущее Веб 2.0

Reading time4 min
Views592
Я был в Сингапуре на прошлой неделе с презентацией о Веб 2.0, а также помогал тамошнему правительственному агентству Infocomm Development Agency выработать стратегию развития сингапурских стартапов. Меня часто спрашивали о будущем Веб 2.0 — пузырь ли это, и когда на его место придет что-то другое? К счастью, в последнее время мы в O'Reilly Radar достаточно хорошо проработали эту тему, так что я смог ясно изложить перед ними картину будущего. Она выглядит примерно так…
Читать дальше →
Total votes 64: ↑54 and ↓10+44
Comments22

Чем так интересны семантические сети

Reading time3 min
Views1.9K
И их проблемы.

Два дня у меня чесались пальцы, очень хотелось выдать пост, на тему, которая всплыла на хабре при помощи yzh44yzh. Что делает yzh44 в своем проекте? Он реализует специфический способ навигации при помощи такого концепта как сеть (граф). Пока его сеть с семантической имеет не особо много общего. Самое главное, чего пока не хватает – это квалифицированных соединений, без которых сеть не может называться семантической. Именно квалифицированные соединения придают сети значение, и делают семантическую сеть (далее СС) как конструкцию интересной.

Читать дальше →
Total votes 9: ↑6 and ↓3+3
Comments14

Простой RDF-репозиторий на PHP и MySQL для начинающих

Reading time6 min
Views5.7K
Проблема: сложность практического освоения технологий семантической сети начинающими.

Предлагаю совместными усилиями выработать конкретное решение, позволяющее запустить у себя маленькое хранилище и научиться делать запросы.

Задача: разобраться в создании, хранении и обращении к словарю, в использовании языка запросов на начальном уровне на практике.

Если вы примете участие в обсуждении и будете подсказывать лучшие решения, то я буду обновлять этот пост по мере совместного нахождения новой информации. Надеюсь, в итоге получится небольшой урок для начинающих.
Читать дальше →
Total votes 9: ↑9 and ↓0+9
Comments20

Семантическая паутина — что мы можем делать уже сейчас

Reading time4 min
Views4.7K
Буквально только что в топе проскочила замечательная статья "Элементы семантической паутины". Начал писать на нее ответ, но он получился слишком большим, поэтому выделяю его в отдельный топик.

Итак, большинство комментариев делится на две категории: «Да ну, рядовому юзеру семантическая разметка информации непонятна, недоступна, и соответственно, он не будет ей заниматься» и «Да ладно, все будет хорошо, как-нибудь добредем то этого светлого будущего».

Я считаю, что правы и те, и те, и у нас, у тех, кто считает «семантическую паутину» желанным будущим, есть возможности ускорить его приход.
Если интересно - прошу под кат
Total votes 54: ↑47 and ↓7+40
Comments27

Результаты и перспективы небольшого анализа русских текстов

Reading time1 min
Views1.1K
Представляю читателям статистику, собранную во время создания простейшего робота-генератора русских фраз

Распределение слов


Приведу сначала некоторые цифры.
На 12.5Мб русского текста (в основном классическая литература разных авторов), на 142114 разных слов в нём, чаще всего встречается союз «и» — 83575 раз (слова берутся во всех словоформах). И это больше, чем половина!
Вторым по частоте встречаемости оказывается предлог «в» — 52124 раз, на третьем месте — частица «не»: 36268 раз.
Глагол «сказал» (ед.ч., 3л.) встречается 6566 раз и находится на 28-м месте.
А вот слово «да» находится на 36-м месте и встречается 5039 раз, тогда как «нет» — встречается 2948 раз и находится на 53 месте.
Остальные слова выбраны достаточно случайно, исходя из предпочтений автора.



Частотность слов на корпусе текстов изучалась со времён открытия закона Ципфа для английского языка (т.е., уже более 60-ти лет), публиковались различные словари и обзоры по этой теме, но мы посмотрим на русскую речь немного внимательнее и нагляднее.
Подробные графики и примеры с выводами
Total votes 18: ↑12 and ↓6+6
Comments21

Google приобрёл компанию Metaweb и базу знаний Freebase

Reading time1 min
Views1.9K
Поисковый стартап Metaweb, который разрабатывал технологии семантической разметки Веба и поддерживал открытую базу знаний Freebase (12 млн людей, мест и объектов, связанных друг с другом), на прошлой неделе куплен компанией Google. Похоже, поисковый гигант наконец-то созрел для реализации в жизнь футуристических технологий Семантической сети, которые с 2006 года обсуждались на Хабре.

Как известно, Семантическая сеть подразумевает внедрение нового формата разметки веб-документов, удобных для машинной обработки. Таким образом, любой текст может восприниматься машиной как набор фактов и иерархических понятий, а весь интернет выйдет на уровень Веб 3.0, превратившись в единую распределённую и постоянно обновляющуюся базу данных.
Читать дальше →
Total votes 74: ↑67 and ↓7+60
Comments24

Организация и оптимизация информационного пространства пользователя

Reading time12 min
Views5.8K
Ежедневно, выполняя свои должностные и прочие функции, современный человек сталкивается с задачей анализа большого объема информации и поиска необходимых ему данных. Со временем происходит накопление пользовательских данных в виде документов. Эти документы в сумме составляют некоторое информационное пространство пользователя. С каждым новым документом все острее встает вопрос организации этого пространства: с течением времени из пары – тройки папок с иерархически – расположенными в них файлами получается огромная кипа документов, которую достаточно сложно привести к иерархической форме с линейными связями. Перед нами встает задача конкретизации, категоризации и визуализации информационного пространства пользователя.
Читать дальше →
Total votes 9: ↑7 and ↓2+5
Comments7

Text Mining Framework (Java)

Reading time5 min
Views31K
Что это и для кого (вместо вступления)

В данной статье я бы хотел рассказать о небольших результатах своей научной деятельности в сфере Text Mining. Этими самыми «результатами» стал небольшой FrameWork, который, пока еще, и до либы то не очень дотягивает, но мы растем =). Данный проект — реализация на практике некоторых, разработанных мною, теоретических положений. Как следствие этого я представляю возможности, которыми он может потенциально обладать в конце внедрения всех идей. Названо сее творение: «Text Mining FrameWork»(TextMF). Давайте в кратце рассмотрим, что именно будет позволять TextMF в своей первой финальной версии и что работает уже сейчас.
Читать дальше →
Total votes 42: ↑37 and ↓5+32
Comments41
1