Pull to refresh

Поисковик Google по датасетам вышел из беты

Reading time 3 min
Views 11K


Для машинного обучения и научных исследований требуется много данных. В помощь разработчикам и исследователям, Наташа Ной с коллегами из исследовательского подразделения Google Research в сентябре 2018 года выпустили специализированную поисковую систему Dataset Search. 23 января 2020 года поисковик вышел из беты, с новыми инструментами для лучшей фильтрации поиска и доступом почти к 25 миллионам наборов данных.

Датасеты публикуют в открытом доступе многие учреждения: университеты, государственные организации и лаборатории. Но зачастую их трудно найти с помощью традиционного поиска. Поисковик Dataset Search обрабатывает теги метаданных в формате Schema, тут наборы данных самой разной тематики: от лыжных травм до популяции пингвинов.
Читать дальше →
Total votes 30: ↑29 and ↓1 +28
Comments 1

Очередной гайд по HTML-элементам, которые можно использовать в каждом проекте

Reading time 6 min
Views 19K
В сети существует множество гайдов, которые описывают назначение HTML-элементов. Но сколько я не проводил собеседований или не проверял код, я вижу одну картину. Разработчики используют ограниченный набор элементов.

Для исправления этой ситуации я взял следующие элементы: header, nav, main, section, article, aside, address, и покажу, как их использовать.
Читать дальше →
Total votes 20: ↑19 and ↓1 +18
Comments 6

Об одной любопытной возможности IPFS

Reading time 5 min
Views 4.3K

В предыдущей заметкe нами была рассмотрена возможность идентификации сущностей (предметов) посредством устойчивых (immutable) понятий и CID. Выглядит это, вроде бы, не плохо, однако пока не совсем ясно, как сие можно использовать.

Читать далее
Total votes 9: ↑9 and ↓0 +9
Comments 1

WHOW — Язык разметки («WHat-WHy-HOW»)

Reading time 3 min
Views 3.4K

Если задаться вопросом, отчего семантические технологии до сих пор широко не шагнули в массы, ответ окажется на поверхности: из-за сложности существующей реализации. Сложно создать уникальный идентификатор предмета или отыскать в словарях идентификатор класса предмета, сложно и описывать предметные свойства - простому человеку не понятны и чужды эти Schema.org, Dublin Core, etc. Надобен бы простой, примитивный даже инструмент - чтобы занимательная семантика стала массовым явлением. И такой инструмент, конечно же, есть - это обычные вопросы естественного языка: что, зачем, как? - и т.д.

Читать далее
Total votes 10: ↑3 and ↓7 -4
Comments 8

Топ 5 Веб трендов 2009 года: №1 Структурированная информация в интернете

Reading time 3 min
Views 745
Tim Berners-Lee в феврале этого года сказал, что интернет становится более информационным и сейчас мы используем интернет наполненный информацией, а не документами и файлами как это было раньше. Организация, которую Tim Berners-Lee возглавляет, W3C поддерживает две важнейшие инициативы, которые помогают сделать интернет более информационным: Semantic Web и недавняя Linked Data.

Так или иначе за последние несколько лет мы видели несколько интересных примеров, как структурировать данные и предоставлять возможность их использования всем желающим. Лучший пример на данный момент это Twitter, API которого в ответе за 90% активности сервиса, благодаря приложениям сторонних разработчиков.

Основной принцип информационного интернета сформулированный Alex Iskold не изменился: «Неструктурированная информация будет структурирована и это откроет путь, для более разумного использования Интернета.
image

Пример №1 OpenCalais

imageНаш первый пример вероятно лучший представитель
Читать дальше →
Total votes 30: ↑22 and ↓8 +14
Comments 19

Семантическое будущее Веба — SemanticFuture.Net

Reading time 1 min
Views 1.3K
Уважаемые читатели, в течение последних трех месяцев мы собирали материалы по семантическим технологиям. В результате мы создали SemanticFuture.Net для анализа применимости семантических технологий и средств, таких как Semantic MediaWiki, Virtuoso, OWL и Sparql, к русскоязычным ресурсам.

На страницах Semantic Future мы будем:
1) собирать актуальную информацию по современным семантическим технологиям и сервисам, по всему тому, что сейчас или в ближайшее время будет оказывать свое положительное влияние на развитие Веб;
2) делать презентацию наших трудов и достижений;
3) организовывать встречи и тематические мероприятия;
4) тестировать семантические программные продукты и подбирать для вас специалистов для внедрения семантик технологий в ваши системы и продукты.
Кто мы?
Мы это Semantic Web User Group (SWUG).
Читать дальше →
Total votes 45: ↑38 and ↓7 +31
Comments 28

Элементы семантической паутины

Reading time 10 min
Views 15K
Сложность структуры современного информационного общества постоянно растёт. В связи с этим, требования к эффективности алгоритмов обработки информации также увеличиваются. В последнее время наиболее популярными направлениями в этой области являются Data Mining (DM), Knowledge Discovery in Databases (KDD) и Machine Learning (ML). Все они предоставляют теоретическую и методологическую базу для изучения, анализа и понимания огромных объёмов данных.
Однако этих методов не достаточно, если сама структура данных будет настолько плохо пригодной для машинного анализа, как исторически сложилось на сегодняшний момент в Internet.
Для решения данной проблемы предпринята глобальная инициатива реорганизации структуры данных Internet в целях преобразования его в Семантическую Паутину предоставляющую возможности по эффективному поиску и анализу данных как человеком так и программным агентам.
В этой статье рассмотрены основные технологии позволяющие реализовать Semantic WEB.

Читать далее..
Total votes 63: ↑57 and ↓6 +51
Comments 31

Семантическая паутина — что мы можем делать уже сейчас

Reading time 4 min
Views 4.7K
Буквально только что в топе проскочила замечательная статья "Элементы семантической паутины". Начал писать на нее ответ, но он получился слишком большим, поэтому выделяю его в отдельный топик.

Итак, большинство комментариев делится на две категории: «Да ну, рядовому юзеру семантическая разметка информации непонятна, недоступна, и соответственно, он не будет ей заниматься» и «Да ладно, все будет хорошо, как-нибудь добредем то этого светлого будущего».

Я считаю, что правы и те, и те, и у нас, у тех, кто считает «семантическую паутину» желанным будущим, есть возможности ускорить его приход.
Если интересно - прошу под кат
Total votes 54: ↑47 and ↓7 +40
Comments 27

Удачное портфолио 2: больше интерактивности с SIMILE Exhibit

Reading time 11 min
Views 2.7K
Решение, предложенное для показа портфолио в предыдущем посте, конечно, подкупает своей простотой, однако его можно сделать гораздо функциональнее, воспользовавшись технологией Exhibit из проекта SIMILE.

Проект SIMILE, разрабатываемый MIT, включает в себя набор приложений, предназначенных для обработки и отображения информации в стиле Semantic Web: несколько фреймворков для построения клиентских интерфейсов, средства анализа и отладки XML-документов и HTTP-запросов, набор конвертеров из различных форматов в RDF и многое другое.
Читать дальше →
Total votes 5: ↑5 and ↓0 +5
Comments 2

FOAF и пример

Reading time 2 min
Views 4.6K
FOAF (англ. Friend of a Friend) — проект по созданию модели агенто-читаемых домашних страниц и социальных сетей. Основатели Либби Миллером и Дэном Брикли. Основанием проекта является спецификация, которая определяет некоторые выражения, используемые в высказываниях (англ. statements) о ком-либо: например, имя, пол и другие характеристики. Это для тех кто не знает, что это такое, но на Хабре про это писали, но без практического примера.

Для примера работы с FOAF страничкой пользователя будем использовать LAMP. Для легкой работой с FOAF можно использовать библиотеку ARC, которая помогает очень быстро и легко манипулировать rdf данными и делать запросы sparql. Также эту библиотеку часто советуют автора книг по Семантическому Вебу за рубежом.

Например, создадим свою страничку для FOAF:
Читать дальше →
Total votes 6: ↑5 and ↓1 +4
Comments 7

RDF Это просто

Reading time 5 min
Views 37K
image
В этой заметке я попытаюсь объяснить на пальцах ключевые моменты и обосновать преимущества модели RDF.
Более 10 лет концепция Semantic Web, частью который является RDF развивалась, была предметом споров и обсуждений, и сегодня ее все активнее поддерживает сообщество в своих приложениях.

Однако для многих все еще совсем не понятно:

  • Зачем все это?
  • Как с этим работать?
  • Что это даст именно мне?


Давайте во всем разберемся
Total votes 24: ↑14 and ↓10 +4
Comments 16

Google Freebase закроется в 2015. Все данные перенесут в Wikidata

Reading time 1 min
Views 5.1K
image
Создатели Freebase, открытой базы знаний, купленной Google, сообщили о том, что базу закроют. Однако, закрыть обещают крайне нежно и аккуратно: данные перенесут в Викиданные, сообщество авторов попробуют интегрировать туда же. В официальном блоге разработчики перечисляют дедлайны и возможные трудности, с которыми придется столкнуться во время миграции. Вместе с тем, сообщение содержит массу хороших новостей, например, обещание развивать API Google Knowledge Graph.

Из-за того, что многие факты в Freebase были взяты непосредственно из Википедии, нельзя просто взять и залить дамп Freebase в Викиданные. Одним из базовых принципов Викиданных является наличие ссылок на авторитетные источники. Создатели Freebase предоставят инструменты, позволяющие проверять данные на наличие ссылок, используя Google Search и даже таинственный Google Knowledge Vault.

30 июня сайт и API Freebase будут удалены. На данный момент, база содержит 46 миллионов объектов и почти три миллиарда фактов.
Читать дальше →
Total votes 13: ↑13 and ↓0 +13
Comments 5

Semantic Web и Linked Data. Исправления и дополнения

Reading time 15 min
Views 5.8K

Хочу представить публике фрагмент вот этой недавно вышедшей книги:

Онтологическое моделирование предприятий: методы и технологии [Текст]: монография / [С. В. Горшков, С. С. Кралин и др.; отв. ред. С. В. Горшков]. — Екатеринбург: Изд-во Уральского ун-та, 2019. — 234 с.: ил., табл.; 20 см. — Авт. указаны на обороте тит. с. — Библиогр. в конце гл. — ISBN 978-5-7996-2580-1: 200 экз.

Обложка и корешок книги


Цель выкладки этого фрагмента на Хабре троякая:


  • Собрать вопросы и замечания, чтобы учесть их при включении этого текста в переработанном виде в другие издания.
  • Внести дополнения, не очень совместимые с форматом печатной монографии: злободневные примечания (ниже они под спойлерами) и гиперссылки; а также внести исправления (ниже они никак не выделены).
  • Многие адепты Semantic Web и Linked Data до сих пор считают, что их круг столь узок в основном потому, что широкой публике все еще по-хорошему не объяснили, что же это такое — Semantic Web и Linked Data. Автор фрагмента, хоть к этому кругу и принадлежит, такого мнения не придерживается, но, тем не менее, считает себя обязанным сделать еще одну попытку.
Глава I. Параграф 5. Semantic Web и Linked Data
Total votes 4: ↑4 and ↓0 +4
Comments 3

Введение в микроразметку в Nuxt.js: как это работает

Level of difficulty Medium
Reading time 9 min
Views 3K

Привет, Хабр! Меня зовут Павел, я JS-разработчик SimbirSoft. За три года работы во фронтенде я убедился, что микроразметка необходима для оптимизации и улучшения UX на сайте, и считаю ее важным инструментом при разработке. В целом микроразметка феномен распространённый. Но что мы знаем об использовании Server-Side Rendering (SSR)? Разберёмся по порядку.

Читать далее
Total votes 2: ↑2 and ↓0 +2
Comments 0

После RSS

Level of difficulty Medium
Reading time 4 min
Views 2.2K

В свободное время я занимаюсь разработкой сервиса "Awakari", идея которого - фильтрация интересных событий из неограниченного числа различных источников. В этой статье я расскажу о способах извлечения публично доступной информации в интернете за пределами RSS-лент и телеграм-каналов.

Читать далее
Total votes 12: ↑12 and ↓0 +12
Comments 4

Semantic BPM. Семантика и синтаксис бизнес-процессов

Level of difficulty Medium
Reading time 26 min
Views 2.2K

Онтологический инжиниринг в области Управления бизнес-процессами (BPM). Семантический BPM (Business Process Management), впрочем, как и семантический ЕА (Enterprise Architecture), – это заимствование концепций (подходов к описанию и онтологизации) \ инструментов Linked Data к указанным направлениям (формализация процессов и архитектур предприятий).

«Красная нить»: когда мы формализуем процессы - мы говорим об одном и том же, но на разных языках (нотациях), поэтому стандартизация Языка семантики, онтологических концептов BPM (EA) – важная, но еще недостаточно популяризированная составляющая развития BPM (следующий этап, ВРМ 3.0). Отделение («мух от котлет») семантики от синтаксиса позволит «рафинировать» понятийный (смысловой) анализ бизнес-процессов и при их аналитике оперировать базовыми (семантическими) концептами (образами). 

В Semantic BPM, как и в Semantic Web (семантическая паутина), смысл представленного процесса \ архитектуры понятен не только человеку, но и машинам и они могут его читать и обрабатывать. Эти смыслы, обычно передаваемые «человек – человек» на языке синтаксиса / графической грамматики через нотации VAD, EPC, BPMN, UML (плюс еще несколько десятков подобных вариантов \ форматов «обертывания», включая Дракон), исходно формализуются на языке семантики (стек Linked Data или аналогичный) и уже потом упаковываются в схемы с конкретной нотацией («пишутся» на языке какой-либо нотации). Для единого понимания смысловой составляющей схем применяется общая ВРМ-онтология, толковый словарь ВРМ. 

Читать далее
Total votes 7: ↑6 and ↓1 +5
Comments 8

Вышло расширение Firefox Tabulator

Reading time 1 min
Views 828
Основное на коде Tabulator от создателя всемирной паутины Тима Бернес Ли.
Работает это все на AJAX. Правда лично у меня при попытке посмотреть FOAF FireBug начал ругаться, что и не мудрено, программка то на альфа тестировании. Но то что я видел на примере (смотри ссылку) мне определено понравилось. Она позволяет работать еще и с микроформатами и показывать гео-расположение на Google Maps.
Total votes 7: ↑4 and ↓3 +1
Comments 7

GRDDL теперь является рекомендацией W3C

Reading time 1 min
Views 939
11 сентября инфраструктура GRDDL приобрела статус «W3C Recommendation».

Это мост между существующими диалектами XML и RDF. Использование GRDDL смещает точку приложения усилий с формирования RDF к созданию алгоритмов преобразования существующих данных в RDF.

Документы могут быть включены в инфраструктуру GRDDL разными путями. В общем случае для XML для этого нужно объявить пространство имён `grddl` и указать в аттрибуте корневого элемента идентификатор ресурса соответствующего преобразования из XML в RDF (например, файла XSLT). Механизм также позволяет указывать преобразования для целых классов XML-документов (имеются в виду классы по профилю или пространству имён).
Total votes 5: ↑5 and ↓0 +5
Comments 2

Информация в 2007 году

Reading time 2 min
Views 557
В конце прошедшего года наметилось снижение интереса к блогам общей направленности и просто интернет-дневникам на фоне сильно возросшего количества этих самых блогов. Открытие различных блог-сервисов и естественная заинтересованность общества делают своё чёрное дело — пользователи начинают плодить свои блоги. Плодить без цели и идеи. У всех есть? И у меня будет!

Стоит ли говорить, что этот процесс снижает качество предоставляемого контента в общем? А во что превращается поиск нужной и, что самое главное, внезапно нужной информации? Да, довольно продолжительное время назад появилось весьма успешное средство сдержать и структурировать этот кипящий хаос общественного сознания — поисковики по тегам. При довольно успешном сотрудничестве блогеров и тег-сервисов всё общественное знание очень гибко было классифицировано по различным категориям. Любому вновь появлявшемуся в интернете сразу присваивалась своя категория. Казалось бы, теперь поиск информации представлял собой сплошной мёд. Но ситуация продержалась недолго.

Теги тегами, а информации становилось всё больше, и общность всей системы начала рушиться, конкретика и определённость поиска информации начали расползаться. Теперь, чтобы найти всю информацию по нужной теме, мало стало провести поиск непосредственно по ней, стало необходимым ещё и отсеять результаты по дополнительным критериям. Стало понятным, что нужно продумывать новые системы поиска и структуризации информации из блогов и информационных ресурсов.

Для отслеживания обновлений в блогах используются разные feed-технологии, призванные донести информацию пользователю: Atom, RSS, RDF. Работают они исправно, у каждой есть плюсы и минусы, но они прозрачны для пользователя и он обычно не задумывается о выборе того или иного формата. Проблемы начинаются, когда в feed-листе пользователя поселяется больше 50 или 100 различных лент. Если агрегатор новостей — программа, то это забивание канала и трата трафика. Несколько легче обстоят дела с онлайн-агрегаторами, но всевозрастающее неудобство оперирования лентами остаётся. В этом году появятся сервисы (если уже не появились), которые позволят аккумулировать различные ленты в единые тематические потоки, а также проводить с этими потоками различные операции.

Чтобы сохранить здравую целостность интернета, необходимы, наконец, решительные шаги по направлению к семантическому вебу. Напомню, основной идеей семантического веба является создание такой структуры информации, которая будет понятна компьютерам. Одним из средств достижения этой цели становятся микроформаты (mf). Повсеместному внедрению mf мешает недопонимание обществом их ценности. Исправят это допущение новые расширенные mf и сервисы, оперирующие ими. После этого сразу начнётся повальное внедрение mf в сервисы и ПО.

Вот только немногие вещи, которые, как мне кажется, мы увидим в новом 2007 году.
Total votes 19: ↑15 and ↓4 +11
Comments 34

Что ж такое этот загадочный третий веб?

Reading time 6 min
Views 4.1K
Решил написать небольшую разъяснительную статью на эту тему.

Немного воды для начала


Совсем недавно стали появляться новости о том, то IBM и BBC принялись за разработку Web 3.0. Затем поступила информация, что между Европейским Союзом и США намечается конкуренция за право первенства в технологиях Web 3.0, или, как еще называют, Семантической Сети.

Вообщем-то Web3.0 довольно условное название, ибо не все признают и веб 2.0, потому далее буду называть это нечто семантической сетью.

Что же такое в действительности Семантический Веб и достоин ли он прийти на смену существующему интернету – основные вопросы пользователей и сетевых инвесторов. Об этом и пойдет речь.

Читать дальше →
Total votes 56: ↑46 and ↓10 +36
Comments 41