Всякие бесполезные факты о том как устроены открытые данные в мире:
1. Больше всего данных опубликовано на порталах на базе CKAN'а, каталога открытых данных с открытым кодом, несмотря на то что в мире много разного открытого ПО для публикации данных, CKAN остается лидером по использованию на национальном и международном уровнях. Главным образом из-за богатых возможностей расширения через плагины.
2. Крупнейшим коммерческим вендором SaaS порталов открытых данных является ArcGIS с их продуктом ArcGIS Hub. В мире несколько тысяч их порталов с открытыми данными, преимущественно с акцентом на геоданные, но ими не ограничивается. Точную цифру я не называю потому что хотя они и есть в реестре Dateno, но не все, их очень много.
3. Порталов данных публикующих связанные данные (Linked Data) очень мало и почти все они сосредоточены в Европе, более всего их в Северной Европе (Нидерланды, Швеция, Германия)
4. Почти все наборы данных для ИИ публикуются на Hugging Face и паре китайских сервисов. Не все, но явное большинство. Это то что можно назвать естественной монополией из-за удобных сервисов Hugging Face
5. Россия одна из немногих стран где открытые данные публикуются по собственным, весьма экзотичным стандартам, не имеющим вообще никакого отношения к мировым практикам - ни лучшим, ни худшим, вообще никаким
6. Очень много открытых данных публикуется в Таиланде и в Индонезии, там есть явно оформленные государственные инициативы и сотни тысяч опубликованных датасетов. Большая их часть - это мусор и Open by default, но факт остается фактом.
7. Почти во всех развитых странах акцент открытости данных идет на геоданные и на научные данные, а иные данные выделены в сфокусированные инициативы, часто международные.
8. У всех университетов в которых наука реально существует есть свои порталы раскрытия данных как часть порталов раскрытия научных результатов или как отдельные явления.
9. Если собрать все данные со всех порталов открытых данных государств в мире - это будет лишь доля процентов от крупнейших открытых репозиториев геномных данных и данных физических экспериментов и данных мониторинга поверхности Земли
#opendata #facts
1. Больше всего данных опубликовано на порталах на базе CKAN'а, каталога открытых данных с открытым кодом, несмотря на то что в мире много разного открытого ПО для публикации данных, CKAN остается лидером по использованию на национальном и международном уровнях. Главным образом из-за богатых возможностей расширения через плагины.
2. Крупнейшим коммерческим вендором SaaS порталов открытых данных является ArcGIS с их продуктом ArcGIS Hub. В мире несколько тысяч их порталов с открытыми данными, преимущественно с акцентом на геоданные, но ими не ограничивается. Точную цифру я не называю потому что хотя они и есть в реестре Dateno, но не все, их очень много.
3. Порталов данных публикующих связанные данные (Linked Data) очень мало и почти все они сосредоточены в Европе, более всего их в Северной Европе (Нидерланды, Швеция, Германия)
4. Почти все наборы данных для ИИ публикуются на Hugging Face и паре китайских сервисов. Не все, но явное большинство. Это то что можно назвать естественной монополией из-за удобных сервисов Hugging Face
5. Россия одна из немногих стран где открытые данные публикуются по собственным, весьма экзотичным стандартам, не имеющим вообще никакого отношения к мировым практикам - ни лучшим, ни худшим, вообще никаким
6. Очень много открытых данных публикуется в Таиланде и в Индонезии, там есть явно оформленные государственные инициативы и сотни тысяч опубликованных датасетов. Большая их часть - это мусор и Open by default, но факт остается фактом.
7. Почти во всех развитых странах акцент открытости данных идет на геоданные и на научные данные, а иные данные выделены в сфокусированные инициативы, часто международные.
8. У всех университетов в которых наука реально существует есть свои порталы раскрытия данных как часть порталов раскрытия научных результатов или как отдельные явления.
9. Если собрать все данные со всех порталов открытых данных государств в мире - это будет лишь доля процентов от крупнейших открытых репозиториев геномных данных и данных физических экспериментов и данных мониторинга поверхности Земли
#opendata #facts
✍6❤🔥1
Немного отвлекаясь от темы данных, про замедление Telegram в РФ сухо и тезисно.
Часть первая
Про Telegram
1. Telegram в России достиг высокого уровня проникновения в жёсткой конкурентной борьбе с другими мессенжерами благодаря множеству качественных параметров которые так просто не воспроизвести по причине создания эффективной экосистемы и высоко заданной планке скорости работы и прозрачности (открытый код, публичные аудиты шифрования и тд.)
2. Учитывая массовость его проникновения в массовую аудиторию и активное проникновение во все сферы жизни от частной переписки до использования бизнесом и органами власти его "замедление" это глобальный болезненный процесс для личных коммуникаций, бизнеса и организационных процессов для десятков миллионов людей.
3. Фактически владелец(-ы) Telegram'а находятся в ситуации ультиматума потерять российский рынок или мировой. Как бы ни была болезнена для них потеря российского рынка она более вероятна чем потеря существенной части мирового. А потери неизбежны при любом исходе текущей ситуации с "замеделением".
4. При этом полной потери российского рынка у Telegram не произойдет поскольку для многих Telegram не только стал привычной, но и срабатывает накопительный эффект. Огромные архивы сообщений, знаний, документов и иных материалов находятся именно в экосистеме Telegram'а и скорее многие из тех кто ещё не озаботился наличием VPN сервисов сделают это в течение короткого времени.
5. С учетом этого, скорее всего, Telegram потеряет не всю российскую аудиторию, а только наименее образованную, технически неграмотную и замкнутую только на внутрироссийские коммуникации.
Про мессенжер MAX
4. Мессенжер MAX которые де-факто предлагается политическими властями ему на замену был бы неплох обладай он хотя бы частью качественных характеристик Telegram'а, но ключевые его характеристики в нём не могут быть реализованы скорее по политическим чем по техническим причинам. Команда MAX'а не может открыть его код, не может обеспечить полную приватность переписки, не может гарантировать отсутствие доступа к данным переписки для органов власти.
5. Государственное продвижение MAX'а создало очень сильный обратный эффект и резкое неприятие пользователями как и любой жёстко навязываемый сервис. Декларируемые большие цифры охвата аудитории: а) Невозможно перепроверить. б) Ничего не говорят о реальном использовании, а не о полупринудительной регистрации в сервисе бюджетников и прочих слабозащищенных давлению лиц.
6. Попытки продвижения MAX'а как инструмента взаимодействия с гос-вом дезавуируют длительные усилия по развития экосистемы Госуслуг и других полностью государственных мобильных приложений и сервисов. Зачем получать сервисы через MAX если в России столь сильны позиции в fintech'е включая госбанки, если так хорошо было сделано приложение Госуслуг?
7. Можно констатировать что продвижение MAX'а через его потребительские качества провалилось, а насильственное продвижение вызывает лишь усиление сопротивления его использованию.
#thoughts #telegram #MAX
Часть первая
Про Telegram
1. Telegram в России достиг высокого уровня проникновения в жёсткой конкурентной борьбе с другими мессенжерами благодаря множеству качественных параметров которые так просто не воспроизвести по причине создания эффективной экосистемы и высоко заданной планке скорости работы и прозрачности (открытый код, публичные аудиты шифрования и тд.)
2. Учитывая массовость его проникновения в массовую аудиторию и активное проникновение во все сферы жизни от частной переписки до использования бизнесом и органами власти его "замедление" это глобальный болезненный процесс для личных коммуникаций, бизнеса и организационных процессов для десятков миллионов людей.
3. Фактически владелец(-ы) Telegram'а находятся в ситуации ультиматума потерять российский рынок или мировой. Как бы ни была болезнена для них потеря российского рынка она более вероятна чем потеря существенной части мирового. А потери неизбежны при любом исходе текущей ситуации с "замеделением".
4. При этом полной потери российского рынка у Telegram не произойдет поскольку для многих Telegram не только стал привычной, но и срабатывает накопительный эффект. Огромные архивы сообщений, знаний, документов и иных материалов находятся именно в экосистеме Telegram'а и скорее многие из тех кто ещё не озаботился наличием VPN сервисов сделают это в течение короткого времени.
5. С учетом этого, скорее всего, Telegram потеряет не всю российскую аудиторию, а только наименее образованную, технически неграмотную и замкнутую только на внутрироссийские коммуникации.
Про мессенжер MAX
4. Мессенжер MAX которые де-факто предлагается политическими властями ему на замену был бы неплох обладай он хотя бы частью качественных характеристик Telegram'а, но ключевые его характеристики в нём не могут быть реализованы скорее по политическим чем по техническим причинам. Команда MAX'а не может открыть его код, не может обеспечить полную приватность переписки, не может гарантировать отсутствие доступа к данным переписки для органов власти.
5. Государственное продвижение MAX'а создало очень сильный обратный эффект и резкое неприятие пользователями как и любой жёстко навязываемый сервис. Декларируемые большие цифры охвата аудитории: а) Невозможно перепроверить. б) Ничего не говорят о реальном использовании, а не о полупринудительной регистрации в сервисе бюджетников и прочих слабозащищенных давлению лиц.
6. Попытки продвижения MAX'а как инструмента взаимодействия с гос-вом дезавуируют длительные усилия по развития экосистемы Госуслуг и других полностью государственных мобильных приложений и сервисов. Зачем получать сервисы через MAX если в России столь сильны позиции в fintech'е включая госбанки, если так хорошо было сделано приложение Госуслуг?
7. Можно констатировать что продвижение MAX'а через его потребительские качества провалилось, а насильственное продвижение вызывает лишь усиление сопротивления его использованию.
#thoughts #telegram #MAX
👍18💯12🔥3❤2✍2
Часть вторая
А можно ли было по другому?
8. Предположим что потребность в национальном мессенжере реальна, благо такие есть в некоторых странах, а в других странах правительства также поднимают этот вопрос. Неужели нельзя было бы решать эту задачу иначе? Были ли и есть ли другие варианты? Они точно были, но уже маловероятны из-за того что государственная машина в РФ умеет останавливаться, но не умеет идти назад (я такого не наблюдал).
9. Например, можно было выделить порядка 10 млрд рублей и раздать их субсидиями тем кто мог бы создавать нац. мессенжеры при заданных Пр-вом условиях. Большие субсидии российскому бигтеху, поменьше - средним ИТ компаниям и небольшие малым командам и энтузиастам. 10 млрд рублей сумма условная, но думаю что идея понятная. Появился бы Авито Мессенжер, WB мессенжер, Сбер Мессенжер да и тот же Яндекс мог бы вернуться к созданию своего мессенжера (или не мог бы если бы не захотел). Создание внутренней конкуренции - это хорошая идея, у многие крупных российских цифровых сервисов есть достаточная опорная пользовательская база чтобы попытаться поконкурировать. Особенно если кроме выделенной субсидии на разработку выделить ещё и субсидии на поддержку привязанные к количеству зарегистрированных и активных пользователей.
10. Другая альтернатива могла бы быть в запуске полностью государственного мессенжера. Как ни парадоксально, но доверие к гос-ву по умолчанию в РФ высокое и Госуслуги.Мессенжер пользовался бы как минимум внутрироссийской популярностью. Репутационно это выглядело бы лучше чем продвижение мессенжера компании являющейся дочерним обществом ВК. Да, у Госмессенжера были бы свои минусы, но меньше чем у MAX сейчас.
11. Всё это с оговорками про наличие такой целесообразности, а в ней прямо скажем, есть существенные сомнения. Усиление государственного контроля проходит куда безболезненнее в ситуации его невидимости, а тут, наоборот, демонстрационное насилие. Даже с государственнической позиции это плохой путь, а уж с гражданской так и вовсе негодный.
На сегодня у меня тезисы закончились. Надеюсь буду возвращаться к этой теме пореже, а про данные буду писать почаще.
#thoughts #telegram #MAX
А можно ли было по другому?
8. Предположим что потребность в национальном мессенжере реальна, благо такие есть в некоторых странах, а в других странах правительства также поднимают этот вопрос. Неужели нельзя было бы решать эту задачу иначе? Были ли и есть ли другие варианты? Они точно были, но уже маловероятны из-за того что государственная машина в РФ умеет останавливаться, но не умеет идти назад (я такого не наблюдал).
9. Например, можно было выделить порядка 10 млрд рублей и раздать их субсидиями тем кто мог бы создавать нац. мессенжеры при заданных Пр-вом условиях. Большие субсидии российскому бигтеху, поменьше - средним ИТ компаниям и небольшие малым командам и энтузиастам. 10 млрд рублей сумма условная, но думаю что идея понятная. Появился бы Авито Мессенжер, WB мессенжер, Сбер Мессенжер да и тот же Яндекс мог бы вернуться к созданию своего мессенжера (или не мог бы если бы не захотел). Создание внутренней конкуренции - это хорошая идея, у многие крупных российских цифровых сервисов есть достаточная опорная пользовательская база чтобы попытаться поконкурировать. Особенно если кроме выделенной субсидии на разработку выделить ещё и субсидии на поддержку привязанные к количеству зарегистрированных и активных пользователей.
10. Другая альтернатива могла бы быть в запуске полностью государственного мессенжера. Как ни парадоксально, но доверие к гос-ву по умолчанию в РФ высокое и Госуслуги.Мессенжер пользовался бы как минимум внутрироссийской популярностью. Репутационно это выглядело бы лучше чем продвижение мессенжера компании являющейся дочерним обществом ВК. Да, у Госмессенжера были бы свои минусы, но меньше чем у MAX сейчас.
11. Всё это с оговорками про наличие такой целесообразности, а в ней прямо скажем, есть существенные сомнения. Усиление государственного контроля проходит куда безболезненнее в ситуации его невидимости, а тут, наоборот, демонстрационное насилие. Даже с государственнической позиции это плохой путь, а уж с гражданской так и вовсе негодный.
На сегодня у меня тезисы закончились. Надеюсь буду возвращаться к этой теме пореже, а про данные буду писать почаще.
#thoughts #telegram #MAX
👍25🔥8💯6❤2
Подборка полезных ссылок про данные, технологии и не только:
- gogcli инструментарий командной строки для большей части популярных сервисов Google: GMail, Calendar, Classroom, Drive, Docs. Незаменимо для всех кто любит работать в командной строке и, скорее всего, удобно пристыковывается к личному локальному ИИ агенту.
- qmd еще один удобный инструмент для командной строки, Query Markup Document, поисковик по локальным файлам .md с использованием LLM. Опять же для фанатов командной строки
#commandline #tools #opensource
- gogcli инструментарий командной строки для большей части популярных сервисов Google: GMail, Calendar, Classroom, Drive, Docs. Незаменимо для всех кто любит работать в командной строке и, скорее всего, удобно пристыковывается к личному локальному ИИ агенту.
- qmd еще один удобный инструмент для командной строки, Query Markup Document, поисковик по локальным файлам .md с использованием LLM. Опять же для фанатов командной строки
#commandline #tools #opensource
✍4
Кстати, в продуктах AI Deep research не могу не отметить китайский Kimi от Moonshot AI. Есть некоторое количество стран по которым лично мне довольно сложно собирать аналитику, в первую очередь это восточная и юго-восточная Азия. К примеру, для меня давно была загадка о том как устроены геопространственные сервисы и данные в Китае и Японии. Из всех сервисов пока только Kimi выдал наиболее глубокие и продуманные отчеты со ссылками на порталы, вендоров, госполитику и тд. По Японии, например, я совсем не знал что там CKAN (движок порталов открытых данных) рекомендован в технологическом стеке правительства и применяется официально для геопространственной инфраструктуры страны как хранилище геоданных (через специальные расширения движка).
По Китаю отдельно много интересного. Конечно, и Kimi, и остальные сервисы покрывают лишь общедоступную часть спектра аналитики, но я вот отдаю себе отчет что реши я такой отчет заказать или если бы мне его кто-то заказывал, то стоимость его была бы на 2-3 порядка выше чем сделать с помощью ИИ агента.
#analytics #ai #china #japan
По Китаю отдельно много интересного. Конечно, и Kimi, и остальные сервисы покрывают лишь общедоступную часть спектра аналитики, но я вот отдаю себе отчет что реши я такой отчет заказать или если бы мне его кто-то заказывал, то стоимость его была бы на 2-3 порядка выше чем сделать с помощью ИИ агента.
#analytics #ai #china #japan
1👍10
В продолжение рассуждений про Kimo, дополню что лично моя коммуникация с большей части ИИ ассистентов для кодирования свелась к тому что до стадии написания кода, нужна обязательная стадия исследования и это исследование сильно помогает в дальнейшей разработке да и в принятии решения о дальнейшей разработки. Чем менее комплексный проект тем легче, но и для больших задач тоже.
Фактически до реализации того или иного компонента, продукта, программной библиотеки его видение загружаешь в несколько Deep Research продуктов и изучаешь потом их отчеты чтобы понять насколько предполагаемые решения реалистичны.
При этом ни один из Deep Research ассистентов не дает полной картины, а чаще всего их неполнота от неполноты описания того что ты хочешь спроектировать. И до стадии анализа от ИИ можно ещё ввести стадию критической оценки. Это когда у тебя есть предварительное видение результата и способа его достижения и это видение ты грузишь в ИИ ассистента с запросом на множество критических вопросов, поиск несоответствий, неполноты и противоречий.
Всё это из жизненной практики когда ты о чем то думаешь реализация чего будет стоить существенных денег, времени и иных ресурсов то хорошо когда есть кто-то не вовлеченный в процесс, достаточно нейтральный и критичный чтобы выдать критический взгляд.
В разработке ИИ ассистентами сейчас для планирования и проектирования применяются спецификации вроде OpenSpec или прямо заложенный в интерфейс режим планирования. Но это то что можно назвать тактическим планированием, стратегическое планирование в том что документ с результатами проектирования с помощью Deep Research загружается и кодирующего ИИ агента и уже он разбивает его на множество OpenSpec спецификаций.
Я какие-то глубоко рабочие примеры привести для этого не могу, приведу в пример который планирую выложить в открытый код. Вот есть файлы WARC огромного объема и используемые в веб архивации, это унаследованный формат, очень несовременный, без возможности использовать языки запросов и множество минусов, но с плюсом в том что он используется активно. Я для них писал инструмент metawarc который индексировал их в Parquet файлы и давал возможность работать хотя бы с их метаданными более менее удобно через датафреймы или DuckDB.
Предположим я хочу написать расширение для DuckDB которое бы позволяло делать SQL запросы к метаданным и данным в WARC файлах напрямую. Это могло бы сильно облегчить аналитику на их основе. Но у меня нет оптимального решения как это сделать и я задаю параллельно вопрос 5-6 Deep Research инструментам запрос на гайдлайн и далее уже изучаю их и выбираю дизайн спецификацию которую можно загрузить в Cursor или Antigravity или в другой инструмент.
И это работает, результат неидеальный, но лучше чем если изучать самому с нуля или сразу засовывать задачу в ИИ ассистента.
Мораль этого текста такова что применение ИИ важно и критично на стадии проектирования и анализа, возможно даже важнее чем на стадии разработки. И это то чем разработка на основе ИИ отличается от vide-кодирования, качеством архитектурных решений и продуманным контролем качества.
P.S. Все это только пример рассуждений про DuckDB и WARC потому что в самом простом варианте такое расширение уже существует duckdb-warc, но оно малофункционально, откуда и взялась идея насколько хорошо можно сделать его альтернативу малой кровью.
#opensource #ai #warc
Фактически до реализации того или иного компонента, продукта, программной библиотеки его видение загружаешь в несколько Deep Research продуктов и изучаешь потом их отчеты чтобы понять насколько предполагаемые решения реалистичны.
При этом ни один из Deep Research ассистентов не дает полной картины, а чаще всего их неполнота от неполноты описания того что ты хочешь спроектировать. И до стадии анализа от ИИ можно ещё ввести стадию критической оценки. Это когда у тебя есть предварительное видение результата и способа его достижения и это видение ты грузишь в ИИ ассистента с запросом на множество критических вопросов, поиск несоответствий, неполноты и противоречий.
Всё это из жизненной практики когда ты о чем то думаешь реализация чего будет стоить существенных денег, времени и иных ресурсов то хорошо когда есть кто-то не вовлеченный в процесс, достаточно нейтральный и критичный чтобы выдать критический взгляд.
В разработке ИИ ассистентами сейчас для планирования и проектирования применяются спецификации вроде OpenSpec или прямо заложенный в интерфейс режим планирования. Но это то что можно назвать тактическим планированием, стратегическое планирование в том что документ с результатами проектирования с помощью Deep Research загружается и кодирующего ИИ агента и уже он разбивает его на множество OpenSpec спецификаций.
Я какие-то глубоко рабочие примеры привести для этого не могу, приведу в пример который планирую выложить в открытый код. Вот есть файлы WARC огромного объема и используемые в веб архивации, это унаследованный формат, очень несовременный, без возможности использовать языки запросов и множество минусов, но с плюсом в том что он используется активно. Я для них писал инструмент metawarc который индексировал их в Parquet файлы и давал возможность работать хотя бы с их метаданными более менее удобно через датафреймы или DuckDB.
Предположим я хочу написать расширение для DuckDB которое бы позволяло делать SQL запросы к метаданным и данным в WARC файлах напрямую. Это могло бы сильно облегчить аналитику на их основе. Но у меня нет оптимального решения как это сделать и я задаю параллельно вопрос 5-6 Deep Research инструментам запрос на гайдлайн и далее уже изучаю их и выбираю дизайн спецификацию которую можно загрузить в Cursor или Antigravity или в другой инструмент.
И это работает, результат неидеальный, но лучше чем если изучать самому с нуля или сразу засовывать задачу в ИИ ассистента.
Мораль этого текста такова что применение ИИ важно и критично на стадии проектирования и анализа, возможно даже важнее чем на стадии разработки. И это то чем разработка на основе ИИ отличается от vide-кодирования, качеством архитектурных решений и продуманным контролем качества.
P.S. Все это только пример рассуждений про DuckDB и WARC потому что в самом простом варианте такое расширение уже существует duckdb-warc, но оно малофункционально, откуда и взялась идея насколько хорошо можно сделать его альтернативу малой кровью.
#opensource #ai #warc
GitHub
GitHub - harvard-lil/duckdb-warc: DuckDB extension for reading web archive files in WARC format
DuckDB extension for reading web archive files in WARC format - harvard-lil/duckdb-warc
1👍11
Актуальная научная статья на Arxive Buy versus Build an LLM: A Decision Framework for Governments о том покупать ли госорганам (правительствам) LLM или строить собственные. Авторы из разных институций связанных с ИИ, в первую очередь из сингапурских и поэтому, в первую очередь, приводят в пример сингапурский опыт создания государственных LLM, а ещё упоминают швейцарский проект Apertus, проекты LLM из ОАЭ для арабского языка и поддержку Mistral AI в Европе.
В самой статье много полезных рассуждений об имеющихся ограничениях как финансовых, так и технических, но вообще работа на научную не тянет, честно говоря я думал что там будет в итоге методология принятия решения и гораздо более четкие рекомендации, но там вместо этого примерно так: "вот Вам перечень того что надо учесть, а дальше решайте сами"
Почему это важно? Потому что консолидация ИИ инициатив внутри государств неизбежна и многие решения будут исключительно политическими. Например, если в Армении Пр-во захочет сделать ИИ ассистента для госслужащих или граждан то будет ли Пр-во создавать свою ИИ модель или будет разворачивать и инвестировать усилия в одну из существующих? Второй сценарий более вероятен и вот вопрос - какую LLM они используют: открытую китайскую? коммерческую из США? Mistral? российскую от Сбера или Яндекса?
Армения - это как пример страны у которой точно нет ресурсов на создание собственной фундаментальной LLM. Точно также можно рассмотреть Кыргызстан, Грузию, Азербайджан, Узбекистан. Может быть и Казахстан тоже. И это только если пройтись по постсоветским странам.
Вот видите, у меня тоже только вопросы и нет ответов.
#ai #government
В самой статье много полезных рассуждений об имеющихся ограничениях как финансовых, так и технических, но вообще работа на научную не тянет, честно говоря я думал что там будет в итоге методология принятия решения и гораздо более четкие рекомендации, но там вместо этого примерно так: "вот Вам перечень того что надо учесть, а дальше решайте сами"
Почему это важно? Потому что консолидация ИИ инициатив внутри государств неизбежна и многие решения будут исключительно политическими. Например, если в Армении Пр-во захочет сделать ИИ ассистента для госслужащих или граждан то будет ли Пр-во создавать свою ИИ модель или будет разворачивать и инвестировать усилия в одну из существующих? Второй сценарий более вероятен и вот вопрос - какую LLM они используют: открытую китайскую? коммерческую из США? Mistral? российскую от Сбера или Яндекса?
Армения - это как пример страны у которой точно нет ресурсов на создание собственной фундаментальной LLM. Точно также можно рассмотреть Кыргызстан, Грузию, Азербайджан, Узбекистан. Может быть и Казахстан тоже. И это только если пройтись по постсоветским странам.
Вот видите, у меня тоже только вопросы и нет ответов.
#ai #government
👍12❤1
Два свежих документа ОЭСР для внимательного чтения:
- The agentic AI landscape and its conceptual foundations систематизация терминологии, определений и основного понимания того что такое ИИ агенты, агентские ИИ и так далее. Не техническое, но концептуальное погружение в предметную область для регуляторов, руководителей и тд. Про технологии мало, про перевод с технологического профессионального на понятный язык - много. Полезно для всех кто ищет правильные определения и внутреннее понимание этих определений.
- Digital Government Index and Open, Useful and Re-usable Data Index. 2025 Results and Key Findings результаты оценки стран ОЭСР и кандидатов по индексам DGI и OURData за 2025, оценки там вполне ожидаемые, однако поражают крайне низкие оценки Турции по открытости данных и очень особенно низкие оценки в доступности данных в Турции. Из всех стран ОЭСР и кандидатов там ситуация хуже всего. В остальном мало что изменилось - Франция и Корея показывают наилучшие практики в открытости данных,
#readings #oecd #ai #opendata #data #government
- The agentic AI landscape and its conceptual foundations систематизация терминологии, определений и основного понимания того что такое ИИ агенты, агентские ИИ и так далее. Не техническое, но концептуальное погружение в предметную область для регуляторов, руководителей и тд. Про технологии мало, про перевод с технологического профессионального на понятный язык - много. Полезно для всех кто ищет правильные определения и внутреннее понимание этих определений.
- Digital Government Index and Open, Useful and Re-usable Data Index. 2025 Results and Key Findings результаты оценки стран ОЭСР и кандидатов по индексам DGI и OURData за 2025, оценки там вполне ожидаемые, однако поражают крайне низкие оценки Турции по открытости данных и очень особенно низкие оценки в доступности данных в Турции. Из всех стран ОЭСР и кандидатов там ситуация хуже всего. В остальном мало что изменилось - Франция и Корея показывают наилучшие практики в открытости данных,
#readings #oecd #ai #opendata #data #government
OECD
The agentic AI landscape and its conceptual foundations
This paper identifies the most frequently cited features in existing definitions of agentic AI and AI agents, examines how these features are described across sources, and maps them to the key elements of the OECD definition of an AI system. By highlighting…
✍4🔥3
В рубрике как это устроено у них, каталоги данных по всему миру:
- Atlas of Living Australia изначально платформа с открытым кодом для публикации данных по биоразнообразию в Австралии, но используется во многих странах в рамках проектов GBIF. Одновременно с этим является каталогом открытых данных со всеми присущими ему характеристиками - метаданными, указанием лицензий, а не просто навигатором по данным.
- The World Bank Maps геопортал Всемирного Банка вместе с более чем 2+ тысячами слоями для отображения различных показателей. Включает недокументированное API для доступа к данным. Это, в принципе, особенность проектов Всемирного банка в большом числе разных интерфейсов над данными и большим числом недокументированных API помимо документированных
- Science.gov поисковик по результатам научных работ публикуемых госорганами США. Агрегатор из 48 источников ведомственных порталов раскрытия результатов научной деятельности, включая крупные каталоги исследовательских данных такие как DOE Data Explorer, OSTI.GOV и другие
#opendata #worldbank #gbif #datacatalogs
- Atlas of Living Australia изначально платформа с открытым кодом для публикации данных по биоразнообразию в Австралии, но используется во многих странах в рамках проектов GBIF. Одновременно с этим является каталогом открытых данных со всеми присущими ему характеристиками - метаданными, указанием лицензий, а не просто навигатором по данным.
- The World Bank Maps геопортал Всемирного Банка вместе с более чем 2+ тысячами слоями для отображения различных показателей. Включает недокументированное API для доступа к данным. Это, в принципе, особенность проектов Всемирного банка в большом числе разных интерфейсов над данными и большим числом недокументированных API помимо документированных
- Science.gov поисковик по результатам научных работ публикуемых госорганами США. Агрегатор из 48 источников ведомственных порталов раскрытия результатов научной деятельности, включая крупные каталоги исследовательских данных такие как DOE Data Explorer, OSTI.GOV и другие
#opendata #worldbank #gbif #datacatalogs
maps.worldbank.org
World Bank Maps
Perform spatial analysis, search and overlay datasets from various sources, browse and compare satellite imageries, and view map of World Bank lending projects locations.
👍3❤1🔥1
Forwarded from Open Data Armenia
Дедлайн Open Data Armenia Contest продлён до 6 марта — ещё есть время!
Можно ли рассказать историю Тиграна Великого с помощью данных? Отследить качество воздуха в Ереване? Картографировать места наблюдения птиц в Армении? Победители прошлых лет сделали именно это. Теперь ваша очередь.
Open Data Armenia в третий раз проводит конкурс проектов на основе открытых данных для всех, кто хочет создавать полезные и интересные проекты об Армении и Диаспоре.
- Две номинации: культурные приложения и визуализация данных
- Специальный приз от Dateno.io за использование ИИ
- Призовой фонд — $3000
Участие открыто для всех старше 18 лет независимо от места проживания
Победителей объявят 13 марта на Дне открытых данных в Армении.
Подробности и заявка: contest.opendata.am
Можно ли рассказать историю Тиграна Великого с помощью данных? Отследить качество воздуха в Ереване? Картографировать места наблюдения птиц в Армении? Победители прошлых лет сделали именно это. Теперь ваша очередь.
Open Data Armenia в третий раз проводит конкурс проектов на основе открытых данных для всех, кто хочет создавать полезные и интересные проекты об Армении и Диаспоре.
- Две номинации: культурные приложения и визуализация данных
- Специальный приз от Dateno.io за использование ИИ
- Призовой фонд — $3000
Участие открыто для всех старше 18 лет независимо от места проживания
Победителей объявят 13 марта на Дне открытых данных в Армении.
Подробности и заявка: contest.opendata.am
🔥4❤2
Полезные ссылки про данные, технологии и не только:
- Osprey свежий движок с открытым кодом для борьбы со спамом, выложен командой Discord под открытой лицензией. Написан на Python и Rust, использует свой язык SML (Some Made Up Language) для описания правил. Включает UI для мониторинга работы.
- Salt язык программирования претендующий на большую простоту и, что важнее, большую производительность чем C и Rust. Лицензия MIT, и, как ни странно, но не вижу за ним никого из бигтеха, похоже на частную и хорошо продуманную инициативу
- Microsoft’s new 10,000-year data storage medium: glass Microsoft показали технологию сохранения данных внутри хранилища основанного на том что лазеры записывают данные в стекле и с прицелом на хранение в 10 тысяч лет. Про 10 тысяч лет не верится, но даже тысяча лет будет коллосальным прогрессом. 4.84TB записали на кусок стекла 12x12x0.2 см. в течение 150 часов. Кто то скажет о том как это мало и в статье приводится пример что есть радиотелескоп который сейчас в год производит 700 петабайт. Но есть и другие сравнения, большую часть письменной истории человечества можно будет сохранить в небольшой коробке. Может написать фантастический рассказ "Коробка"?:)
- Querying India's MoSPI Data with Claude and MCP в Индии статслужба начала публиковать данные статистистики с доступностью через MCP протокол, автор подключил его к Claude и показал что можно интересного с этим сделать. Спойлер: много интересного.
- FossFLOW инструмент с открытым кодом для рисования красивых изометрических диаграм. Внутри используется открытая библиотека (компонент) от ребят из сервиса Isoflow
- State of Agentic AI Report: Key Findings обзор состояния агентских ИИ от Docker'а. Любопытный, но ожидаемый, о том что более всего важен инфобез.В целом же никаких озарений, просто документ для справки и референсов. Для выгрузки требуют заполнить форму где просят все включая номер телефона, так что проще воспользоваться прямой ссылкой
#opensource #data #dataviz #datatools
- Osprey свежий движок с открытым кодом для борьбы со спамом, выложен командой Discord под открытой лицензией. Написан на Python и Rust, использует свой язык SML (Some Made Up Language) для описания правил. Включает UI для мониторинга работы.
- Salt язык программирования претендующий на большую простоту и, что важнее, большую производительность чем C и Rust. Лицензия MIT, и, как ни странно, но не вижу за ним никого из бигтеха, похоже на частную и хорошо продуманную инициативу
- Microsoft’s new 10,000-year data storage medium: glass Microsoft показали технологию сохранения данных внутри хранилища основанного на том что лазеры записывают данные в стекле и с прицелом на хранение в 10 тысяч лет. Про 10 тысяч лет не верится, но даже тысяча лет будет коллосальным прогрессом. 4.84TB записали на кусок стекла 12x12x0.2 см. в течение 150 часов. Кто то скажет о том как это мало и в статье приводится пример что есть радиотелескоп который сейчас в год производит 700 петабайт. Но есть и другие сравнения, большую часть письменной истории человечества можно будет сохранить в небольшой коробке. Может написать фантастический рассказ "Коробка"?:)
- Querying India's MoSPI Data with Claude and MCP в Индии статслужба начала публиковать данные статистистики с доступностью через MCP протокол, автор подключил его к Claude и показал что можно интересного с этим сделать. Спойлер: много интересного.
- FossFLOW инструмент с открытым кодом для рисования красивых изометрических диаграм. Внутри используется открытая библиотека (компонент) от ребят из сервиса Isoflow
- State of Agentic AI Report: Key Findings обзор состояния агентских ИИ от Docker'а. Любопытный, но ожидаемый, о том что более всего важен инфобез.В целом же никаких озарений, просто документ для справки и референсов. Для выгрузки требуют заполнить форму где просят все включая номер телефона, так что проще воспользоваться прямой ссылкой
#opensource #data #dataviz #datatools
GitHub
GitHub - roostorg/osprey: Automate the obvious and investigate the ambiguous. High-performance safety rules engine for real-time…
Automate the obvious and investigate the ambiguous. High-performance safety rules engine for real-time event processing at scale. - roostorg/osprey
👍3🔥3
В рубрике полезных инструментов для разработки Roam Code движок на Python для индексации кода в семантический граф и снижения потребления токенов ИИ агентами для программирования за счет того что вместо grep'пинга кода они обращаются к индексу. Вернее снижение потребления токенов - это лишь малая часть полезного, остальное заключается ещё и в повышении управляемости, скорости внесения изменений и так далее.
Полезный инструмент для тех кто использует ИИ агентов для работы с кодом.
#opensource #ai #development
Полезный инструмент для тех кто использует ИИ агентов для работы с кодом.
#opensource #ai #development
✍2🔥2
В рубрике как это устроено у них проект Re:Earth это ГИС система в Японии и заодно портал для публикации данных. Они же разработчики reearth-cms движка для публикации данных который они же забросили, хотя он чем то напоминал Datasette и dltHub, только с акцентом на геоданные. Но тут разработчики явно поленились или сознательно решили не документировать свой продукт.
А интересно и то что эта же команда разработчики проекта Project PLATEAU с цифровыми двойниками японских городов и прикрутили к нему MCP Server для доступа к японской государственной платформе геоданных. Пока таких аналогичных проектов прикрутки ИИ к большим геоплатформам мне не попадались.
#opendata #data #geodata #japan
А интересно и то что эта же команда разработчики проекта Project PLATEAU с цифровыми двойниками японских городов и прикрутили к нему MCP Server для доступа к японской государственной платформе геоданных. Пока таких аналогичных проектов прикрутки ИИ к большим геоплатформам мне не попадались.
#opendata #data #geodata #japan
👍5🔥2👏2❤1
Разные мысли вслух про аналитику:
- непонятно эпоха дашбордов прошла или нет, ощущения что отношение к ним меняется по мере изменений привычек пользователей использовать ИИ ассистенты. Тем кому это стало привычным встраивание ассистента в BI системы принесет это немало пользы, но нет ощущения массовости пока что.
- ИИ ассистент внутри продукта или продукт адаптированный под ИИ ассистента? Вопрос как общий так и частный применительно к дата аналитике. А может быть и то и то. К примеру, внутри Censys ИИ ассистент хорошо отвечает на вопросы по внутренней документации и генерирует запросы из человеческого описания, но не выполняет их.
- со многими аналитическими публичными проектами нынче беда-беда. Недавно я раскопал несколько документов с видением разных проектов по аналитике на общедоступных данных в РФ и отправил их в deep research инструменты. На что они хором дали вывод что все это нужно и полезно, но несет прямые риски и вообще может быть причиной для иноагентства. С публичной аналитикой нынче сложно, данные могут быть доступны, но свобода их анализа ограничена рисками самого разного толка.
- продвинутые deep research инструменты теперь применяют финансовые ограничители, а не токенные. Устанавливаешь что на исследование готов потратить $5 и получаешь отчет на $5, устанавливаешь что готов $50 то и получаешь результат... получше и так далее. В любом случае это дешевле чем чем проводить такой анализ самостоятельно или нанимать кого-то.
#thoughts
- непонятно эпоха дашбордов прошла или нет, ощущения что отношение к ним меняется по мере изменений привычек пользователей использовать ИИ ассистенты. Тем кому это стало привычным встраивание ассистента в BI системы принесет это немало пользы, но нет ощущения массовости пока что.
- ИИ ассистент внутри продукта или продукт адаптированный под ИИ ассистента? Вопрос как общий так и частный применительно к дата аналитике. А может быть и то и то. К примеру, внутри Censys ИИ ассистент хорошо отвечает на вопросы по внутренней документации и генерирует запросы из человеческого описания, но не выполняет их.
- со многими аналитическими публичными проектами нынче беда-беда. Недавно я раскопал несколько документов с видением разных проектов по аналитике на общедоступных данных в РФ и отправил их в deep research инструменты. На что они хором дали вывод что все это нужно и полезно, но несет прямые риски и вообще может быть причиной для иноагентства. С публичной аналитикой нынче сложно, данные могут быть доступны, но свобода их анализа ограничена рисками самого разного толка.
- продвинутые deep research инструменты теперь применяют финансовые ограничители, а не токенные. Устанавливаешь что на исследование готов потратить $5 и получаешь отчет на $5, устанавливаешь что готов $50 то и получаешь результат... получше и так далее. В любом случае это дешевле чем чем проводить такой анализ самостоятельно или нанимать кого-то.
#thoughts
✍10🔥1
LadybugDB свежий движок баз данных которые позиционируют себя как DuckDB для графов, внедряемая база данных с поддержкой языка Cypher, удобным импортом данных и встроенным веб интерфейсом просмотра графов. Лицензия MIT, есть поддержка WASM, Python и Rust.
Выглядит интересно как замена Neo4J для графовых данных относительно небольшого объёма.
#opensource #data #datatools
Выглядит интересно как замена Neo4J для графовых данных относительно небольшого объёма.
#opensource #data #datatools
👍4🔥3
В рубрике как это устроено у них.
Датский портал с данными исследований forskningsportal.dk включает более миллиона публикаций разделенных на глобальный и локальный реестры. Пока без исследовательских данных, только статьи, главы книг и другие материалы классифицированные по множеству классификационных моделей: OECD FORD, UN SDG, AU NZ/FOR и паре датских научных классификаторов.
Внутри какая-то своя разработка, не один из глобальных коммерческих провайдеров.
Открытых научных данных пока нет, но обещают их скоро добавить. А сами данные базы статей доступны в виде дампов в XML в формате DDF-MXD (Danish Research Database Metadata Exchange Format).
#opendata #datasets #openaccess #denmark #datatools
Датский портал с данными исследований forskningsportal.dk включает более миллиона публикаций разделенных на глобальный и локальный реестры. Пока без исследовательских данных, только статьи, главы книг и другие материалы классифицированные по множеству классификационных моделей: OECD FORD, UN SDG, AU NZ/FOR и паре датских научных классификаторов.
Внутри какая-то своя разработка, не один из глобальных коммерческих провайдеров.
Открытых научных данных пока нет, но обещают их скоро добавить. А сами данные базы статей доступны в виде дампов в XML в формате DDF-MXD (Danish Research Database Metadata Exchange Format).
#opendata #datasets #openaccess #denmark #datatools
👍2✍1🔥1
Я тут регулярно пишу и думаю вслух про то как работают с данными в мире и сильно меньше про то как это происходит в России, но на глаза попался хороший пример и о нём можно тоже подумать вслух.
ФГИС Экомониторинг информационная система которую последние несколько лет Минприроды РФ создавало на базе ГосТех'а. В ней обещали много разного
а по факту, все куда как печальнее. Вот только самые очевидные факты:
1. Система выглядит как набор артефактов в вакууме. Там содержатся разнородные сведения, от тех что только в виде PDF отчетов, до данных с показателями измерений. Никаких методических пояснений нет, группировка по разделам очень условная.
2. Практически все разделы с отчетами - это документы с сайта Росгидромета за последние 1-2 года. Например,
Обобщенные по территории Российской Федерации данные о состоянии и загрязнении окружающей среды (ежегодно) это один единственный отчет за 2024 год хотя на сайте Росгидромета есть все отчеты с 2007 года. И так со всеми ежегодными данными и отчетами, в первоисточниках их значительно больше
3. Практически все разделы с главной страницы не содержат ничего, просто там пусто хотя как минимум часть отчетов публикуются подведами Росгидромета и на сайте Росгидромета
4. Единственный регулярно обновляемый раздел - это Реестр оперативных показателей максимального кратковременного загрязнения атмосферного воздуха по данным Росгидромет где есть ежесуточные данные.
5. Открытых данных, API для доступа к данным нет, хотя недокументированное API есть
6. Было предположение что часть материалов может быть доступно если в системе авторизоваться через ЕСИА. Предположение ошибочное, после авторизации ничего нового тоже нет.
В целом не знаю как эту систему вообще принимали в эксплуатацию, она не имеет характеристик даже частично законченного продукта, но что меня лично напрягает так это неполное дублирование отчетов по экомониторингу с сайта Росгидромета и его подведов, тут в пору задуматься, а не объявят ли эту ФГИС единственным местом их размещения, а в других местах поудаляют? Надо архивировать, в общем.
Не говоря уже о том что данные из отчетов имеют среднюю задержку в год (отчеты за 2024 год публикуются в конце 2025) и была надежда что в этой ФГИС появятся не документы, а данные, но надежды не оправдываются.
А самое главное и критерий значимости публикации данных в их повторном использовании. А кто их использует, а как их использовать? Вопросы риторические. Есть подозрение что о пользователях тут не думали, не думают и не планируют думать.
#opendata #closeddata #russia #environment #ecology
ФГИС Экомониторинг информационная система которую последние несколько лет Минприроды РФ создавало на базе ГосТех'а. В ней обещали много разного
Система обеспечит сбор данных по 16 видам экомониторинга, среди которых – атмосферный воздух, водные объекты, состояние земель, животный мир, воспроизводство лесов
а по факту, все куда как печальнее. Вот только самые очевидные факты:
1. Система выглядит как набор артефактов в вакууме. Там содержатся разнородные сведения, от тех что только в виде PDF отчетов, до данных с показателями измерений. Никаких методических пояснений нет, группировка по разделам очень условная.
2. Практически все разделы с отчетами - это документы с сайта Росгидромета за последние 1-2 года. Например,
Обобщенные по территории Российской Федерации данные о состоянии и загрязнении окружающей среды (ежегодно) это один единственный отчет за 2024 год хотя на сайте Росгидромета есть все отчеты с 2007 года. И так со всеми ежегодными данными и отчетами, в первоисточниках их значительно больше
3. Практически все разделы с главной страницы не содержат ничего, просто там пусто хотя как минимум часть отчетов публикуются подведами Росгидромета и на сайте Росгидромета
4. Единственный регулярно обновляемый раздел - это Реестр оперативных показателей максимального кратковременного загрязнения атмосферного воздуха по данным Росгидромет где есть ежесуточные данные.
5. Открытых данных, API для доступа к данным нет, хотя недокументированное API есть
6. Было предположение что часть материалов может быть доступно если в системе авторизоваться через ЕСИА. Предположение ошибочное, после авторизации ничего нового тоже нет.
В целом не знаю как эту систему вообще принимали в эксплуатацию, она не имеет характеристик даже частично законченного продукта, но что меня лично напрягает так это неполное дублирование отчетов по экомониторингу с сайта Росгидромета и его подведов, тут в пору задуматься, а не объявят ли эту ФГИС единственным местом их размещения, а в других местах поудаляют? Надо архивировать, в общем.
Не говоря уже о том что данные из отчетов имеют среднюю задержку в год (отчеты за 2024 год публикуются в конце 2025) и была надежда что в этой ФГИС появятся не документы, а данные, но надежды не оправдываются.
А самое главное и критерий значимости публикации данных в их повторном использовании. А кто их использует, а как их использовать? Вопросы риторические. Есть подозрение что о пользователях тут не думали, не думают и не планируют думать.
#opendata #closeddata #russia #environment #ecology
👍8✍3😢2👌2❤1