Thanks to visit codestin.com
Credit goes to t.me

Ivan Begtin
9.07K subscribers
2.56K photos
5 videos
114 files
5.34K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email [email protected]

Ads/promotion agent: @k0shk
Download Telegram
Всякие бесполезные факты о том как устроены открытые данные в мире:
1. Больше всего данных опубликовано на порталах на базе CKAN'а, каталога открытых данных с открытым кодом, несмотря на то что в мире много разного открытого ПО для публикации данных, CKAN остается лидером по использованию на национальном и международном уровнях. Главным образом из-за богатых возможностей расширения через плагины.
2. Крупнейшим коммерческим вендором SaaS порталов открытых данных является ArcGIS с их продуктом ArcGIS Hub. В мире несколько тысяч их порталов с открытыми данными, преимущественно с акцентом на геоданные, но ими не ограничивается. Точную цифру я не называю потому что хотя они и есть в реестре Dateno, но не все, их очень много.
3. Порталов данных публикующих связанные данные (Linked Data) очень мало и почти все они сосредоточены в Европе, более всего их в Северной Европе (Нидерланды, Швеция, Германия)
4. Почти все наборы данных для ИИ публикуются на Hugging Face и паре китайских сервисов. Не все, но явное большинство. Это то что можно назвать естественной монополией из-за удобных сервисов Hugging Face
5. Россия одна из немногих стран где открытые данные публикуются по собственным, весьма экзотичным стандартам, не имеющим вообще никакого отношения к мировым практикам - ни лучшим, ни худшим, вообще никаким
6. Очень много открытых данных публикуется в Таиланде и в Индонезии, там есть явно оформленные государственные инициативы и сотни тысяч опубликованных датасетов. Большая их часть - это мусор и Open by default, но факт остается фактом.
7. Почти во всех развитых странах акцент открытости данных идет на геоданные и на научные данные, а иные данные выделены в сфокусированные инициативы, часто международные.
8. У всех университетов в которых наука реально существует есть свои порталы раскрытия данных как часть порталов раскрытия научных результатов или как отдельные явления.
9. Если собрать все данные со всех порталов открытых данных государств в мире - это будет лишь доля процентов от крупнейших открытых репозиториев геномных данных и данных физических экспериментов и данных мониторинга поверхности Земли

#opendata #facts
6❤‍🔥1
Немного отвлекаясь от темы данных, про замедление Telegram в РФ сухо и тезисно.

Часть первая

Про Telegram

1. Telegram в России достиг высокого уровня проникновения в жёсткой конкурентной борьбе с другими мессенжерами благодаря множеству качественных параметров которые так просто не воспроизвести по причине создания эффективной экосистемы и высоко заданной планке скорости работы и прозрачности (открытый код, публичные аудиты шифрования и тд.)
2. Учитывая массовость его проникновения в массовую аудиторию и активное проникновение во все сферы жизни от частной переписки до использования бизнесом и органами власти его "замедление" это глобальный болезненный процесс для личных коммуникаций, бизнеса и организационных процессов для десятков миллионов людей.
3. Фактически владелец(-ы) Telegram'а находятся в ситуации ультиматума потерять российский рынок или мировой. Как бы ни была болезнена для них потеря российского рынка она более вероятна чем потеря существенной части мирового. А потери неизбежны при любом исходе текущей ситуации с "замеделением".
4. При этом полной потери российского рынка у Telegram не произойдет поскольку для многих Telegram не только стал привычной, но и срабатывает накопительный эффект. Огромные архивы сообщений, знаний, документов и иных материалов находятся именно в экосистеме Telegram'а и скорее многие из тех кто ещё не озаботился наличием VPN сервисов сделают это в течение короткого времени.
5. С учетом этого, скорее всего, Telegram потеряет не всю российскую аудиторию, а только наименее образованную, технически неграмотную и замкнутую только на внутрироссийские коммуникации.

Про мессенжер MAX
4. Мессенжер MAX которые де-факто предлагается политическими властями ему на замену был бы неплох обладай он хотя бы частью качественных характеристик Telegram'а, но ключевые его характеристики в нём не могут быть реализованы скорее по политическим чем по техническим причинам. Команда MAX'а не может открыть его код, не может обеспечить полную приватность переписки, не может гарантировать отсутствие доступа к данным переписки для органов власти.
5. Государственное продвижение MAX'а создало очень сильный обратный эффект и резкое неприятие пользователями как и любой жёстко навязываемый сервис. Декларируемые большие цифры охвата аудитории: а) Невозможно перепроверить. б) Ничего не говорят о реальном использовании, а не о полупринудительной регистрации в сервисе бюджетников и прочих слабозащищенных давлению лиц.
6. Попытки продвижения MAX'а как инструмента взаимодействия с гос-вом дезавуируют длительные усилия по развития экосистемы Госуслуг и других полностью государственных мобильных приложений и сервисов. Зачем получать сервисы через MAX если в России столь сильны позиции в fintech'е включая госбанки, если так хорошо было сделано приложение Госуслуг?
7. Можно констатировать что продвижение MAX'а через его потребительские качества провалилось, а насильственное продвижение вызывает лишь усиление сопротивления его использованию.
#thoughts #telegram #MAX
👍18💯12🔥322
Часть вторая

А можно ли было по другому?

8. Предположим что потребность в национальном мессенжере реальна, благо такие есть в некоторых странах, а в других странах правительства также поднимают этот вопрос. Неужели нельзя было бы решать эту задачу иначе? Были ли и есть ли другие варианты? Они точно были, но уже маловероятны из-за того что государственная машина в РФ умеет останавливаться, но не умеет идти назад (я такого не наблюдал).
9. Например, можно было выделить порядка 10 млрд рублей и раздать их субсидиями тем кто мог бы создавать нац. мессенжеры при заданных Пр-вом условиях. Большие субсидии российскому бигтеху, поменьше - средним ИТ компаниям и небольшие малым командам и энтузиастам. 10 млрд рублей сумма условная, но думаю что идея понятная. Появился бы Авито Мессенжер, WB мессенжер, Сбер Мессенжер да и тот же Яндекс мог бы вернуться к созданию своего мессенжера (или не мог бы если бы не захотел). Создание внутренней конкуренции - это хорошая идея, у многие крупных российских цифровых сервисов есть достаточная опорная пользовательская база чтобы попытаться поконкурировать. Особенно если кроме выделенной субсидии на разработку выделить ещё и субсидии на поддержку привязанные к количеству зарегистрированных и активных пользователей.
10. Другая альтернатива могла бы быть в запуске полностью государственного мессенжера. Как ни парадоксально, но доверие к гос-ву по умолчанию в РФ высокое и Госуслуги.Мессенжер пользовался бы как минимум внутрироссийской популярностью. Репутационно это выглядело бы лучше чем продвижение мессенжера компании являющейся дочерним обществом ВК. Да, у Госмессенжера были бы свои минусы, но меньше чем у MAX сейчас.
11. Всё это с оговорками про наличие такой целесообразности, а в ней прямо скажем, есть существенные сомнения. Усиление государственного контроля проходит куда безболезненнее в ситуации его невидимости, а тут, наоборот, демонстрационное насилие. Даже с государственнической позиции это плохой путь, а уж с гражданской так и вовсе негодный.

На сегодня у меня тезисы закончились. Надеюсь буду возвращаться к этой теме пореже, а про данные буду писать почаще.

#thoughts #telegram #MAX
👍25🔥8💯62
Подборка полезных ссылок про данные, технологии и не только:
- gogcli инструментарий командной строки для большей части популярных сервисов Google: GMail, Calendar, Classroom, Drive, Docs. Незаменимо для всех кто любит работать в командной строке и, скорее всего, удобно пристыковывается к личному локальному ИИ агенту.
- qmd еще один удобный инструмент для командной строки, Query Markup Document, поисковик по локальным файлам .md с использованием LLM. Опять же для фанатов командной строки

#commandline #tools #opensource
4
Кстати, в продуктах AI Deep research не могу не отметить китайский Kimi от Moonshot AI. Есть некоторое количество стран по которым лично мне довольно сложно собирать аналитику, в первую очередь это восточная и юго-восточная Азия. К примеру, для меня давно была загадка о том как устроены геопространственные сервисы и данные в Китае и Японии. Из всех сервисов пока только Kimi выдал наиболее глубокие и продуманные отчеты со ссылками на порталы, вендоров, госполитику и тд. По Японии, например, я совсем не знал что там CKAN (движок порталов открытых данных) рекомендован в технологическом стеке правительства и применяется официально для геопространственной инфраструктуры страны как хранилище геоданных (через специальные расширения движка).

По Китаю отдельно много интересного. Конечно, и Kimi, и остальные сервисы покрывают лишь общедоступную часть спектра аналитики, но я вот отдаю себе отчет что реши я такой отчет заказать или если бы мне его кто-то заказывал, то стоимость его была бы на 2-3 порядка выше чем сделать с помощью ИИ агента.

#analytics #ai #china #japan
1👍10
В продолжение рассуждений про Kimo, дополню что лично моя коммуникация с большей части ИИ ассистентов для кодирования свелась к тому что до стадии написания кода, нужна обязательная стадия исследования и это исследование сильно помогает в дальнейшей разработке да и в принятии решения о дальнейшей разработки. Чем менее комплексный проект тем легче, но и для больших задач тоже.

Фактически до реализации того или иного компонента, продукта, программной библиотеки его видение загружаешь в несколько Deep Research продуктов и изучаешь потом их отчеты чтобы понять насколько предполагаемые решения реалистичны.

При этом ни один из Deep Research ассистентов не дает полной картины, а чаще всего их неполнота от неполноты описания того что ты хочешь спроектировать. И до стадии анализа от ИИ можно ещё ввести стадию критической оценки. Это когда у тебя есть предварительное видение результата и способа его достижения и это видение ты грузишь в ИИ ассистента с запросом на множество критических вопросов, поиск несоответствий, неполноты и противоречий.

Всё это из жизненной практики когда ты о чем то думаешь реализация чего будет стоить существенных денег, времени и иных ресурсов то хорошо когда есть кто-то не вовлеченный в процесс, достаточно нейтральный и критичный чтобы выдать критический взгляд.

В разработке ИИ ассистентами сейчас для планирования и проектирования применяются спецификации вроде OpenSpec или прямо заложенный в интерфейс режим планирования. Но это то что можно назвать тактическим планированием, стратегическое планирование в том что документ с результатами проектирования с помощью Deep Research загружается и кодирующего ИИ агента и уже он разбивает его на множество OpenSpec спецификаций.

Я какие-то глубоко рабочие примеры привести для этого не могу, приведу в пример который планирую выложить в открытый код. Вот есть файлы WARC огромного объема и используемые в веб архивации, это унаследованный формат, очень несовременный, без возможности использовать языки запросов и множество минусов, но с плюсом в том что он используется активно. Я для них писал инструмент metawarc который индексировал их в Parquet файлы и давал возможность работать хотя бы с их метаданными более менее удобно через датафреймы или DuckDB.

Предположим я хочу написать расширение для DuckDB которое бы позволяло делать SQL запросы к метаданным и данным в WARC файлах напрямую. Это могло бы сильно облегчить аналитику на их основе. Но у меня нет оптимального решения как это сделать и я задаю параллельно вопрос 5-6 Deep Research инструментам запрос на гайдлайн и далее уже изучаю их и выбираю дизайн спецификацию которую можно загрузить в Cursor или Antigravity или в другой инструмент.

И это работает, результат неидеальный, но лучше чем если изучать самому с нуля или сразу засовывать задачу в ИИ ассистента.

Мораль этого текста такова что применение ИИ важно и критично на стадии проектирования и анализа, возможно даже важнее чем на стадии разработки. И это то чем разработка на основе ИИ отличается от vide-кодирования, качеством архитектурных решений и продуманным контролем качества.

P.S. Все это только пример рассуждений про DuckDB и WARC потому что в самом простом варианте такое расширение уже существует duckdb-warc, но оно малофункционально, откуда и взялась идея насколько хорошо можно сделать его альтернативу малой кровью.

#opensource #ai #warc
1👍11
Актуальная научная статья на Arxive Buy versus Build an LLM: A Decision Framework for Governments о том покупать ли госорганам (правительствам) LLM или строить собственные. Авторы из разных институций связанных с ИИ, в первую очередь из сингапурских и поэтому, в первую очередь, приводят в пример сингапурский опыт создания государственных LLM, а ещё упоминают швейцарский проект Apertus, проекты LLM из ОАЭ для арабского языка и поддержку Mistral AI в Европе.

В самой статье много полезных рассуждений об имеющихся ограничениях как финансовых, так и технических, но вообще работа на научную не тянет, честно говоря я думал что там будет в итоге методология принятия решения и гораздо более четкие рекомендации, но там вместо этого примерно так: "вот Вам перечень того что надо учесть, а дальше решайте сами"

Почему это важно? Потому что консолидация ИИ инициатив внутри государств неизбежна и многие решения будут исключительно политическими. Например, если в Армении Пр-во захочет сделать ИИ ассистента для госслужащих или граждан то будет ли Пр-во создавать свою ИИ модель или будет разворачивать и инвестировать усилия в одну из существующих? Второй сценарий более вероятен и вот вопрос - какую LLM они используют: открытую китайскую? коммерческую из США? Mistral? российскую от Сбера или Яндекса?

Армения - это как пример страны у которой точно нет ресурсов на создание собственной фундаментальной LLM. Точно также можно рассмотреть Кыргызстан, Грузию, Азербайджан, Узбекистан. Может быть и Казахстан тоже. И это только если пройтись по постсоветским странам.

Вот видите, у меня тоже только вопросы и нет ответов.

#ai #government
👍121
Два свежих документа ОЭСР для внимательного чтения:
- The agentic AI landscape and its conceptual foundations систематизация терминологии, определений и основного понимания того что такое ИИ агенты, агентские ИИ и так далее. Не техническое, но концептуальное погружение в предметную область для регуляторов, руководителей и тд. Про технологии мало, про перевод с технологического профессионального на понятный язык - много. Полезно для всех кто ищет правильные определения и внутреннее понимание этих определений.
- Digital Government Index and Open, Useful and Re-usable Data Index. 2025 Results and Key Findings результаты оценки стран ОЭСР и кандидатов по индексам DGI и OURData за 2025, оценки там вполне ожидаемые, однако поражают крайне низкие оценки Турции по открытости данных и очень особенно низкие оценки в доступности данных в Турции. Из всех стран ОЭСР и кандидатов там ситуация хуже всего. В остальном мало что изменилось - Франция и Корея показывают наилучшие практики в открытости данных,

#readings #oecd #ai #opendata #data #government
4🔥3
В рубрике как это устроено у них, каталоги данных по всему миру:
- Atlas of Living Australia изначально платформа с открытым кодом для публикации данных по биоразнообразию в Австралии, но используется во многих странах в рамках проектов GBIF. Одновременно с этим является каталогом открытых данных со всеми присущими ему характеристиками - метаданными, указанием лицензий, а не просто навигатором по данным.
- The World Bank Maps геопортал Всемирного Банка вместе с более чем 2+ тысячами слоями для отображения различных показателей. Включает недокументированное API для доступа к данным. Это, в принципе, особенность проектов Всемирного банка в большом числе разных интерфейсов над данными и большим числом недокументированных API помимо документированных
- Science.gov поисковик по результатам научных работ публикуемых госорганами США. Агрегатор из 48 источников ведомственных порталов раскрытия результатов научной деятельности, включая крупные каталоги исследовательских данных такие как DOE Data Explorer, OSTI.GOV и другие

#opendata #worldbank #gbif #datacatalogs
👍31🔥1
Forwarded from Open Data Armenia
Дедлайн Open Data Armenia Contest продлён до 6 марта — ещё есть время!

Можно ли рассказать историю Тиграна Великого с помощью данных? Отследить качество воздуха в Ереване? Картографировать места наблюдения птиц в Армении? Победители прошлых лет сделали именно это. Теперь ваша очередь.
Open Data Armenia в третий раз проводит конкурс проектов на основе открытых данных для всех, кто хочет создавать полезные и интересные проекты об Армении и Диаспоре.
- Две номинации: культурные приложения и визуализация данных
- Специальный приз от Dateno.io за использование ИИ
- Призовой фонд — $3000

Участие открыто для всех старше 18 лет независимо от места проживания
Победителей объявят 13 марта на Дне открытых данных в Армении.

Подробности и заявка: contest.opendata.am
🔥42
Полезные ссылки про данные, технологии и не только:
- Osprey свежий движок с открытым кодом для борьбы со спамом, выложен командой Discord под открытой лицензией. Написан на Python и Rust, использует свой язык SML (Some Made Up Language) для описания правил. Включает UI для мониторинга работы.
- Salt язык программирования претендующий на большую простоту и, что важнее, большую производительность чем C и Rust. Лицензия MIT, и, как ни странно, но не вижу за ним никого из бигтеха, похоже на частную и хорошо продуманную инициативу
- Microsoft’s new 10,000-year data storage medium: glass Microsoft показали технологию сохранения данных внутри хранилища основанного на том что лазеры записывают данные в стекле и с прицелом на хранение в 10 тысяч лет. Про 10 тысяч лет не верится, но даже тысяча лет будет коллосальным прогрессом. 4.84TB записали на кусок стекла 12x12x0.2 см. в течение 150 часов. Кто то скажет о том как это мало и в статье приводится пример что есть радиотелескоп который сейчас в год производит 700 петабайт. Но есть и другие сравнения, большую часть письменной истории человечества можно будет сохранить в небольшой коробке. Может написать фантастический рассказ "Коробка"?:)
- Querying India's MoSPI Data with Claude and MCP в Индии статслужба начала публиковать данные статистистики с доступностью через MCP протокол, автор подключил его к Claude и показал что можно интересного с этим сделать. Спойлер: много интересного.
- FossFLOW инструмент с открытым кодом для рисования красивых изометрических диаграм. Внутри используется открытая библиотека (компонент) от ребят из сервиса Isoflow
- State of Agentic AI Report: Key Findings обзор состояния агентских ИИ от Docker'а. Любопытный, но ожидаемый, о том что более всего важен инфобез.В целом же никаких озарений, просто документ для справки и референсов. Для выгрузки требуют заполнить форму где просят все включая номер телефона, так что проще воспользоваться прямой ссылкой

#opensource #data #dataviz #datatools
👍3🔥3
В рубрике полезных инструментов для разработки Roam Code движок на Python для индексации кода в семантический граф и снижения потребления токенов ИИ агентами для программирования за счет того что вместо grep'пинга кода они обращаются к индексу. Вернее снижение потребления токенов - это лишь малая часть полезного, остальное заключается ещё и в повышении управляемости, скорости внесения изменений и так далее.

Полезный инструмент для тех кто использует ИИ агентов для работы с кодом.

#opensource #ai #development
2🔥2
В рубрике как это устроено у них проект Re:Earth это ГИС система в Японии и заодно портал для публикации данных. Они же разработчики reearth-cms движка для публикации данных который они же забросили, хотя он чем то напоминал Datasette и dltHub, только с акцентом на геоданные. Но тут разработчики явно поленились или сознательно решили не документировать свой продукт.

А интересно и то что эта же команда разработчики проекта Project PLATEAU с цифровыми двойниками японских городов и прикрутили к нему MCP Server для доступа к японской государственной платформе геоданных. Пока таких аналогичных проектов прикрутки ИИ к большим геоплатформам мне не попадались.

#opendata #data #geodata #japan
👍5🔥2👏21
Разные мысли вслух про аналитику:
- непонятно эпоха дашбордов прошла или нет, ощущения что отношение к ним меняется по мере изменений привычек пользователей использовать ИИ ассистенты. Тем кому это стало привычным встраивание ассистента в BI системы принесет это немало пользы, но нет ощущения массовости пока что.
- ИИ ассистент внутри продукта или продукт адаптированный под ИИ ассистента? Вопрос как общий так и частный применительно к дата аналитике. А может быть и то и то. К примеру, внутри Censys ИИ ассистент хорошо отвечает на вопросы по внутренней документации и генерирует запросы из человеческого описания, но не выполняет их.
- со многими аналитическими публичными проектами нынче беда-беда. Недавно я раскопал несколько документов с видением разных проектов по аналитике на общедоступных данных в РФ и отправил их в deep research инструменты. На что они хором дали вывод что все это нужно и полезно, но несет прямые риски и вообще может быть причиной для иноагентства. С публичной аналитикой нынче сложно, данные могут быть доступны, но свобода их анализа ограничена рисками самого разного толка.
- продвинутые deep research инструменты теперь применяют финансовые ограничители, а не токенные. Устанавливаешь что на исследование готов потратить $5 и получаешь отчет на $5, устанавливаешь что готов $50 то и получаешь результат... получше и так далее. В любом случае это дешевле чем чем проводить такой анализ самостоятельно или нанимать кого-то.

#thoughts
10🔥1
LadybugDB свежий движок баз данных которые позиционируют себя как DuckDB для графов, внедряемая база данных с поддержкой языка Cypher, удобным импортом данных и встроенным веб интерфейсом просмотра графов. Лицензия MIT, есть поддержка WASM, Python и Rust.

Выглядит интересно как замена Neo4J для графовых данных относительно небольшого объёма.

#opensource #data #datatools
👍4🔥3
В рубрике как это устроено у них.

Датский портал с данными исследований forskningsportal.dk включает более миллиона публикаций разделенных на глобальный и локальный реестры. Пока без исследовательских данных, только статьи, главы книг и другие материалы классифицированные по множеству классификационных моделей: OECD FORD, UN SDG, AU NZ/FOR и паре датских научных классификаторов.

Внутри какая-то своя разработка, не один из глобальных коммерческих провайдеров.

Открытых научных данных пока нет, но обещают их скоро добавить. А сами данные базы статей доступны в виде дампов в XML в формате DDF-MXD (Danish Research Database Metadata Exchange Format).

#opendata #datasets #openaccess #denmark #datatools
👍21🔥1
Я тут регулярно пишу и думаю вслух про то как работают с данными в мире и сильно меньше про то как это происходит в России, но на глаза попался хороший пример и о нём можно тоже подумать вслух.

ФГИС Экомониторинг информационная система которую последние несколько лет Минприроды РФ создавало на базе ГосТех'а. В ней обещали много разного

Система обеспечит сбор данных по 16 видам экомониторинга, среди которых – атмосферный воздух, водные объекты, состояние земель, животный мир, воспроизводство лесов


а по факту, все куда как печальнее. Вот только самые очевидные факты:
1. Система выглядит как набор артефактов в вакууме. Там содержатся разнородные сведения, от тех что только в виде PDF отчетов, до данных с показателями измерений. Никаких методических пояснений нет, группировка по разделам очень условная.
2. Практически все разделы с отчетами - это документы с сайта Росгидромета за последние 1-2 года. Например,
Обобщенные по территории Российской Федерации данные о состоянии и загрязнении окружающей среды (ежегодно) это один единственный отчет за 2024 год хотя на сайте Росгидромета есть все отчеты с 2007 года. И так со всеми ежегодными данными и отчетами, в первоисточниках их значительно больше
3. Практически все разделы с главной страницы не содержат ничего, просто там пусто хотя как минимум часть отчетов публикуются подведами Росгидромета и на сайте Росгидромета
4. Единственный регулярно обновляемый раздел - это Реестр оперативных показателей максимального кратковременного загрязнения атмосферного воздуха по данным Росгидромет где есть ежесуточные данные.
5. Открытых данных, API для доступа к данным нет, хотя недокументированное API есть
6. Было предположение что часть материалов может быть доступно если в системе авторизоваться через ЕСИА. Предположение ошибочное, после авторизации ничего нового тоже нет.

В целом не знаю как эту систему вообще принимали в эксплуатацию, она не имеет характеристик даже частично законченного продукта, но что меня лично напрягает так это неполное дублирование отчетов по экомониторингу с сайта Росгидромета и его подведов, тут в пору задуматься, а не объявят ли эту ФГИС единственным местом их размещения, а в других местах поудаляют? Надо архивировать, в общем.

Не говоря уже о том что данные из отчетов имеют среднюю задержку в год (отчеты за 2024 год публикуются в конце 2025) и была надежда что в этой ФГИС появятся не документы, а данные, но надежды не оправдываются.

А самое главное и критерий значимости публикации данных в их повторном использовании. А кто их использует, а как их использовать? Вопросы риторические. Есть подозрение что о пользователях тут не думали, не думают и не планируют думать.

#opendata #closeddata #russia #environment #ecology
👍83😢2👌21