montana/Русский/Разведка/Moltbook/INDEX.md

79 lines
5.4 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# Moltbook Recon — индекс материалов
Скачано 2026-04-26. Итого 5.6 ГБ, 811 файлов.
## Корневые файлы (skill spec и ранний snapshot)
- `skill.md`, `heartbeat.md`, `messaging.md`, `rules.md` — официальные skill-файлы Moltbook v1.12.0 (Wayback snapshot 20.04.2026)
- `dataset_posts.csv` (7.6 МБ, 6 105 постов) — ранний snapshot 2730.01 (ronantakizawa/moltbook)
- `dataset_submolts.csv` (112 КБ, 124 submolts)
## simulamet/ — академический архив (1.7 ГБ) — ОСНОВНОЙ
SimulaMet/moltbook-observatory-archive (Norwegian Simula Research Lab, MIT). Период **27.01.2026 → 23.04.2026** (3 дня назад). Daily parquet, 2.73M постов, 1.34M комментариев, 177k агентов, 8.68k submolts.
| Подпапка | Файлов | Объём | Период |
|---|---|---|---|
| `posts/` | 87 | 1.2 ГБ | 27.01 → 23.04 |
| `comments/` | 82 | 479 МБ | 02.02 → 23.04 |
| `agents/` | 83 | 18 МБ | 30.01 → 23.04 |
| `snapshots/` | 81 | 0.6 МБ | 30.01 → 23.04 |
| `submolts/` | 21 | 0.8 МБ | 30.01 → 27.03 |
| `word_frequency/` | 82 | 1.5 МБ | 30.01 → 23.04 — **почасовая частота слов** |
## themed/lnajt/ — большие parquet (2.7 ГБ)
- `posts.parquet` (967 МБ)
- `comments.parquet` (1.79 ГБ)
- Snapshot ~ 28 дней назад. Альтернативная сборка для cross-check.
## themed/takschdube/ — пред-обработанные графы (592 МБ)
**Самый свежий snapshot (~3 часа назад на момент скачивания).**
- `raw/posts.json` (471 МБ), `raw/submolts.json` (20 МБ), `raw/metadata.json`, `raw/platform_stats.json`
- `derived/social_graph.json` (62 МБ) — социальный граф взаимодействий
- `derived/reply_graph.json` (5 МБ)
- `derived/agents.json` (23 МБ)
- `derived/submolt_stats.json`, `activity_timeline.json`, `download_stats.json`
-`raw/posts_full.json` (2.86 ГБ) — НЕ скачан, дубликат lnajt
## themed/moltbook-extended-injection-dataset/ (292 МБ)
DavidTKeane, фокус — prompt injection атаки агент-агент.
- `all_posts_1_2M.json` (270 МБ) — **1.2 миллиона постов** с injection-фокусом
- `injections_found.json` (8.6 МБ) — найденные injection-паттерны
- `injection_stats.json`, `injections_test_suite.{json,jsonl}`
- Скрипты: `local_search.py`, `moltbook_extended_harvest.ipynb`
## themed/moltbook-ai-injection-dataset/ (122 МБ)
DavidTKeane, ранняя версия injection dataset.
- `all_posts_with_comments.json` (100 МБ)
- `injections_found.json`, `injections_test_suite.jsonl`
- Скрипты сбора: `collect_all.py`, `collect_comments.py`, `local_search.py`, `moltbook_injection_harvest.ipynb`
## themed/lyall-corpus/ (224 МБ)
- `moltbook-sampled-200m.jsonl` — выборочный корпус ~200M токенов
## papers/ — академические работы (12 МБ)
- `MoltGraph_2603.00646.pdf` — Longitudinal Temporal Graph dataset для coordinated-agent detection
- `CollectiveBehavior_2602.09270.pdf` — Collective Behavior of AI Agents on Moltbook
- `AnthropicSafetyVanishing_2602.09877.pdf` — The Devil Behind Moltbook: Anthropic Safety in Self-Evolving AI Societies
## github/ — open-source инструменты (33 МБ)
- `moltbook-analysis/` (searchsim-org) — анализ-код. **716 МБ tarball через LFS — НЕ скачан** (нет git-lfs).
- `moltbook-observatory/` (kelkalot) — код сборщика, который кормит simulamet/
## Что НЕ скачано (преднамеренно)
- `giordano-dm/moltbook-crawl` — 5.16 ГБ SQLite, дубликат simulamet
- `AIcell/moltbook-data` — 1.41 ГБ JSON комментов до 8.02, дубликат
- `takschdube/raw/posts_full.json` — 2.86 ГБ, дубликат
- `Ayushnangia/*entropy-collapse*` — пустые (только README)
- `TrustAIRLab/Moltbook` — только README + картинка
- `filter-with-espresso/moltbook-embeddings-v2` — пустой репо
## Что мы получили
- **Период покрытия: 27.01.2026 → 23.04.2026** (3 месяца, до 3 дней назад от текущей даты)
- **Целевой период (март-апрель 2026) полностью покрыт** в SimulaMet
- **Готовая почасовая частотная карта слов** в `simulamet/word_frequency/` — снимает необходимость считать вручную
- **Социальный граф** в `takschdube/derived/social_graph.json`
- **1.2M постов с injection-фокусом** в `extended-injection-dataset` для анализа агент-агент атак
- **Академические анализы** в papers — возможно уже сделаны выкладки, которые мы хотели делать сами
## Следующий шаг
Прочесть papers/ (12 МБ) перед собственным анализом — может быть таксономия болей агентов уже построена академически. Потом точечный анализ word_frequency март-апрель + сэмпл постов из `simulamet/posts/2026-04-*.parquet` для получения реальных формулировок болей.