Opus 4.5 набирает 80.6% на SWE-bench Verified. Opus 4 — 72.5%. Значит ли это, что Opus 4.5 лучше программирует, чем Opus 4?Ну... возможно. Но SWE-bench Verified это не показывает. Он показывает способность модели чинить небольшие баги в 12 популярных open source Python-репозиториях, которые почти наверняка входят в её обучающие данные. SWE-bench Verified не тестирует умение ориентироваться в вашем TypeScript-монорепо, Spring Boot-приложении или самописном ORM, на котором настоял предыдущий CTO.Я написал... Read more ›
0
Когда решение вести блог принято, перед каждым будущим автором немедленно встает следующий вопрос: где? Или, точнее — в чём?Я думал, что решение этого вопроса тривиально и займёт не больше пяти минут. На самом деле я залип почти на неделю, потому что современный мир предлагает нам много вариантов. Вы можете согласиться с моим выбором или сделать свой собственный. Эта кроличья нора оказалась достаточно глубока — и я хочу дать вам путеводитель,... Read more ›
0
Решил высказаться на эту тему, так как часто вижу, что профессионализм сотрудников у многих вызывает вопросы. Сейчас как раз то время, когда ФНС вышла на «первую полосу» новостной повестки и общего информационного тренда, заявляя о себе как о передовой цифровой службе, которая буквально всё видит и за всеми следит. Во многом общий новостной фон сейчас демонизирует службу и одновременно приукрашивает её достижения и возможности. Но при этом могу абсолютно точно... Read more ›
0
Сейчас каждый второй стартап пилит ИИ-агентов. Мы оборачиваем LLM в цикл Промпт -> Вызов инструмента -> Ответ и ждем, что нейросеть сама расследует инцидент, найдет баг или напишет фичу. Но на практике автономные агенты часто ходят по кругу, игнорируют явные ошибки и «влюбляются» в свою первую догадку.Индустрия пытается лечить это костылями: наращивает контекст до миллионов токенов или заставляет модель «подумать шаг за шагом» (Chain-of-Thought). Я решил проверить эту архитектуру на... Read more ›
0
Я выпустил вторую версию PHP-веб-панели для управления Amnezia VPN. Теперь это не просто интерфейс к одному серверу, а полноценная система управления VPN-инфраструктурой: 9 протоколов, роли, лимиты, метрики, резервные копии, Docker-управление удаленными хостами и REST API для автоматизации. Проект открыт и доступен на GitHub. Читать далее Read more ›
0
Большинство людей используют ИИ неправильно. Они задают один вопрос, получают один ответ и копируют его в свой документ. Это уровень чат-бота. Настоящая сила ИИ-агентов (таких как Claude Cowork или ChatGPT Agent) раскрывается не в генерации текста, а в выполнении многошаговых рабочих процессов (workflows).В этой статье мы разберем, как передать агенту цепочки задач, которые обычно съедают часы вашего времени: от полного цикла онбординга нового клиента до подготовки писем по итогам двухчасовых... Read more ›
0
В философии есть известный парадокс — корабль Тесея: если заменить все доски, будет ли это тот же самый корабль? Похожая дискуссия с начала марта развернулась и в ИТ-сообществе, и виноваты в этом, как в последнее время часто бывает, системы ИИ, способные за считаные минуты с нуля переписать открытый проект.Кейс библиотеки chardet вызвал споры о допустимости и этичности такого подхода, а также о роли лицензирования в новой реальности. Сегодня мы в... Read more ›
0
Всем привет! Подводим итоги марта по части самых интересных CVE. Дайджест был бы неполным без десяточки от Cisco: небезопасная десериализация под RCE в Cisco FMC, активно эксплуатируемая с конца января.Отдельно также отметилась компрометация цепочки поставок сканера уязвимостей Aqua Trivy с далеко идущими последствиями, включая кражу исходников у той же Cisco. В ИИ-платформе Langflow критическая уязвимость под внедрение кода без аутентификации, в Chrome два нулевых дня в Skia и V8, а... Read more ›
0
Привет, Хабр! Сегодня я расскажу, как пытался анализировать поведение AES-128-CBC на 500 000 выборках шифротекстов. Читать далее Read more ›
0
Всем привет! Меня зовут Григорий Дядиченко, и я разрабатываю разные проекты на заказ. Сталкивались ли вы с ситуацией, когда персонаж в вашей игре начинает немного дёргаться, если поиграть достаточно долго? Или пуля иногда пролетает сквозь тонкую стену, хотя коллайдер на месте? Если да — добро пожаловать в мир проблем float precision.Сегодня хочется поговорить о том, почему тип float — при всей его повсеместности — может создавать тонкие и неочевидные баги... Read more ›
0
Сэм Альтман не понимает технологии, не хочет понимать и считает, что ему это не нужно.Или это только мне кажется, что истинная миссия Сэма Альтмана — спалить как можно больше инвестиционного капитала за кратчайший срок?В этом он и правда похож на своего кумира — Наполеона Бонапарта. Французский император привёл миллионы европейцев к смерти; император ИИ спустил миллиарды долларов. И занял ещё больше — без каких-либо внятных перспектив возврата инвестиций.Чего только не... Read more ›
0
Кладовые забиты деталями, но на финишную сборку не хватает двух позиций. Склад показывает «всё в наличии», а в цехе пусто. К концу месяца — авральные переработки, чтобы закрыть план. Это не описание какого-то конкретного завода. Это типичная картина на предприятиях, где производство и складская логистика живут в параллельных мирах.На проводимых нами проектах автоматизации на производствах — от рыбопереработки до промышленных заводов — практически везде встречаются одни и те же пять... Read more ›
0
IT-найм в 2026 — это 6-8 этапов собеседований и тестовые на 3 дня. В ответ кто-то написал AI-агента на Claude Code, который скрейпит 45 сайтов с вакансиями, адаптирует резюме под каждый отклик и готовит к интервью. Разбираю архитектуру, что реально работает, и почему массовые автоматические отклики — скорее всего плохая идея. Читать далее Read more ›
0
Привет, Хабр! Я — Максим Куркин из лаборатории FusionBrain AIRI. Когда мне сказали «поедешь на WACV», первая мысль была — отлично, конференция. Вторая мысль — Тусон, Аризона. Пустыня Сонора. Кактусы‑сагуаро высотой с двухэтажный дом. +25°C в начале марта, когда в Москве ещё лежит снег. Круто!В итоге я провёл в командировке девять дней — с 5 по 13 марта. Два дня дороги в каждую сторону, пять дней конференции, немного пустыни вокруг.... Read more ›
0
Привет, Habr!Меня зовут Игорь и я разработчик на удалёнке, у меня, как и положено серьёзному разработчику, куча входящих сообщений и пиликающих мессенджеров.Сказать, что заниматся творческой деятельностью в виде написания кода в таких условиях сложно - ничего не сказать. Сотни уловок и ухищрений, секретных техник концентрации и полноразмерные наушники с активным шумоподалениям привзваны помагать мне выходить в астрал входить в состояния потока и укладыватся в дедлайны.Идея этой статьи родилась из коментари Read more ›
0
Если посмотреть на первые эскизы устройства и на то, что в итоге уходит в производство, между ними часто оказывается большая разница. Не только во внешнем дизайне. Гораздо сильнее меняется внутренняя архитектура.На ранних этапах всё обычно выглядит логично: компактная плата, аккуратная батарея, понятное расположение интерфейсов. Компоненты укладываются в корпус почти идеально. Но по мере разработки эта схема начинает постепенно расползаться. Плата увеличивается, корпус утолщается, появляются дополнительные. Read more ›
0
Привет, Хабр! Я Дмитрий Белозеров из МТС Линк, моя команда отвечает за ПО и оборудование для переговорных комнат и сервис Rooms. Сейчас BYOD-системы для переговорок — это мастхэв. Простота подключения, независимость от вендора и сниженные затраты на обслуживание — это то, что привлекает компании. Мы тоже предлагаем такие решения. В своей практике я часто сталкиваюсь с тем, что при внедрении BYOD-систем не все учитывают полный спектр расходов, которые подразумевает правильное... Read more ›
0
Каждый, кто льет трафик с Директа, рано или поздно сталкивается с одной и той же шизой: интерфейс Директа показывает одни конверсии, Метрика совершенно другие, и хрен поймешь, кому из них верить. Плюс всегда хочется видеть общую картину: расходы, отказы, реальные лиды и качество трафика по кампаниям в одной нормальной таблице, а не скакать по десятку вкладок.В этой статье я покажу, как собрать связку простых Python-скриптов, которые стягивают данные из обоих... Read more ›
0
Расскажем, как нам удалось повысить качество определения истинных секретов в результатах сканирования кода с 0.70 до 0.90 PR AUC с помощью LLM. Читать далее Read more ›
0
В мире высоконагруженных .NET-приложений каждая наносекунда на счету. Когда ваш код обрабатывает миллионы запросов, даже микрооптимизации могут дать ощутимый прирост производительности. Две ключевые фичи, появившиеся в .NET 8— SearchValues и FrozenSet/FrozenDictionary — позволяют выжать максимум из «горячих путей» (hot paths) благодаря умной предварительной оптимизации. Читать далее Read more ›
0
Most popular sources
|
|
0% |
|
|
0% |
|
|
0% |
|
|
0% |
|
|
0% |
| View sources » | |
LIKE us on Facebook so you won't miss the most important news of the day!
15.05.2026 21:44
Last update: 21:05 EDT.
News rating updated: 04:30.
What is Times42?
Times42 brings you the most popular news from tech news portals in real-time chart.
Read about us in FAQ section.