12 place 0 fresh

77 AI Evals: Почему без оценки качества ваш продукт стоит на месте

Habr
alexlyk314 @ Habr · today 11:44 EDT

AI Evals: Почему без оценки качества ваш продукт стоит на месте

Вы меняете системный промпт, надеетесь, что все заработало и деплоите фичу в продакшен. На следующее утро прилетает жалоба: агент выдумал дедлайн или проигнорировал важную инструкцию. Вы снова открываете IDE, правите промпт, смотрите глазами на пару примеров — «вроде стало лучше» и цикл вновь повторяется.Если это ваша повседневная реальность, у нас плохие новости: вы не управляете продуктом, вы играете в лотерею.В мире, где LLM-агенты становятся основой бизнес-процессов, AI Evals (оценки) — это не дополните

To see detailed statistics for the news please log in »

Read the original

Add your comment
You must be logged in with Facebook to read and write comments.

A newsletter a day!

You may get 10 most important news around midday in daily newsletter. Press the button and we will send you the most important news only, no spam attached.

or register

LIKE us on Facebook so you won't miss the most important news of the day!

News from the same source
Habr Habr
Silicon Valley
George Avalos @ Silicon Valley 1 place · 02/07/2106 01:28 EDT

Newark apartment complex bought for much less than prior value

An East Bay apartment complex has been bought at a price that's well below its prior value. Read more

0

🔮
21.05.2026 ♎︎ Dear Libra! Today promises a насыщенный and bright day, filled with important events and opportunities... Read more ›
Silicon Valley
George Avalos @ Silicon Valley 2 place · 02/07/2106 01:28 EDT

PG&E buys San Jose building to bolster South Bay operations

A PG&E Corp. unit has bought a San Jose building in a move to bolster the utility's South Bay operations. Read more

0

Slashdot
BeauHD @ Slashdot 1 place · today 13:02 EDT

Waymo Pauses Atlanta Service As Its Robotaxis Keep Driving Into Floods

Waymo has paused service in Atlanta after one of its driverless cars entered a flooded street and got stuck. It follows a similar pause in San Antonio that prompted a recent software recall (PDF) over flood avoidance. TechCrunch reports: Waymo admitted that it hadn't finished developing a "final remedy" for avoiding flooded areas when it issued its software recall last week. Instead, the company said that it shipped an update... Read more

0 newcommer

Business Insider
Sydney Bradley @ Business Insider 1 place · today 13:01 EDT

Know an investor on the hunt for the 'next big thing' in social media? We want to hear from you.

We want to hear from you to find out who the must-know VCs backing social and consumer internet startups are — and where they're placing bets. Read more

0 newcommer

Gizmodo
Cheryl Eddy @ Gizmodo 1 place · today 13:00 EDT

‘Sinners’ Will Sink Its Teeth into Universal Studios’ Halloween Horror Nights

The park will feature a haunted house themed around Ryan Coogler's Oscar-winning vampire tale as part of its seasonal festivities. Read more

0 newcommer

The Verge
Andrew J. Hawkins @ The Verge 1 place · today 12:59 EDT

Uber is deploying its own self-driving cars again, just not as robotaxis

Uber is putting its own autonomous vehicles back on the road as part of its new AV Lab project to collect data for its dozens of robotaxi partners. The cars will be fitted with all the sensors typical of self-driving cars, like cameras, lidar, and radar. But notably the vehicles will not be operating as […] Read more

0 newcommer

Business Insider
Ben Shimkus @ Business Insider 2 place · today 12:57 EDT

SpaceX bought Tesla Megapacks and $131 million worth of Cybertrucks, its IPO filing shows

SpaceX's S-1 revealed hundreds of millions in Tesla purchases — and a Cybertruck order that may have boosted 2025 sales. Read more

0 newcommer

The Verge
Andrew Liszewski @ The Verge 2 place · today 12:57 EDT

This mechanical bird drops dead when your home’s air quality worsens

The original Birdie debuted in 2022 with a morbid-but-fun design - an air-quality monitor with a literal canary in a coal mine. When the CO2 in your home hit a certain level, a mechanical bird mounted on your wall would appear to drop dead, then prompt you to open a window to air things out. […] Read more

0 newcommer

Habr
Alexey42o @ Habr 1 place · today 12:56 EDT

Как я сделал утилиту для автоматизации ручных тестов

Привет, меня зовут Алексей и я C# разработчик. Однажды передо мной стояла задача написать утилиту для взаимодействия с различными UI-элементами в Windows и во всех популярных браузерах. Сама утилита не была связана с тестированием, но вполне годилась для автоматизации некоторых действий на машине, так как была простой в управлении и интуитивно понятной. Мне понравилось работать в этом направлении и возникла идея создания инструмента, который не будет перегружен широким функционалом RPA... Read more

0 newcommer

CoinDesk
Margaux Nijkerk @ CoinDesk 1 place · today 12:56 EDT

Ethereum’s identity crisis is deepening after high-profile 'brain drain' frustrates the community

What began earlier this week as shock over more exits of core figures has now evolved into something more existential, according to some community members. Read more

0 newcommer

Digital Trends
Vikhyaat Vivek @ Digital Trends 1 place · today 12:55 EDT

Motorola’s new Razr lineup just kicked off a carrier freebie war in the US

T-Mobile is offering the Razr Fold on Us with 6Rx network support, while Verizon is pushing free Razr 2026 and Moto G 2026 deals. Read more

0 newcommer

Gizmodo
Kyle Barr @ Gizmodo 2 place · today 12:52 EDT

The Tiny File Size of ‘Assassin’s Creed Black Flag’ Is Proof That Games Have Become Too Bloated

'Assassin's Creed Black Flag Resynced' is a reminder of when games felt less sprawling and more intimate. Read more

0 fresh

Business Insider
Dan Whateley @ Business Insider 3 place · today 12:50 EDT

We now know Elon Musk's aggressive approach to advertisers hasn't sparked a major revenue rebound for X

Elon Musk and X's efforts to win over advertisers after fights over content moderation haven't resulted in a bonanza. Read more

0 fresh

Habr
la__vita__felice @ Habr 2 place · today 12:50 EDT

Почему факты не работают: шесть причин, по которым люди верят слухам

Как вышло, что опытные венчурные инвесторы Silicon Valley Bank и IT-директора клиентов CrowdStrike принимали решения на основе слухов, игнорируя официальные отчеты и графики? За последние десять лет когнитивная наука накопила массив данных, доказывающий: классическая «модель информационного дефицита» больше не работает.​Статья носит справочный характер и задумана как навигатор по современным исследованиям для специалистов, которым необходимо понимать почему люди верят в опровергаемые мифы. Разберем 6 причин Read more

0 newcommer

The most popular news from the same source for the last week
Habr Habr
Habr
Lisset (Positive Technologies) @ Habr · 05/14/2026 12:52 EDT

Почему без архитектора контента невозможно масштабировать документацию компании

Привет, Хабр! Меня зовут Алиса Комиссарова, я руководитель отдела автоматизации и поддержки документирования Positive Technologies.Если вы работаете техническим писателем, скорее всего, ваши задачи ограничиваются разработкой пользовательской документации для одного продукта или направления. Вы привыкли пользоваться популярными инструментами документирования, знаете их основные функции и умеете писать и публиковать руководства. Но что меняется, когда перед вами стоит задача поддерживать документацию для всех Read more

0

Habr
Vitter007 @ Habr · 05/14/2026 13:15 EDT

Интеллектуальная кроссплатформенная система DocAI для медицинского образования

В прошлой статье я рассказывал о своём пути из медицины в IT, о том, как интерес к искусственному интеллекту постепенно привёл меня к созданию собственного проекта и стартапа.Тогда это была скорее личная история - про обучение, поиск профессиональной идентичности и первые шаги команды. В этой статье хочу подробнее рассказать уже о самом проекте: какую проблему мы решаем, как устроена система DocAI и почему мы считаем это направление перспективным для медицинского... Read more

0

Habr
NickAlister @ Habr · 05/14/2026 13:31 EDT

Codex 5.3 vs Claude Opus 4.6 на реальном Java-монолите

Я сравнил Codex 5.3, Claude Opus 4.6 и GPT-5.5 на реальном многомодульном Java-монолите: скопировал проект в отдельные ветки, дал агентам похожие задачи и прогнал их через цикл правок, ревью и e2e-тестов.Результат: чем дешевле - тем лучше результат. Читать далее Read more

0

Habr
SiYa_renko (OTUS) @ Habr · 05/14/2026 14:50 EDT

Ты QA и у тебя баги. Какие из них блокируют релиз?

Пятница, до релиза осталось два часа, а на финальной проверке всплывают баги: зависание после оплаты, профиль без обязательного телефона, расхождение в отчёте на несколько рублей. Для QA в такой момент важна не паника и не формальное «блокер/не блокер», а быстрая оценка последствий: кто пострадает, что сломается, есть ли обходной путь, видит ли команда проблему в логах и можно ли безопасно откатиться. В статье разбираем три типичных предрелизных дефекта и показываем,... Read more

0

Habr
Solmik @ Habr · 05/14/2026 15:40 EDT

Протокол UUCP

Дело было в девяностых годах прошлого века.Время беспокойное. Страна развалилась, люди обеднели, многие пытались уехать за границу. Особенно успешно отъезды получались у девушек, которые находили заграничных женихов.На этой ниве процветали брачные агентства, которые помогали с перепиской и оформлением документов. Но некоторые девушки пытались решить такие проблемы самостоятельно.И вот, ко мне обратилась за помощью одна знакомая. Хочу, говорит, вести переписку без агентства. Нужен компьютер и интернет.- Хоро Read more

0

Habr
nenkre @ Habr · 05/14/2026 15:47 EDT

Почему нельзя просто взять и сгенерировать идеальную иллюстрацию

Графические нейронки подарили редакторам сайтов, телеграм-каналов и прочим вебмастерам хорошую возможность – создать иллюстрации по текстовому описанию. Текст есть, ИИ-генератор есть, в чем же проблема?Проблема не столько в том, что иллюстрация может не подойти к материалу или к стилю сайта. Проблема в том, что ИИ-модели, даже самые мощные, не так-то просто заставить креативить. То есть, выдавать что-то небанальное и интересное.Особенно если вы не готовы сформулировать максимально точно, что хотите получить Read more

0

Habr
Imperius14 @ Habr · 05/14/2026 16:08 EDT

Как создавали норнов: тернистый путь программиста из Британии на пути к искусственной жизни

Рассказ об исследовательском проекте программиста в сфере ИИ из середины 90-ых, которую он оформил как компьютерную игру. Читать далее Read more

0

Habr
vano3d @ Habr · 05/14/2026 16:27 EDT

Автоматизация процессов в гидравлических системах ч. 2

Привет, Хабр!Полгода назад я рассказывал, как прикрутил мозги к своему гидравлическому прессу и что из этого получилось. С тех пор много воды (и масла!) утекло, сделал много нового и хочу этим поделиться.На тот момент было несколько моделей контроллеров, вот флагманская модель Читать далее Read more

0

Habr
mrq @ Habr · 05/14/2026 16:35 EDT

Шрифтовые иски в РФ: 15,3 млн ₽ взысканий за 5 лет и как технически проверить свой сайт

Если вы веб-разработчик и хоть раз подключали шрифт "потому что он красивее, чем системный Arial" — есть ненулевая вероятность, что у вас на сайте лежит коммерческий гарнитур без лицензии. Российский бизнес три-пять лет назад массово открыл для себя, что это не безобидно: за период 2021—2025 годов через арбитражные суды по шрифтовым искам взыскано 15,3 млн ₽ (данные Коммерсанта), число исков выросло в 2,5 раза за пять лет, и тренд продолжается.При... Read more

0

Habr
Wagok @ Habr · 05/14/2026 18:43 EDT

Когда Кнут признаёт, что Claude решил его задачу за час — пора менять инфраструктуру

— Научная инфраструктура построена под режим «один человек читает один PDF». Этот режим перестаёт быть основным. — Peer review наполовину случаен (NeurIPS 2021: 50,6% работ, принятых одним комитетом, отклонены другим). Медианное время до решения — 198 дней. APC в Nature — $12 690. Подачи в arXiv в 2025 году — 20–26 тысяч в месяц. — LLM уже внутри процесса с обеих сторон: 21% рецензий на ICLR 2026 — машинные, около... Read more

0

Most popular sources

  • You see 888 news out of 892.
  • Sources 61 out of 61.
Tech.co 0%
ScienceDaily 0%
Tech Wire Asia 0%
The Next Web 0%
Ubergizmo 0%
View sources »

LIKE us on Facebook so you won't miss the most important news of the day!

21.05.2026 13:11
Last update: 13:06 EDT.
News rating updated: 20:03.

What is Times42?

Times42 brings you the most popular news from tech news portals in real-time chart.
Read about us in FAQ section.


Times42 © 2026