4 place 0

656 AI-агент действительно ловит баги? Пусть докажет на бенчмарке

Habr
spoon03 @ Habr · 05/17/2026 13:52 EDT

AI-агент действительно ловит баги? Пусть докажет на бенчмарке

Привет! Это снова Михаил Федоров. В первой статье — архитектура QA Assist: 11 AI-агентов от декомпозиции требований до готовых автотестов. Во второй — как «4 часа подключения» превращаются в неделю корпоративной реальности. В третьей — почему пирамида тестирования ломается, когда тест-дизайнером работает LLM. Сегодня — про то, как я решил наконец-то перестать оценивать агента «на глаз» и собрал отдельный проект-бенчмарк, на котором можно честно сравнивать прогоны: версии агента, отдельные «улучшалки», даже.

To see detailed statistics for the news please log in »

Read the original

Add your comment
You must be logged in with Facebook to read and write comments.

A newsletter a day!

You may get 10 most important news around midday in daily newsletter. Press the button and we will send you the most important news only, no spam attached.

or register

LIKE us on Facebook so you won't miss the most important news of the day!

News from the same source
Habr Habr
Silicon Valley
George Avalos @ Silicon Valley 1 place · 02/07/2106 01:28 EDT

Newark apartment complex bought for much less than prior value

An East Bay apartment complex has been bought at a price that's well below its prior value. Read more

0

🔮
06.06.2026 ♏︎ Horoscope for Scorpio Today Dear Scorpio, today awaits you a varied and насыщенный день, in... Read more ›
Silicon Valley
George Avalos @ Silicon Valley 2 place · 02/07/2106 01:28 EDT

PG&E buys San Jose building to bolster South Bay operations

A PG&E Corp. unit has bought a San Jose building in a move to bolster the utility's South Bay operations. Read more

0

Slashdot
EditorDavid @ Slashdot 1 place · today 20:40 EDT

Cheaper EVs Sales are Increasing

Sales have increased for Hyundai's under-$35,000 IONIQ 5, totalling 18,395 for the first five months of 2026, reports Electrek, "up 16% from the same period last year." But meanwhile BYD's overseas sales surpassed 160,000 for the first time last month, "up 80% from May 2025 and 19% from the previous record of 135,098 set in April." Through the first five months of 2026, BYD sold 616,263 vehicles overseas. In May,... Read more

0 newcommer

Ubergizmo
Paulo Montenegro @ Ubergizmo 1 place · today 20:36 EDT

Did You Notice? Gooogle Says Chrome Is Now Up To 10% Faster

Google has officially rolled out updates to its Chrome browser, delivering measurable speed improvements that reach up to 10% in industry-standard benchmarks. These architecture refinements directly translate to quicker page loading and faster tab initialization, minimizing latency for daily internet use. According to technical documentation provided by Google, the primary driver behind this performance increase lies in targeted optimizations within the JavaScript engine. Developers re-engineered the engine Read more

0 newcommer

Digital Trends
Moinak Pal @ Digital Trends 1 place · today 20:18 EDT

Google’s new AI reply system could make texting feel easier

Google Messages is reportedly testing a new “tap to draft” feature that uses AI to generate longer, more contextual text replies inside conversations. Read more

0 fresh

Digital Trends
Moinak Pal @ Digital Trends 2 place · today 20:09 EDT

The big-budget Avatar: The Last Airbender RPG has reportedly been cancelled

A reportedly ambitious AAA Avatar: The Last Airbender RPG has been cancelled, ending hopes for a large-scale open-world adventure in the beloved animated universe. Read more

0 fresh

SlashGear
SlashGear 1 place · today 19:45 EDT

Police Are Warning Of A Hard-To-Spot Scam Hitting Gas Pumps This Summer

There a new scam running from coast to coast that could allow bad actors to steal gas from you. Here's what to watch for and how to keep yourself safe. Read more

0 fresh

Eurogamer.net
Matt Wales @ Eurogamer.net 1 place · today 19:10 EDT

Silent Hill 2 remake studio is back with more sci-fi horror, and this time it's taking Star Trek to a mysterious, hostile world

Well here's something that wasn't on my Summer Game Fest bingo card. Bloober Team, the studio behind the likes of Observer and 2024's sublime Silent Hill 2 remake, has unveiled its latest foray into the dread world of horror: a Star Trek game coming next year. Read more Read more

0 fresh

GSMArena.com
GSMArena.com 1 place · today 19:02 EDT

Samsung Galaxy Watch9 and Watch Ultra 2's charging speeds revealed as they get 3C certified

Samsung is expected to unveil its next-gen Galaxy Watches alongside its new folding smartphones, rumored to go official on July 22 at an event in London. Samsung hasn't confirmed how many smartwatches it will unveil, but the charging speeds of two of them have been revealed as they got 3C certified. The two Samsung smartwatches, bearing model code SM-L3550 and SM-L7150, have appeared in the 3C database with support for... Read more

0 fresh

TechRadar
TechRadar 1 place · today 19:00 EDT

Quordle hints and answers for Sunday, June 7 (game #1595)

Looking for Quordle clues? We can help. Plus get the answers to Quordle today and past solutions. Read more

0 fresh

TechRadar
TechRadar 2 place · today 19:00 EDT

NYT Strands hints and answers for Sunday, June 7 (game #826)

Looking for NYT Strands answers and hints? Here's all you need to know to solve today's game, including the spangram. Read more

0 fresh

TechRadar
TechRadar 3 place · today 19:00 EDT

NYT Connections hints and answers for Sunday, June 7 (game #1092)

Looking for NYT Connections answers and hints? Here's all you need to know to solve today's game, plus my commentary on the puzzles. Read more

0 fresh

Habr
Elliot_001 @ Habr 1 place · today 18:48 EDT

«Приятная беседа», ставшая допросом: как большие компании сломали процесс повышения разработчиков

В современной корпоративной культуре крупных ИТ-компаний процесс пересмотра грейдов и заработных плат давно превратился в самостоятельную бюрократическую экосистему. Индустрия, некогда гордившаяся своей гибкостью и ориентацией на измеримый результат, стремительно перенимает худшие практики академической среды. Переход разработчика с позиции Junior на Middle или с Middle на Senior все чаще напоминает сессию в техническом вузе, где вместо оценки реального вклада в продукт от сотрудника требуют сдачи формализо Read more

0 fresh

SlashGear
SlashGear 2 place · today 18:45 EDT

What OEM Tires Typically Come On The Honda CR-V?

The Honda CR-V is a massively popular vehicle, with 2025 sales figures of more than 400,000 in the United States alone. That's a lot of tires on U.S. roads. Read more

0 fresh

Slashdot
EditorDavid @ Slashdot 2 place · today 18:40 EDT

EU's Tech Sovereignty Package Includes 29 Pages on Open Source, Says Open Source Initiative

Friday the Open Source Initiative welcomed the EU's new tech sovereignty package, noting that "over a third of the 29-page document is devoted to Open Source." The nonprofit OSI — maintainers of the Open Source definition — submitted their official feedback in February, and notes that "many" of their key requests were addressed, "as well as some exciting new announcements!" One of the biggest barriers to Open Source adoption has... Read more

0 fresh

SlashGear
SlashGear 3 place · today 18:30 EDT

5 Reasons Why Someone Might Not Want To Wear A Smartwatch

From battery anxiety to privacy concerns, some of the biggest smartwatch drawbacks only become obvious after you've lived with one for a while. Read more

0 fresh

Habr
RaisonCollab @ Habr 2 place · today 18:29 EDT

Купил курс DevOps в Яндекс Практикуме: честный отзыв по ходу прохождения

Стоит ли покупать курс, если уже знаешь 70% материала? Я купил и делюсь своим мнением о прохождении курса Читать далее Read more

0 fresh

SlashGear
SlashGear · today 18:15 EDT

Why Do Some Mower Blades Have Side Holes In Them?

Have you ever wondered why some lawn mower blades feature extra holes next to the center bolt? Discover the mechanical and safety reasons behind them. Read more

0 fresh

The most popular news from the same source for the last week
Habr Habr
Habr
Edwward @ Habr · 05/30/2026 21:59 EDT

Перепрошивка системы вознаграждения. Мой друг Никотин Никотиныч

Для одних никотин — плагин. Для других — прошивка.Первым бросить легче. Это не про грейды «первые vs вторые».Это про разную конфигурацию системы вознаграждения. Слишком много факторов и их сочетаний — от стартовой реактивности, социального окружения и других параметров. Навскидку выделил примерно 17, очень упрощая.Конфигурация системы — это многомерное сочетание параметров, поэтому реакцию на никотин трудно предсказать.Я оказался из вторых. Курил 20 на 20, с n-попыток бросить курить. В среднем 20... Read more

0

Habr
t3chnowolf (МТС) @ Habr · 05/31/2026 03:00 EDT

AMD вложит 10 млрд долларов в Тайвань ради гонки ИИ с Nvidia. Что происходит?

AMD вложит больше 10 млрд долларов в Тайвань, чтобы ускорить выпуск ИИ-ускорителей и сократить отставание от Nvidia. Компания расширяет сотрудничество с крупнейшими тайваньскими производителями упаковки, подложек и серверных платформ, рассчитывая быстрее выводить на рынок новые поколения EPYC и Instinct.Ставка сделана не только на сами чипы, но и на инфраструктуру вокруг них. AMD инвестирует в технологии 2,5D-упаковки, сборку серверных стоек и интеграцию многокомпонентных систем для дата-центров. На фоне ст Read more

0

Habr
RiLordWi @ Habr · 05/31/2026 03:00 EDT

(Не)безопасный eBPF: что маркетологи забыли упомянуть об уязвимостях

eBPF называют «безопасным по умолчанию». Но что, если это не так? Все хвалят eBPF за «безопасность и изоляцию». Но что если данные из вашей eBPF-мапы может прочитать любой процесс с правами root? Я не буду учить писать свой eBPF-хелпер. Я покажу практический пример демонстрации этой уязвимости. Пора разобрать вопрос, о котором часто молчат: почему данные из eBPF-мап могут быть доступны не только вашему агенту. Читать далее Read more

0

Habr
Seklikov @ Habr · 05/31/2026 03:05 EDT

Простая аналитическая плафторма для 1С-ов и не только

Рассказываю о довольно простой, надежной и не дорогой архитектуре платформы данных, которую мы спроектировали и вывели в промышленную эксплуатацию. Она закрыла потребность в ежедневной консолидации данных из нескольких баз 1С и других источников, обеспечила отказоустойчивость и кардинально снизила совокупную стоимость владения за счет грамотного сочетания Open Source и недорогих коммерческих инструментов Читать далее Read more

0

Habr
molyanov @ Habr · 05/31/2026 03:49 EDT

Как я заработал 400 тысяч рублей на боте, который нарезает картинки на квадратики

Привет, я Паша, и я алкоголик вайбкодер. Хотя возможно лучше бы алкоголиком был…Вообще вайбкодингом я для души занимаюсь, а так-то у меня свой бизнес есть. Но бизнес это скучно, там вечно что-то решать надо, с людьми общаться, деньги считать, нологи платить, планерки проводить. Гораздо интереснее записывать голосовые сообщения в чат и получать дешевый дофамин, наблюдая, как Claude что-то там ковыряет в терминале.Под катом рассказываю, как навайбкодил телеграм-бота, которым пользуются SMM-щики... Read more

0

Habr
TrexSelectel (Selectel) @ Habr · 05/31/2026 04:01 EDT

Пять одноплатников мая 2026 года: Intel N300, RISC-V с AI и невыпущенный Raspberry Pi 6

Одноплатники большинства производителей давно перестали быть просто альтернативой Raspberry Pi. Ну а за последние несколько месяцев появились платы с 10-гигабитной сетью, поддержкой нескольких NVMe-накопителей, памятью LPDDR5 объемом до 16 ГБ и новыми RISC-V процессорами, которые постепенно выбираются из категории экспериментальных разработок.В этот раз посмотрим на несколько совершенно разных новинок: от ODROID-H5+ с четырьмя слотами M.2 и процессором Intel N300 до компактного Orange Pi Zero 3W размером 65 Read more

0

Habr
MarkovM (Amvera) @ Habr · 05/31/2026 04:25 EDT

Как решить конфликт в Git: merge, rebase, cherry-pick conflict

Всем снова привет!Если вы работаете с Git дольше пары дней и хотя бы иногда подтягиваете чужие изменения, то вы, скорее всего, уже сталкивались с конфликтами.В этой статье мы разберём, как действовать и, главное, мыслить в таких ситуациях. Проблема в том, что конфликтов в git может случиться куча: может сломаться ручной git merge, при git pull, может полететь при git rebase , git cherry-pick и т.д. Из-за этого одного конкретного решения... Read more

0

Habr
cyberscoper @ Habr · 05/31/2026 04:22 EDT

DNSSEC validation на Go: написал свой validator и не до конца сошёл с ума

Я пилю VantageDNS, privacy-focused recursive DNS-резолвер с фильтрацией. Edge-фронт на Go, 10 нод по миру, миекговский miekg/dns под капотом. На каком-то этапе у меня закончились отговорки, и пришлось писать DNSSEC validator. Своими руками. Ночью. Под кофе восьмой кружки.Ниже расскажу, как устроен trust chain, что есть в стандартной библиотеке, какие грабли разложены по дороге, и почему алгоритм 14 я до сих пор обхожу как кота во дворе. И не сошёл с... Read more

0

Habr
alex0x08 @ Habr · 05/31/2026 04:22 EDT

Про «случайных» людей в ИТ

Почему не стоит радоваться «очищению отрасли от случайных людей», что будет дальше и почему все это плохо кончится.На дворе непростой 2026, по всему миру волнами идут нехорошие события, что отражается и на нашем родном ИТ: массовые сокращения, повальное урезание бюджетов, закрытия и банкротства компаний. На фоне этих печальных событий, многие (даже опытные и достойные) сейчас теряют работу в ИТ, что вызывает у тех кто остался нездоровый энтузиазм и даже злорадство.... Read more

0

Habr
SLY_G @ Habr · 05/31/2026 04:54 EDT

[Перевод] Астрономы разглядели галактику, возникшую всего через 800 млн лет после Большого взрыва

На протяжении десятилетий астрономы, глядя в такие телескопы, как «Хаббл», пытались заглянуть в древнюю эпоху, когда зажглось первое поколение звёзд во Вселенной. Но маленькие галактики, которые были строительными блоками известного нам сегодня космоса, слишком тусклые, чтобы их можно было заметить даже с помощью самых мощных инструментов. Теперь, похоже, у астрономов наконец-то появилось два преимущества: космический телескоп «Уэбб» и немного удачи.В недавней статье, опубликованной в журнале Nature, группа Read more

0

Most popular sources

  • You see 401 news out of 401.
  • Sources 61 out of 61.
Silicon Canals 0%
VentureBeat 0%
ScienceDaily 0%
CNET 0%
Wired 0%
View sources »

LIKE us on Facebook so you won't miss the most important news of the day!

06.06.2026 20:56
Last update: 20:50 EDT.
News rating updated: 03:50.

What is Times42?

Times42 brings you the most popular news from tech news portals in real-time chart.
Read about us in FAQ section.


Times42 © 2026