4 place 0 fresh

46 Новый бенчмарк по кодингу для LLM ProgramBench: 9 топ моделей, 200 задач, 248 тысяч тестов. Полностью решённых — ноль

Habr
Maslennikovig @ Habr · today 07:19 EDT

Новый бенчмарк по кодингу для LLM ProgramBench: 9 топ моделей, 200 задач, 248 тысяч тестов. Полностью решённых — ноль

200 задач. 248 тысяч тестов. Девять моделей, среди них всё свежее: Opus 4.7, GPT 5.4, Gemini 3.1 Pro, Sonnet 4.6. На SWE-bench те же модели берут 70 % и выше. На ProgramBench — ноль полного резолва. Лучший «почти решено» у Opus 4.7 — 3 %. У остальных и того нет. Это новый бенчмарк от Meta Superintelligence Labs, Stanford и Harvard (2026). Агенту дают скомпилированный бинарь и описание программы. Никаких сорсов, никакой декомпиляции, никакого интернета. Задача — собрать программу с нуля так, чтобы она прошла

To see detailed statistics for the news please log in »

Read the original

Add your comment
You must be logged in with Facebook to read and write comments.

A newsletter a day!

You may get 10 most important news around midday in daily newsletter. Press the button and we will send you the most important news only, no spam attached.

or register

LIKE us on Facebook so you won't miss the most important news of the day!

News from the same source
Habr Habr
Silicon Valley
George Avalos @ Silicon Valley 1 place · 02/07/2106 01:28 EDT

Newark apartment complex bought for much less than prior value

An East Bay apartment complex has been bought at a price that's well below its prior value. Read more

0

🔮
15.05.2026 ♐︎ Dear Sagittarius, today you may feel some unevenness in various areas of your life. Try... Read more ›
Silicon Valley
George Avalos @ Silicon Valley 2 place · 02/07/2106 01:28 EDT

PG&E buys San Jose building to bolster South Bay operations

A PG&E Corp. unit has bought a San Jose building in a move to bolster the utility's South Bay operations. Read more

0

CoinDesk
Olivier Acuna @ CoinDesk 1 place · today 08:12 EDT

Gemini's revenue improved 42% year-over-year to $50.3 million, helping narrow its net loss by 27% from $149.3 million a year earlier. Read more

0 newcommer

Tom's Hardware
Tom's Hardware 1 place · today 08:11 EDT

Samsung starts winding down chip production six days before planned 18-day strike — company enters 'emergency management mode,' daily losses could hit $2 billion

Samsung Electronics has reportedly begun throttling semiconductor output by cutting new wafer input and placing lithography, etching, and cleaning equipment on standby. Read more

0 newcommer

Habr
IgnatChuker @ Habr 1 place · today 08:07 EDT

Внезапный обзор Tecno Spark Slim

Привет, Хабр!Иногда судьба преподносит нам странные подарки и знакомства. Один мой знакомый попросил у меня телефон Samsung для каких-то своих тестов. Телефон был не новый, но и не совсем старый, я отдал, но с возвратом. Потому что сам хотел попробовать накатить на устройство какую-то из отечественных российских систем, например, вышедший недавно «Альт Мобайл» или «Ред ОС М».Однако мой знакомец перестарался, и Samsung почил — я так и не понял, то... Read more

0 newcommer

Business Insider
Thibault Spirlet @ Business Insider 1 place · today 08:07 EDT

Paul Graham just threw cold water on the Stockholm-is-the-next-Silicon Valley idea

The YC cofounder said ambitious founders should still spend time in Silicon Valley to access talent, speed, and investors. Read more

0 newcommer

Gizmodo
Cheryl Eddy @ Gizmodo 1 place · today 08:02 EDT

‘Widow’s Bay’ Creator on That Self-Help Book From Hell

Katie Dippold explains what inspired that very unique party-planning guide in this week's episode. Read more

0 fresh

Habr
Olesya-SpecLab (Спецлаб) @ Habr 2 place · today 08:01 EDT

Нейросуфлер

Всех нас очаровывают возможности ИИ описывать происходящее перед видеокамерой, особенно часто встречаются презентации Gemini. Но пока мы нигде не встречали ответа к вопросу – А зачем? Но вот в Спецлабе придумали собственное применение... Читать, как убивали человеческий фактор... Read more

0 newcommer

Irish Tech News
Simon Cocking @ Irish Tech News 1 place · today 08:00 EDT

New enhanced privacy for cloud collaboration developed by Irish researchers

The InvizCrypt platform, developed at Trinity, is designed so users can collaborate on sensitive documents without the platform provider being able to read the content. The global cloud productivity market exceeds $50 billion annually, for healthcare, legal, financial, and public-sector organisations, underlining the potential significance of this innovation. Researchers at Trinity College Dublin have developed a […] Read more

0 fresh

Gizmodo
James Pero @ Gizmodo 2 place · today 08:00 EDT

Bose Lifestyle Ultra Speaker Review: Sonos Can Start Sweating Now

Bose's Lifestyle Ultra Speaker is pricier than Sonos' counterpart, but impeccable sound makes those extra dollars feel worth it. Read more

0 fresh

Gizmodo
James Pero @ Gizmodo 3 place · today 08:00 EDT

Bose Lifestyle Ultra Soundbar Review: A Boisterous Stab at Dominating Home Theater

The Bose Lifestlye Ultra Soundbar wants to cram the benefits of surround sound and a subwoofer in one neat package, but can any soundbar really clear that lofty hurdle? Read more

0 fresh

Startups News
Daniel Levi @ Startups News 1 place · today 07:58 EDT

Cerebras pops 89% in Nasdaq IPO debut, hits $106B valuation amid AI frenzy

Cerebras Systems made a thunderous entrance onto the public markets Thursday, with shares soaring 89% above their IPO price in one of the biggest signs yet that Wall Street’s appetite for artificial intelligence remains far from cooling down. The AI ... Read more

0 fresh

Inc42 Media
Shrishti Bisht @ Inc42 Media 1 place · today 07:55 EDT

Apple Antitrust Probe: Delhi HC Asks CCI Not To Pass Final Order

The Delhi High Court has asked the Competition Commission of India (CCI) to not pass any final orders in its… Read more

0 fresh

The most popular news from the same source for the last week
Habr Habr
Habr
MrSethe (Data Sapience) @ Habr · 05/08/2026 07:38 EDT

Нагрузочное тестирование динамического маскирования в Apache Ranger: что происходит с производительностью запросов

Привет, Хабр! На связи Илья Амосов из команды поддержки Lakehouse-платформы данных Data Ocean Nova вендора Data Sapience. В сегодняшней публикации я раскрою тему влияния динамического сокрытия чувствительных данных на производительность SQL-запросов. Мы сравним различные методики маскирования, узнаем, как работает оптимизатор и движок со скрытыми полями, происходит ли деградация пропускной способности платформы, как влияет на производительность выбранный метод сокрытия чувствительных данных в случаях, если. Read more

0

Habr
omyhosts (ISPsystem) @ Habr · 05/08/2026 07:44 EDT

Собачий корм, фичекрип и несостоявшаяся революция — Windows Longhorn

Многие из нас до сих пор нежно хранят в своем сердце воспоминания о Windows XP. И есть за что. Дружелюбная к пользователю, надежная (особенно после 98-ой и «линолеума»), да и просто ставшая для многих проводником в мир компьютеров — именно такой и была эта ОС. А вот пришедшую ей на смену Vista ругают до сих пор. В первую очередь, из-за низкой стабильности, которая бросалась в глаза после отточенной сервис-паками XP.... Read more

0

Habr
aleksandr_shulepov @ Habr · 05/08/2026 07:42 EDT

SEO после поисковой строки: как продвигать сайты, когда ответы дают ChatGPT, Алиса и Google AI

Поиск больше не живёт в одной строке Яндекса или Google. Пользователь спрашивает ChatGPT, уточняет в Алисе, сверяется с Perplexity, смотрит YouTube, карты, соцсети и нейроответы. Для бизнеса это означает одно: SEO не умерло, а стало шире, сложнее и заметно интереснее.Я, Александр, автор телеграм-канала «Shulepov Code», поговорил с Олегом Шестаковым — основателем «Rush Agency» и Rush Analytics — о том, как меняется продвижение сайтов, почему ключевые слова больше не решают всё,... Read more

0

Habr
pensiya35 @ Habr · 05/08/2026 07:50 EDT

Один тест — и вы поймёте, почему у вас не растёт доход. Всё про СВП

Два близнеца. Одна генетика, одно воспитание, одинаковый старт. Через 5 лет между ними пропасть.Один в депрессии и на таблетках, второй добился всего. Почему?IQ и усердие тут ни при чём. Всё решают рельсы, на которых мы едем.В тексте:— Кто рождён для бизнеса, а кто для зарплаты. — Кого нельзя брать в партнёры лично вам.— И почему один и тот же совет одного делает богатым, а второго топит.В конце — тест на... Read more

0

Habr
mbystrov_23 @ Habr · 05/08/2026 07:54 EDT

Найм в ИТ изнутри: что происходит с вашим резюме после отклика

Откликаться на вакансии в ИТ — иногда ощущается как говорить со стеной, особенно в 2026 году, когда ситуация на рынке труда, мягко говоря, сложная. Отправляешь что-то в черный ящик, тебе не отвечают… Или работодатель пропадает после какого-то этапа. Даже если всё идёт нормально, с момента отклика до оффера может пройти месяц и больше. Из-за этого возникает ощущение, что тебя игнорируют, резюме теряют, или вообще намеренно тянут время. Не буду говорить... Read more

0

Habr
TheSector @ Habr · 05/08/2026 08:00 EDT

The Sector — онлайн 2D-игра. Свой 2D Freelancer

Я долгое время увлекался фри шард серверами, линейкой, варкрафтом, дэйз, арк сурвайвал эволвед. Теперь пришло время сделать что‑то своё. Читать далее Read more

0

Habr
Kodik_AI (Kodik) @ Habr · 05/08/2026 08:04 EDT

[Перевод] ИИ-кодинг нетривиальной фичи в Ghostty

Примечание переводчика: на тему «ИИ в кодинге» есть много «хайповых» текстов, но мало технических. Вместо общих слов хотелось бы видеть разборы реальных ситуаций. Такой пост есть у Митчелла Хашимото (создателя терминала Ghostty), и мы решили перевести его для Хабра. Он опубликован ещё осенью, поэтому что-то могло устареть, но главные выводы остаются актуальными. Далее повествование идёт от лица Митчелла.Недавно я выпустил улучшение для Ghostty (ненавязчивые автоматические обновления для macOS), которое разр Read more

0

Habr
darovska_online (МТС) @ Habr · 05/08/2026 08:15 EDT

Все на завод! Робот импровизирует и решает промышленные задачи с 99% успеха

Роботы долгое время умели одно: безупречно копировать заученные движения. Но стоило реальности чуть отклониться от сценария — и они терялись. Теперь одна компания заявляет, что переломила эту ситуацию. Ее робот достигает 99% успеха в реальных задачах — не в лаборатории, а на производстве и в быту. Разработчики утверждают: машина понимает окружающий мир и адаптируется на ходу.Решение предложил Generalist — стартап, который строит базовые модели для роботов общего назначения. Его основал... Read more

0

Habr
shkvk (InfoWatch) @ Habr · 05/08/2026 08:17 EDT

Разбор реализации docs-as-code на базе Sphinx

Привет, Хабр! Меня зовут Артём Зеленкин, приятно познакомиться! Я работаю техническим писателем около 20 лет, сейчас занимаюсь документированием в подразделении ARMA компании Infowatch. Для создания и поддержки актуальности документации по продуктам линейки ARMA мы используем docs-as-code. Что из этого получается, можно посмотреть на сайте с документацией (там же можно скачать pdf-версию, чтобы сравнить, как оно выглядит в разных форматах при тех же исходных данных).В данной статье я не пытаюсь рассказать,. Read more

0

Habr
ArtSander @ Habr · 05/08/2026 08:17 EDT

Редизайн интернет-магазина премиальной косметики: как мы увеличили конверсию на 127%

Всем привет! Меня зовут Саша, и последние 12 лет моя жизнь — это дизайн.Как правило, мы выступаем за постепенные изменения: аккуратно дорабатываем продукт, тестируем гипотезы и опираемся на аналитику. Но иногда проекты находятся в таком состоянии, когда точечные улучшения уже не дают результата — требуется полная переработка. Именно с такой ситуацией мы столкнулись в работе над интернет-магазином японской косметики KWC.В статье рассказываю, какие решения были приняты и как они повлияли... Read more

0

Most popular sources

  • You see 820 news out of 820.
  • Sources 61 out of 61.
Skift 0%
AlleyWatch 0%
Droid Life 0%
150sec 0%
Ubergizmo 0%
View sources »

LIKE us on Facebook so you won't miss the most important news of the day!

15.05.2026 08:25
Last update: 08:20 EDT.
News rating updated: 15:23.

What is Times42?

Times42 brings you the most popular news from tech news portals in real-time chart.
Read about us in FAQ section.


Times42 © 2026