200 place 0 fresh

475 [Перевод] GDPval: измерение производительности AI-моделей на реальных задачах

Habr
kucev @ Habr · today 06:00 EDT

[Перевод] GDPval: измерение производительности AI-моделей на реальных задачах

Наша миссия — обеспечить то, чтобы искусственный общий интеллект (AGI) приносил пользу всему человечеству. В рамках этой миссии мы стремимся максимально прозрачно освещать прогресс того, как AI-модели учатся помогать людям в реальной жизни. Именно поэтому мы представляем GDPval — новую систему оценки, разработанную для отслеживания того, насколько эффективно наши модели и модели других разработчиков справляются с задачами, имеющими экономическую ценность и практическое значение. Мы назвали эту метрику GDPva

To see detailed statistics for the news please log in »

Read the original

Add your comment
You must be logged in with Facebook to read and write comments.

A newsletter a day!

You may get 10 most important news around midday in daily newsletter. Press the button and we will send you the most important news only, no spam attached.

or register

LIKE us on Facebook so you won't miss the most important news of the day!

News from the same source
Habr Habr
🔮
03.11.2025 ♌︎ Dear Lev, today promises to be насыщенным and vibrant in many aspects of your life.... Read more ›
Business Insider
Ayelet Sheffey @ Business Insider 1 place · today 12:34 EDT

'We will not let this stand': Trump's new rule that blocks student-loan forgiveness for some public servants is hit with a fresh lawsuit

A coalition of labor unions and cities filed a lawsuit against the Trump administration over its new rule to limit Public Service Loan Forgiveness. Read more

2,214 fresh

Gizmodo
Ellyn Lapointe @ Gizmodo 1 place · today 12:25 EDT

Elon Musk Wants to Block Out the Sun

The CEO of the largest satellite company in the world just proposed a bold—and totally misguided—solution to the climate crisis. Read more

2,015 fresh

Business Insider
Nora Redmond @ Business Insider 2 place · today 06:47 EDT

There's 'overwhelming evidence' tariffs have raised consumer prices, says Bank of America

The analysts wrote in a note on Friday that consumers have covered about 50% to 70% of the cost of tariffs to date. Read more

1,754 fresh

Tom's Hardware
Tom's Hardware 1 place · today 11:50 EDT

Trump says no Blackwell chips to be sold to China — Nvidia re-entry into Beijing nixed despite temporary trade truce

Despite a trade truce, Trump has just made it clear that Nvidia's flagship AI GPUs from its Blackwell lineup will not be allowed to be sold to China. Read more

1,467 fresh

MacRumors
Juli Clover @ MacRumors 1 place · today 13:19 EDT

Apple TV+ to Apple TV Rebrand Now Official, Here's the New Intro

Apple's planned Apple TV+ rebrand is official as of today, with Apple updating the ‌Apple TV‌+ page on its website to read just "‌Apple TV‌." Apple also shared a short YouTube video announcing the rebrand, featuring a rainbow-colored, animated ‌Apple TV‌ logo and a sound composed by Finneas. "This is just the beginning," reads the title of the video. On Instagram, Finneas shared the same video, and said that he... Read more

1,093 fresh

Wired
Gretchen Rundorff @ Wired 1 place · today 12:22 EDT

How to Watch the Leonids Meteor Shower

This month-long meteor shower peaks just after mid-November and is known for producing bright “fireball” shooting stars. Here’s what to know about Leonids and other major showers that will appear in 2025. Read more

739 fresh

Slashdot
msmash @ Slashdot 1 place · today 11:41 EDT

Palantir Thinks College Might Be a Waste. So It's Hiring High-School Grads.

Palantir launched a fellowship that recruited high school graduates directly into full-time work, bypassing college entirely. The company received more than 500 applications and selected 22 for the inaugural class. The four-month program began with seminars on Western civilization, U.S. history, and leaders including Abraham Lincoln and Winston Churchill. Fellows then embedded in client teams working on live projects for hospitals, insurance companies, defense contractors, and government agencies. CEO Ale Read more

710 fresh

Vox
Christian Paz @ Vox 1 place · today 07:00 EDT

Will the attacks on Zohran Mamdani awaken a “sleeping giant”?

As the New York City mayoral election enters the final stretch, with the Muslim American Democratic Party nominee Zohran Mamdani maintaining a sizable lead in all of the polls, a familiar beast has reared its head: blatant Islamophobia. Most of those dabbling in outright bigotry are unsurprising: right-wing shock-jocks and the pro-Trump New York Post. […] Read more

688 fresh

Business Insider
Alistair Barr @ Business Insider 3 place · today 11:57 EDT

Ruh Roh. Analysts sense a chill in enterprise AI demand.

RBC Capital Markets spotted a rare dip in AI spending by companies. They floated three potential reasons for the pause. Read more

684 fresh

Eurogamer.net
Matt Wales @ Eurogamer.net 1 place · today 11:32 EDT

Original Saints Row designer says unloved 2022 reboot "missed the mark", but the big news is Embracer wants him to pitch a revival

Saints Row 1 design director Chris Stockman has revealed he wants to revive the open-world crime series following developer Volition's poorly recieved 2022 reboot, and claims publisher Embracer Group has reached out to hear more. Read more Read more

674 fresh

Ars Technica
Benj Edwards @ Ars Technica 1 place · today 12:23 EDT

OpenAI signs massive AI compute deal with Amazon

Deal will provide access to hundreds of thousands of Nvidia chips that power ChatGPT. Read more

654 fresh

Business Insider
Kris Ann Valdez @ Business Insider · today 12:57 EDT

I never thought my family would need SNAP benefits. Then, my husband was laid off just after I had our third kid.

I never thought my family would need SNAP benefits. I was grateful for the help when my husband was laid off right after I had our third kid. Read more

486 fresh

Vox
Dylan Scott @ Vox 2 place · today 09:30 EDT

The subtle privatization of Medicare

If you’re signing up for Medicare benefits this open enrollment, odds are you aren’t actually enrolling in the traditional government program that people may envision. More than half of Medicare beneficiaries are now choosing an alternative version of the program administered by private companies. Medicare, the paragon of America’s welfare state, is undergoing a subtle […] Read more

458 fresh

Droid Life
Tim @ Droid Life 1 place · today 11:31 EDT

No Deal Yet Reached Between YouTube TV and Disney

It was a bad weekend for sports fans who subscribe to YouTube TV. Due to a dispute with Disney, many channels were unavailable over the weekend, including ESPN, SEC Network, and ACC Network. In a statement that went out late last week, YouTube TV says that, “Last week Disney used the threat of a blackout … Continued Read the original post: No Deal Yet Reached Between YouTube TV and Disney Read more

453 fresh

The most popular news from the same source for the last week
Habr Habr
Habr
Alexey_Begin @ Habr 1 place · 11/01/2025 08:15 EDT

«Хотите знать, как выглядит жизнь, когда ты не высший интеллект? Спросите у курицы»

Пятьдесят лет он создавал искусственный интеллект. Теперь говорит, что машины могут уничтожить человечество. Безработица, кибератаки, подтасовка выборов, вирусы, роботы-убийцы — далеко не полный список, что нас ждет. Что делать людям в таком мире? Учиться на сантехника. Пока... пока не появятся гуманоиды. Читать далее Read more

39

Habr
GradeBuilder @ Habr 2 place · 11/01/2025 04:29 EDT

Когда фантастика 1939 года становится реальностью 2025-го

Вчера вечером я впервые после детства взяла в руки рассказ «Я, робот» Эндо Биндера, опубликованный в январе 1939 года в журнале Amazing Stories.Именно Эндо Биндера (псевдоним братьев Эрла и Отто Биндеров) — а не Айзека Азимова. Это тот самый рассказ, чьё название Азимов «позаимствовал» одиннадцать лет спустя для своего знаменитого сборника 1950 года, причём сам Азимов протестовал против этого решения издателя, понимая, что название уже занято. А фильм 2004 года... Read more

36

Habr
LKamrad @ Habr 2 place · 10/31/2025 02:47 EDT

Смертельные ловушки для грабителей могил в древних гробницах. Где грань между правдой и вымыслом?

Так были ли такие ловушки в гробницах, и если да, то какие именно? Ведь на самом деле — раз древние египтяне вместе с усопшим царем хоронили несметные сокровища (в одной только весьма скромной гробнице Тутанхамона нашли более тонны золота!), то им стоило позаботиться о защите этих сокровищ. В том числе и установив ловушки для тех, кто мог посягнуть на вечный сон царя — на его жизнь после смерти. Читать далее Read more

7

Habr
qveex (BetBoom) @ Habr 1 place · 10/29/2025 04:17 EDT

Все знают о Leetcode — его можно любить, ненавидеть, презирать или даже бояться, но равнодушным точно не останется никто.Эта статья — впечатления о моём 600-дневном марафоне на этой платформе, динамике моих скилов и ответе на главный вопрос «надо ли решать там задачи?».Все было спокойно, пока мы с другом не заключили спор — сможем ли мы решить 100 задач до конца 2023 года? А это было 50 задач всего за 1... Read more

3

Habr
CrocInc (КРОК) @ Habr 2 place · 10/30/2025 07:08 EDT

Космос как стартап: NASA приземлила свой код на GitHub

Космос — самый дорогой стартап в истории человечества, поэтому неудивительно, что его технологии давно окупаются на Земле. И хотя мы привыкли к историям о космических материалах, беспроводных наушниках и системе навигации GPS, NASA сделала кое-что более близкое разработчикам — выложила в Open Source фреймворк, который управляет космическими миссиями.core Flight System (cFS) зародился как инструмент для управления спутниками и марсоходами, но довольно быстро превратился в модульную платформу, которая позволя Read more

3

Habr
Kamil_GR @ Habr 2 place · 10/29/2025 03:01 EDT

LLM as a Resonance-Holographic Field of Meanings

Alright. I pose the same question to an LLM in various forms. And this statistical answer generator, this archive of human knowledge, provides responses that sometimes seem surprisingly novel, and other times, derivative and banal.On Habr, you'll find arguments that an LLM is incapable of novelty and creativity. And I'm inclined to agree.You'll also find claims that it shows sparks of a new mind. And, paradoxically, I'm inclined to agree... Read more

2

Habr
spring_aio (Spring АйО) @ Habr 1 place · 10/29/2025 10:24 EDT

[Перевод] Ошибки, которые инженеры совершают при код-ревью

Код-ревью стало ключевым этапом в разработке: генерация кода с помощью LLM упростилась, а вот проверка его качества по-прежнему требует инженерной экспертизы. В новом переводе от команды Spring АйО эксперты сообщества подробно и на собственном опыте рассказали про нюансы код-ревью. Читать далее Read more

2

Habr
Xcom-shop (Группа компаний X-Com) @ Habr 3 place · 10/30/2025 04:47 EDT

Культовые программы нулевых: куда исчезли Winamp, ICQ, Nero и другие наши любимцы

Попробуйте вспомнить, что у вас стояло на рабочем столе лет 20-25 лет назад. Абсолютное большинство тех программ вы скорее всего уже даже не вспоминаете, не говоря уже о том, чтобы продолжать ими пользоваться. За эти годы поменялись не только наши личные предпочтения, но и рабочие сценарии. Тем интереснее будет вспомнить о приложениях, которые когда-то были основой софтового парка Windows-компьютеров. Читать далее Read more

2

Habr
LKamrad @ Habr 3 place · 10/30/2025 09:30 EDT

Загадка человека из Альтамуры

На юге Италии (в окрестностях города Альтамуры) мужчина провалился в расщелину и с высоты почти 15 м упал на груду земли и останков животных, провалившихся здесь до него. Он выжил, хотя сломал руку и повредил лопатку. В темноте пещеры человек безуспешно пытался найти выход, пока не присел обессилевший в одном из дальних тупиков. Здесь его и нашли спелеологи 7 октября 1993 года. Увы, помощь безнадежно опоздала – примерно на 150... Read more

2

Habr
Neurosonya @ Habr 3 place · 10/31/2025 08:43 EDT

Cursor 2.0: многоагентная AI-IDE и собственная модель Composer — что это меняет для разработчиков

В конце октября 2025 Anysphere представила Cursor 2.0 — крупное обновление AI-IDE с параллельными агентами и новой моделью Composer. Идея проста: вы ставите цели, а агенты пишут и проверяют код, тестируют и готовят диффы, а разработчик смещается к роли менеджера ИИ-процесса. В статье разбираемся, что именно появилось, на чем это работает и какие ограничения важно учесть. Читать далее Read more

2

Most popular sources

  • You see 590 news out of 590.
  • Sources 61 out of 61.
Business Insider 32% 3
Vox 8% 2
Gizmodo 8% 5
Tom's Hardware 7% 12
Slashdot 6% 1
View sources »

LIKE us on Facebook so you won't miss the most important news of the day!

03.11.2025 13:54
Last update: 13:45 EDT.
News rating updated: 20:41.

What is Times42?

Times42 brings you the most popular news from tech news portals in real-time chart.
Read about us in FAQ section.


Times42 © 2025