18 place 0 fresh

73 Pollux: LLM-as-a-judge для русского

Habr
DanAsOne (Сбер) @ Habr · today 05:00 EDT

Pollux: LLM-as-a-judge для русского

Прошло несколько лет с тех пор, как нейросетевые модели стали применимы в генерации текста. Сегодня языковые модели уверенно решают задачи написания кода, поддержки диалогов и планирования маршрутов. Тем не менее, до сих пор не сложилось универсального подхода для валидации LLM перед их внедрением в цифровые продукты.Но у нас есть решение! В этой статье я расскажу, как мы в Sber AI обучили специализированного LLM-судью (LLM-as-a-Judge) Pollux для оценки русскоязычных LLM. Мы выложили его в открытый доступ и

To see detailed statistics for the news please log in »

Read the original

Add your comment
You must be logged in with Facebook to read and write comments.

A newsletter a day!

You may get 10 most important news around midday in daily newsletter. Press the button and we will send you the most important news only, no spam attached.

or register

LIKE us on Facebook so you won't miss the most important news of the day!

News from the same source
Habr Habr
Silicon Valley
George Avalos @ Silicon Valley 1 place · 02/07/2106 01:28 EDT

Newark apartment complex bought for much less than prior value

An East Bay apartment complex has been bought at a price that's well below its prior value. Read more

0

🔮
19.05.2026 ♒︎ Horoscope for Aquarius today: Today promises to be fairly balanced for Aquarius, especially in personal... Read more ›
Silicon Valley
George Avalos @ Silicon Valley 2 place · 02/07/2106 01:28 EDT

PG&E buys San Jose building to bolster South Bay operations

A PG&E Corp. unit has bought a San Jose building in a move to bolster the utility's South Bay operations. Read more

0

Tom's Hardware
Tom's Hardware 1 place · today 06:20 EDT

Researchers attack AMD's Infinity Fabric to bypass hardware security protections with 'Fabricked' — flaw lets malicious cloud hosts silently read confidential VM memory and forge attestation reports

ETH Zurich researchers disclosed “Fabricked,” a software-only attack that manipulates AMD Infinity Fabric routing during boot to undermine SEV-SNP protections on EPYC systems, enabling malicious cloud hosts to read confidential VM memory and forge attestation reports Read more

0 newcommer

Digital Trends
Paulo Vargas @ Digital Trends 1 place · today 06:18 EDT

Intel reveals Project Firefly to make cheap Wildcat Lake laptops that rival MacBook Neo

Intel is trying to make budget Windows laptops look a lot less bargain-bin. Project Firefly, launched in China alongside Intel’s Wildcat Lake laptop chips, gives PC makers a common hardware playbook for thinner, cleaner, lower-cost systems that can take a more direct swing at MacBook Neo. The promise is simple, fewer compromises where budget laptops […] Read more

0 newcommer

TechRadar
TechRadar 1 place · today 06:18 EDT

Why business demand for AI video creation Is surging

As AI scales production, creative direction and execution become the new competitive edge. Read more

0 newcommer

Habr
dashsk @ Habr 1 place · today 06:13 EDT

Google убрал из Gemini Думающую модель. Обзор обновления Gemini

Google полностью обновила сайт и приложение Gemini. Появился выбор уровня мышления, новый дизайн и модель Flash Lite. Однако у пользователей забрали Thinking модель и сильнее ограничили Pro модель. Читать далее Read more

0 newcommer

Habr
badcasedaily1 (OTUS) @ Habr 2 place · today 06:10 EDT

Вы неправильно тестируете асинхронный код: тест проходит раньше, чем выполняется проверка

В статье разберём, как именно раннер решает, что тест прошёл, почему .then без return выполняется уже после теста, почему try/catch в async‑тесте — частый источник ложного зелёного, что не так с forEach и setTimeout внутри тестов и какие инструменты не дают тесту соврать. Примеры на Jest, но контракт у Mocha, vitest и прочих тот же. Читать далее Read more

0 newcommer

Habr
runity (Рунити) @ Habr 3 place · today 06:05 EDT

Shared-хостинг: технология уходит, а услуга остается?

SpaceWeb в этом году исполняется 25 лет. За это время хостинг из ремесла для энтузиастов превратился в инфраструктурную индустрию, а потом начал растворяться в облаке. Что будет дальше — не очевидно даже тем, кто этот рынок строил.К юбилею мы запускаем серию статей о будущем хостинга, инфраструктуры и всего, что вокруг них. Статьи будут выходить каждые две недели на протяжении всего лета и осени. В каждом тексте — два-три эксперта с... Read more

0 fresh

Vox
Ian Millhiser @ Vox 1 place · today 06:00 EDT

Packing the Supreme Court is no longer a fringe idea

Kamala Harris wants to talk about packing the Supreme Court. Last Wednesday, during a video event hosted by the advocacy group Win With Black Women, the former vice president rattled off a long list of democracy reforms that could be part of an “expanded playbook” Democrats can use to reverse a series of recent policy […] Read more

0 fresh

Wired
Wired 1 place · today 06:00 EDT

Google I/O 2026 Live Blog: All the Gemini and Smart Glasses Updates as They Happen

Follow our live coverage of Google’s annual developer keynote, where the company will announce updates to its Gemini suite of AI tools and more details about Android XR smart glasses. Read more

0 fresh

UK Tech News
Kirstie Pickering @ UK Tech News 1 place · today 06:00 EDT

Monzo’s revenue surged 39% to £1.7bn in FY2026, with gross profit reaching £1bn for the first time, according to new annual figures published by the digital bank. Monzo delivered strong profitable growth, while investing significantly in international expansion, product, platform, brand and marketing.  The 39% revenue growth was powered by four income streams of over ... Read more

0 fresh

Tech Wire Asia
Dashveenjit Kaur @ Tech Wire Asia 1 place · today 06:00 EDT

What data centre operators in Malayisa are actually building now

The data centre market in Malasyia is now shaping what operators build and how they build it Two major facilities announced this month show the market’s new design logic, and it goes beyond the numbers Two data centres landed in Malaysia’s pipeline within days of each other this month. Read as individual news items, they ... Read more

0 fresh

BetaKit
Madison McLauchlan @ BetaKit 1 place · today 06:00 EDT

Kritik is equipping profs for the AI “arms race” coming to classrooms

Ex-Top Hat founder’s edtech startup sells peer-grading and AI software to university professors. Read more

0 fresh

Habr
tigr-247 (Островок!, Конференции Олега Бунина (Онтико)) @ Habr · today 05:59 EDT

Почему ваши инициативы в компаниях не взлетают? Продвигаем изменения через истории

Типичная ситуация: вы находите проблему в компании. Понимаете, как её решить. Пишете документ, готовите презентацию, объясняете идею руководителю. Все соглашаются: «Да, звучит разумно». И… ничего не происходит.Документ лежит в wiki. Архитектура остаётся прежней. Процесс не меняется.С похожими ситуациями сталкиваются не только инженеры, которые пытаются продвигать изменения, но и в целом те, кто стремится расти внутри компании — брать на себя больше ответственности, влиять на решения и двигаться по карьерном Read more

0 fresh

The most popular news from the same source for the last week
Habr Habr
Habr
Galen2-3 @ Habr · 05/12/2026 06:15 EDT

«Хадза сидят 10 часов в день, и спина у них не болит. У вас — болит. Дело не в сидении»

К 2050 году, по оценкам ВОЗ, болью в пояснице будут страдать 843 миллиона человек — против 619 миллионов в 2020-м. В 90% случаев врачи не находят конкретной причины боли: ни грыжи, ни перелома, ни опухоли, ни болезни органов, иррадиирующих боль в спину [1]. Просто болит. При этом охотники-собиратели племени хадза в Танзании проводят в покое почти столько же времени, сколько средний житель Лондона или Москвы — около 10 часов в... Read more

0

Habr
ha7y @ Habr · 05/12/2026 06:15 EDT

cuda-core 1.0 — пишем CUDA-ядра на Python без C++ (ну почти)

11 мая 2026 года NVIDIA выпустила cuda-core v1.0.0 — первый стабильный релиз библиотеки, которая даёт Python-разработчикам прямой доступ к CUDA Runtime без тяжелых C++ обвязок.Мы взяли 3 видеокарты (4090, 3090, A100 80Gb) и протестировали работу библиотеки на каждой.cuda-core — это Pythonic-обёртка над CUDA Runtime. Она закрывает ту нишу, которую раньше занимали pycuda или ручные вызовы через ctypes (компиляция ядер прямо из Python, управление памятью на GPU, запуск ядер без C++... Read more

0

Habr
niktomimo @ Habr · 05/12/2026 06:30 EDT

Как я сделал desktop-версию мессенджера на vanilla Electron, не на React Native for Desktop. И не пожалел

Это четвёртая статья из серии про инженерные решения в ONEMIX — моём мессенджере на React Native. В предыдущих разбирал трёхуровневый кэш сообщений, Double Ratchet E2E и WebRTC звонки с trickle ICE. Последняя про звонки набрала больше всего просмотров, и в комментариях несколько раз спрашивали про десктоп: "а как у тебя там устроено?".Сегодня — отдельная статья про desktop-версию. Сразу скажу: я не использовал React Native for Desktop, не Tauri, не React,... Read more

0

Habr
SpeShu (ЦНИС) @ Habr · 05/12/2026 06:35 EDT

Нужно быстро оформить документ в нейросети? Вот простые промпты в SpeShu.AI

Отчёт за квартал, акт выполненных работ, служебная записка и три согласования до конца дня. Кто устал тратить по 2 часа в день на однотипные бумажки, забирайте промпты из этой статьи. С их помощью можно за 10 минут подготовить документ на 100 страниц. Читать далее Read more

0

Habr
Artur_pro_333 (Product Radar) @ Habr · 05/12/2026 06:34 EDT

Умная урна сама сортирует мусор, приложение тренирует публичные выступления – и ещё 8 российских стартапов

10 новых российских продуктов для массовых легальных выплаты физлицам через СБП и карты, поиска коллабораций и построения партнерской сети, автоматизации звонков и коммуникаций, повышения конверсии и сбора лидов на сайте, анализ Reels и многого другого. Битва за «Продукт недели» началась! Product Radar — здесь каждую неделю публикуются лучшие онлайн-сервисы и железки от русскоязычных команд. Читать далее Read more

0

Habr
Kaspersky_Lab («Лаборатория Касперского») @ Habr · 05/12/2026 06:45 EDT

Security Week 2620: эффект от ИИ для поиска уязвимостей в Firefox

На прошлой неделе разработчики браузера Mozilla Firefox опубликовали детальный отчет об использовании искусственного интеллекта для поиска уязвимостей (оригинальный пост, новость на Хабре). Публикации предшествовал краткий анонс в конце апреля: тогда стало известно, что в Mozilla получили доступ к ИИ-модели Claude Mythos компании Anthropic, которая пока недоступна публично всем желающим. В анонсе разработчики браузера не стеснялись в хвалебных эпитетах, предрекая скорый конец уязвимостям нулевого дня — когд Read more

0

Habr
Dan_uk89 @ Habr · 05/12/2026 06:51 EDT

Как DevRel и Internal Comms помогли нам стать лучшим работодателем Катара: кейс QIC digital hub

В 2024 году мы получили сертификацию Great Place to Work — это был важный первый шаг, где мы набрали необходимые 65% одобрения. Но мы не остановились на достигнутом. В 2025 году мы снова приняли участие и заняли 1-е место в рейтинге Best Workplaces in Qatar™!Это достижение — не просто удача, а результат системной работы над внутренней культурой, на которую функции DevRel и внутренних коммуникаций имели непосредственное влияние. Рассказываю, как мы... Read more

0

Habr
Maslennikovig @ Habr · 05/12/2026 06:54 EDT

1 миллион токенов в Opus 4.7 — маркетинг. Реально полезных — 300 тысяч. И сами Anthropic это подтверждают

В начале мая Кангвук Ли (CAIO Krafton) опубликовал в X разбор: двумя API-вызовами и 35 1M токенов контекста в Claude Opus 4.7 — это «доступно», а не «полезно». В system card §8.7.2 сами Anthropic пишут: на 1M MRCR упал с 78.3% (Opus 4.6) до 32.2% (Opus 4.7), и для long-context retrieval они рекомендуют держать 4.6 как fallback. Деградирует и 4.6 — просто в два раза медленнее. Параллельно Кангвук Ли двумя... Read more

0

Habr
alexey_arustamov @ Habr · 05/12/2026 06:58 EDT

Почему проверять гипотезы страшно, а не проверять — ещё страшнее

«А что если … ?» — пожалуй, самый частый вопрос на уме у риск-аналитика.  Его хлеб — строить и проверять гипотезы, например, «А что если мы добавим в модель частоту смены адреса? Станет ли точнее наш прогноз по риску дефолта у стартапов?», «А что если учитывать текучку кадров у клиента? Сможем ли мы точнее предсказывать кассовые разрывы?», «А что если мы поднимем лимит по овердрафту у клиентов с идеальной платежной... Read more

0

Habr
slvABTOP (Wildberries & Russ) @ Habr · 05/12/2026 07:00 EDT

Как работает антибот в мобильном приложении Wildberries

Привет, Хабр! Меня зовут Денис Ульянов, я уже 12 лет в IT и последние полтора года руковожу командой Antibot в Wildberries.До работы в WB я три года был на тёмной стороне и занимался продуктами по сбору данных из открытых источников. Нейтрально намекаю на парсеры :) Должен признать, этот опыт помогает мне отстреливать ботов на ресурсах WB.Сегодня поделюсь, как моя команда сделала не только антибота, но и собственный парсер для атак... Read more

0

Most popular sources

  • You see 800 news out of 800.
  • Sources 61 out of 61.
Ubergizmo 0%
AlleyWatch 0%
Ars Technica 0%
StartUp Beat 0%
VentureBeat 0%
View sources »

LIKE us on Facebook so you won't miss the most important news of the day!

19.05.2026 06:37
Last update: 06:30 EDT.
News rating updated: 13:33.

What is Times42?

Times42 brings you the most popular news from tech news portals in real-time chart.
Read about us in FAQ section.


Times42 © 2026