<div dir="ltr"><div class="gmail_quote"><div dir="ltr"><div>Thanks John, I've changed the resolver-query-timeout from default 10 to 30 seconds thought my nameserver should have enough time to query at least one other nameservers of <a href="http://production.tacc.utexas.edu" target="_blank">production.tacc.utexas.edu</a> before gets timed out. But still it stuck with the one that's not working instead of trying other nameservers. This is the tcpdump as you can see my nameserver 192.168.1.100 keeps querying 129.114.13.17 four times within the 30 seconds, shouldn't it try the one of the other nameservers ? <br><br>22:24:32.594680 IP 10.79.1.6.42064 > 192.168.1.100.53: 25767+ [1au] A?<br><a href="http://web1.production.tacc.utexas.edu" target="_blank">web1.production.tacc.utexas.<wbr>edu</a>. (60)<br>22:24:32.595029 IP 192.168.1.100.65437 > 129.114.13.17.53: 27989% [1au] A? <a href="http://web1.production.tacc.utexas.edu" target="_blank">web1.production.tacc.utexas.<wbr>edu</a>. (60)<br>22:24:37.594642 IP 10.79.1.6.42064 > 192.168.1.100.53: 25767+ [1au] A? <a href="http://web1.production.tacc.utexas.edu" target="_blank">web1.production.tacc.utexas.<wbr>edu</a>. (60)<br>22:24:41.595312 IP 192.168.1.100.19764 > 129.114.13.17.53: 8074% [1au] A? <a href="http://web1.production.tacc.utexas.edu" target="_blank">web1.production.tacc.utexas.<wbr>edu</a>. (60)<br>22:24:42.594873 IP 10.79.1.6.42064 > 192.168.1.100.53: 25767+ [1au] A? <a href="http://web1.production.tacc.utexas.edu" target="_blank">web1.production.tacc.utexas.<wbr>edu</a>. (60)<br>22:24:50.595523 IP 192.168.1.100.62364 > 129.114.13.17.53: 18009 A? <a href="http://web1.production.tacc.utexas.edu" target="_blank">web1.production.tacc.utexas.<wbr>edu</a>. (49)<br>22:24:59.595825 IP 192.168.1.100.58124 > 129.114.13.17.53: 57314 A? <a href="http://web1.production.tacc.utexas.edu" target="_blank">web1.production.tacc.utexas.<wbr>edu</a>. (49)<br>22:25:02.595236 IP 192.168.1.100.53 > 10.79.1.6.42064: 25767 ServFail 0/0/1 (60)<br><br></div>I'll contact the admin for the domain to gets the broken nameserver fixed, but seems to me there is also problem with how named handle the NS of this domain, or there is other parameter to tell named to try to loop through other nameservers if one fails. <br><div><div><br><br></div></div></div><div class="HOEnZb"><div class="h5"><div class="gmail_extra"><br><div class="gmail_quote">On Fri, Sep 9, 2016 at 7:20 PM, John Miller <span dir="ltr"><<a href="mailto:johnmill@brandeis.edu" target="_blank">johnmill@brandeis.edu</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Hi Hillary,<br>
<br>
By default, BIND will return SERVFAIL to the client if it can't<br>
complete the full iteration process within 10 seconds.  This is<br>
controllable by the "resolver-query-timeout" parameter.  As for why<br>
your recursive server doesn't just try elsewhere, it _will_, but it<br>
assumes that it's querying a valid nameserver, so the original query<br>
needs to time out first.  It takes several queries for BIND to get its<br>
round-trip time cache in order.  With six authoritative NSs, it'll<br>
take longer than if you only had three.<br>
<br>
As for 129.114.13.18 being lame - it's hard to be lame if you aren't<br>
getting responses.  Lame just means that responses from the nameserver<br>
aren't authoritative, even though it's listed in your NS records.<br>
<br>
Your best option is to fix the non-responding nameservers or remove<br>
them from your NS records if they aren't supposed to respond to<br>
queries - name resolution isn't just broken for you, it's broken for<br>
everyone who wants to find <a href="http://web1.production.tacc.utexas.edu" rel="noreferrer" target="_blank">web1.production.tacc.utexas.ed<wbr>u</a>.<br>
<br>
John<br>
<div><div><br>
On Fri, Sep 9, 2016 at 5:23 PM, Hillary Nelson <<a href="mailto:nelsonhillary8@gmail.com" target="_blank">nelsonhillary8@gmail.com</a>> wrote:<br>
> Also should mention that our BIND is 9.9.8-P4, what confuses me here is that<br>
> the listed nameserver (129.114.13.18) is lame and our nameserver (<br>
> 192.168.1.100) can't get any responses from it(see tcpdump above), why our<br>
> nameserver try other listed NS servers  instead sending 'ServFail' to the<br>
> client(10.79.1.6) ?<br>
> Any help will be greatly appreciated!<br>
><br>
> On Fri, Sep 9, 2016 at 1:07 PM, Hillary Nelson <<a href="mailto:nelsonhillary8@gmail.com" target="_blank">nelsonhillary8@gmail.com</a>><br>
> wrote:<br>
>><br>
>> We've been seeing sporadic failure of resolve this name<br>
>> <a href="http://web1.production.tacc.utexas.edu" rel="noreferrer" target="_blank">web1.production.tacc.utexas.ed<wbr>u</a> from our nameserver.<br>
>><br>
>> There are 6 NS listed for domain <a href="http://production.tacc.utexas.edu" rel="noreferrer" target="_blank">production.tacc.utexas.edu</a>, two of the<br>
>> six don't seem to work(<a href="http://dc1.production.tacc.utexas.edu" rel="noreferrer" target="_blank">dc1.production.tacc.utexa<wbr>s.edu</a> 129.114.13.17 and<br>
>> <a href="http://dc2.production.tacc.utexas.edu" rel="noreferrer" target="_blank">dc2.production.tacc.utexas.edu</a> 129.114.13.18).<br>
>><br>
>> If our nameserver hits the two and doesn't get any response, it sends<br>
>> 'ServFail' to client, shouldn't the our nameserver keeps trying the other<br>
>> four working nameservers listed for the domain ?<br>
>><br>
>> Here is the tcpdump:<br>
>><br>
>> 12:33:38.593146 IP 10.79.1.6.51980 > 192.168.1.100.53: 60950+ [1au] A?<br>
>> <a href="http://tas.tacc.utexas.edu" rel="noreferrer" target="_blank">tas.tacc.utexas.edu</a>. (48)<br>
>> 12:33:38.593573 IP 192.168.1.100.54985 > 129.114.13.18.53: 40455% [1au] A?<br>
>> <a href="http://web1.production.tacc.utexas.edu" rel="noreferrer" target="_blank">web1.production.tacc.utexas.ed<wbr>u</a>. (60)<br>
>> 12:33:43.593131 IP 10.79.1.6.51980 > 192.168.1.100.53: 60950+ [1au] A?<br>
>> <a href="http://tas.tacc.utexas.edu" rel="noreferrer" target="_blank">tas.tacc.utexas.edu</a>. (48)<br>
>> 12:33:47.593796 IP 192.168.1.100.49009 > 129.114.13.18.53: 38559% [1au] A?<br>
>> <a href="http://web1.production.tacc.utexas.edu" rel="noreferrer" target="_blank">web1.production.tacc.utexas.ed<wbr>u</a>. (60)<br>
>> 12:33:48.593234 IP 10.79.1.6.51980 > 192.168.1.100.53: 60950+ [1au] A?<br>
>> <a href="http://tas.tacc.utexas.edu" rel="noreferrer" target="_blank">tas.tacc.utexas.edu</a>. (48)<br>
>> 12:33:48.593583 IP 192.168.1.100.53 > 10.79.1.6.51980: 60950 ServFail<br>
>> 0/0/1 (48)<br>
>><br>
>><br>
>> Thanks in advance for your help!<br>
>><br>
</div></div>______________________________<wbr>_________________<br>
Please visit <a href="https://lists.isc.org/mailman/listinfo/bind-users" rel="noreferrer" target="_blank">https://lists.isc.org/mailman/<wbr>listinfo/bind-users</a> to unsubscribe from this list<br>
<br>
bind-users mailing list<br>
<a href="mailto:bind-users@lists.isc.org" target="_blank">bind-users@lists.isc.org</a><br>
<a href="https://lists.isc.org/mailman/listinfo/bind-users" rel="noreferrer" target="_blank">https://lists.isc.org/mailman/<wbr>listinfo/bind-users</a><br>
</blockquote></div><br></div>
</div></div></div><br></div>